导航:首页 > 编程语言 > python架构图分析

python架构图分析

发布时间:2025-07-22 19:55:27

A. python爬虫用什么框架

python爬虫框架概述
爬虫框架中比较好用的是 Scrapy 和PySpider。pyspider上手更简单,操作更加简便,因为它增加了 WEB 界面,写爬虫迅速,集成了phantomjs,可以用来抓取js渲染的页面。Scrapy自定义程度高,比 PySpider更底层一些,适合学习研究,需要学习的相关知识多,不过自己拿来研究分布式和多线程等等是非常合适的。
PySpider
PySpider是binux做的一个爬虫架构的开源化实现。主要的功能需求是:
抓取、更新调度多站点的特定的页面
需要对页面进行结构化信息提取
灵活可扩展,稳定可监控
pyspider的设计基础是:以python脚本驱动的抓取环模型爬虫
通过python脚本进行结构化信息的提取,follow链接调度抓取控制,实现最大的灵活性
通过web化的脚本编写、调试环境。web展现调度状态
抓取环模型成熟稳定,模块间相互独立,通过消息队列连接,从单进程到多机分布式灵活拓展
pyspider的架构主要分为 scheler(调度器), fetcher(抓取器), processor(脚本执行):
各个组件间使用消息队列连接,除了scheler是单点的,fetcher 和 processor 都是可以多实例分布式部署的。 scheler 负责整体的调度控制
任务由 scheler 发起调度,fetcher 抓取网页内容, processor 执行预先编写的python脚本,输出结果或产生新的提链任务(发往 scheler),形成闭环。
每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回调控制解析动作。
Scrapy
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试
Scrapy主要包括了以下组件:
引擎(Scrapy): 用来处理整个系统的数据流处理, 触发事务(框架核心)
调度器(Scheler): 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想象成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
下载器(Downloader): 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
爬虫(Spiders): 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
项目管道(Pipeline): 负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。
下载器中间件(Downloader Middlewares): 位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
爬虫中间件(Spider Middlewares): 介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。
调度中间件(Scheler Middewares): 介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。
Scrapy运行流程大概如下:
首先,引擎从调度器中取出一个链接(URL)用于接下来的抓取
引擎把URL封装成一个请求(Request)传给下载器,下载器把资源下载下来,并封装成应答包(Response)
然后,爬虫解析Response
若是解析出实体(Item),则交给实体管道进行进一步的处理。
若是解析出的是链接(URL),则把URL交给Scheler等待抓取

B. python都有哪些框架


前两天有小伙伴给我留言说:什么时候能出个Python框架的干货总结(本文列举只是一部分,并不包含所有Python框架),于是乎今天这篇文章孕育而生。(突然感觉自己很nice)

推荐一:Django(推荐学习:Python视频教程)
Django应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响。Django是走大而全的方向,它最出名的是其全自动化的管理后台:只需要使用起ORM,做简单的对象定义,它就能自动生成数据库结构、以及全功能的管理后台。
优点:
开源框架,有完美的文档支持
解决方案众多,内部功能支持较多
优雅的URL,完整的路由系统
自助式的后台管理
缺点:
系统紧耦合,想用喜欢的第三方库来代替是非常难的,即使打了一些补丁用上了也会觉得非常别扭。
Django自带的ORM远不如SQLAlchemy强大。
Template功能比较弱,不能插入Python代码,要写复杂一点的逻辑需要另外用Python实现 Tag或Filter。
推荐二:Flask
Flask是一个用Python编写的轻量级Web应用框架。基于Werkzeug WSGI工具箱和Jinja2模板引擎。Flask也被称为“microframework”,因为它使用简单的核心,用extension增加其他功能。Flask没有默认使用的数 据库、窗体验证工具。
优点:
Flask比Django更灵活,用Flask来构建应用之前,选择组件的时候会给开发者带来更多的灵活性 ,可能有的应用场景不适合使用一个标准的ORM(Object-Relational Mapping对象关联映射),或者需要与不同的工作流和模板系统交互。
缺点:
Flask只是一个内核,默认依赖于两个外部库: Jinja2 模板引擎和 Werkzeug WSGI 工具集,其他很多功能都是以扩展的形式进行嵌入使用。
推荐三:Scrapy
Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
优点:
Scrapy是一个功能非常强大的爬虫框架,它不仅能便捷地构建request,还有强大的selector能够方便地解析response,然而它最受欢迎的还是它的性能,既抓取和解析的速度,它的downloader是多线程的,request是异步调度和处理的。这两点使它的爬取速度非常之快。
另外还有内置的logging,exception,shell等模块,为爬取工作带来了很多便利。
缺点:
scrapy是封装起来的框架,他包含了下载器,解析器,日志及异常处理,基于多线程, twisted的方式处理,对于固定单个网站的爬取开发,有优势,但是对于多网站爬取100个网站,并发及分布式处理方面,不够灵活,不便调整与括展。
推荐四:Tornado
Tornado是一种 Web 服务器软件的开源版本。Tornado 和现在的主流 Web 服务器框架(包括大多数 Python 的框架)有着明显的区别:它是非阻塞式服务器,而且速度相当快。
优点:
Tornado擅长为需要严密控制异步网络细节的应用程序提供基础架构。例如,Tornado不仅提供内置的异步HTTP服务器,还提供异步HTTP客户端。因此,Tornado非常适合构建应用程序,例如Web scraper或bot,它们并行查询其他站点并对返回的数据进行操作。
缺点:
模板和数据库部分有很多第三方的模块可供选择,这样不利于封装为一个功能模块。
推荐五:Web2py
web2py是一个为Python语言提供的全功能Web应用框架,旨在敏捷快速的开发Web应用,具有快速、安全以及可移植的数据库驱动的应用,兼容 Google App Engine。
优点:
Web2py最大的吸引力在于其内置的开发环境。当设置Web2py实例时,将获得一个Web界面,实际上是一个在线Python应用程序编辑器,可以在其中配置应用程序的组件。这通常意味着创建模型,视图和控制器,每个都通过Python模块或HTML模板进行描述。
缺点:
Web2py的一个重要限制是它仅与Python 2.x兼容。首先这意味着Web2py无法使用Python 3的异步语法。如果你依赖于Python3独有的外部库,那么你就不走运了。但是,正在开展使Web2py Python3兼容的工作,并且在撰写本文时它已接近完成。
推荐六:Weppy
Weppy感觉就像Flask的简约风格和Django的完整性之间的中间标记。虽然开发Weppy应用程序具有Flash的直接性,但Weppy具有Django中的许多功能,如数据层和身份验证。因此,Weppy适用于从极其简单到适度复杂的应用程序。
优点:
Weppy的文档与框架本身具有相同的风格。它干净,可读,并且被人类消费。除了通常的“hello world”应用程序示例之外,它还包含一个很好的演练教程,可以让你创建一个微博系统作为初学者项目。
缺点:
虽然Weppy有一个扩展机制,但官方批准的附加组件列表很小,远小于Flask的扩展目录。
推荐七:Bottle
Bottle可以被认为是一种迷你烧瓶,因为它比其他“微框架”更加紧凑和简洁。由于其占地面积最小,Bottle非常适合包含在其他项目中或快速交付REST API等小型项目。
优点:
Bottle不需要像其他框架那样多的文档,但文档绝不是吝啬。所有关键的东西都适合单个(尽管很长)的网页。除此之外,还可以找到每个API的完整文档,如何在各种基础架构上进行部署的示例,内置模板语言的解释以及一系列常见配方。
缺点:
Bottle极简主义的一个后果是有些功能根本就不存在。不支持表单验证,包括CSRF保护等功能。如果要构建支持高度用户交互的Web应用程序,则需要自己添加它们。
更多Python相关技术文章,请访问Python教程栏目进行学习!

C. Python几种主流框架比较

从GitHub中整理出的15个最受欢迎的Python开源框架。这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等。x0dx0ax0dx0aDjango: Python Web应用开发框架x0dx0a Django 应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响。Django是走大而全的方向,它最出名的是其全自动化的管理后台:只需要使用起ORM,做简单的对象定义,它就能自动生成数据库结构、以及全功能的管理后台。x0dx0ax0dx0aDiesel:基于Greenlet的事件I/O框架x0dx0a Diesel提供一个整洁的API来编写网络客户端和服务器。支持TCP和UDP。x0dx0ax0dx0aFlask:一个用Python编写的轻量级Web应用框架x0dx0a Flask是一个使用Python编写的轻量级Web应用框架。基于Werkzeug WSGI工具箱和Jinja2 x0dx0a模板引擎。Flask也被称为“microframework”,因为它使用简单的核心,用extension增加其他功能。Flask没有默认使用的数x0dx0a据库、窗体验证工具。x0dx0ax0dx0aCubes:轻量级Python OLAP框架x0dx0a Cubes是一个轻量级Python框架,包含OLAP、多维数据分析和浏览聚合数据(aggregated data)等工具。x0dx0ax0dx0aKartograph.py:创造矢量地图的轻量级Python框架x0dx0a Kartograph是一个Python库,用来为ESRI生成SVG地图。Kartograph.py目前仍处于beta阶段,你可以在virtualenv环境下来测试。x0dx0ax0dx0aPulsar:Python的事件驱动并发框架x0dx0a Pulsar是一个事件驱动的并发框架,有了pulsar,你可以写出在不同进程或线程中运行一个或多个活动的异步服务器。x0dx0ax0dx0aWeb2py:全栈式Web框架x0dx0a Web2py是一个为Python语言提供的全功能Web应用框架,旨在敏捷快速的开发Web应用,具有快速、安全以及可移植的数据库驱动的应用,兼容Google App Engine。x0dx0ax0dx0aFalcon:构建云API和网络应用后端的高性能Python框架x0dx0a Falcon是一个构建云API的高性能Python框架,它鼓励使用REST架构风格,尽可能以最少的力气做最多的事情。x0dx0ax0dx0aDpark:Python版的Sparkx0dx0a DPark是Spark的Python克隆,是一个Python实现的分布式计算框架,可以非常方便地实现大规模数据处理和迭代计算。DPark由豆瓣实现,目前豆瓣内部的绝大多数数据分析都使用DPark完成,正日趋完善。x0dx0ax0dx0aBuildbot:基于Python的持续集成测试框架x0dx0a Buildbot是一个开源框架,可以自动化软件构建、测试和发布等过程。每当代码有改变,服务器要求不同平台上的客户端立即进行代码构建和测试,收集并报告不同平台的构建和测试结果。x0dx0ax0dx0aZerorpc:基于ZeroMQ的高性能分布式RPC框架x0dx0a Zerorpc是一个基于ZeroMQ和MessagePack开发的远程过程调用协议(RPC)实现。和 Zerorpc 一起使用的 Service API 被称为 zeroservice。Zerorpc 可以通过编程命令行方式调用。x0dx0ax0dx0aBottle: 微型Python Web框架x0dx0a Bottle是一个简单高效的遵循WSGI的微型python Web框架。说微型,是因为它只有一个文件,除Python标准库外,它不依赖于任何第三方模块。x0dx0ax0dx0aTornado:异步非阻塞IO的Python Web框架x0dx0a Tornado的全称是Torado Web Server,从名字上看就可知道它可以用作Web服务器,但同时它也是一个Python Web的开发框架。最初是在FriendFeed公司的网站上使用,FaceBook收购了之后便开源了出来。x0dx0ax0dx0awebpy: 轻量级的Python Web框架x0dx0a webpy的设计理念力求精简(Keep it simple and powerful),源码很简短,只提供一个框架所必须的东西,不依赖大量的第三方模块,它没有URL路由、没有模板也没有数据库的访问。x0dx0ax0dx0aScrapy:Python的爬虫框架x0dx0a Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。

阅读全文

与python架构图分析相关的资料

热点内容
申威平台编译开源软件 浏览:44
java监控工具 浏览:300
压缩包解压图 浏览:458
javaascii转字符 浏览:175
单片机寄存器a和b 浏览:681
tls编程 浏览:587
ansi文件编译成txt文件 浏览:314
linux命令行解释 浏览:685
红色格子衬衫怎么穿不像程序员 浏览:884
加密软件需求分析 浏览:573
垃圾服务器怎么判定 浏览:347
战意亚服服务器名字什么意思 浏览:443
底层算法是写在芯片上吗 浏览:931
word里怎么添加pdf文件在哪里 浏览:533
如何解开压缩文件 浏览:415
在手机上java编程软件 浏览:959
描述单片机日常生活 浏览:140
报名体检表能算法定退休时间吗 浏览:346
云服务器哪个效果好 浏览:859
安卓光遇圣岛季的毕业斗篷怎么弄 浏览:536