A. python爬蟲用什麼框架
python爬蟲框架概述
爬蟲框架中比較好用的是 Scrapy 和PySpider。pyspider上手更簡單,操作更加簡便,因為它增加了 WEB 界面,寫爬蟲迅速,集成了phantomjs,可以用來抓取js渲染的頁面。Scrapy自定義程度高,比 PySpider更底層一些,適合學習研究,需要學習的相關知識多,不過自己拿來研究分布式和多線程等等是非常合適的。
PySpider
PySpider是binux做的一個爬蟲架構的開源化實現。主要的功能需求是:
抓取、更新調度多站點的特定的頁面
需要對頁面進行結構化信息提取
靈活可擴展,穩定可監控
pyspider的設計基礎是:以python腳本驅動的抓取環模型爬蟲
通過python腳本進行結構化信息的提取,follow鏈接調度抓取控制,實現最大的靈活性
通過web化的腳本編寫、調試環境。web展現調度狀態
抓取環模型成熟穩定,模塊間相互獨立,通過消息隊列連接,從單進程到多機分布式靈活拓展
pyspider的架構主要分為 scheler(調度器), fetcher(抓取器), processor(腳本執行):
各個組件間使用消息隊列連接,除了scheler是單點的,fetcher 和 processor 都是可以多實例分布式部署的。 scheler 負責整體的調度控制
任務由 scheler 發起調度,fetcher 抓取網頁內容, processor 執行預先編寫的python腳本,輸出結果或產生新的提鏈任務(發往 scheler),形成閉環。
每個腳本可以靈活使用各種python庫對頁面進行解析,使用框架API控制下一步抓取動作,通過設置回調控制解析動作。
Scrapy
Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。 可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。
其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的, 也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試
Scrapy主要包括了以下組件:
引擎(Scrapy): 用來處理整個系統的數據流處理, 觸發事務(框架核心)
調度器(Scheler): 用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL(抓取網頁的網址或者說是鏈接)的優先隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重復的網址
下載器(Downloader): 用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的非同步模型上的)
爬蟲(Spiders): 爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面
項目管道(Pipeline): 負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析後,將被發送到項目管道,並經過幾個特定的次序處理數據。
下載器中間件(Downloader Middlewares): 位於Scrapy引擎和下載器之間的框架,主要是處理Scrapy引擎與下載器之間的請求及響應。
爬蟲中間件(Spider Middlewares): 介於Scrapy引擎和爬蟲之間的框架,主要工作是處理蜘蛛的響應輸入和請求輸出。
調度中間件(Scheler Middewares): 介於Scrapy引擎和調度之間的中間件,從Scrapy引擎發送到調度的請求和響應。
Scrapy運行流程大概如下:
首先,引擎從調度器中取出一個鏈接(URL)用於接下來的抓取
引擎把URL封裝成一個請求(Request)傳給下載器,下載器把資源下載下來,並封裝成應答包(Response)
然後,爬蟲解析Response
若是解析出實體(Item),則交給實體管道進行進一步的處理。
若是解析出的是鏈接(URL),則把URL交給Scheler等待抓取
B. python都有哪些框架
前兩天有小夥伴給我留言說:什麼時候能出個Python框架的干貨總結(本文列舉只是一部分,並不包含所有Python框架),於是乎今天這篇文章孕育而生。(突然感覺自己很nice)
推薦一:Django(推薦學習:Python視頻教程)
Django應該是最出名的Python框架,GAE甚至Erlang都有框架受它影響。Django是走大而全的方向,它最出名的是其全自動化的管理後台:只需要使用起ORM,做簡單的對象定義,它就能自動生成資料庫結構、以及全功能的管理後台。
優點:
開源框架,有完美的文檔支持
解決方案眾多,內部功能支持較多
優雅的URL,完整的路由系統
自助式的後台管理
缺點:
系統緊耦合,想用喜歡的第三方庫來代替是非常難的,即使打了一些補丁用上了也會覺得非常別扭。
Django自帶的ORM遠不如SQLAlchemy強大。
Template功能比較弱,不能插入Python代碼,要寫復雜一點的邏輯需要另外用Python實現 Tag或Filter。
推薦二:Flask
Flask是一個用Python編寫的輕量級Web應用框架。基於Werkzeug WSGI工具箱和Jinja2模板引擎。Flask也被稱為「microframework」,因為它使用簡單的核心,用extension增加其他功能。Flask沒有默認使用的數 據庫、窗體驗證工具。
優點:
Flask比Django更靈活,用Flask來構建應用之前,選擇組件的時候會給開發者帶來更多的靈活性 ,可能有的應用場景不適合使用一個標準的ORM(Object-Relational Mapping對象關聯映射),或者需要與不同的工作流和模板系統交互。
缺點:
Flask只是一個內核,默認依賴於兩個外部庫: Jinja2 模板引擎和 Werkzeug WSGI 工具集,其他很多功能都是以擴展的形式進行嵌入使用。
推薦三:Scrapy
Scrapy是Python開發的一個快速、高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試。
優點:
Scrapy是一個功能非常強大的爬蟲框架,它不僅能便捷地構建request,還有強大的selector能夠方便地解析response,然而它最受歡迎的還是它的性能,既抓取和解析的速度,它的downloader是多線程的,request是非同步調度和處理的。這兩點使它的爬取速度非常之快。
另外還有內置的logging,exception,shell等模塊,為爬取工作帶來了很多便利。
缺點:
scrapy是封裝起來的框架,他包含了下載器,解析器,日誌及異常處理,基於多線程, twisted的方式處理,對於固定單個網站的爬取開發,有優勢,但是對於多網站爬取100個網站,並發及分布式處理方面,不夠靈活,不便調整與括展。
推薦四:Tornado
Tornado是一種 Web 伺服器軟體的開源版本。Tornado 和現在的主流 Web 伺服器框架(包括大多數 Python 的框架)有著明顯的區別:它是非阻塞式伺服器,而且速度相當快。
優點:
Tornado擅長為需要嚴密控制非同步網路細節的應用程序提供基礎架構。例如,Tornado不僅提供內置的非同步HTTP伺服器,還提供非同步HTTP客戶端。因此,Tornado非常適合構建應用程序,例如Web scraper或bot,它們並行查詢其他站點並對返回的數據進行操作。
缺點:
模板和資料庫部分有很多第三方的模塊可供選擇,這樣不利於封裝為一個功能模塊。
推薦五:Web2py
web2py是一個為Python語言提供的全功能Web應用框架,旨在敏捷快速的開發Web應用,具有快速、安全以及可移植的資料庫驅動的應用,兼容 Google App Engine。
優點:
Web2py最大的吸引力在於其內置的開發環境。當設置Web2py實例時,將獲得一個Web界面,實際上是一個在線Python應用程序編輯器,可以在其中配置應用程序的組件。這通常意味著創建模型,視圖和控制器,每個都通過Python模塊或HTML模板進行描述。
缺點:
Web2py的一個重要限制是它僅與Python 2.x兼容。首先這意味著Web2py無法使用Python 3的非同步語法。如果你依賴於Python3獨有的外部庫,那麼你就不走運了。但是,正在開展使Web2py Python3兼容的工作,並且在撰寫本文時它已接近完成。
推薦六:Weppy
Weppy感覺就像Flask的簡約風格和Django的完整性之間的中間標記。雖然開發Weppy應用程序具有Flash的直接性,但Weppy具有Django中的許多功能,如數據層和身份驗證。因此,Weppy適用於從極其簡單到適度復雜的應用程序。
優點:
Weppy的文檔與框架本身具有相同的風格。它干凈,可讀,並且被人類消費。除了通常的「hello world」應用程序示例之外,它還包含一個很好的演練教程,可以讓你創建一個微博系統作為初學者項目。
缺點:
雖然Weppy有一個擴展機制,但官方批準的附加組件列表很小,遠小於Flask的擴展目錄。
推薦七:Bottle
Bottle可以被認為是一種迷你燒瓶,因為它比其他「微框架」更加緊湊和簡潔。由於其佔地面積最小,Bottle非常適合包含在其他項目中或快速交付REST API等小型項目。
優點:
Bottle不需要像其他框架那樣多的文檔,但文檔絕不是吝嗇。所有關鍵的東西都適合單個(盡管很長)的網頁。除此之外,還可以找到每個API的完整文檔,如何在各種基礎架構上進行部署的示例,內置模板語言的解釋以及一系列常見配方。
缺點:
Bottle極簡主義的一個後果是有些功能根本就不存在。不支持表單驗證,包括CSRF保護等功能。如果要構建支持高度用戶交互的Web應用程序,則需要自己添加它們。
更多Python相關技術文章,請訪問Python教程欄目進行學習!
C. Python幾種主流框架比較
從GitHub中整理出的15個最受歡迎的Python開源框架。這些框架包括事件I/O,OLAP,Web開發,高性能網路通信,測試,爬蟲等。x0dx0ax0dx0aDjango: Python Web應用開發框架x0dx0a Django 應該是最出名的Python框架,GAE甚至Erlang都有框架受它影響。Django是走大而全的方向,它最出名的是其全自動化的管理後台:只需要使用起ORM,做簡單的對象定義,它就能自動生成資料庫結構、以及全功能的管理後台。x0dx0ax0dx0aDiesel:基於Greenlet的事件I/O框架x0dx0a Diesel提供一個整潔的API來編寫網路客戶端和伺服器。支持TCP和UDP。x0dx0ax0dx0aFlask:一個用Python編寫的輕量級Web應用框架x0dx0a Flask是一個使用Python編寫的輕量級Web應用框架。基於Werkzeug WSGI工具箱和Jinja2 x0dx0a模板引擎。Flask也被稱為「microframework」,因為它使用簡單的核心,用extension增加其他功能。Flask沒有默認使用的數x0dx0a據庫、窗體驗證工具。x0dx0ax0dx0aCubes:輕量級Python OLAP框架x0dx0a Cubes是一個輕量級Python框架,包含OLAP、多維數據分析和瀏覽聚合數據(aggregated data)等工具。x0dx0ax0dx0aKartograph.py:創造矢量地圖的輕量級Python框架x0dx0a Kartograph是一個Python庫,用來為ESRI生成SVG地圖。Kartograph.py目前仍處於beta階段,你可以在virtualenv環境下來測試。x0dx0ax0dx0aPulsar:Python的事件驅動並發框架x0dx0a Pulsar是一個事件驅動的並發框架,有了pulsar,你可以寫出在不同進程或線程中運行一個或多個活動的非同步伺服器。x0dx0ax0dx0aWeb2py:全棧式Web框架x0dx0a Web2py是一個為Python語言提供的全功能Web應用框架,旨在敏捷快速的開發Web應用,具有快速、安全以及可移植的資料庫驅動的應用,兼容Google App Engine。x0dx0ax0dx0aFalcon:構建雲API和網路應用後端的高性能Python框架x0dx0a Falcon是一個構建雲API的高性能Python框架,它鼓勵使用REST架構風格,盡可能以最少的力氣做最多的事情。x0dx0ax0dx0aDpark:Python版的Sparkx0dx0a DPark是Spark的Python克隆,是一個Python實現的分布式計算框架,可以非常方便地實現大規模數據處理和迭代計算。DPark由豆瓣實現,目前豆瓣內部的絕大多數數據分析都使用DPark完成,正日趨完善。x0dx0ax0dx0aBuildbot:基於Python的持續集成測試框架x0dx0a Buildbot是一個開源框架,可以自動化軟體構建、測試和發布等過程。每當代碼有改變,伺服器要求不同平台上的客戶端立即進行代碼構建和測試,收集並報告不同平台的構建和測試結果。x0dx0ax0dx0aZerorpc:基於ZeroMQ的高性能分布式RPC框架x0dx0a Zerorpc是一個基於ZeroMQ和MessagePack開發的遠程過程調用協議(RPC)實現。和 Zerorpc 一起使用的 Service API 被稱為 zeroservice。Zerorpc 可以通過編程或命令行方式調用。x0dx0ax0dx0aBottle: 微型Python Web框架x0dx0a Bottle是一個簡單高效的遵循WSGI的微型python Web框架。說微型,是因為它只有一個文件,除Python標准庫外,它不依賴於任何第三方模塊。x0dx0ax0dx0aTornado:非同步非阻塞IO的Python Web框架x0dx0a Tornado的全稱是Torado Web Server,從名字上看就可知道它可以用作Web伺服器,但同時它也是一個Python Web的開發框架。最初是在FriendFeed公司的網站上使用,FaceBook收購了之後便開源了出來。x0dx0ax0dx0awebpy: 輕量級的Python Web框架x0dx0a webpy的設計理念力求精簡(Keep it simple and powerful),源碼很簡短,只提供一個框架所必須的東西,不依賴大量的第三方模塊,它沒有URL路由、沒有模板也沒有資料庫的訪問。x0dx0ax0dx0aScrapy:Python的爬蟲框架x0dx0a Scrapy是一個使用Python編寫的,輕量級的,簡單輕巧,並且使用起來非常的方便。