twistedpython爬蟲_python爬蟲用什麼框架

『壹』 python 編程網頁爬蟲工具集介紹

【導語】對於一個軟體工程開發項目來說，一定是從獲取數據開始的。不管文本怎麼處理，機器學習和數據發掘，都需求數據，除了通過一些途徑購買或許下載的專業數據外，常常需求咱們自己著手爬數據，爬蟲就顯得格外重要，那麼Python編程網頁爬蟲東西集有哪些呢?下面就來給大家一一介紹一下。

1、 Beautiful Soup

客觀的說，Beautifu Soup不完滿是一套爬蟲東西，需求協作urllib運用，而是一套HTML / XML數據分析，清洗和獲取東西。

2、Scrapy

Scrapy相Scrapy, a fast high-level screen scraping and web crawling framework
for
Python.信不少同學都有耳聞，課程圖譜中的許多課程都是依託Scrapy抓去的，這方面的介紹文章有許多，引薦大牛pluskid早年的一篇文章：《Scrapy
輕松定製網路爬蟲》，歷久彌新。

3、 Python-Goose

Goose最早是用Java寫得，後來用Scala重寫，是一個Scala項目。Python-Goose用Python重寫，依靠了Beautiful
Soup。給定一個文章的URL, 獲取文章的標題和內容很便利，用起來非常nice。

以上就是Python編程網頁爬蟲工具集介紹，希望對於進行Python編程的大家能有所幫助，當然Python編程學習不止需要進行工具學習，還有很多的編程知識，也需要好好學起來哦，加油!

『貳』 python爬蟲用什麼庫

以下是爬蟲經常用到的庫

請求庫

1. requests

requests庫應該是現在做爬蟲最火最實用的庫了，非常的人性化。有關於它的使用我之前也寫過一篇文章一起看看Python之Requests庫，大家可以去看一下。

2.urllib3

urllib3是一個非常強大的http請求庫，提供一系列的操作URL的功能。

3.selenium

自動化測試工具。一個調用瀏覽器的 driver，通過這個庫你可以直接調用瀏覽器完成某些操作，比如輸入驗證碼。

對於這個庫並非只是Python才能用，像JAVA、Python、C#等都能夠使用selenium這個庫

4.aiohttp

基於 asyncio 實現的 HTTP 框架。非同步操作藉助於 async/await 關鍵字，使用非同步庫進行數據抓取，可以大大提高效率。

這個屬於進階爬蟲時候必須掌握的非同步庫。有關於aiohttp的詳細操作，可以去官方文檔：https://aiohttp.readthedocs.io/en/stable/

Python學習網- 專業的python自學、交流公益平台！

解析庫

1、beautifulsoup

html 和 XML 的解析,從網頁中提取信息，同時擁有強大的API和多樣解析方式。一個我經常使用的解析庫，對於html的解析是非常的好用。對於寫爬蟲的人來說這也是必須掌握的庫。

2、lxml

支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。

3、pyquery

jQuery 的 Python 實現，能夠以 jQuery 的語法來操作解析 HTML 文檔，易用性和解析速度都很好。

數據存儲

1、pymysql

官方文檔：https://pymysql.readthedocs.io/en/latest/

一個純 Python 實現的 MySQL 客戶端操作庫。非常的實用、非常的簡單。

2、pymongo

官方文檔：https://api.mongodb.com/python/

顧名思義，一個用於直接連接 mongodb 資料庫進行查詢操作的庫。

3、redismp

redis-mp是將redis和json互轉的工具；redis-mp是基於ruby開發，需要ruby環境，而且新版本的redis-mp要求2.2.2以上的ruby版本，centos中yum只能安裝2.0版本的ruby。需要先安裝ruby的管理工具rvm安裝高版本的ruby。

『叄』 Python什麼爬蟲庫好用

aiohttp：是純粹的非同步框架，同時支持HTTP客戶端和服務端，可以快速實現非同步爬蟲，並且其中的aiohttp解決了requests的一個痛點，它可以輕松實現自動轉碼，對於中文編碼就很方便了。
asks：Python自帶一個非同步的標准庫asyncio，但這個庫很多人覺得並不好用，而裡面的ask則是封裝了curio和trio的一個http請求庫。用起來和
Requests 90%相似，新手也可以很快上手。
vibora：號稱是現在最快的非同步請求框架，跑分是最快的。寫爬蟲、寫伺服器響應都可以用。但這個項目一直在重構，現在頁面上還掛著項目正在重構的警告，使用需謹慎。
Pyppeteer：是非同步無頭瀏覽器，從跑分來看比Selenium+webdriver快，使用方式是最接近於瀏覽器的自身的設計介面的。它本身是來自
Google維護的puppeteer，但是按照Python社區的梗，作者進行了封裝並且把名字中的u改成了y。
下面為大家介紹一下框架：
Grab：是很流行的漸進式框架，Grab可以說是爬蟲界的漸進式框架，又十分簡單的用法，封裝的也很好，是基於生成器非同步的設計。
botflow：概念很新穎，定位成了處理數據工作流的框架，可以用來爬蟲、機器學習、量化交易等等。
ruia：比較接近Scrapy的使用方式，非同步設計。

『肆』如何使用python爬蟲jfinal

一、gzip/deflate支持
現在的網頁普遍支持gzip壓縮，這往往可以解決大量傳輸時間，以VeryCD的主頁為例，未壓縮版本247K，壓縮了以後45K，為原來的1/5。這就意味著抓取速度會快5倍。
然而python的urllib/urllib2默認都不支持壓縮，要返回壓縮格式，必須在request的header裡面寫明』accept-
encoding』，然後讀取response後更要檢查header查看是否有』content-encoding』一項來判斷是否需要解碼，很繁瑣瑣
碎。如何讓urllib2自動支持gzip, defalte呢？
其實可以繼承BaseHanlder類，然後build_opener的方式來處理：
import urllib2
from gzip import GzipFile
from StringIO import StringIO
class ContentEncodingProcessor(urllib2.BaseHandler):
"""A handler to add gzip capabilities to urllib2 requests """

# add headers to requests
def http_request(self, req):
req.add_header("Accept-Encoding", "gzip, deflate")
return req

# decode
def http_response(self, req, resp):
old_resp = resp
# gzip
if resp.headers.get("content-encoding") == "gzip":
gz = GzipFile(
fileobj=StringIO(resp.read()),
mode="r"
)
resp = urllib2.addinfourl(gz, old_resp.headers, old_resp.url, old_resp.code)
resp.msg = old_resp.msg
# deflate
if resp.headers.get("content-encoding") == "deflate":
gz = StringIO( deflate(resp.read()) )
resp = urllib2.addinfourl(gz, old_resp.headers, old_resp.url, old_resp.code) # 'class to add info() and
resp.msg = old_resp.msg
return resp

# deflate support
import zlib
def deflate(data): # zlib only provides the zlib compress format,not the deflate format;
try: # so on top of all there's this workaround:
return zlib.decompress(data, -zlib.MAX_WBITS)
except zlib.error:
return zlib.decompress(data)
然後就簡單了，
encoding_support = ContentEncodingProcessor
opener = urllib2.build_opener( encoding_support, urllib2.HTTPHandler )

#直接用opener打開網頁，如果伺服器支持gzip/defalte則自動解壓縮
content = opener.open(url).read()
二、更方便地多線程
總結一文的確提及了一個簡單的多線程模板，但是那個東東真正應用到程序裡面去只會讓程序變得支離破碎，不堪入目。在怎麼更方便地進行多線程方面我也動了一番腦筋。先想想怎麼進行多線程調用最方便呢？
1、用twisted進行非同步I/O抓取
事實上更高效的抓取並非一定要用多線程，也可以使用非同步I/O法：直接用twisted的getPage方法，然後分別加上非同步I/O結束時的callback和errback方法即可。例如可以這么干：
from twisted.web.client import getPage
from twisted.internet import reactor

links = [ 'http://www.verycd.com/topics/%d/'%i for i in range(5420,5430) ]

def parse_page(data,url):
print len(data),url

def fetch_error(error,url):
print error.getErrorMessage(),url

# 批量抓取鏈接
for url in links:
getPage(url,timeout=5)
.addCallback(parse_page,url) #成功則調用parse_page方法
.addErrback(fetch_error,url) #失敗則調用fetch_error方法

reactor.callLater(5, reactor.stop) #5秒鍾後通知reactor結束程序
reactor.run()
twisted人如其名，寫的代碼實在是太扭曲了，非正常人所能接受，雖然這個簡單的例子看上去還好；每次寫twisted的程序整個人都扭曲了，累得不得了，文檔等於沒有，必須得看源碼才知道怎麼整，唉不提了。
如果要支持gzip/deflate，甚至做一些登陸的擴展，就得為twisted寫個新的HTTPClientFactory類諸如此類，我這眉頭真是大皺，遂放棄。有毅力者請自行嘗試。
這篇講怎麼用twisted來進行批量網址處理的文章不錯，由淺入深，深入淺出，可以一看。
2、設計一個簡單的多線程抓取類
還是覺得在urllib之類python「本土」的東東裡面折騰起來更舒服。試想一下，如果有個Fetcher類，你可以這么調用
f = Fetcher(threads=10) #設定下載線程數為10
for url in urls:
f.push(url) #把所有url推入下載隊列
while f.taskleft(): #若還有未完成下載的線程
content = f.pop() #從下載完成隊列中取出結果
do_with(content) # 處理content內容
這么個多線程調用簡單明了，那麼就這么設計吧，首先要有兩個隊列，用Queue搞定，多線程的基本架構也和「技巧總結」一文類似，push方法和
pop方法都比較好處理，都是直接用Queue的方法，taskleft則是如果有「正在運行的任務」或者」隊列中的任務」則為是，也好辦，於是代碼如
下：
import urllib2
from threading import Thread,Lock
from Queue import Queue
import time

class Fetcher:
def __init__(self,threads):
self.opener = urllib2.build_opener(urllib2.HTTPHandler)
self.lock = Lock() #線程鎖
self.q_req = Queue() #任務隊列
self.q_ans = Queue() #完成隊列
self.threads = threads
for i in range(threads):
t = Thread(target=self.threadget)
t.setDaemon(True)
t.start()
self.running = 0

def __del__(self): #解構時需等待兩個隊列完成
time.sleep(0.5)
self.q_req.join()
self.q_ans.join()

def taskleft(self):
return self.q_req.qsize()+self.q_ans.qsize()+self.running

def push(self,req):
self.q_req.put(req)

def pop(self):
return self.q_ans.get()

def threadget(self):
while True:
req = self.q_req.get()
with self.lock: #要保證該操作的原子性，進入critical area
self.running += 1
try:
ans = self.opener.open(req).read()
except Exception, what:
ans = ''
print what
self.q_ans.put((req,ans))
with self.lock:
self.running -= 1
self.q_req.task_done()
time.sleep(0.1) # don't spam

if __name__ == "__main__":
links = [ 'http://www.verycd.com/topics/%d/'%i for i in range(5420,5430) ]
f = Fetcher(threads=10)
for url in links:
f.push(url)
while f.taskleft():
url,content = f.pop()
print url,len(content)

『伍』 python爬蟲用什麼框架

python爬蟲框架概述
爬蟲框架中比較好用的是 Scrapy 和PySpider。pyspider上手更簡單，操作更加簡便，因為它增加了 WEB 界面，寫爬蟲迅速，集成了phantomjs，可以用來抓取js渲染的頁面。Scrapy自定義程度高，比 PySpider更底層一些，適合學習研究，需要學習的相關知識多，不過自己拿來研究分布式和多線程等等是非常合適的。
PySpider
PySpider是binux做的一個爬蟲架構的開源化實現。主要的功能需求是：
抓取、更新調度多站點的特定的頁面
需要對頁面進行結構化信息提取
靈活可擴展，穩定可監控
pyspider的設計基礎是：以python腳本驅動的抓取環模型爬蟲
通過python腳本進行結構化信息的提取，follow鏈接調度抓取控制，實現最大的靈活性
通過web化的腳本編寫、調試環境。web展現調度狀態
抓取環模型成熟穩定，模塊間相互獨立，通過消息隊列連接，從單進程到多機分布式靈活拓展
pyspider的架構主要分為 scheler（調度器）, fetcher（抓取器）, processor（腳本執行）：
各個組件間使用消息隊列連接，除了scheler是單點的，fetcher 和 processor 都是可以多實例分布式部署的。 scheler 負責整體的調度控制
任務由 scheler 發起調度，fetcher 抓取網頁內容， processor 執行預先編寫的python腳本，輸出結果或產生新的提鏈任務（發往 scheler），形成閉環。
每個腳本可以靈活使用各種python庫對頁面進行解析，使用框架API控制下一步抓取動作，通過設置回調控制解析動作。
Scrapy
Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。
其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化測試
Scrapy主要包括了以下組件：
引擎(Scrapy): 用來處理整個系統的數據流處理, 觸發事務(框架核心)
調度器(Scheler): 用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 可以想像成一個URL（抓取網頁的網址或者說是鏈接）的優先隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重復的網址
下載器(Downloader): 用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的非同步模型上的)
爬蟲(Spiders): 爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面
項目管道(Pipeline): 負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析後，將被發送到項目管道，並經過幾個特定的次序處理數據。
下載器中間件(Downloader Middlewares): 位於Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請求及響應。
爬蟲中間件(Spider Middlewares): 介於Scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應輸入和請求輸出。
調度中間件(Scheler Middewares): 介於Scrapy引擎和調度之間的中間件，從Scrapy引擎發送到調度的請求和響應。
Scrapy運行流程大概如下：
首先，引擎從調度器中取出一個鏈接(URL)用於接下來的抓取
引擎把URL封裝成一個請求(Request)傳給下載器，下載器把資源下載下來，並封裝成應答包(Response)
然後，爬蟲解析Response
若是解析出實體（Item）,則交給實體管道進行進一步的處理。
若是解析出的是鏈接（URL）,則把URL交給Scheler等待抓取

『陸』 Python寫爬蟲都用到什麼庫

Python爬蟲，全稱Python網路爬蟲，是一種按照一定的規則，自動地抓取萬維網信息的程序或腳本，主要用於抓取證券交易數據、天氣數據、網站用戶數據和圖片數據等，Python為支持網路爬蟲正常功能實現，內置了大量的庫，主要有幾種類型。下面本篇文章就來給大家介紹。
一、Python爬蟲網路庫
Python爬蟲網路庫主要包括：urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、mechanize、socket、Unirest for Python、hyper、PySocks、treq以及aiohttp等。
二、Python網路爬蟲框架
Python網路爬蟲框架主要包括：grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。
三、HTML/XML解析器?
●lxml：C語言編寫高效HTML/ XML處理庫。支持XPath。
●cssselect：解析DOM樹和CSS選擇器。
●pyquery：解析DOM樹和jQuery選擇器。
●BeautifulSoup：低效HTML/ XML處理庫，純Python實現。
●html5lib：根據WHATWG規范生成HTML/ XML文檔的DOM。該規范被用在現在所有的瀏覽器上。
●feedparser：解析RSS/ATOM feeds。
●MarkupSafe：為XML/HTML/XHTML提供了安全轉義的字元串。
●xmltodict：一個可以讓你在處理XML時感覺像在處理JSON一樣的Python模塊。
●xhtml2pdf：將HTML/CSS轉換為PDF。
●untangle：輕松實現將XML文件轉換為Python對象。
四、文本處理
用於解析和操作簡單文本的庫。
●difflib：（Python標准庫）幫助進行差異化比較。
●Levenshtein：快速計算Levenshtein距離和字元串相似度。
●fuzzywuzzy：模糊字元串匹配。
●esmre：正則表達式加速器。
●ftfy：自動整理Unicode文本，減少碎片化。
五、特定格式文件處理
解析和處理特定文本格式的庫。
●tablib：一個把數據導出為XLS、CSV、JSON、YAML等格式的模塊。
●textract：從各種文件中提取文本，比如 Word、PowerPoint、PDF等。
●messytables：解析混亂的表格數據的工具。
●rows：一個常用數據介面，支持的格式很多（目前支持CSV，HTML，XLS，TXT：將來還會提供更多！）。

『柒』 python爬蟲能夠干什麼

Python爬蟲是用Python編程語言實現的網路爬蟲，主要用於網路數據的抓取和處理，相比於其他語言，Python是一門非常適合開發網路爬蟲的編程語言，大量內置包，可以輕松實現網路爬蟲功能。
Python爬蟲可以做的事情很多，如搜索引擎、採集數據、廣告過濾等，Python爬蟲還可以用於數據分析，在數據的抓取方面可以作用巨大！（推薦學習：Python視頻教程）
Python爬蟲架構組成
1. URL管理器：管理待爬取的url集合和已爬取的url集合，傳送待爬取的url給網頁下載器；
2. 網頁下載器：爬取url對應的網頁，存儲成字元串，傳送給網頁解析器；
3. 網頁解析器：解析出有價值的數據，存儲下來，同時補充url到URL管理器。
Python爬蟲工作原理
Python爬蟲通過URL管理器，判斷是否有待爬URL，如果有待爬URL，通過調度器進行傳遞給下載器，下載URL內容，並通過調度器傳送給解析器，解析URL內容，並將價值數據和新URL列表通過調度器傳遞給應用程序，並輸出價值信息的過程。
Python爬蟲常用框架有：
grab：網路爬蟲框架（基於pycurl/multicur）；
scrapy：網路爬蟲框架（基於twisted），不支持Python3；
pyspider：一個強大的爬蟲系統；
cola：一個分布式爬蟲框架；
portia：基於Scrapy的可視化爬蟲；
restkit：Python的HTTP資源工具包。它可以讓你輕松地訪問HTTP資源，並圍繞它建立的對象；
demiurge：基於PyQuery的爬蟲微框架。
Python爬蟲應用領域廣泛，在網路爬蟲領域處於霸主位置，Scrapy、Request、BeautifuSoap、urlib等框架的應用，可以實現爬行自如的功能，只要您數據抓取想法，Python爬蟲均可實現！
更多Python相關技術文章，請訪問Python教程欄目進行學習！

導航:首頁 > 編程語言 > twistedpython爬蟲

twistedpython爬蟲

與twistedpython爬蟲相關的資料