導航:首頁 > 編程語言 > python35scrapy例子

python35scrapy例子

發布時間:2022-05-27 19:56:28

❶ 求幫忙解釋一下下面兩段python代碼的基於scrapy的網路爬蟲框架

簡單的理解就是:
第一段解析網頁內容,並提取需要的數據(這里涉及到很多python的基礎知識);

第二段是將提取到的數據保存到文件。

❷ 怎麼使用python腳本運行多個scrapy爬蟲

1、創建多個spider, scrapy genspider spidername domain
scrapy genspider CnblogsHomeSpider cnblogs.com

通過上述命令創建了一個spider name為CnblogsHomeSpider的爬蟲,start_urls為 、查看項目下有幾個爬蟲scrapy list
[root@bogon cnblogs]# scrapy list
CnblogsHomeSpider
CnblogsSpider

由此可以知道我的項目下有兩個spider,一個名稱叫CnblogsHomeSpider,另一個叫CnblogsSpider。

❸ python scrapy 怎麼將爬取的內容寫出

首先,安裝Python,坑太多了,一個個爬。由於我是windows環境,沒錢買mac, 在安裝的時候遇到各種各樣的問題,確實各種各樣的依賴。安裝教程不再贅述。如果在安裝的過程中遇到 ERROR:需要windows c/c++問題,一般是由於缺少windows開發編譯環境,晚上大多數教程是安裝一個VisualStudio,太不靠譜了,事實上只要安裝一個WindowsSDK就可以了。下面貼上我的爬蟲代碼:

爬蟲主程序:

[python]view plain

❹ python3 scrapy怎麼爬取<div>內的多個<br>

我今天剛學了這個,你用xpath寫好選擇路徑就會返回形成一個列表,列表中有你想要的信息

❺ 如何在scrapy框架下,用python實現爬蟲自動跳轉頁面來抓去網頁內容

(1)一種是像我之前爬蟲新京報網的新聞,下一頁的url可以通過審查元素獲得,第一頁的網址是http://www.bjnews.com.cn/news/list-43-page-1.html
在第一頁的時候,下一頁按鈕的審查元素是

我們通過獲取next_pages = response.xpath('//div[@id="page"]/a[@class="next"]/@href').extract()[0]
,便可以得到下一頁的url,next_page = "http://www.bjnews.com.cn" + next_pages,

這一部分的完整代碼為:

page_link=set() #保存下一頁頁面url

content_link=set() #保存頁面內所有可獲得的url

rules={'page':LinkExtractor(allow=(r'^http://www.bjnews.com.cn/\w+/2016/\d{2}/\d{2}/\d{6}.html
))}

start_urls={'http://www.bjnews.com.cn/news/list-43-page-1.html'}

def parse(self, response):

#爬取一個頁面內的所有url鏈接

    for link in self.rules['page'].extract_links(response):

        if link.url not in self.content_link:

            self.page_link.add(link.url)

            yield scrapy.Request(link.url, callback=self.parse_item)

#自動獲取下一頁的url

    next_pages = response.xpath('//div[@id="page"]/a[@class="next"]/@href').extract()[0]

    if next_pages:

        next_page = "http://www.bjnews.com.cn" + next_pages

        self.page_link.add(next_page)

        yield scrapy.Request(next_page, callback=self.parse)

(2)第二種情況,就是在下一頁的審查元素中沒有提供url鏈接,需要自己分析,在這里依然舉個例子,比如搜狐新聞http://news.sohu.com/guojixinwen.shtml,該頁中下一頁按鈕的審查元素是:

我們不能通過href來直接過得下一頁的url,需要自己手動獲得,那現在我們來分析

第二頁的url:http://news.sohu.com/guojixinwen_5230.shtml,第三頁的http://news.sohu.com/guojixinwen_5229.shtml,最後一頁的http://news.sohu.com/guojixinwen_5132.shtml,由此可以分析出這一共100頁的url,是http://news.sohu.com/guoneixinwen_"+i+".shtml",其中i是從5230到5132倒序排列的,也就是說通過for循環,就可以獲得這100頁的所有url,完整代碼如下:在這里給大家加一個新的方法的使用start_request,該方法就是子定義start_urls,把所有自定義的url放到page_link中,self.make_requests_from_url方法會自動獲取裡面的請求

❻ 怎麼樣使用Python的Scrapy爬蟲框架

有些人問,開發網路爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的?這里按照我的經驗隨便扯淡一下:

上面說的爬蟲,基本可以分3類:

1.分布式爬蟲:Nutch

2.JAVA單機爬蟲:Crawler4j、WebMagic、WebCollector

3. 非JAVA單機爬蟲:scrapy

第一類:分布式爬蟲

爬蟲使用分布式,主要是解決兩個問題:

1)海量URL管理

2)網速

現在比較流行的分布式爬蟲,是Apache的Nutch。但是對於大多數用戶來說,Nutch是這幾類爬蟲里,最不好的選擇,理由如下:

1)Nutch是為搜索引擎設計的爬蟲,大多數用戶是需要一個做精準數據爬取(精抽取)的爬蟲。Nutch運行的一套流程里,有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。也就是說,用Nutch做數據抽取,會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發,來使得它適用於精抽取的業務,基本上就要破壞Nutch的框架,把Nutch改的面目全非,有修改Nutch的能力,真的不如自己重新寫一個分布式爬蟲框架了。

2)Nutch依賴hadoop運行,hadoop本身會消耗很多的時間。如果集群機器數量較少,爬取速度反而不如單機爬蟲快。

3)Nutch雖然有一套插件機制,而且作為亮點宣傳。可以看到一些開源的Nutch插件,提供精抽取的功能。但是開發過Nutch插件的人都知道,Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件,使得程序的編寫和調試都變得異常困難,更別說在上面開發一套復雜的精抽取系統了。而且Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點,而這五六個掛載點都是為了搜索引擎服務的,並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件,都是掛載在「頁面解析」(parser)這個掛載點的,這個掛載點其實是為了解析鏈接(為後續爬取提供URL),以及為搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text文本)。

4)用Nutch進行爬蟲的二次開發,爬蟲的編寫和調試所需的時間,往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高,何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題(hadoop的問題、hbase的問題)。

5)很多人說Nutch2有gora,可以持久化數據到avro文件、hbase、mysql等。很多人其實理解錯了,這里說的持久化數據,是指將URL信息(URL管理所需要的數據)存放到avro、hbase、mysql。並不是你要抽取的結構化數據。其實對大多數人來說,URL信息存在哪裡無所謂。

6)Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1,但是這個版本綁定了gora-0.3。如果想用hbase配合nutch(大多數人用nutch2就是為了用hbase),只能使用0.90版本左右的hbase,相應的就要將hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比較有誤導作用,Nutch2的教程有兩個,分別是Nutch1.x和Nutch2.x,這個Nutch2.x官網上寫的是可以支持到hbase 0.94。但是實際上,這個Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之後的一個版本,這個版本在官方的SVN中不斷更新。而且非常不穩定(一直在修改)。

所以,如果你不是要做搜索引擎,盡量不要選擇Nutch作為爬蟲。有些團隊就喜歡跟風,非要選擇Nutch來開發精抽取的爬蟲,其實是沖著Nutch的名氣(Nutch作者是Doug Cutting),當然最後的結果往往是項目延期完成。

如果你是要做搜索引擎,Nutch1.x是一個非常好的選擇。Nutch1.x和solr或者es配合,就可以構成一套非常強大的搜索引擎了。如果非要用Nutch2的話,建議等到Nutch2.3發布再看。目前的Nutch2是一個非常不穩定的版本。

❼ scrapy和python有什麼關系

Scrapy是Python開發的一個快速、高層次的web數據抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘和監測。

Scrapy吸引人的地方在於它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等。

Scrapy算得上是Python世界中最常用的爬蟲框架了,同時它也是我掌握的幾種流行語言中最好的爬蟲框架,沒有之一!我認為它也是最難學習的框架,同樣沒有之一。很多初學Scarpy的經常向我抱怨完全不清楚Scrapy該怎樣入手,即使看的是中文的文檔,也感到很難理解。我當初接觸Scrapy時也有這樣的感覺。之所以感到Scrapy難學,究其原因,是其官方文檔實在太過凌亂,又缺少實用的代碼例子,讓人看得雲里霧里,不知其所已然。雖然其文檔不良,但卻沒有遮擋住它的光輝,它依然是Python世界中目前最好用的爬蟲框架。其架構的思路、蜘蛛執行的效能,還有可擴展的能力都非常出眾,再配以Python語言的簡潔輕巧,使得爬蟲的開發事半功倍。

相關推薦:《Python基礎教程》

Scrapy的優點:

(1)提供了內置的HTTP緩存,以加速本地開發。

(2)提供了自動節演調節機制,而且具有遵守robots.txt的設置的能力。

(3)可以定義爬行深度的限制,以避免爬蟲進入死循環鏈接。

(4)會自動保留會話。

(5)執行自動HTTP基本認證。不需要明確保存狀態。

(6)可以自動填寫登錄表單。

(7)Scrapy有一個內置的中間件,可以自動設置請求中的引用(referrer)頭。

(8)支持通過3xx響應重定向,也可以通過HTML元刷新。

(9)避免被網站使用的meta重定向困住,以檢測沒有JS支持的頁面。

(10)默認使用CSS選擇器或XPath編寫解析器。

(11)可以通過Splash或任何其他技術(如Selenium)呈現JavaScript頁面。

(12)擁有強大的社區支持和豐富的插件和擴展來擴展其功能。

(13)提供了通用的蜘蛛來抓取常見的格式:站點地圖、CSV和XML。

(14)內置支持以多種格式(JSON、CSV、XML、JSON-lines)導出收集的數據並將其存在多個後端(FTP、S3、本地文件系統)中。

Scrapy框架原理

Scrapy Engine(引擎):負責Spider、ItemPipeline、Downloader、Scheler中間的通訊,信號、數據傳遞等。

Scheler(調度器):負責接收引擎發送過來的Request請求,並按照一定的方式進行整理排列,入隊,當引擎需要時,交還給引擎。

Downloader(下載器):負責下載Scrapy Engine(引擎)發送的所有Requests請求,並將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來處理,

Spider(爬蟲):負責處理所有Responses,從中分析提取數據,獲取Item欄位需要的數據,並將需要跟進的URL提交給引擎,再次進入Scheler(調度器),

Item Pipeline(管道):負責處理Spider中獲取到的Item,並進行進行後期處理(詳細分析、過濾、存儲等)的地方.

Downloader Middlewares(下載中間件):你可以當作是一個可以自定義擴展下載功能的組件。

Spider Middlewares(Spider中間件):你可以理解為是一個可以自定擴展和操作引擎和Spider中間通信的功能組件(比如進入Spider的Responses;和從Spider出去的Requests)

Scrapy各個組件介紹

·Scrapy Engine:

引擎負責控制數據流在系統中所有組件中流動,並在相應動作發生時觸發事件。它也是程序的入口,可以通過scrapy指令方式在命令行啟動,或普通編程方式實例化後調用start方法啟動。

·調度器(Scheler)

調度器從引擎接收爬取請求(Request)並將它們入隊,以便之後引擎請求它們時提供給引擎。一般來說,我們並不需要直接對調度器進行編程,它是由Scrapy主進程進行自動控制的。

·下載器(Down-loader)

下載器負責獲取頁面數據並提供給引擎,而後將網站的響應結果對象提供給蜘蛛(Spider)。具體點說,下載器負責處理產生最終發出的請求對象 Request 並將返回的響應生成 Response對象傳遞給蜘蛛。

·蜘蛛——Spiders

Spider是用戶編寫用於分析響應(Response)結果並從中提取Item(即獲取的Item)或額外跟進的URL的類。每個Spider負責處理一個特定(或一些)網站。

·數據管道——Item Pipeline

Item Pipeline 負責處理被 Spider 提取出來的 Item。 典型的處理有清理、驗證及持久化(例如,存取到資料庫中)。

·下載器中間件(Downloader middle-wares)

下載器中間件是在引擎及下載器之間的特定鉤子(specific hook),處理Downloader傳遞給引擎的Response。其提供了一個簡便的機制,通過插入自定義代碼來擴展Scrapy的功能。

·Spider中間件(Spider middle-wares)

Spider 中間件是在引擎及 Spider 之間的特定鉤子(specific hook),處理 Spider 的輸入(Response)和輸出(Items及Requests)。其提供了一個簡便的機制,通過插入自定義代碼來擴展Scrapy的功能。

從Scrapy的系統架構可見,它將整個爬網過程進行了非常具體的細分,並接管了絕大多數復雜的工作,例如,產生請求和響應對象、控制爬蟲的並發等。

❽ Python求助#SCRAPY pineline 報錯

yielditem#這里不懂該怎麼用,出來的是什麼格式,#有的教程會returnitems,所以希望能得到指點yield生成器合理用內存,比如說數組裡面有100個佔100內存,而機器只有10內存那直接returnrange(100)就把內存撐爆,所有yield一個一個來即每次用1內存。fortmpinitem:#不知道這里是否寫的對,#個人理解是spiderreturn出來的item是yileddict#[{a:1,aa:11},{b:2,bb:22},{}]對了一半,從報錯信息來看,item有一部分是字元串類型一部分dict。你需過對tmp做個類型判斷再做後綴操作相同點功能都是返回程序執行結果區別yield返回執行結果並不中斷程序執行,return在返回執行結果的同時中斷程序執行。小例子使用scrapy抓取網頁時經常會使用for循環來抓取數據return實現items=[]forinitem['title']=items.append(item)returnitems123456123456yield實現forinitem['title']=yielditem

❾ 如何在scrapy框架下用python爬取json文件

#coding=utf-8
importsys
importscrapy
importurllib2
importre,requests,json
fromscrapy.httpimportRequest
reload(sys)
sys.setdefaultencoding('utf8')

classprojectSpider(scrapy.Spider):
name="youproject"
#allowed_domains=["youproject.com"]
start_urls=(
"http://p.3.cn/prices/mgets?&type=3652063&pid=3652063&skuIds=J_3652063",
#京東商品獲取價格的鏈接
)
defparse(self,response):
#response.url是京東價格的例子,所請求的數據就是json,其請求後的數據為:[{"id":"J_3652063","p":"1299.00","m":"1499.00","op":"1299.00"}]
json_date=json.loads(response.body_as_unicode())
price=json_date[0]['p']#獲取的就是price的價格
printprice#u'1299.00'

閱讀全文

與python35scrapy例子相關的資料

熱點內容
群體智能基本演算法 瀏覽:370
可編程軟體分為哪兩種 瀏覽:340
格林什麼app可以看 瀏覽:697
飛盧app仙俠熱賣推薦怎麼樣 瀏覽:722
飛秋上傳文件到共享文件夾 瀏覽:691
伺服器的共享文件夾如何訪問 瀏覽:232
復盛螺桿壓縮機講解 瀏覽:332
柱在基礎插筋需要加密嗎 瀏覽:80
51單片機中斷寄存器 瀏覽:65
壓縮文件後有病毒怎麼辦 瀏覽:618
蘋果ipad怎麼登安卓王者賬號 瀏覽:862
街頭足球伺服器已滿是什麼意思 瀏覽:462
androidspeex迴音消除 瀏覽:133
加密會議什麼意思 瀏覽:34
ubuntu命令行聯網 瀏覽:7
37選7中獎概率及演算法 瀏覽:593
加密狗哪個版本好 瀏覽:619
cisco命令手冊 瀏覽:502
omp演算法c 瀏覽:129
上海浦東機場源碼 瀏覽:885