㈠ 怎麼使用python腳本運行多個scrapy爬蟲
1、創建多個spider, scrapy genspider spidername domain
scrapy genspider CnblogsHomeSpider cnblogs.com
通過上述命令創建了一個spider name為CnblogsHomeSpider的爬蟲,start_urls為 、查看項目下有幾個爬蟲scrapy list
[root@bogon cnblogs]# scrapy list
CnblogsHomeSpider
CnblogsSpider
由此可以知道我的項目下有兩個spider,一個名稱叫CnblogsHomeSpider,另一個叫CnblogsSpider。
㈡ 如何用python實現爬蟲抓取網頁時自動翻頁
看了你這個網站,下一頁每次都不一樣,每一頁的鏈接也不一樣,這種你靠分析肯定是不行的,因為你永遠都不知道會出來什麼內容,建議你用八爪魚採集器,這是目前最好用的網頁數據採集利器,解決這種問題很輕松的。
㈢ python scrapy問題
你的錯誤信息貼的不全,是不是最後幾行有行 write(...., async=False) 的錯誤?如果是這個錯誤的話,你需要打這行代碼所在文件,把相關的async 改成 async1 或其它名稱,因為在新版本python中, async 是一個關鍵字,沖突了。
㈣ 基於python的scrapy爬蟲,關於增量爬取是怎麼處理的
new to scrapy, 僅提供幾個思路,詳細解決方案,自己解決後後續跟進。
如果只是一次性的抓取某個網站的全部內容, 中途需要暫停並且恢復,只需要
scrapy crawl somespider -s JOBDIR=crawls/somespider-1參考:Jobs: pausing and resuming crawls
如果需求是過濾某些url,但是網站的主入口不被過濾掉,比如典型的論壇類網站,你只想過濾掉帖子,但是卻不想過濾掉板塊,你可以定製一下requestSeen
scrapy/pefilter.py at 0.24 · scrapy/scrapy · GitHub
python - how to filter plicate requests based on url in scrapy
如果使所有網站的動態過濾,比如是不是多了一個新回復,在url上的變化並不能體現出來,搜索引擎採用的是一系列的演算法,判斷某一個頁面的更新時機。個人應用一般不會使用到(其實是自己也不懂,寫出來提供一下思路,也許你會呢)。大部分的網頁在進入下一級頁面的時候都會有一個類似於最後更新時間,最後活動時間等等,可以根據這個來進行判斷。
㈤ 如何在scrapy框架下,用python實現爬蟲自動跳轉頁面來抓去網頁內容
Scrapy是一個用Python寫的Crawler Framework,簡單輕巧,並且非常方便。Scrapy使用Twisted這個非同步網路庫來處理網路通信,架構清晰,並且包含了各種中間件介面,可以靈活地完成各種需求。Scrapy整體架構如下圖所示:
根據架構圖介紹一下Scrapy中的各大組件及其功能:
Scrapy引擎(Engine):負責控制數據流在系統的所有組建中流動,並在相應動作發生觸發事件。
調度器(Scheler):從引擎接收Request並將它們入隊,以便之後引擎請求request時提供給引擎。
下載器(Downloader):負責獲取頁面數據並提供給引擎,而後提供給Spider。
Spider:Scrapy用戶編寫用於分析Response並提取Item(即獲取到的Item)或額外跟進的URL的類。每個Spider負責處理一個特定(或一些網站)。
Item Pipeline:負責處理被Spider提取出來的Item。典型的處理有清理驗證及持久化(例如存儲到資料庫中,這部分後面會介紹存儲到MySQL中,其他的資料庫類似)。
下載器中間件(Downloader middlewares):是在引擎即下載器之間的特定鉤子(special hook),處理Downloader傳遞給引擎的Response。其提供了一個簡便的機制,通過插入自定義代碼來擴展Scrapy功能(後面會介紹配置一些中間並激活,用以應對反爬蟲)。
Spider中間件(Spider middlewares):是在引擎及Spider之間的特定鉤子(special hook),處理Spider的輸入(response)和輸出(Items即Requests)。其提供了一個簡便的機制,通過插入自定義的代碼來擴展Scrapy功能。
㈥ python scrapy 怎麼將爬取的內容寫出
首先,安裝Python,坑太多了,一個個爬。由於我是windows環境,沒錢買mac, 在安裝的時候遇到各種各樣的問題,確實各種各樣的依賴。安裝教程不再贅述。如果在安裝的過程中遇到 ERROR:需要windows c/c++問題,一般是由於缺少windows開發編譯環境,晚上大多數教程是安裝一個VisualStudio,太不靠譜了,事實上只要安裝一個WindowsSDK就可以了。下面貼上我的爬蟲代碼:
爬蟲主程序:
[python]view plain
#-*-coding:utf-8-*-
importscrapy
fromscrapy.httpimportRequest
fromzjf.FsmzItemsimportFsmzItem
fromscrapy.selectorimportSelector
#圈圈:情感生活
classMySpider(scrapy.Spider):
#爬蟲名
name="MySpider"
#設定域名
allowed_domains=["nvsheng.com"]
#爬取地址
start_urls=[]
#flag
x=0
#爬取方法
defparse(self,response):
item=FsmzItem()
sel=Selector(response)
item['title']=sel.xpath('//h1/text()').extract()
item['text']=sel.xpath('//*[@class="content"]/p/text()').extract()
item['imags']=sel.xpath('//div[@id="content"]/p/a/img/@src|//div[@id="content"]/p/img/@src').extract()
ifMySpider.x==0:
page_list=MySpider.getUrl(self,response)
forpage_singleinpage_list:
yieldRequest(page_single)
MySpider.x+=1
yielditem
#init:動態傳入參數
#命令行傳參寫法:scrapycrawlMySpider-astart_url="e_url"
def__init__(self,*args,**kwargs):
super(MySpider,self).__init__(*args,**kwargs)
self.start_urls=[kwargs.get('start_url')]
defgetUrl(self,response):
url_list=[]
select=Selector(response)
page_list_tmp=select.xpath('//div[@class="viewnewpages"]/a[not(@class="next")]/@href').extract()
forpage_tmpinpage_list_tmp:
ifpage_tmpnotinurl_list:
url_list.append("px/"+page_tmp)
returnurl_list
[python]view plain
#-*-coding:utf-8-*-
#Defineyouritempipelineshere
#
#Don'_PIPELINESsetting
fromzjfimportsettings
importjson,os,re,random
importurllib.request
importrequests,json
fromrequests_toolbelt.multipart.encoderimportMultipartEncoder
classMyPipeline(object):
flag=1
post_title=''
post_text=[]
post_text_imageUrl_list=[]
cs=[]
user_id=''
def__init__(self):
MyPipeline.user_id=MyPipeline.getRandomUser('37619,18441390,18441391')
#processthedata
defprocess_item(self,item,spider):
#獲取隨機user_id,模擬發帖
user_id=MyPipeline.user_id
#獲取正文text_str_tmp
text=item['text']
text_str_tmp=""
forstrintext:
text_str_tmp=text_str_tmp+str
#print(text_str_tmp)
#獲取標題
ifMyPipeline.flag==1:
title=item['title']
MyPipeline.post_title=MyPipeline.post_title+title[0]
#保存並上傳圖片
text_insert_pic=''
text_insert_pic_w=''
text_insert_pic_h=''
forimag_urlinitem['imags']:
img_name=imag_url.replace('/','').replace('.','').replace('|','').replace(':','')
pic_dir=settings.IMAGES_STORE+'%s.jpg'%(img_name)
urllib.request.urlretrieve(imag_url,pic_dir)
#圖片上傳,返回json
upload_img_result=MyPipeline.uploadImage(pic_dir,'image/jpeg')
#獲取json中保存圖片路徑
text_insert_pic=upload_img_result['result']['image_url']
text_insert_pic_w=upload_img_result['result']['w']
text_insert_pic_h=upload_img_result['result']['h']
#拼接json
ifMyPipeline.flag==1:
cs_json={"c":text_str_tmp,"i":"","w":text_insert_pic_w,"h":text_insert_pic_h}
else:
cs_json={"c":text_str_tmp,"i":text_insert_pic,"w":text_insert_pic_w,"h":text_insert_pic_h}
MyPipeline.cs.append(cs_json)
MyPipeline.flag+=1
returnitem
#spider開啟時被調用
defopen_spider(self,spider):
pass
#sipder關閉時被調用
defclose_spider(self,spider):
strcs=json.mps(MyPipeline.cs)
jsonData={"apisign":"","user_id":MyPipeline.user_id,"gid":30,"t":MyPipeline.post_title,"cs":strcs}
MyPipeline.uploadPost(jsonData)
#上傳圖片
defuploadImage(img_path,content_type):
"uploadImagefunctions"
#UPLOAD_IMG_URL="dpostimage"
UPLOAD_IMG_URL="oadpostimage"
#傳圖片
#imgPath='D:picshttp___img_nvsheng_com_uploads_allimg_170119_18-1f1191g440_jpg.jpg'
m=MultipartEncoder(
#fields={'user_id':'192323',
#'images':('filename',open(imgPath,'rb'),'image/JPEG')}
fields={'user_id':MyPipeline.user_id,
'apisign':'',
'image':('filename',open(img_path,'rb'),'image/jpeg')}
)
r=requests.post(UPLOAD_IMG_URL,data=m,headers={'Content-Type':m.content_type})
returnr.json()
defuploadPost(jsonData):
CREATE_POST_URL="hmagespost"
[python]view plain
reqPost=requests.post(CREATE_POST_URL,data=jsonData)
[python]view plain
defgetRandomUser(userStr):
user_list=[]
user_chooesd=''
foruser_idinstr(userStr).split(','):
user_list.append(user_id)
userId_idx=random.randint(1,len(user_list))
user_chooesd=user_list[userId_idx-1]
returnuser_chooesd
[python]view plain
#-*-coding:utf-8-*-
#
#
#Seedocumentationin:
importscrapy
classFsmzItem(scrapy.Item):
#:
#name=scrapy.Field()
title=scrapy.Field()
#tutor=scrapy.Field()
#strongText=scrapy.Field()
text=scrapy.Field()
imags=scrapy.Field()
這樣就可以爬取aaa.com下的內容了
㈦ python scrapy 爬蟲怎麼運行
我也遇到了這個問題,我的解決方法是,先將列表按照時間排序後再抓取,每次抓取完記錄最後一條的url,下載再抓取時,遇到這個url,抓取就自動退出。如果解決了您的問題請採納!如果未解決請繼續追問!
㈧ 如何在scrapy框架下,用python實現爬蟲自動跳轉頁面來抓去網頁內容
(1)一種是像我之前爬蟲新京報網的新聞,下一頁的url可以通過審查元素獲得,第一頁的網址是http://www.bjnews.com.cn/news/list-43-page-1.html
在第一頁的時候,下一頁按鈕的審查元素是
我們通過獲取next_pages = response.xpath('//div[@id="page"]/a[@class="next"]/@href').extract()[0]
,便可以得到下一頁的url,next_page = "http://www.bjnews.com.cn" + next_pages,
這一部分的完整代碼為:
page_link=set() #保存下一頁頁面url
content_link=set() #保存頁面內所有可獲得的url
rules={'page':LinkExtractor(allow=(r'^http://www.bjnews.com.cn/\w+/2016/\d{2}/\d{2}/\d{6}.html
))}
start_urls={'http://www.bjnews.com.cn/news/list-43-page-1.html'}
def parse(self, response):
#爬取一個頁面內的所有url鏈接
for link in self.rules['page'].extract_links(response):
if link.url not in self.content_link:
self.page_link.add(link.url)
yield scrapy.Request(link.url, callback=self.parse_item)
#自動獲取下一頁的url
next_pages = response.xpath('//div[@id="page"]/a[@class="next"]/@href').extract()[0]
if next_pages:
next_page = "http://www.bjnews.com.cn" + next_pages
self.page_link.add(next_page)
yield scrapy.Request(next_page, callback=self.parse)
(2)第二種情況,就是在下一頁的審查元素中沒有提供url鏈接,需要自己分析,在這里依然舉個例子,比如搜狐新聞http://news.sohu.com/guojixinwen.shtml,該頁中下一頁按鈕的審查元素是:
我們不能通過href來直接過得下一頁的url,需要自己手動獲得,那現在我們來分析
第二頁的url:http://news.sohu.com/guojixinwen_5230.shtml,第三頁的http://news.sohu.com/guojixinwen_5229.shtml,最後一頁的http://news.sohu.com/guojixinwen_5132.shtml,由此可以分析出這一共100頁的url,是http://news.sohu.com/guoneixinwen_"+i+".shtml",其中i是從5230到5132倒序排列的,也就是說通過for循環,就可以獲得這100頁的所有url,完整代碼如下:在這里給大家加一個新的方法的使用start_request,該方法就是子定義start_urls,把所有自定義的url放到page_link中,self.make_requests_from_url方法會自動獲取裡面的請求
㈨ python中的scrapy是什麼意思a
Scrapy英文意思是刮擦
被用來命名爬蟲界知名的框架。
使用這個框架可以輕易實現常規網頁採集。也支持大型架構。升級後redis更是支持分布式。利用scrapyd更是可以發布服務。
從事爬蟲方向必學!
㈩ scrapy和python有什麼關系
Scrapy是Python開發的一個快速、高層次的web數據抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘和監測。
Scrapy吸引人的地方在於它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等。
Scrapy算得上是Python世界中最常用的爬蟲框架了,同時它也是我掌握的幾種流行語言中最好的爬蟲框架,沒有之一!我認為它也是最難學習的框架,同樣沒有之一。很多初學Scarpy的經常向我抱怨完全不清楚Scrapy該怎樣入手,即使看的是中文的文檔,也感到很難理解。我當初接觸Scrapy時也有這樣的感覺。之所以感到Scrapy難學,究其原因,是其官方文檔實在太過凌亂,又缺少實用的代碼例子,讓人看得雲里霧里,不知其所已然。雖然其文檔不良,但卻沒有遮擋住它的光輝,它依然是Python世界中目前最好用的爬蟲框架。其架構的思路、蜘蛛執行的效能,還有可擴展的能力都非常出眾,再配以Python語言的簡潔輕巧,使得爬蟲的開發事半功倍。
相關推薦:《Python基礎教程》
Scrapy的優點:
(1)提供了內置的HTTP緩存,以加速本地開發。
(2)提供了自動節演調節機制,而且具有遵守robots.txt的設置的能力。
(3)可以定義爬行深度的限制,以避免爬蟲進入死循環鏈接。
(4)會自動保留會話。
(5)執行自動HTTP基本認證。不需要明確保存狀態。
(6)可以自動填寫登錄表單。
(7)Scrapy有一個內置的中間件,可以自動設置請求中的引用(referrer)頭。
(8)支持通過3xx響應重定向,也可以通過HTML元刷新。
(9)避免被網站使用的meta重定向困住,以檢測沒有JS支持的頁面。
(10)默認使用CSS選擇器或XPath編寫解析器。
(11)可以通過Splash或任何其他技術(如Selenium)呈現JavaScript頁面。
(12)擁有強大的社區支持和豐富的插件和擴展來擴展其功能。
(13)提供了通用的蜘蛛來抓取常見的格式:站點地圖、CSV和XML。
(14)內置支持以多種格式(JSON、CSV、XML、JSON-lines)導出收集的數據並將其存在多個後端(FTP、S3、本地文件系統)中。
Scrapy框架原理
Scrapy Engine(引擎):負責Spider、ItemPipeline、Downloader、Scheler中間的通訊,信號、數據傳遞等。
Scheler(調度器):負責接收引擎發送過來的Request請求,並按照一定的方式進行整理排列,入隊,當引擎需要時,交還給引擎。
Downloader(下載器):負責下載Scrapy Engine(引擎)發送的所有Requests請求,並將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來處理,
Spider(爬蟲):負責處理所有Responses,從中分析提取數據,獲取Item欄位需要的數據,並將需要跟進的URL提交給引擎,再次進入Scheler(調度器),
Item Pipeline(管道):負責處理Spider中獲取到的Item,並進行進行後期處理(詳細分析、過濾、存儲等)的地方.
Downloader Middlewares(下載中間件):你可以當作是一個可以自定義擴展下載功能的組件。
Spider Middlewares(Spider中間件):你可以理解為是一個可以自定擴展和操作引擎和Spider中間通信的功能組件(比如進入Spider的Responses;和從Spider出去的Requests)
Scrapy各個組件介紹
·Scrapy Engine:
引擎負責控制數據流在系統中所有組件中流動,並在相應動作發生時觸發事件。它也是程序的入口,可以通過scrapy指令方式在命令行啟動,或普通編程方式實例化後調用start方法啟動。
·調度器(Scheler)
調度器從引擎接收爬取請求(Request)並將它們入隊,以便之後引擎請求它們時提供給引擎。一般來說,我們並不需要直接對調度器進行編程,它是由Scrapy主進程進行自動控制的。
·下載器(Down-loader)
下載器負責獲取頁面數據並提供給引擎,而後將網站的響應結果對象提供給蜘蛛(Spider)。具體點說,下載器負責處理產生最終發出的請求對象 Request 並將返回的響應生成 Response對象傳遞給蜘蛛。
·蜘蛛——Spiders
Spider是用戶編寫用於分析響應(Response)結果並從中提取Item(即獲取的Item)或額外跟進的URL的類。每個Spider負責處理一個特定(或一些)網站。
·數據管道——Item Pipeline
Item Pipeline 負責處理被 Spider 提取出來的 Item。 典型的處理有清理、驗證及持久化(例如,存取到資料庫中)。
·下載器中間件(Downloader middle-wares)
下載器中間件是在引擎及下載器之間的特定鉤子(specific hook),處理Downloader傳遞給引擎的Response。其提供了一個簡便的機制,通過插入自定義代碼來擴展Scrapy的功能。
·Spider中間件(Spider middle-wares)
Spider 中間件是在引擎及 Spider 之間的特定鉤子(specific hook),處理 Spider 的輸入(Response)和輸出(Items及Requests)。其提供了一個簡便的機制,通過插入自定義代碼來擴展Scrapy的功能。
從Scrapy的系統架構可見,它將整個爬網過程進行了非常具體的細分,並接管了絕大多數復雜的工作,例如,產生請求和響應對象、控制爬蟲的並發等。