java爬蟲知乎_python 爬蟲框架哪個好知乎

Ⅰ java工程師一般用python做什麼知乎

#做網站後台
Python在網站後台這邊有大量的成熟的框架，如django，flask，bottle，tornado，我曾經用過flask和django搭建了的兩個網站已經上線

http://zhaixueshe.com
http://aljun.me

#寫網路爬蟲
Python寫爬蟲非常簡單，庫很健全

以下是我寫的一些爬蟲教程和心得
http://aljun.me/post/17

http://aljun.me/post/18

#科學計算
Python有三大神器：numpy,scipy,matplotlib,其中numpy很多底層使用C語言實現的，所以速度很快，我曾經用它參加各種數學建模大賽，完全可以替代r語言和MATLAB

以下是我寫的科學計算簡單教程
http://aljun.me/post/16

#數據挖掘，機器學習
Python
的機器學習包很多，或者自己可以試著實現機器學習演算法，因為Python的類似偽代碼的語法，很容易快速實現自己的想法，另外主流的機器學習演算法都有成熟
的包，加上谷歌開源的TensorFlow，常用的機器學習包：scikit-learn,pattern,jieba，pybrain等等

#數據科學
最近spark，Hadoop都開了Python的介面，所以使用Python做大數據的maprece也非常簡單，加上py對資料庫支持都很好，或者類似sqlalchemy的orm也非常強大好用

以及剩下的碼演算法，玩玩樹莓派什麼的我就不多說了，

py的強大其實在於他能迅速的實現想法

Ⅱ scrapy爬知乎問題，每次爬到240000多以後就結束了，什麼原因

伺服器需要參數沒傳全
建議抓包：模擬get 或post

Ⅲ 求一個能扒知乎圖片的爬蟲TAT

知乎沒啥反爬的措施很好爬的呀.......................................
improt re
import requests
response = requersts.get(''url)
str = re.findall('image" src="(.*?)"' ,response.text')
count = 0
for image_url in str:
(縮進)response_image = requersts.get('image_url')

(縮進)count +=1
(縮進) with open(f'第{count}張.jpg','wb') as fw:

(縮進)(縮進)fw.writer(response_image.content)

Ⅳ 如何使用python爬取知乎數據並做簡單分析

一、使用的技術棧：
爬蟲：python27 +requests+json+bs4+time
分析工具： ELK套件
開發工具：pycharm
數據成果簡單的可視化分析
1.性別分布
0 綠色代表的是男性 ^ . ^
1 代表的是女性
-1 性別不確定
可見知乎的用戶男性頗多。
二、粉絲最多的top30
粉絲最多的前三十名：依次是張佳瑋、李開復、黃繼新等等，去知乎上查這些人，也差不多這個排名，說明爬取的數據具有一定的說服力。
三、寫文章最多的top30
四、爬蟲架構
爬蟲架構圖如下：
說明：
選擇一個活躍的用戶（比如李開復）的url作為入口url.並將已爬取的url存在set中。
抓取內容，並解析該用戶的關注的用戶的列表url，添加這些url到另一個set中，並用已爬取的url作為過濾。
解析該用戶的個人信息，並存取到本地磁碟。
logstash取實時的獲取本地磁碟的用戶數據，並給elsticsearchkibana和elasticsearch配合，將數據轉換成用戶友好的可視化圖形。
五、編碼
爬取一個url:
解析內容：
存本地文件：
代碼說明：
* 需要修改獲取requests請求頭的authorization。
* 需要修改你的文件存儲路徑。
源碼下載：點擊這里，記得star哦！https : // github . com/forezp/ZhihuSpiderMan六、如何獲取authorization
打開chorme，打開https : // www. hu .com/，
登陸，首頁隨便找個用戶，進入他的個人主頁，F12(或滑鼠右鍵，點檢查)七、可改進的地方
可增加線程池，提高爬蟲效率
存儲url的時候我才用的set(),並且採用緩存策略，最多隻存2000個url，防止內存不夠，其實可以存在redis中。
存儲爬取後的用戶我說採取的是本地文件的方式，更好的方式應該是存在mongodb中。
對爬取的用戶應該有一個信息的過濾，比如用戶的粉絲數需要大與100或者參與話題數大於10等才存儲。防止抓取了過多的僵屍用戶。
八、關於ELK套件
關於elk的套件安裝就不討論了，具體見官網就行了。網站：https : // www . elastic . co/另外logstash的配置文件如下：
從爬取的用戶數據可分析的地方很多，比如地域、學歷、年齡等等，我就不一一列舉了。另外，我覺得爬蟲是一件非常有意思的事情，在這個內容消費升級的年代，如何在廣闊的互聯網的數據海洋中挖掘有價值的數據，是一件值得思考和需不斷踐行的事情。

Ⅳ python 爬蟲框架哪個好知乎

1、Scrapy：是一個為了抓取網站數據，提取數據結構性數據而編寫的應用框架，可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中，用這個框架可以輕松爬下來各種信息數據。
2、Pyspider：是一個用Python實現的功能強大的網路爬蟲系統，能在瀏覽器界面上進行腳本的編寫，功能的調度和爬取結果的實時查看，後端使用常用的資料庫進行抓取結構的存儲，還能定時設置任務與任務優先順序等。
3、Crawley：可以高速抓取對應網站內容，支持關系和非關系資料庫，數據可以導出為json、xml等。
4、Portia：是一個開源可視化爬蟲工具，可以讓您在不需要任何編程知識的情況下抓取網站，簡單地註解您感興趣的頁面，創建一個蜘蛛來從類似的頁面抓取數據。
5、Newspaper：可以用來提取新聞、文章和內容分析，使用多線程，支持10多種編程語言。
6、Beautiful Soup：是一個可以從HTML或者xml文件中提取數據的Python庫，它能通過你喜歡的轉換器實現慣用的文檔導航，查找，修改文檔的方式;同時幫你節省數小時甚至數天的工作時間。
7、Grab：是一個用於創建web刮板的Python框架，藉助Grab，您可以創建各種復雜的網頁抓取工具，從簡單的五行腳本到處理數萬個網頁的復雜非同步網站抓取工具。Grab提供一個api用於執行網路請求和處理接收到的內容。
8、Cola：是一個分布式的爬蟲框架，對於用戶來說，只需要編寫幾個特定的函數，而無需關注分布式運行的細節，任務會自動分配到多台機器上，整個過程對用戶是透明的。

Ⅵ Python為什麼叫爬蟲

爬蟲一般是指網路資源的獲取，因為python的腳本特徵，Python易於配置，對字元的處理也非常靈活，加上python有豐富的網路抓取模塊，所以兩者經常聯系在一起。
接下來我們可以詳情了解python到底有什麼作用。
首先Python翻譯成漢語是蟒蛇的意思，並且Python的logo也是兩條纏繞在一起的蟒蛇的樣子，然而Python語言和蟒蛇實際上並沒有一毛錢關系。

那麼Python到底有什麼應用方向和特點呢？下面由我來為大家揭曉！！！
Python的應用方向：
①常規軟體開發 ② 科學計算
③ 自動化運維 ④ 雲計算
⑤ WEB開發 ⑥ 網路爬蟲
⑦ 數據分析 ⑧ 人工智慧
Python的特點：
① 簡單易學、明確優雅、開發速度快。
② 跨平台、可移植、可擴展、互動式、解釋型、面向對象的動態語言。
③ 「內置電池」，大量的標准庫和第三方庫。
④ 社區活躍，貢獻者多，互幫互助。
⑤ 開源語言，發展動力巨大。

最後我們會發現與C 和 Java 比，Python的學習成本和難度曲線不是低一點，更適合新手入門，自底向上的技術攀爬路線。先訂個小目標爬個小山，然後再往更高的山峰前進。而不像C和JAVA光語言學習本身，對於很多人來說就像珠穆朗瑪峰一樣高不可攀。
Python的語法非常簡潔，代碼量少，非常容易編寫，代碼的測試、重構、維護等都非常容易。一個小小的腳本，用C可能需要1000行，用JAVA可能幾百行，但是用Python往往只需要幾十行！而在當前互聯網的時代，產品最講究的就是速度。如果在之前別人家的產品已經上線了，那麼你也就沒有生存空間了，這里的真實例子數不勝數。那麼，Python的開發速度說第二沒人敢稱第一!

Ⅶ 哪個開源多線程爬蟲比較好學知乎

開發網路爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的？這里按照我的經驗隨便扯淡一下：上面說的爬蟲，基本可以分3類：1.分布式爬蟲：Nutch
2.JAVA單機爬蟲：Crawler4j、WebMagic、WebCollector
3. 非JAVA單機爬蟲：scrapy
第一類：分布式爬蟲
爬蟲使用分布式，主要是解決兩個問題：
1）海量URL管理
2）網速
現在比較流行的分布式爬蟲，是Apache的Nutch。但是對於大多數用戶來說，Nutch是這幾類爬蟲里，最不好的選擇，理由如下：
1）Nutch是為搜索引擎設計的爬蟲，大多數用戶是需要一個做精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程里，有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。也就是說，用Nutch做數據抽取，會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新寫一個分布式爬蟲框架了。
2）Nutch依賴hadoop運行，hadoop本身會消耗很多的時間。如果集群機器數量較少，爬取速度反而不如單機爬蟲快。
3）Nutch雖然有一套插件機制，而且作為亮點宣傳。可以看到一些開源的Nutch插件，提供精抽取的功能。但是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套復雜的精抽取系統了。而且Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是為了搜索引擎服務的，並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」（parser）這個掛載點的，這個掛載點其實是為了解析鏈接（為後續爬取提供URL），以及為搜索引擎提供一些易抽取的網頁信息（網頁的meta信息、text文本）。
4）用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高，何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題（hadoop的問題、hbase的問題）。
5）很多人說Nutch2有gora，可以持久化數據到avro文件、hbase、mysql等。很多人其實理解錯了，這里說的持久化數據，是指將URL信息（URL管理所需要的數據）存放到avro、hbase、mysql。並不是你要抽取的結構化數據。其實對大多數人來說，URL信息存在哪裡無所謂。
6）Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1，但是這個版本綁定了gora-0.3。如果想用hbase配合nutch（大多數人用nutch2就是為了用hbase），只能使用0.90版本左右的hbase，相應的就要將hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比較有誤導作用，Nutch2的教程有兩個，分別是Nutch1.x和Nutch2.x，這個Nutch2.x官網上寫的是可以支持到hbase 0.94。但是實際上，這個Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之後的一個版本，這個版本在官方的SVN中不斷更新。而且非常不穩定（一直在修改）。
所以，如果你不是要做搜索引擎，盡量不要選擇Nutch作為爬蟲。有些團隊就喜歡跟風，非要選擇Nutch來開發精抽取的爬蟲，其實是沖著Nutch的名氣（Nutch作者是Doug Cutting），當然最後的結果往往是項目延期完成。
如果你是要做搜索引擎，Nutch1.x是一個非常好的選擇。Nutch1.x和solr或者es配合，就可以構成一套非常強大的搜索引擎了。如果非要用Nutch2的話，建議等到Nutch2.3發布再看。目前的Nutch2是一個非常不穩定的版本。
第二類：JAVA單機爬蟲
這里把JAVA爬蟲單獨分為一類，是因為JAVA在網路爬蟲這塊的生態圈是非常完善的。相關的資料也是最全的。這里可能有爭議，我只是隨便扯淡。
其實開源網路爬蟲（框架）的開發非常簡單，難問題和復雜的問題都被以前的人解決了（比如DOM樹解析和定位、字元集檢測、海量URL去重），可以說是毫無技術含量。包括Nutch，其實Nutch的技術難點是開發hadoop，本身代碼非常簡單。網路爬蟲從某種意義來說，類似遍歷本機的文件，查找文件中的信息。沒有任何難度可言。之所以選擇開源爬蟲框架，就是為了省事。比如爬蟲的URL管理、線程池之類的模塊，誰都能做，但是要做穩定也是需要一段時間的調試和修改的。
對於爬蟲的功能來說。用戶比較關心的問題往往是：
1）爬蟲支持多線程么、爬蟲能用代理么、爬蟲會爬取重復數據么、爬蟲能爬取JS生成的信息么？
不支持多線程、不支持代理、不能過濾重復URL的，那都不叫開源爬蟲，那叫循環執行http請求。
能不能爬js生成的信息和爬蟲本身沒有太大關系。爬蟲主要是負責遍歷網站和下載頁面。爬js生成的信息和網頁信息抽取模塊有關，往往需要通過模擬瀏覽器（htmlunit,selenium）來完成。這些模擬瀏覽器，往往需要耗費很多的時間來處理一個頁面。所以一種策略就是，使用這些爬蟲來遍歷網站，遇到需要解析的頁面，就將網頁的相關信息提交給模擬瀏覽器，來完成JS生成信息的抽取。
2）爬蟲可以爬取ajax信息么？
網頁上有一些非同步載入的數據，爬取這些數據有兩種方法：使用模擬瀏覽器（問題1中描述過了），或者分析ajax的http請求，自己生成ajax請求的url，獲取返回的數據。如果是自己生成ajax請求，使用開源爬蟲的意義在哪裡？其實是要用開源爬蟲的線程池和URL管理功能（比如斷點爬取）。
如果我已經可以生成我所需要的ajax請求（列表），如何用這些爬蟲來對這些請求進行爬取？
爬蟲往往都是設計成廣度遍歷或者深度遍歷的模式，去遍歷靜態或者動態頁面。爬取ajax信息屬於deep web（深網）的范疇，雖然大多數爬蟲都不直接支持。但是也可以通過一些方法來完成。比如WebCollector使用廣度遍歷來遍歷網站。爬蟲的第一輪爬取就是爬取種子集合（seeds）中的所有url。簡單來說，就是將生成的ajax請求作為種子，放入爬蟲。用爬蟲對這些種子，進行深度為1的廣度遍歷（默認就是廣度遍歷）。
3）爬蟲怎麼爬取要登陸的網站？
這些開源爬蟲都支持在爬取時指定cookies，模擬登陸主要是靠cookies。至於cookies怎麼獲取，不是爬蟲管的事情。你可以手動獲取、用http請求模擬登陸或者用模擬瀏覽器自動登陸獲取cookie。
4）爬蟲怎麼抽取網頁的信息？
開源爬蟲一般都會集成網頁抽取工具。主要支持兩種規范：CSS SELECTOR和XPATH。至於哪個好，這里不評價。
5）爬蟲怎麼保存網頁的信息？
有一些爬蟲，自帶一個模塊負責持久化。比如webmagic，有一個模塊叫pipeline。通過簡單地配置，可以將爬蟲抽取到的信息，持久化到文件、資料庫等。還有一些爬蟲，並沒有直接給用戶提供數據持久化的模塊。比如crawler4j和webcollector。讓用戶自己在網頁處理模塊中添加提交資料庫的操作。至於使用pipeline這種模塊好不好，就和操作資料庫使用ORM好不好這個問題類似，取決於你的業務。
6）爬蟲被網站封了怎麼辦？
爬蟲被網站封了，一般用多代理（隨機代理）就可以解決。但是這些開源爬蟲一般沒有直接支持隨機代理的切換。所以用戶往往都需要自己將獲取的代理，放到一個全局數組中，自己寫一個代理隨機獲取（從數組中）的代碼。
7）網頁可以調用爬蟲么？
爬蟲的調用是在Web的服務端調用的，平時怎麼用就怎麼用，這些爬蟲都可以使用。
8）爬蟲速度怎麼樣？
單機開源爬蟲的速度，基本都可以講本機的網速用到極限。爬蟲的速度慢，往往是因為用戶把線程數開少了、網速慢，或者在數據持久化時，和資料庫的交互速度慢。而這些東西，往往都是用戶的機器和二次開發的代碼決定的。這些開源爬蟲的速度，都很可以。
9）明明代碼寫對了，爬不到數據，是不是爬蟲有問題，換個爬蟲能解決么？
如果代碼寫對了，又爬不到數據，換其他爬蟲也是一樣爬不到。遇到這種情況，要麼是網站把你封了，要麼是你爬的數據是javascript生成的。爬不到數據通過換爬蟲是不能解決的。
10）哪個爬蟲可以判斷網站是否爬完、那個爬蟲可以根據主題進行爬取？
爬蟲無法判斷網站是否爬完，只能盡可能覆蓋。
至於根據主題爬取，爬蟲之後把內容爬下來才知道是什麼主題。所以一般都是整個爬下來，然後再去篩選內容。如果嫌爬的太泛，可以通過限制URL正則等方式，來縮小一下范圍。
11）哪個爬蟲的設計模式和構架比較好？
設計模式純屬扯淡。說軟體設計模式好的，都是軟體開發完，然後總結出幾個設計模式。設計模式對軟體開發沒有指導性作用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。
至於構架，開源爬蟲目前主要是細節的數據結構的設計，比如爬取線程池、任務隊列，這些大家都能控制好。爬蟲的業務太簡單，談不上什麼構架。
所以對於JAVA開源爬蟲，我覺得，隨便找一個用的順手的就可以。如果業務復雜，拿哪個爬蟲來，都是要經過復雜的二次開發，才可以滿足需求。
第三類：非JAVA單機爬蟲
在非JAVA語言編寫的爬蟲中，有很多優秀的爬蟲。這里單獨提取出來作為一類，並不是針對爬蟲本身的質量進行討論，而是針對larbin、scrapy這類爬蟲，對開發成本的影響。
先說python爬蟲，python可以用30行代碼，完成JAVA 50行代碼乾的任務。python寫代碼的確快，但是在調試代碼的階段，python代碼的調試往往會耗費遠遠多於編碼階段省下的時間。使用python開發，要保證程序的正確性和穩定性，就需要寫更多的測試模塊。當然如果爬取規模不大、爬取業務不復雜，使用scrapy這種爬蟲也是蠻不錯的，可以輕松完成爬取任務。
對於C++爬蟲來說，學習成本會比較大。而且不能只計算一個人的學習成本，如果軟體需要團隊開發或者交接，那就是很多人的學習成本了。軟體的調試也不是那麼容易。
還有一些ruby、php的爬蟲，這里不多評價。的確有一些非常小型的數據採集任務，用ruby或者php很方便。但是選擇這些語言的開源爬蟲，一方面要調研一下相關的生態圈，還有就是，這些開源爬蟲可能會出一些你搜不到的BUG（用的人少、資料也少）

導航:首頁 > 編程語言 > java爬蟲知乎

java爬蟲知乎

與java爬蟲知乎相關的資料