java網路爬蟲開源_java 網路爬蟲怎麼實現

① java開源web爬蟲哪個好用

Lucene+nutch+heritrix網上可以找得到源代碼，開源的搜索引擎，包含爬蟲、檢索等功能。

Heritrix是一個爬蟲框架，可加如入一些可互換的組件。它的執行是遞歸進行的，主要有以下幾步： 1。在預定的URI中選擇一個。 2。獲取URI 3。分析，歸檔結果 4。選擇已經發現的感興趣的URI。加入預定隊列。 5。標記已經處理過的URI 是IA的開放源代碼，可擴展的，基於整個Web的，歸檔網路爬蟲工程 Heritrix工程始於2003年初，IA的目的是開發一個特殊的爬蟲，對網上的資源進行歸檔，建立網路數字圖書館，在過去的6年裡，IA已經建立了400TB的數據。最新版本:heritrix-1.15.4 IA期望他們的crawler包含以下幾種：寬頻爬蟲：能夠以更高的帶寬去站點爬。主題爬蟲：集中於被選擇的問題。持續爬蟲：不僅僅爬更當前的網頁還負責爬日後更新的網頁。實驗爬蟲：對爬蟲技術進行實驗，以決定該爬什麼，以及對不同協議的爬蟲爬行結果進行分析的。 Heritrix的主頁是http://crawler.archive.org Heritrix是一個爬蟲框架，可加如入一些可互換的組件。它的執行是遞歸進行的，主要有以下幾步： 1。在預定的URI中選擇一個。 2。獲取URI 3。分析，歸檔結果 4。選擇已經發現的感興趣的URI。加入預定隊列。 5。標記已經處理過的URI
[編輯本段]部件
主要部件
Heritrix主要有三大部件：范圍部件，邊界部件，處理器鏈范圍部件：主要按照規則決定將哪個URI入隊。邊界部件：跟蹤哪個預定的URI將被收集，和已經被收集的URI，選擇下一個 URI，剔除已經處理過的URI。處理器鏈：包含若干處理器獲取URI，分析結果，將它們傳回給邊界部件
其餘部件
WEB管理控制台：大多數都是單機的WEB應用，內嵌JAVA HTTP 伺服器。操作者可以通過選擇Crawler命令來操作控制台。 Crawler命令處理部件：包含足夠的信息創建要爬的URI。 Servercache（處理器緩存）：存放伺服器的持久信息，能夠被爬行部件隨時查到，包括IP地址，歷史記錄，機器人策略。處理器鏈：預取鏈：主要是做一些准備工作，例如，對處理進行延遲和重新處理，否決隨後的操作。提取鏈：主要是獲得資源，進行DNS轉換，填寫請求和響應表單抽取鏈：當提取完成時，抽取感興趣的HTML，JavaScript，通常那裡有新的也適合的URI，此時URI僅僅被發現，不會被評估寫鏈：存儲爬行結果，返回內容和抽取特性，過濾完存儲。提交鏈：做最後的維護，例如，測試那些不在范圍內的，提交給邊界部件
[編輯本段]關鍵特性
Heritrix 1.0.0包含以下關鍵特性： 1.用單個爬蟲在多個獨立的站點一直不斷的進行遞歸的爬。 2。從一個提供的種子進行爬，收集站點內的精確URI，和精確主機。 3。主要是用廣度優先演算法進行處理。 4。主要部件都是高效的可擴展的 5。良好的配置，包括： a。可設置輸出日誌，歸檔文件和臨時文件的位置 b。可設置下載的最大位元組，最大數量的下載文檔，和最大的下載時間。 c。可設置工作線程數量。 d。可設置所利用的帶寬的上界。 e。可在設置之後一定時間重新選擇。 f。包含一些可設置的過濾機制，表達方式，URI路徑深度選擇等等。 Heritrix的局限： 1。單實例的爬蟲，之間不能進行合作。 2。在有限的機器資源的情況下，卻要復雜的操作。 3。只有官方支持，僅僅在Linux上進行了測試。 4。每個爬蟲是單獨進行工作的，沒有對更新進行修訂。 5。在硬體和系統失敗時，恢復能力很差。

② java 網路爬蟲怎麼實現

以爬取豆瓣《紅海行動》的所有評論為例，目標是爬取所有評論以及發表評論的用戶名。

getHtml()類，首先是URL url1=new URL(url);模擬在網頁輸入網址，接著 URLConnection uc=url1.openConnection();模擬敲回車鍵打開該網址頁面，後面的看注釋應該能看懂了。bf.readLine()是依次每行讀取頁面的源碼，

/**
* 下載HTML頁面源碼
* @author yangjianxin
* @return string @author yangjianxin
* @time 2018-03-09
*/

public static String getHtml(String url,String encoding) {
StringBuffer sb=new StringBuffer();
BufferedReader bf = null;
InputStreamReader isr = null;
try {
//創建網路連接
URL url1=new URL(url);
//打開網路
URLConnection uc=url1.openConnection();
uc.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
//建立文件輸入流
isr=new InputStreamReader(uc.getInputStream(),encoding);
//高效率讀取
bf=new BufferedReader(isr);
//下載頁面源碼

String temp=null;
while((temp=bf.readLine())!=null) {
sb.append(temp+"\n");
}
//System.out.println(sb.toString());

} catch (MalformedURLException e) {
System.out.println("網頁打開失敗，請重新輸入網址。");
e.printStackTrace();
}catch (IOException e) {
System.out.println("網頁打開失敗,請檢查網路。");
e.printStackTrace();
}finally {
if(bf!=null) {try {
bf.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
if(isr!=null) {
try {
isr.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
return sb.toString();

}

getGoalDate()類，Document document=Jsoup.parse(html)，運用Jsoup.parse()解析網頁源碼，接著就是開始確定自己需要爬取的東西在網頁里的位置，這需要我們對html有點了解，能看、讀懂網頁標簽，可以看出當前頁面的所有評論都在id為"content"的大盒子里，每條評論都在class名為"main review-item"的小盒子里， for(Element el:elments)是指對象el在當前頁面循環去小盒子"main review-item"查找我們要爬取的東西，也就是用戶名和評論， String name=el.getElementsByClass("name").text()中的「name」可以在當前盒子里查找到用戶名，用.text()將它賦予給變數name，同理評論也是這樣抓取，如果不用將它存入磁碟，則可以後面那段文件操作刪除，只列印就行

③ java爬蟲的話有哪些框架

像比較新的webmagic

④ 開源爬蟲框架各有什麼優缺點

開發網路爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector還是其他的？這里按照我的經驗隨便扯淡一下：上面說的爬蟲，基本可以分3類：1.分布式爬蟲：Nutch
2.JAVA單機爬蟲：Crawler4j、WebMagic、WebCollector
3. 非JAVA單機爬蟲：scrapy
第一類：分布式爬蟲
爬蟲使用分布式，主要是解決兩個問題：
1）海量URL管理
2）網速
現在比較流行的分布式爬蟲，是Apache的Nutch。但是對於大多數用戶來說，Nutch是這幾類爬蟲里，最不好的選擇，理由如下：
1）Nutch是為搜索引擎設計的爬蟲，大多數用戶是需要一個做精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程里，有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。也就是說，用Nutch做數據抽取，會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新寫一個分布式爬蟲框架了。
2）Nutch依賴hadoop運行，hadoop本身會消耗很多的時間。如果集群機器數量較少，爬取速度反而不如單機爬蟲快。
3）Nutch雖然有一套插件機制，而且作為亮點宣傳。可以看到一些開源的Nutch插件，提供精抽取的功能。但是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套復雜的精抽取系統了。而且Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是為了搜索引擎服務的，並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」（parser）這個掛載點的，這個掛載點其實是為了解析鏈接（為後續爬取提供URL），以及為搜索引擎提供一些易抽取的網頁信息（網頁的meta信息、text文本）。
4）用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高，何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題（hadoop的問題、hbase的問題）。
5）很多人說Nutch2有gora，可以持久化數據到avro文件、hbase、mysql等。很多人其實理解錯了，這里說的持久化數據，是指將URL信息（URL管理所需要的數據）存放到avro、hbase、mysql。並不是你要抽取的結構化數據。其實對大多數人來說，URL信息存在哪裡無所謂。
6）Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1，但是這個版本綁定了gora-0.3。如果想用hbase配合nutch（大多數人用nutch2就是為了用hbase），只能使用0.90版本左右的hbase，相應的就要將hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比較有誤導作用，Nutch2的教程有兩個，分別是Nutch1.x和Nutch2.x，這個Nutch2.x官網上寫的是可以支持到hbase 0.94。但是實際上，這個Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之後的一個版本，這個版本在官方的SVN中不斷更新。而且非常不穩定（一直在修改）。
所以，如果你不是要做搜索引擎，盡量不要選擇Nutch作為爬蟲。有些團隊就喜歡跟風，非要選擇Nutch來開發精抽取的爬蟲，其實是沖著Nutch的名氣（Nutch作者是Doug Cutting），當然最後的結果往往是項目延期完成。
如果你是要做搜索引擎，Nutch1.x是一個非常好的選擇。Nutch1.x和solr或者es配合，就可以構成一套非常強大的搜索引擎了。如果非要用Nutch2的話，建議等到Nutch2.3發布再看。目前的Nutch2是一個非常不穩定的版本。
第二類：JAVA單機爬蟲
這里把JAVA爬蟲單獨分為一類，是因為JAVA在網路爬蟲這塊的生態圈是非常完善的。相關的資料也是最全的。這里可能有爭議，我只是隨便扯淡。
其實開源網路爬蟲（框架）的開發非常簡單，難問題和復雜的問題都被以前的人解決了（比如DOM樹解析和定位、字元集檢測、海量URL去重），可以說是毫無技術含量。包括Nutch，其實Nutch的技術難點是開發hadoop，本身代碼非常簡單。網路爬蟲從某種意義來說，類似遍歷本機的文件，查找文件中的信息。沒有任何難度可言。之所以選擇開源爬蟲框架，就是為了省事。比如爬蟲的URL管理、線程池之類的模塊，誰都能做，但是要做穩定也是需要一段時間的調試和修改的。
對於爬蟲的功能來說。用戶比較關心的問題往往是：
1）爬蟲支持多線程么、爬蟲能用代理么、爬蟲會爬取重復數據么、爬蟲能爬取JS生成的信息么？
不支持多線程、不支持代理、不能過濾重復URL的，那都不叫開源爬蟲，那叫循環執行http請求。
能不能爬js生成的信息和爬蟲本身沒有太大關系。爬蟲主要是負責遍歷網站和下載頁面。爬js生成的信息和網頁信息抽取模塊有關，往往需要通過模擬瀏覽器（htmlunit,selenium）來完成。這些模擬瀏覽器，往往需要耗費很多的時間來處理一個頁面。所以一種策略就是，使用這些爬蟲來遍歷網站，遇到需要解析的頁面，就將網頁的相關信息提交給模擬瀏覽器，來完成JS生成信息的抽取。
2）爬蟲可以爬取ajax信息么？
網頁上有一些非同步載入的數據，爬取這些數據有兩種方法：使用模擬瀏覽器（問題1中描述過了），或者分析ajax的http請求，自己生成ajax請求的url，獲取返回的數據。如果是自己生成ajax請求，使用開源爬蟲的意義在哪裡？其實是要用開源爬蟲的線程池和URL管理功能（比如斷點爬取）。
如果我已經可以生成我所需要的ajax請求（列表），如何用這些爬蟲來對這些請求進行爬取？
爬蟲往往都是設計成廣度遍歷或者深度遍歷的模式，去遍歷靜態或者動態頁面。爬取ajax信息屬於deep web（深網）的范疇，雖然大多數爬蟲都不直接支持。但是也可以通過一些方法來完成。比如WebCollector使用廣度遍歷來遍歷網站。爬蟲的第一輪爬取就是爬取種子集合（seeds）中的所有url。簡單來說，就是將生成的ajax請求作為種子，放入爬蟲。用爬蟲對這些種子，進行深度為1的廣度遍歷（默認就是廣度遍歷）。
3）爬蟲怎麼爬取要登陸的網站？
這些開源爬蟲都支持在爬取時指定cookies，模擬登陸主要是靠cookies。至於cookies怎麼獲取，不是爬蟲管的事情。你可以手動獲取、用http請求模擬登陸或者用模擬瀏覽器自動登陸獲取cookie。
4）爬蟲怎麼抽取網頁的信息？
開源爬蟲一般都會集成網頁抽取工具。主要支持兩種規范：CSS SELECTOR和XPATH。至於哪個好，這里不評價。
5）爬蟲怎麼保存網頁的信息？
有一些爬蟲，自帶一個模塊負責持久化。比如webmagic，有一個模塊叫pipeline。通過簡單地配置，可以將爬蟲抽取到的信息，持久化到文件、資料庫等。還有一些爬蟲，並沒有直接給用戶提供數據持久化的模塊。比如crawler4j和webcollector。讓用戶自己在網頁處理模塊中添加提交資料庫的操作。至於使用pipeline這種模塊好不好，就和操作資料庫使用ORM好不好這個問題類似，取決於你的業務。
6）爬蟲被網站封了怎麼辦？
爬蟲被網站封了，一般用多代理（隨機代理）就可以解決。但是這些開源爬蟲一般沒有直接支持隨機代理的切換。所以用戶往往都需要自己將獲取的代理，放到一個全局數組中，自己寫一個代理隨機獲取（從數組中）的代碼。
7）網頁可以調用爬蟲么？
爬蟲的調用是在Web的服務端調用的，平時怎麼用就怎麼用，這些爬蟲都可以使用。
8）爬蟲速度怎麼樣？
單機開源爬蟲的速度，基本都可以講本機的網速用到極限。爬蟲的速度慢，往往是因為用戶把線程數開少了、網速慢，或者在數據持久化時，和資料庫的交互速度慢。而這些東西，往往都是用戶的機器和二次開發的代碼決定的。這些開源爬蟲的速度，都很可以。
9）明明代碼寫對了，爬不到數據，是不是爬蟲有問題，換個爬蟲能解決么？
如果代碼寫對了，又爬不到數據，換其他爬蟲也是一樣爬不到。遇到這種情況，要麼是網站把你封了，要麼是你爬的數據是javascript生成的。爬不到數據通過換爬蟲是不能解決的。
10）哪個爬蟲可以判斷網站是否爬完、那個爬蟲可以根據主題進行爬取？
爬蟲無法判斷網站是否爬完，只能盡可能覆蓋。
至於根據主題爬取，爬蟲之後把內容爬下來才知道是什麼主題。所以一般都是整個爬下來，然後再去篩選內容。如果嫌爬的太泛，可以通過限制URL正則等方式，來縮小一下范圍。
11）哪個爬蟲的設計模式和構架比較好？
設計模式純屬扯淡。說軟體設計模式好的，都是軟體開發完，然後總結出幾個設計模式。設計模式對軟體開發沒有指導性作用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。
至於構架，開源爬蟲目前主要是細節的數據結構的設計，比如爬取線程池、任務隊列，這些大家都能控制好。爬蟲的業務太簡單，談不上什麼構架。
所以對於JAVA開源爬蟲，我覺得，隨便找一個用的順手的就可以。如果業務復雜，拿哪個爬蟲來，都是要經過復雜的二次開發，才可以滿足需求。
第三類：非JAVA單機爬蟲
在非JAVA語言編寫的爬蟲中，有很多優秀的爬蟲。這里單獨提取出來作為一類，並不是針對爬蟲本身的質量進行討論，而是針對larbin、scrapy這類爬蟲，對開發成本的影響。
先說python爬蟲，python可以用30行代碼，完成JAVA 50行代碼乾的任務。python寫代碼的確快，但是在調試代碼的階段，python代碼的調試往往會耗費遠遠多於編碼階段省下的時間。使用python開發，要保證程序的正確性和穩定性，就需要寫更多的測試模塊。當然如果爬取規模不大、爬取業務不復雜，使用scrapy這種爬蟲也是蠻不錯的，可以輕松完成爬取任務。
對於C++爬蟲來說，學習成本會比較大。而且不能只計算一個人的學習成本，如果軟體需要團隊開發或者交接，那就是很多人的學習成本了。軟體的調試也不是那麼容易。
還有一些ruby、php的爬蟲，這里不多評價。的確有一些非常小型的數據採集任務，用ruby或者php很方便。但是選擇這些語言的開源爬蟲，一方面要調研一下相關的生態圈，還有就是，這些開源爬蟲可能會出一些你搜不到的BUG（用的人少、資料也少）
End.

⑤ Java網路爬蟲怎麼實現

網路爬蟲是一個自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。
傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。對於垂直搜索來說，聚焦爬蟲，即有針對性地爬取特定主題網頁的爬蟲，更為適合。

以下是一個使用java實現的簡單爬蟲核心代碼：
public void crawl() throws Throwable {
while (continueCrawling()) {
CrawlerUrl url = getNextUrl(); //獲取待爬取隊列中的下一個URL
if (url != null) {
printCrawlInfo();
String content = getContent(url); //獲取URL的文本信息

//聚焦爬蟲只爬取與主題內容相關的網頁，這里採用正則匹配簡單處理
if (isContentRelevant(content, this.regexpSearchPattern)) {
saveContent(url, content); //保存網頁至本地

//獲取網頁內容中的鏈接，並放入待爬取隊列中
Collection urlStrings = extractUrls(content, url);
addUrlsToUrlQueue(url, urlStrings);
} else {
System.out.println(url + " is not relevant ignoring ...");
}

//延時防止被對方屏蔽
Thread.sleep(this.delayBetweenUrls);
}
}
closeOutputStream();
}
private CrawlerUrl getNextUrl() throws Throwable {
CrawlerUrl nextUrl = null;
while ((nextUrl == null) && (!urlQueue.isEmpty())) {
CrawlerUrl crawlerUrl = this.urlQueue.remove();
//doWeHavePermissionToVisit：是否有許可權訪問該URL，友好的爬蟲會根據網站提供的"Robot.txt"中配置的規則進行爬取
//isUrlAlreadyVisited：URL是否訪問過，大型的搜索引擎往往採用BloomFilter進行排重，這里簡單使用HashMap
//isDepthAcceptable：是否達到指定的深度上限。爬蟲一般採取廣度優先的方式。一些網站會構建爬蟲陷阱（自動生成一些無效鏈接使爬蟲陷入死循環），採用深度限制加以避免
if (doWeHavePermissionToVisit(crawlerUrl)
&& (!isUrlAlreadyVisited(crawlerUrl))
&& isDepthAcceptable(crawlerUrl)) {
nextUrl = crawlerUrl;
// System.out.println("Next url to be visited is " + nextUrl);
}
}
return nextUrl;
}
private String getContent(CrawlerUrl url) throws Throwable {
//HttpClient4.1的調用與之前的方式不同
HttpClient client = new DefaultHttpClient();
HttpGet httpGet = new HttpGet(url.getUrlString());
StringBuffer strBuf = new StringBuffer();
HttpResponse response = client.execute(httpGet);
if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {
HttpEntity entity = response.getEntity();
if (entity != null) {
BufferedReader reader = new BufferedReader(
new InputStreamReader(entity.getContent(), "UTF-8"));
String line = null;
if (entity.getContentLength() > 0) {
strBuf = new StringBuffer((int) entity.getContentLength());
while ((line = reader.readLine()) != null) {
strBuf.append(line);
}
}
}
if (entity != null) {
nsumeContent();
}
}
//將url標記為已訪問
markUrlAsVisited(url);
return strBuf.toString();
}
public static boolean isContentRelevant(String content,
Pattern regexpPattern) {
boolean retValue = false;
if (content != null) {
//是否符合正則表達式的條件
Matcher m = regexpPattern.matcher(content.toLowerCase());
retValue = m.find();
}
return retValue;
}
public List extractUrls(String text, CrawlerUrl crawlerUrl) {
Map urlMap = new HashMap();
extractHttpUrls(urlMap, text);
extractRelativeUrls(urlMap, text, crawlerUrl);
return new ArrayList(urlMap.keySet());
}
private void extractHttpUrls(Map urlMap, String text) {
Matcher m = (text);
while (m.find()) {
String url = m.group();
String[] terms = url.split("a href=\"");
for (String term : terms) {
// System.out.println("Term = " + term);
if (term.startsWith("http")) {
int index = term.indexOf("\"");
if (index > 0) {
term = term.substring(0, index);
}
urlMap.put(term, term);
System.out.println("Hyperlink: " + term);
}
}
}
}
private void extractRelativeUrls(Map urlMap, String text,
CrawlerUrl crawlerUrl) {
Matcher m = relativeRegexp.matcher(text);
URL textURL = crawlerUrl.getURL();
String host = textURL.getHost();
while (m.find()) {
String url = m.group();
String[] terms = url.split("a href=\"");
for (String term : terms) {
if (term.startsWith("/")) {
int index = term.indexOf("\"");
if (index > 0) {
term = term.substring(0, index);
}
String s = //" + host + term;
urlMap.put(s, s);
System.out.println("Relative url: " + s);
}
}
}

}
public static void main(String[] args) {
try {
String url = "";
Queue urlQueue = new LinkedList();
String regexp = "java";
urlQueue.add(new CrawlerUrl(url, 0));
NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L,
regexp);
// boolean allowCrawl = crawler.areWeAllowedToVisit(url);
// System.out.println("Allowed to crawl: " + url + " " +
// allowCrawl);
crawler.crawl();
} catch (Throwable t) {
System.out.println(t.toString());
t.printStackTrace();
}
}

⑥ java如何做高級爬蟲

下面說明知乎爬蟲的源碼和涉及主要技術點：
（1）程序package組織

（2）模擬登錄（爬蟲主要技術點1）
要爬去需要登錄的網站數據，模擬登錄是必要可少的一步，而且往往是難點。知乎爬蟲的模擬登錄可以做一個很好的案例。要實現一個網站的模擬登錄，需要兩大步驟是：（1）對登錄的請求過程進行分析，找到登錄的關鍵請求和步驟，分析工具可以有IE自帶(快捷鍵F12)、Fiddler、HttpWatcher；（2）編寫代碼模擬登錄的過程。

（3）網頁下載（爬蟲主要技術點2）
模擬登錄後，便可下載目標網頁html了。知乎爬蟲基於HttpClient寫了一個網路連接線程池，並且封裝了常用的get和post兩種網頁下載的方法。

（4）自動獲取網頁編碼（爬蟲主要技術點3）
自動獲取網頁編碼是確保下載網頁html不出現亂碼的前提。知乎爬蟲中提供方法可以解決絕大部分亂碼下載網頁亂碼問題。

（5）網頁解析和提取（爬蟲主要技術點4）
使用Java寫爬蟲，常見的網頁解析和提取方法有兩種：利用開源Jar包Jsoup和正則。一般來說，Jsoup就可以解決問題，極少出現Jsoup不能解析和提取的情況。Jsoup強大功能，使得解析和提取異常簡單。知乎爬蟲採用的就是Jsoup。 ...展開下面說明知乎爬蟲的源碼和涉及主要技術點：
（1）程序package組織

（2）模擬登錄（爬蟲主要技術點1）
要爬去需要登錄的網站數據，模擬登錄是必要可少的一步，而且往往是難點。知乎爬蟲的模擬登錄可以做一個很好的案例。要實現一個網站的模擬登錄，需要兩大步驟是：（1）對登錄的請求過程進行分析，找到登錄的關鍵請求和步驟，分析工具可以有IE自帶(快捷鍵F12)、Fiddler、HttpWatcher；（2）編寫代碼模擬登錄的過程。

（3）網頁下載（爬蟲主要技術點2）
模擬登錄後，便可下載目標網頁html了。知乎爬蟲基於HttpClient寫了一個網路連接線程池，並且封裝了常用的get和post兩種網頁下載的方法。

（4）自動獲取網頁編碼（爬蟲主要技術點3）
自動獲取網頁編碼是確保下載網頁html不出現亂碼的前提。知乎爬蟲中提供方法可以解決絕大部分亂碼下載網頁亂碼問題。

（5）網頁解析和提取（爬蟲主要技術點4）
使用Java寫爬蟲，常見的網頁解析和提取方法有兩種：利用開源Jar包Jsoup和正則。一般來說，Jsoup就可以解決問題，極少出現Jsoup不能解析和提取的情況。Jsoup強大功能，使得解析和提取異常簡單。知乎爬蟲採用的就是Jsoup。

（6）正則匹配與提取（爬蟲主要技術點5）
雖然知乎爬蟲採用Jsoup來進行網頁解析，但是仍然封裝了正則匹配與提取數據的方法，因為正則還可以做其他的事情，如在知乎爬蟲中使用正則來進行url地址的過濾和判斷。

（7）數據去重（爬蟲主要技術點6）
對於爬蟲，根據場景不同，可以有不同的去重方案。（1）少量數據，比如幾萬或者十幾萬條的情況，使用Map或Set便可；（2）中量數據，比如幾百萬或者上千萬，使用BloomFilter（著名的布隆過濾器）可以解決；（3）大量數據，上億或者幾十億，Redis可以解決。知乎爬蟲給出了BloomFilter的實現，但是採用的Redis進行去重。

（8）設計模式等Java高級編程實踐
除了以上爬蟲主要的技術點之外，知乎爬蟲的實現還涉及多種設計模式，主要有鏈模式、單例模式、組合模式等，同時還使用了Java反射。除了學習爬蟲技術，這對學習設計模式和Java反射機制也是一個不錯的案例。
4. 一些抓取結果展示收起

⑦ 如何使用Java語言實現一個網頁爬蟲

Java開源Web爬蟲

Heritrix

Heritrix是一個開源，可擴展的web爬蟲項目。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標簽。

更多Heritrix信息

WebSPHINX

WebSPHINX是一個Java類包和Web爬蟲的互動式開發環境。Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程序。WebSPHINX由兩部分組成：爬蟲工作平台和WebSPHINX類包。

更多WebSPHINX信息

WebLech

WebLech是一個功能強大的Web站點下載與鏡像工具。它支持按功能需求來下載web站點並能夠盡可能模仿標准Web瀏覽器的行為。WebLech有一個功能控制台並採用多線程操作。

⑧ 開源爬蟲框架各有什麼優缺點

首先爬蟲框架有三種

分布式爬蟲：Nutch
JAVA單機爬蟲：Crawler4j，WebMagic，WebCollector
非JAVA單機爬蟲：scrapy

第一類:分布式爬蟲

優點：

海量URL管理
網速快

缺點：

Nutch是為搜索引擎設計的爬蟲，大多數用戶是需要一個做精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程里，有三分之二是為了搜索引擎而設計的。對精抽取沒有太大的意義。
用Nutch做數據抽取，會浪費很多的時間在不必要的計算上。而且如果你試圖通過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非。
Nutch依賴hadoop運行，hadoop本身會消耗很多的時間。如果集群機器數量較少，爬取速度反而不如單機爬蟲。
Nutch雖然有一套插件機制，而且作為亮點宣傳。可以看到一些開源的Nutch插件，提供精抽取的功能。但是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來載入和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套復雜的精抽取系統了。
Nutch並沒有為精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是為了搜索引擎服務的，並沒有為精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」(parser)這個掛載點的，這個掛載點其實是為了解析鏈接（為後續爬取提供URL），以及為搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text)
用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，往往是單機爬蟲所需的十倍時間不止。了解Nutch源碼的學習成本很高，何況是要讓一個團隊的人都讀懂Nutch源碼。調試過程中會出現除程序本身之外的各種問題(hadoop的問題、hbase的問題)。
Nutch2的版本目前並不適合開發。官方現在穩定的Nutch版本是nutch2.2.1，但是這個版本綁定了gora-0.3。Nutch2.3之前、Nutch2.2.1之後的一個版本，這個版本在官方的SVN中不斷更新。而且非常不穩定（一直在修改）。

第二類:JAVA單機爬蟲

優點：

支持多線程。
支持代理。
能過濾重復URL的。
負責遍歷網站和下載頁面。爬js生成的信息和網頁信息抽取模塊有關，往往需要通過模擬瀏覽器(htmlunit,selenium)來完成。

缺點：

設計模式對軟體開發沒有指導性作用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。

第三類:非JAVA單機爬蟲

優點：

先說python爬蟲，python可以用30行代碼，完成JAVA
50行代碼乾的任務。python寫代碼的確快，但是在調試代碼的階段，python代碼的調試往往會耗費遠遠多於編碼階段省下的時間。
使用python開發，要保證程序的正確性和穩定性，就需要寫更多的測試模塊。當然如果爬取規模不大、爬取業務不復雜，使用scrapy這種爬蟲也是蠻不錯的，可以輕松完成爬取任務。

缺點：

bug較多，不穩定。

⑨ 求java網路爬蟲的源代碼

apache上有個Lucence項目，是開源的搜索引擎。
你可以下載一份源代碼。
中國還有一個中文網站，還有像Lucence
In
Action
這本書到處都可以下載
估計
www.xunlei.com
上就有

導航:首頁 > 編程語言 > java網路爬蟲開源

java網路爬蟲開源

第一類:分布式爬蟲

優點：

缺點：

第二類:JAVA單機爬蟲

優點：

缺點：

設計模式對軟體開發沒有指導性作用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。

第三類:非JAVA單機爬蟲

優點：

缺點：

與java網路爬蟲開源相關的資料