⑴ java爬蟲如何去重
用
requests+Selenium+PhantomJs
多線程爬蟲的時候用的是
mp.manager.dict()
來存儲已經訪問過的網站,如果發現再次訪問就直接跳過
我能想到的就是
Bloom
Filter
,按照上面所說用
redis
來去重應該也可以!
⑵ java爬蟲如何解析JavaScript
這樣的網頁一般的爬蟲是無法拿到內容的,需要特殊處理。建議你用FF的firebug來跟蹤一下調用過程,你會發現其中還有post的過程,在post回來的內容中就包含有你需要的信息,這里post的url才是真正的鏈接
⑶ java爬蟲怎麼抓取js動態生成的內容
用nodejs+puppeteer,解析dom結構獲取,或者直接觀察返回數據的介面,看能不能直接調用
⑷ 怎麼提高java爬蟲下載的速度呢
用採集器吧,可以並發採集 ,多節點同時跑會比較快
⑸ 給推薦幾個github上優秀的java爬蟲項目
1.nutch
地址:apache/nutch · GitHub
apache下的開源爬蟲程序,功能豐富,文檔完整。有數據抓取解析以及存儲的模塊。
2.Heritrix
地址:internetarchive/heritrix3 · GitHub
很早就有了,經歷過很多次更新,使用的人比較多,功能齊全,文檔完整,網上的資料也多。有自己的web管理控制台,包含了一個HTTP 伺服器。操作者可以通過選擇Crawler命令來操作控制台。
3.crawler4j
地址:yasserg/crawler4j · GitHub
因為只擁有爬蟲的核心功能,所以上手極為簡單,幾分鍾就可以寫一個多線程爬蟲程序。
當然,上面說的nutch有的功能比如數據存儲不代表Heritrix沒有,反之亦然。具體使用哪個合適還需要仔細閱讀文檔並配合實驗才能下結論啊~
還有比如JSpider,WebEater,Java Web Crawler,WebLech,Ex-Crawler,JoBo等等,這些沒用過,不知道。。。
⑹ java爬蟲的數據怎麼存好
數據除了保存在Excel里,保存在資料庫里更好一點;
資料庫對於對於數據的總結及概括和操作不是Excel能比的,安全性也比Excel高;
而且保存在資料庫的數據也能導入Excel。
⑺ java爬蟲怎麼用啊
把String url="http://www..com",換成String url="http://www.sina.com"就是改成新浪網的域名了,說白了就是改個網址就行,其他的看不懂沒關系,不用改直接systemout 輸出看結果就行了
⑻ java爬蟲有前途嗎
這個不屬於隸屬關系的。
⑼ JAVA爬蟲有前途嗎
可以用java啊,我就是用java編的爬蟲,可能用別的語言更簡單便捷吧。
⑽ 為什麼很少人討論或者使用java爬蟲
1、爬蟲的經濟價值在哪裡?只有經濟價值存在的情況下,才有必要去開發這樣一個爬蟲。但不幸的是,現在的很多場合下,爬蟲沒有太大價值。僅有:比價,數據統計,搜索引擎,信貸爬蟲等有限的幾個場合在用,而這幾個場合基本被大公司壟斷了。所以現在很少有人寫爬蟲了。
2、寫個爬蟲的難度有多大?一上午,僅此而已。所以沒什麼難度,頂多設置一下userAgent,設置一下refer,弄個調用順序先獲得cookie,設置個延時什麼的。換成金錢看,估價大概價值三四百塊吧,用不了多錢。
3、爬蟲能用多久?很久很久,只要被爬的系統不升級,那麼就能一直用下去,換話說:寫一個爬蟲,用半年是很常見的事情。很常見就意味著沒什麼太大意思,不受人關注