⑴ java爬虫如何去重
用
requests+Selenium+PhantomJs
多线程爬虫的时候用的是
mp.manager.dict()
来存储已经访问过的网站,如果发现再次访问就直接跳过
我能想到的就是
Bloom
Filter
,按照上面所说用
redis
来去重应该也可以!
⑵ java爬虫如何解析JavaScript
这样的网页一般的爬虫是无法拿到内容的,需要特殊处理。建议你用FF的firebug来跟踪一下调用过程,你会发现其中还有post的过程,在post回来的内容中就包含有你需要的信息,这里post的url才是真正的链接
⑶ java爬虫怎么抓取js动态生成的内容
用nodejs+puppeteer,解析dom结构获取,或者直接观察返回数据的接口,看能不能直接调用
⑷ 怎么提高java爬虫下载的速度呢
用采集器吧,可以并发采集 ,多节点同时跑会比较快
⑸ 给推荐几个github上优秀的java爬虫项目
1.nutch
地址:apache/nutch · GitHub
apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块。
2.Heritrix
地址:internetarchive/heritrix3 · GitHub
很早就有了,经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。
3.crawler4j
地址:yasserg/crawler4j · GitHub
因为只拥有爬虫的核心功能,所以上手极为简单,几分钟就可以写一个多线程爬虫程序。
当然,上面说的nutch有的功能比如数据存储不代表Heritrix没有,反之亦然。具体使用哪个合适还需要仔细阅读文档并配合实验才能下结论啊~
还有比如JSpider,WebEater,Java Web Crawler,WebLech,Ex-Crawler,JoBo等等,这些没用过,不知道。。。
⑹ java爬虫的数据怎么存好
数据除了保存在Excel里,保存在数据库里更好一点;
数据库对于对于数据的总结及概括和操作不是Excel能比的,安全性也比Excel高;
而且保存在数据库的数据也能导入Excel。
⑺ java爬虫怎么用啊
把String url="http://www..com",换成String url="http://www.sina.com"就是改成新浪网的域名了,说白了就是改个网址就行,其他的看不懂没关系,不用改直接systemout 输出看结果就行了
⑻ java爬虫有前途吗
这个不属于隶属关系的。
⑼ JAVA爬虫有前途吗
可以用java啊,我就是用java编的爬虫,可能用别的语言更简单便捷吧。
⑽ 为什么很少人讨论或者使用java爬虫
1、爬虫的经济价值在哪里?只有经济价值存在的情况下,才有必要去开发这样一个爬虫。但不幸的是,现在的很多场合下,爬虫没有太大价值。仅有:比价,数据统计,搜索引擎,信贷爬虫等有限的几个场合在用,而这几个场合基本被大公司垄断了。所以现在很少有人写爬虫了。
2、写个爬虫的难度有多大?一上午,仅此而已。所以没什么难度,顶多设置一下userAgent,设置一下refer,弄个调用顺序先获得cookie,设置个延时什么的。换成金钱看,估价大概价值三四百块吧,用不了多钱。
3、爬虫能用多久?很久很久,只要被爬的系统不升级,那么就能一直用下去,换话说:写一个爬虫,用半年是很常见的事情。很常见就意味着没什么太大意思,不受人关注