java爬虫知乎_python 爬虫框架哪个好知乎

Ⅰ java工程师一般用python做什么知乎

#做网站后台
Python在网站后台这边有大量的成熟的框架，如django，flask，bottle，tornado，我曾经用过flask和django搭建了的两个网站已经上线

http://zhaixueshe.com
http://aljun.me

#写网络爬虫
Python写爬虫非常简单，库很健全

以下是我写的一些爬虫教程和心得
http://aljun.me/post/17

http://aljun.me/post/18

#科学计算
Python有三大神器：numpy,scipy,matplotlib,其中numpy很多底层使用C语言实现的，所以速度很快，我曾经用它参加各种数学建模大赛，完全可以替代r语言和MATLAB

以下是我写的科学计算简单教程
http://aljun.me/post/16

#数据挖掘，机器学习
Python
的机器学习包很多，或者自己可以试着实现机器学习算法，因为Python的类似伪代码的语法，很容易快速实现自己的想法，另外主流的机器学习算法都有成熟
的包，加上谷歌开源的TensorFlow，常用的机器学习包：scikit-learn,pattern,jieba，pybrain等等

#数据科学
最近spark，Hadoop都开了Python的接口，所以使用Python做大数据的maprece也非常简单，加上py对数据库支持都很好，或者类似sqlalchemy的orm也非常强大好用

以及剩下的码算法，玩玩树莓派什么的我就不多说了，

py的强大其实在于他能迅速的实现想法

Ⅱ scrapy爬知乎问题，每次爬到240000多以后就结束了，什么原因

服务器需要参数没传全
建议抓包：模拟get 或post

Ⅲ 求一个能扒知乎图片的爬虫TAT

知乎没啥反爬的措施很好爬的呀.......................................
improt re
import requests
response = requersts.get(''url)
str = re.findall('image" src="(.*?)"' ,response.text')
count = 0
for image_url in str:
(缩进)response_image = requersts.get('image_url')

(缩进)count +=1
(缩进) with open(f'第{count}张.jpg','wb') as fw:

(缩进)(缩进)fw.writer(response_image.content)

Ⅳ 如何使用python爬取知乎数据并做简单分析

一、使用的技术栈：
爬虫：python27 +requests+json+bs4+time
分析工具： ELK套件
开发工具：pycharm
数据成果简单的可视化分析
1.性别分布
0 绿色代表的是男性 ^ . ^
1 代表的是女性
-1 性别不确定
可见知乎的用户男性颇多。
二、粉丝最多的top30
粉丝最多的前三十名：依次是张佳玮、李开复、黄继新等等，去知乎上查这些人，也差不多这个排名，说明爬取的数据具有一定的说服力。
三、写文章最多的top30
四、爬虫架构
爬虫架构图如下：
说明：
选择一个活跃的用户（比如李开复）的url作为入口url.并将已爬取的url存在set中。
抓取内容，并解析该用户的关注的用户的列表url，添加这些url到另一个set中，并用已爬取的url作为过滤。
解析该用户的个人信息，并存取到本地磁盘。
logstash取实时的获取本地磁盘的用户数据，并给elsticsearchkibana和elasticsearch配合，将数据转换成用户友好的可视化图形。
五、编码
爬取一个url:
解析内容：
存本地文件：
代码说明：
* 需要修改获取requests请求头的authorization。
* 需要修改你的文件存储路径。
源码下载：点击这里，记得star哦！https : // github . com/forezp/ZhihuSpiderMan六、如何获取authorization
打开chorme，打开https : // www. hu .com/，
登陆，首页随便找个用户，进入他的个人主页，F12(或鼠标右键，点检查)七、可改进的地方
可增加线程池，提高爬虫效率
存储url的时候我才用的set(),并且采用缓存策略，最多只存2000个url，防止内存不够，其实可以存在redis中。
存储爬取后的用户我说采取的是本地文件的方式，更好的方式应该是存在mongodb中。
对爬取的用户应该有一个信息的过滤，比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。
八、关于ELK套件
关于elk的套件安装就不讨论了，具体见官网就行了。网站：https : // www . elastic . co/另外logstash的配置文件如下：
从爬取的用户数据可分析的地方很多，比如地域、学历、年龄等等，我就不一一列举了。另外，我觉得爬虫是一件非常有意思的事情，在这个内容消费升级的年代，如何在广阔的互联网的数据海洋中挖掘有价值的数据，是一件值得思考和需不断践行的事情。

Ⅳ python 爬虫框架哪个好知乎

1、Scrapy：是一个为了抓取网站数据，提取数据结构性数据而编写的应用框架，可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中，用这个框架可以轻松爬下来各种信息数据。
2、Pyspider：是一个用Python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行抓取结构的存储，还能定时设置任务与任务优先级等。
3、Crawley：可以高速抓取对应网站内容，支持关系和非关系数据库，数据可以导出为json、xml等。
4、Portia：是一个开源可视化爬虫工具，可以让您在不需要任何编程知识的情况下抓取网站，简单地注解您感兴趣的页面，创建一个蜘蛛来从类似的页面抓取数据。
5、Newspaper：可以用来提取新闻、文章和内容分析，使用多线程，支持10多种编程语言。
6、Beautiful Soup：是一个可以从HTML或者xml文件中提取数据的Python库，它能通过你喜欢的转换器实现惯用的文档导航，查找，修改文档的方式;同时帮你节省数小时甚至数天的工作时间。
7、Grab：是一个用于创建web刮板的Python框架，借助Grab，您可以创建各种复杂的网页抓取工具，从简单的五行脚本到处理数万个网页的复杂异步网站抓取工具。Grab提供一个api用于执行网络请求和处理接收到的内容。
8、Cola：是一个分布式的爬虫框架，对于用户来说，只需要编写几个特定的函数，而无需关注分布式运行的细节，任务会自动分配到多台机器上，整个过程对用户是透明的。

Ⅵ Python为什么叫爬虫

爬虫一般是指网络资源的获取，因为python的脚本特征，Python易于配置，对字符的处理也非常灵活，加上python有丰富的网络抓取模块，所以两者经常联系在一起。
接下来我们可以详情了解python到底有什么作用。
首先Python翻译成汉语是蟒蛇的意思，并且Python的logo也是两条缠绕在一起的蟒蛇的样子，然而Python语言和蟒蛇实际上并没有一毛钱关系。

那么Python到底有什么应用方向和特点呢？下面由我来为大家揭晓！！！
Python的应用方向：
①常规软件开发 ② 科学计算
③ 自动化运维 ④ 云计算
⑤ WEB开发 ⑥ 网络爬虫
⑦ 数据分析 ⑧ 人工智能
Python的特点：
① 简单易学、明确优雅、开发速度快。
② 跨平台、可移植、可扩展、交互式、解释型、面向对象的动态语言。
③ “内置电池”，大量的标准库和第三方库。
④ 社区活跃，贡献者多，互帮互助。
⑤ 开源语言，发展动力巨大。

最后我们会发现与C 和 Java 比，Python的学习成本和难度曲线不是低一点，更适合新手入门，自底向上的技术攀爬路线。先订个小目标爬个小山，然后再往更高的山峰前进。而不像C和JAVA光语言学习本身，对于很多人来说就像珠穆朗玛峰一样高不可攀。
Python的语法非常简洁，代码量少，非常容易编写，代码的测试、重构、维护等都非常容易。一个小小的脚本，用C可能需要1000行，用JAVA可能几百行，但是用Python往往只需要几十行！而在当前互联网的时代，产品最讲究的就是速度。如果在之前别人家的产品已经上线了，那么你也就没有生存空间了，这里的真实例子数不胜数。那么，Python的开发速度说第二没人敢称第一!

Ⅶ 哪个开源多线程爬虫比较好学知乎

开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch
2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector
3. 非JAVA单机爬虫：scrapy
第一类：分布式爬虫
爬虫使用分布式，主要是解决两个问题：
1）海量URL管理
2）网速
现在比较流行的分布式爬虫，是Apache的Nutch。但是对于大多数用户来说，Nutch是这几类爬虫里，最不好的选择，理由如下：
1）Nutch是为搜索引擎设计的爬虫，大多数用户是需要一个做精准数据爬取（精抽取）的爬虫。Nutch运行的一套流程里，有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说，用Nutch做数据抽取，会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发，来使得它适用于精抽取的业务，基本上就要破坏Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新写一个分布式爬虫框架了。
2）Nutch依赖hadoop运行，hadoop本身会消耗很多的时间。如果集群机器数量较少，爬取速度反而不如单机爬虫快。
3）Nutch虽然有一套插件机制，而且作为亮点宣传。可以看到一些开源的Nutch插件，提供精抽取的功能。但是开发过Nutch插件的人都知道，Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件，使得程序的编写和调试都变得异常困难，更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点，而这五六个挂载点都是为了搜索引擎服务的，并没有为精抽取提供挂载点。大多数Nutch的精抽取插件，都是挂载在“页面解析”（parser）这个挂载点的，这个挂载点其实是为了解析链接（为后续爬取提供URL），以及为搜索引擎提供一些易抽取的网页信息（网页的meta信息、text文本）。
4）用Nutch进行爬虫的二次开发，爬虫的编写和调试所需的时间，往往是单机爬虫所需的十倍时间不止。了解Nutch源码的学习成本很高，何况是要让一个团队的人都读懂Nutch源码。调试过程中会出现除程序本身之外的各种问题（hadoop的问题、hbase的问题）。
5）很多人说Nutch2有gora，可以持久化数据到avro文件、hbase、mysql等。很多人其实理解错了，这里说的持久化数据，是指将URL信息（URL管理所需要的数据）存放到avro、hbase、mysql。并不是你要抽取的结构化数据。其实对大多数人来说，URL信息存在哪里无所谓。
6）Nutch2的版本目前并不适合开发。官方现在稳定的Nutch版本是nutch2.2.1，但是这个版本绑定了gora-0.3。如果想用hbase配合nutch（大多数人用nutch2就是为了用hbase），只能使用0.90版本左右的hbase，相应的就要将hadoop版本降到hadoop 0.2左右。而且nutch2的官方教程比较有误导作用，Nutch2的教程有两个，分别是Nutch1.x和Nutch2.x，这个Nutch2.x官网上写的是可以支持到hbase 0.94。但是实际上，这个Nutch2.x的意思是Nutch2.3之前、Nutch2.2.1之后的一个版本，这个版本在官方的SVN中不断更新。而且非常不稳定（一直在修改）。
所以，如果你不是要做搜索引擎，尽量不要选择Nutch作为爬虫。有些团队就喜欢跟风，非要选择Nutch来开发精抽取的爬虫，其实是冲着Nutch的名气（Nutch作者是Doug Cutting），当然最后的结果往往是项目延期完成。
如果你是要做搜索引擎，Nutch1.x是一个非常好的选择。Nutch1.x和solr或者es配合，就可以构成一套非常强大的搜索引擎了。如果非要用Nutch2的话，建议等到Nutch2.3发布再看。目前的Nutch2是一个非常不稳定的版本。
第二类：JAVA单机爬虫
这里把JAVA爬虫单独分为一类，是因为JAVA在网络爬虫这块的生态圈是非常完善的。相关的资料也是最全的。这里可能有争议，我只是随便扯淡。
其实开源网络爬虫（框架）的开发非常简单，难问题和复杂的问题都被以前的人解决了（比如DOM树解析和定位、字符集检测、海量URL去重），可以说是毫无技术含量。包括Nutch，其实Nutch的技术难点是开发hadoop，本身代码非常简单。网络爬虫从某种意义来说，类似遍历本机的文件，查找文件中的信息。没有任何难度可言。之所以选择开源爬虫框架，就是为了省事。比如爬虫的URL管理、线程池之类的模块，谁都能做，但是要做稳定也是需要一段时间的调试和修改的。
对于爬虫的功能来说。用户比较关心的问题往往是：
1）爬虫支持多线程么、爬虫能用代理么、爬虫会爬取重复数据么、爬虫能爬取JS生成的信息么？
不支持多线程、不支持代理、不能过滤重复URL的，那都不叫开源爬虫，那叫循环执行http请求。
能不能爬js生成的信息和爬虫本身没有太大关系。爬虫主要是负责遍历网站和下载页面。爬js生成的信息和网页信息抽取模块有关，往往需要通过模拟浏览器（htmlunit,selenium）来完成。这些模拟浏览器，往往需要耗费很多的时间来处理一个页面。所以一种策略就是，使用这些爬虫来遍历网站，遇到需要解析的页面，就将网页的相关信息提交给模拟浏览器，来完成JS生成信息的抽取。
2）爬虫可以爬取ajax信息么？
网页上有一些异步加载的数据，爬取这些数据有两种方法：使用模拟浏览器（问题1中描述过了），或者分析ajax的http请求，自己生成ajax请求的url，获取返回的数据。如果是自己生成ajax请求，使用开源爬虫的意义在哪里？其实是要用开源爬虫的线程池和URL管理功能（比如断点爬取）。
如果我已经可以生成我所需要的ajax请求（列表），如何用这些爬虫来对这些请求进行爬取？
爬虫往往都是设计成广度遍历或者深度遍历的模式，去遍历静态或者动态页面。爬取ajax信息属于deep web（深网）的范畴，虽然大多数爬虫都不直接支持。但是也可以通过一些方法来完成。比如WebCollector使用广度遍历来遍历网站。爬虫的第一轮爬取就是爬取种子集合（seeds）中的所有url。简单来说，就是将生成的ajax请求作为种子，放入爬虫。用爬虫对这些种子，进行深度为1的广度遍历（默认就是广度遍历）。
3）爬虫怎么爬取要登陆的网站？
这些开源爬虫都支持在爬取时指定cookies，模拟登陆主要是靠cookies。至于cookies怎么获取，不是爬虫管的事情。你可以手动获取、用http请求模拟登陆或者用模拟浏览器自动登陆获取cookie。
4）爬虫怎么抽取网页的信息？
开源爬虫一般都会集成网页抽取工具。主要支持两种规范：CSS SELECTOR和XPATH。至于哪个好，这里不评价。
5）爬虫怎么保存网页的信息？
有一些爬虫，自带一个模块负责持久化。比如webmagic，有一个模块叫pipeline。通过简单地配置，可以将爬虫抽取到的信息，持久化到文件、数据库等。还有一些爬虫，并没有直接给用户提供数据持久化的模块。比如crawler4j和webcollector。让用户自己在网页处理模块中添加提交数据库的操作。至于使用pipeline这种模块好不好，就和操作数据库使用ORM好不好这个问题类似，取决于你的业务。
6）爬虫被网站封了怎么办？
爬虫被网站封了，一般用多代理（随机代理）就可以解决。但是这些开源爬虫一般没有直接支持随机代理的切换。所以用户往往都需要自己将获取的代理，放到一个全局数组中，自己写一个代理随机获取（从数组中）的代码。
7）网页可以调用爬虫么？
爬虫的调用是在Web的服务端调用的，平时怎么用就怎么用，这些爬虫都可以使用。
8）爬虫速度怎么样？
单机开源爬虫的速度，基本都可以讲本机的网速用到极限。爬虫的速度慢，往往是因为用户把线程数开少了、网速慢，或者在数据持久化时，和数据库的交互速度慢。而这些东西，往往都是用户的机器和二次开发的代码决定的。这些开源爬虫的速度，都很可以。
9）明明代码写对了，爬不到数据，是不是爬虫有问题，换个爬虫能解决么？
如果代码写对了，又爬不到数据，换其他爬虫也是一样爬不到。遇到这种情况，要么是网站把你封了，要么是你爬的数据是javascript生成的。爬不到数据通过换爬虫是不能解决的。
10）哪个爬虫可以判断网站是否爬完、那个爬虫可以根据主题进行爬取？
爬虫无法判断网站是否爬完，只能尽可能覆盖。
至于根据主题爬取，爬虫之后把内容爬下来才知道是什么主题。所以一般都是整个爬下来，然后再去筛选内容。如果嫌爬的太泛，可以通过限制URL正则等方式，来缩小一下范围。
11）哪个爬虫的设计模式和构架比较好？
设计模式纯属扯淡。说软件设计模式好的，都是软件开发完，然后总结出几个设计模式。设计模式对软件开发没有指导性作用。用设计模式来设计爬虫，只会使得爬虫的设计更加臃肿。
至于构架，开源爬虫目前主要是细节的数据结构的设计，比如爬取线程池、任务队列，这些大家都能控制好。爬虫的业务太简单，谈不上什么构架。
所以对于JAVA开源爬虫，我觉得，随便找一个用的顺手的就可以。如果业务复杂，拿哪个爬虫来，都是要经过复杂的二次开发，才可以满足需求。
第三类：非JAVA单机爬虫
在非JAVA语言编写的爬虫中，有很多优秀的爬虫。这里单独提取出来作为一类，并不是针对爬虫本身的质量进行讨论，而是针对larbin、scrapy这类爬虫，对开发成本的影响。
先说python爬虫，python可以用30行代码，完成JAVA 50行代码干的任务。python写代码的确快，但是在调试代码的阶段，python代码的调试往往会耗费远远多于编码阶段省下的时间。使用python开发，要保证程序的正确性和稳定性，就需要写更多的测试模块。当然如果爬取规模不大、爬取业务不复杂，使用scrapy这种爬虫也是蛮不错的，可以轻松完成爬取任务。
对于C++爬虫来说，学习成本会比较大。而且不能只计算一个人的学习成本，如果软件需要团队开发或者交接，那就是很多人的学习成本了。软件的调试也不是那么容易。
还有一些ruby、php的爬虫，这里不多评价。的确有一些非常小型的数据采集任务，用ruby或者php很方便。但是选择这些语言的开源爬虫，一方面要调研一下相关的生态圈，还有就是，这些开源爬虫可能会出一些你搜不到的BUG（用的人少、资料也少）

导航:首页 > 编程语言 > java爬虫知乎

java爬虫知乎

与java爬虫知乎相关的资料