pythonscrapy分页_如何在scrapy框架下用python实现爬虫自动跳转页面来抓去网页内容

㈠怎么使用python脚本运行多个scrapy爬虫

1、创建多个spider， scrapy genspider spidername domain
scrapy genspider CnblogsHomeSpider cnblogs.com

通过上述命令创建了一个spider name为CnblogsHomeSpider的爬虫，start_urls为、查看项目下有几个爬虫scrapy list
[root@bogon cnblogs]# scrapy list
CnblogsHomeSpider
CnblogsSpider

由此可以知道我的项目下有两个spider，一个名称叫CnblogsHomeSpider，另一个叫CnblogsSpider。

㈡如何用python实现爬虫抓取网页时自动翻页

看了你这个网站，下一页每次都不一样，每一页的链接也不一样，这种你靠分析肯定是不行的，因为你永远都不知道会出来什么内容，建议你用八爪鱼采集器，这是目前最好用的网页数据采集利器，解决这种问题很轻松的。

㈢ python scrapy问题

你的错误信息贴的不全，是不是最后几行有行 write(...., async=False) 的错误？如果是这个错误的话，你需要打这行代码所在文件，把相关的async 改成 async1 或其它名称，因为在新版本python中, async 是一个关键字，冲突了。

㈣基于python的scrapy爬虫，关于增量爬取是怎么处理的

new to scrapy，仅提供几个思路，详细解决方案，自己解决后后续跟进。

如果只是一次性的抓取某个网站的全部内容，中途需要暂停并且恢复，只需要
scrapy crawl somespider -s JOBDIR=crawls/somespider-1
参考：Jobs: pausing and resuming crawls
如果需求是过滤某些url，但是网站的主入口不被过滤掉，比如典型的论坛类网站，你只想过滤掉帖子，但是却不想过滤掉板块，你可以定制一下requestSeen

scrapy/pefilter.py at 0.24 · scrapy/scrapy · GitHub
python - how to filter plicate requests based on url in scrapy

如果使所有网站的动态过滤，比如是不是多了一个新回复，在url上的变化并不能体现出来，搜索引擎采用的是一系列的算法，判断某一个页面的更新时机。个人应用一般不会使用到（其实是自己也不懂，写出来提供一下思路，也许你会呢）。大部分的网页在进入下一级页面的时候都会有一个类似于最后更新时间，最后活动时间等等，可以根据这个来进行判断。

㈤如何在scrapy框架下，用python实现爬虫自动跳转页面来抓去网页内容

Scrapy是一个用Python写的Crawler Framework，简单轻巧，并且非常方便。Scrapy使用Twisted这个异步网络库来处理网络通信，架构清晰，并且包含了各种中间件接口，可以灵活地完成各种需求。Scrapy整体架构如下图所示：

根据架构图介绍一下Scrapy中的各大组件及其功能：

Scrapy引擎（Engine）：负责控制数据流在系统的所有组建中流动，并在相应动作发生触发事件。
调度器（Scheler）：从引擎接收Request并将它们入队，以便之后引擎请求request时提供给引擎。
下载器（Downloader）：负责获取页面数据并提供给引擎，而后提供给Spider。
Spider：Scrapy用户编写用于分析Response并提取Item（即获取到的Item）或额外跟进的URL的类。每个Spider负责处理一个特定（或一些网站）。
Item Pipeline：负责处理被Spider提取出来的Item。典型的处理有清理验证及持久化（例如存储到数据库中，这部分后面会介绍存储到MySQL中，其他的数据库类似）。
下载器中间件（Downloader middlewares）：是在引擎即下载器之间的特定钩子（special hook），处理Downloader传递给引擎的Response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能（后面会介绍配置一些中间并激活，用以应对反爬虫）。
Spider中间件（Spider middlewares）：是在引擎及Spider之间的特定钩子（special hook），处理Spider的输入（response）和输出（Items即Requests）。其提供了一个简便的机制，通过插入自定义的代码来扩展Scrapy功能。

㈥ python scrapy 怎么将爬取的内容写出

首先，安装Python，坑太多了，一个个爬。由于我是windows环境，没钱买mac, 在安装的时候遇到各种各样的问题，确实各种各样的依赖。安装教程不再赘述。如果在安装的过程中遇到 ERROR：需要windows c/c++问题，一般是由于缺少windows开发编译环境，晚上大多数教程是安装一个VisualStudio，太不靠谱了，事实上只要安装一个WindowsSDK就可以了。下面贴上我的爬虫代码：

爬虫主程序：

[python]view plain

#-*-coding:utf-8-*-
importscrapy
fromscrapy.httpimportRequest
fromzjf.FsmzItemsimportFsmzItem
fromscrapy.selectorimportSelector
#圈圈：情感生活
classMySpider(scrapy.Spider):
#爬虫名
name="MySpider"
#设定域名
allowed_domains=["nvsheng.com"]
#爬取地址
start_urls=[]
#flag
x=0
#爬取方法
defparse(self,response):
item=FsmzItem()
sel=Selector(response)
item['title']=sel.xpath('//h1/text()').extract()
item['text']=sel.xpath('//*[@class="content"]/p/text()').extract()
item['imags']=sel.xpath('//div[@id="content"]/p/a/img/@src|//div[@id="content"]/p/img/@src').extract()
ifMySpider.x==0:
page_list=MySpider.getUrl(self,response)
forpage_singleinpage_list:
yieldRequest(page_single)
MySpider.x+=1
yielditem
#init:动态传入参数
#命令行传参写法：scrapycrawlMySpider-astart_url="e_url"
def__init__(self,*args,**kwargs):
super(MySpider,self).__init__(*args,**kwargs)
self.start_urls=[kwargs.get('start_url')]
defgetUrl(self,response):
url_list=[]
select=Selector(response)
page_list_tmp=select.xpath('//div[@class="viewnewpages"]/a[not(@class="next")]/@href').extract()
forpage_tmpinpage_list_tmp:
ifpage_tmpnotinurl_list:
url_list.append("px/"+page_tmp)
returnurl_list

PipeLines类

[python]view plain

#-*-coding:utf-8-*-
#Defineyouritempipelineshere
#
#Don'_PIPELINESsetting
fromzjfimportsettings
importjson,os,re,random
importurllib.request
importrequests,json
fromrequests_toolbelt.multipart.encoderimportMultipartEncoder
classMyPipeline(object):
flag=1
post_title=''
post_text=[]
post_text_imageUrl_list=[]
cs=[]
user_id=''
def__init__(self):
MyPipeline.user_id=MyPipeline.getRandomUser('37619,18441390,18441391')
#processthedata
defprocess_item(self,item,spider):
#获取随机user_id，模拟发帖
user_id=MyPipeline.user_id
#获取正文text_str_tmp
text=item['text']
text_str_tmp=""
forstrintext:
text_str_tmp=text_str_tmp+str
#print(text_str_tmp)
#获取标题
ifMyPipeline.flag==1:
title=item['title']
MyPipeline.post_title=MyPipeline.post_title+title[0]
#保存并上传图片
text_insert_pic=''
text_insert_pic_w=''
text_insert_pic_h=''
forimag_urlinitem['imags']:
img_name=imag_url.replace('/','').replace('.','').replace('|','').replace(':','')
pic_dir=settings.IMAGES_STORE+'%s.jpg'%(img_name)
urllib.request.urlretrieve(imag_url,pic_dir)
#图片上传，返回json
upload_img_result=MyPipeline.uploadImage(pic_dir,'image/jpeg')
#获取json中保存图片路径
text_insert_pic=upload_img_result['result']['image_url']
text_insert_pic_w=upload_img_result['result']['w']
text_insert_pic_h=upload_img_result['result']['h']
#拼接json
ifMyPipeline.flag==1:
cs_json={"c":text_str_tmp,"i":"","w":text_insert_pic_w,"h":text_insert_pic_h}
else:
cs_json={"c":text_str_tmp,"i":text_insert_pic,"w":text_insert_pic_w,"h":text_insert_pic_h}
MyPipeline.cs.append(cs_json)
MyPipeline.flag+=1
returnitem
#spider开启时被调用
defopen_spider(self,spider):
pass
#sipder关闭时被调用
defclose_spider(self,spider):
strcs=json.mps(MyPipeline.cs)
jsonData={"apisign":"","user_id":MyPipeline.user_id,"gid":30,"t":MyPipeline.post_title,"cs":strcs}
MyPipeline.uploadPost(jsonData)
#上传图片
defuploadImage(img_path,content_type):
"uploadImagefunctions"
#UPLOAD_IMG_URL="dpostimage"
UPLOAD_IMG_URL="oadpostimage"
#传图片
#imgPath='D:picshttp___img_nvsheng_com_uploads_allimg_170119_18-1f1191g440_jpg.jpg'
m=MultipartEncoder(
#fields={'user_id':'192323',
#'images':('filename',open(imgPath,'rb'),'image/JPEG')}
fields={'user_id':MyPipeline.user_id,
'apisign':'',
'image':('filename',open(img_path,'rb'),'image/jpeg')}
)
r=requests.post(UPLOAD_IMG_URL,data=m,headers={'Content-Type':m.content_type})
returnr.json()
defuploadPost(jsonData):
CREATE_POST_URL="hmagespost"

[python]view plain

reqPost=requests.post(CREATE_POST_URL,data=jsonData)

[python]view plain

defgetRandomUser(userStr):
user_list=[]
user_chooesd=''
foruser_idinstr(userStr).split(','):
user_list.append(user_id)
userId_idx=random.randint(1,len(user_list))
user_chooesd=user_list[userId_idx-1]
returnuser_chooesd

字段保存Items类

[python]view plain

#-*-coding:utf-8-*-
#
#
#Seedocumentationin:
importscrapy
classFsmzItem(scrapy.Item):
#:
#name=scrapy.Field()
title=scrapy.Field()
#tutor=scrapy.Field()
#strongText=scrapy.Field()
text=scrapy.Field()
imags=scrapy.Field()

在命令行里键入
scrapy crawl MySpider -a start_url="www.aaa.com"

这样就可以爬取aaa.com下的内容了

㈦ python scrapy 爬虫怎么运行

我也遇到了这个问题，我的解决方法是，先将列表按照时间排序后再抓取，每次抓取完记录最后一条的url，下载再抓取时，遇到这个url，抓取就自动退出。如果解决了您的问题请采纳！如果未解决请继续追问！

㈧如何在scrapy框架下，用python实现爬虫自动跳转页面来抓去网页内容

（1）一种是像我之前爬虫新京报网的新闻，下一页的url可以通过审查元素获得，第一页的网址是http://www.bjnews.com.cn/news/list-43-page-1.html
在第一页的时候，下一页按钮的审查元素是

我们通过获取next_pages = response.xpath('//div[@id="page"]/a[@class="next"]/@href').extract()[0]
,便可以得到下一页的url,next_page = "http://www.bjnews.com.cn" + next_pages,

这一部分的完整代码为：

page_link=set() #保存下一页页面url

content_link=set() #保存页面内所有可获得的url

rules={'page':LinkExtractor(allow=(r'^http://www.bjnews.com.cn/\w+/2016/\d{2}/\d{2}/\d{6}.html
))}

start_urls={'http://www.bjnews.com.cn/news/list-43-page-1.html'}

def parse(self, response):

#爬取一个页面内的所有url链接

    for link in self.rules['page'].extract_links(response):

        if link.url not in self.content_link:

            self.page_link.add(link.url)

            yield scrapy.Request(link.url, callback=self.parse_item)

#自动获取下一页的url

    next_pages = response.xpath('//div[@id="page"]/a[@class="next"]/@href').extract()[0]

    if next_pages:

        next_page = "http://www.bjnews.com.cn" + next_pages

        self.page_link.add(next_page)

        yield scrapy.Request(next_page, callback=self.parse)

(2)第二种情况，就是在下一页的审查元素中没有提供url链接，需要自己分析，在这里依然举个例子，比如搜狐新闻http://news.sohu.com/guojixinwen.shtml，该页中下一页按钮的审查元素是：

我们不能通过href来直接过得下一页的url,需要自己手动获得，那现在我们来分析

第二页的url:http://news.sohu.com/guojixinwen_5230.shtml,第三页的http://news.sohu.com/guojixinwen_5229.shtml，最后一页的http://news.sohu.com/guojixinwen_5132.shtml，由此可以分析出这一共100页的url，是http://news.sohu.com/guoneixinwen_"+i+".shtml",其中i是从5230到5132倒序排列的，也就是说通过for循环，就可以获得这100页的所有url,完整代码如下：在这里给大家加一个新的方法的使用start_request,该方法就是子定义start_urls，把所有自定义的url放到page_link中，self.make_requests_from_url方法会自动获取里面的请求

㈨ python中的scrapy是什么意思a

Scrapy英文意思是刮擦
被用来命名爬虫界知名的框架。
使用这个框架可以轻易实现常规网页采集。也支持大型架构。升级后redis更是支持分布式。利用scrapyd更是可以发布服务。
从事爬虫方向必学！

㈩ scrapy和python有什么关系

Scrapy是Python开发的一个快速、高层次的web数据抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘和监测。

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等。

Scrapy算得上是Python世界中最常用的爬虫框架了，同时它也是我掌握的几种流行语言中最好的爬虫框架，没有之一！我认为它也是最难学习的框架，同样没有之一。很多初学Scarpy的经常向我抱怨完全不清楚Scrapy该怎样入手，即使看的是中文的文档，也感到很难理解。我当初接触Scrapy时也有这样的感觉。之所以感到Scrapy难学，究其原因，是其官方文档实在太过凌乱，又缺少实用的代码例子，让人看得云里雾里，不知其所已然。虽然其文档不良，但却没有遮挡住它的光辉，它依然是Python世界中目前最好用的爬虫框架。其架构的思路、蜘蛛执行的效能，还有可扩展的能力都非常出众，再配以Python语言的简洁轻巧，使得爬虫的开发事半功倍。

导航:首页 > 编程语言 > pythonscrapy分页

pythonscrapy分页

与pythonscrapy分页相关的资料