导航:首页 > 编程语言 > python爬虫不行了

python爬虫不行了

发布时间:2022-05-13 04:58:40

python爬虫爬取不出信息

Python爬虫程序本身没有问题,但是却爬取不了数据主要原因如下:

1.对方有反爬程序
几乎所网站为了防止一些恶意抓取,会设置反爬程序,你会发现明明很多数据显示在浏览器上,但是却抓取不出来。
2.伪装方式没有绕过目标网站反爬
网站都有反爬虫机制,防止爬取数据,爬虫想要爬取数据,就需要隐藏自身的身份,伪装成用户的身份进行访问,如果没有伪装好,被检测到爬虫,也是被会限制的。比如请求头没有设置好,Cookie问题等等。
3.IP被限制
爬虫除了IP所有数据都可以伪装,当你的IP访问次数过多之后,就会被限制住,再也无法访问了。这个时候就需要带入ip代理池了。

② python爬虫报错,是cookies的问题吗

不是cookie的问题。
先要确定你浏览器返回的是什么内容,如果是网页,decode是可以的,但也要正确选择编码。
如果是其他格式比如二进制内容,那decode是必然出错的。
建议把完整代码特别是url贴出来。

③ python爬虫为什么打开一些网页会几率失败

那是你的爬虫程序被反爬了,现在的网页反爬机制五花八门,有UA,有cookie,有时间戳等等,找到网页加密规律,调整代码再试试吧!

④ python爬虫问题出错原因求助

错误:httplib.BadStatusLine:''这个错误,一般是服务器返回数据为空导致的。其实爬虫,重要的是模拟正常的数据访问,那么你需要做的是先正常访问你的目标页面,抓下包,将header里的数据,完全在你的代码中还原出来,这样才能保证获取到数据

⑤ Python 写的爬虫爬久了就假死怎么回事

有可能你频繁的爬取同一个网站的数据,这个网站把你的ip暂时或者永久的加入了黑名单,一段时间内或者永久限制你的访问。网站可能有最大访问频率的限制,根据这个时间来设置时延可以解决这个问题。或者可能由于网络不稳定等原因。至于其他的问题就不清楚了。

⑥ python爬虫学不好怎么办

大牛与小白的差别,就是小白花费九牛二虎之力完成的项目,大牛举手投足就能分分钟搞定。那大牛到底牛×在哪儿?是他们掌握了更多的工具和技能包,借力出招。今天小泽就给大家整理8个Python库及使用方法与场景,助你快速提高效率。(建议收藏)
在数据库中即时保存数据:Dataset
当我们想要在不知道最终数据库表长什么样的情况下,快速收集数据并保存到数据库中的时候,Dataset 库将是我们的最佳选择。Dataset 库有一个简单但功能强大的 API,因此我们可以很容易的把数据保存下来,之后再进行整理。
Dataset 建立在 SQLAlchemy 之上,所以如果需要对它进行扩展,你会感到非常熟悉。使用 Django 内建的 inspectdb 管理命令可以很容易地把底层数据库模型导入 Django 中,这使得和现有数据库一同工作不会出现任何障碍。
从网页抓取数据:Beautiful Soup
Beautiful Soup(一般写作 BS4)库使得从 HTML 网页中提取信息变得非常简单。当我们需要把非结构化或弱结构化的 HTML 转换为结构化数据的时候,就需要使用 Beautiful Soup 。用它来处理 XML 数据也是一个很好的选择,否则 XML 的可读性或许会很差。
和 HTTP 内容打交道:Requests
当需要和 HTTP 内容打交道的时候,Requests 毫无疑问是最好的标准库。当我们想要抓取 HTML 网页或连接 API 的时候,都离不开 Requests 库。同时,它也有很好的文档。
编写命令行工具:Click
当需要写一个简单的 Python 脚本作为命令行工具的时候,Click 是我最喜欢用的库。它的 API 非常直观,并且在实现时经过了深思熟虑,我们只需要记住很少的几个模式。它的文档也很优秀,这使得学习其高级特性更加容易。
对事物命名:Python Slugify
众所周知,命名是一件困难的事情。Python Slugify 是一个非常有用的库,它可以把一个标题或描述转成一个带有特性的唯一标识符。如果你正在做一个 Web 项目,并且你想要使用对搜索引擎优化友好SEO-friendly的链接,那么,使用 Python Slugify 可以让这件事变得很容易。

⑦ 我在用python爬虫,代码没错,却会报错

代码贴上来看看,调试一下就知道问题了,很可能是网页编码不对。你抓其它网站试试。

⑧ Python爬虫采集遇到403问题怎么办

403是网页状态码,表示访问拒绝或者禁止访问。

应该是你触发到网站的反爬虫机制了。

解决方法是:

1.伪造报文头部user-agent(网上有详细教程不用多说)
2.使用可用代理ip,如果你的代理不可用也会访问不了
3.是否需要帐户登录,使用cookielib模块登录帐户操作

4.如果以上方法还是不行,那么你的ip已被拉入黑名单静止访问了。等一段时间再操作。如果等等了还是不行的话:

使用phatomjs或者selenium模块试试。

还不行使用scrapy等爬虫框架看看。

以上都不行,说明这网站反爬机制做的很好,爬不了了,没法了,不过我觉得很少有这种做得很好的网站

⑨ python爬虫失败

解码的时候记得加入

z_data=data.decode('UTF-8','ignore')

ignore是忽略错误解码而不会报错

因为什么啊

现在写前端的兄弟姐妹啊

怎么方便用什么码写

造成一个前端或者后端存在几种编码机制

当你utf-8遇到不是这个码的时候就会报错啦

⑩ python 爬虫,爬不到数据

那数据是动态的,是通过js动态添加上去的,所以获取不到。不仅是通过js动态添加的。而且从服务器获取的数据是加密过的,然后再解密,最后张渲染到页面上。

阅读全文

与python爬虫不行了相关的资料

热点内容
管家婆辉煌2加密狗挪到另一台电脑 浏览:760
摩托车在哪里app看考题 浏览:356
苹果5app在哪里设置 浏览:737
如何查看服务器的磁盘使用 浏览:165
python蒙特卡洛模型投点图 浏览:330
安卓手机属于什么接口 浏览:742
微信群推广网站源码 浏览:764
九江离鹰潭源码 浏览:719
python可以当作函数的返回值 浏览:422
地铁逃生体验服怎么进入安卓 浏览:833
齐鲁工惠app的中奖记录在哪里 浏览:759
linuxkill命令详解 浏览:103
dhcp服务器动态分配地址 浏览:265
门禁卡加密了能破解吗 浏览:215
在哪里下载百度网盘app 浏览:917
服务器要升级什么意思 浏览:831
银行还房贷解压方法 浏览:702
服务器主机办公如何提速 浏览:920
cad打印为pdf 浏览:418
卖手表的app哪里可以卖 浏览:55