python爬蟲不行了_我在用python爬蟲代碼沒錯卻會報錯

① python爬蟲爬取不出信息

Python爬蟲程序本身沒有問題，但是卻爬取不了數據主要原因如下：

1.對方有反爬程序
幾乎所網站為了防止一些惡意抓取，會設置反爬程序，你會發現明明很多數據顯示在瀏覽器上，但是卻抓取不出來。
2.偽裝方式沒有繞過目標網站反爬
網站都有反爬蟲機制，防止爬取數據，爬蟲想要爬取數據，就需要隱藏自身的身份，偽裝成用戶的身份進行訪問，如果沒有偽裝好，被檢測到爬蟲，也是被會限制的。比如請求頭沒有設置好，Cookie問題等等。
3.IP被限制
爬蟲除了IP所有數據都可以偽裝，當你的IP訪問次數過多之後，就會被限制住，再也無法訪問了。這個時候就需要帶入ip代理池了。

② python爬蟲報錯，是cookies的問題嗎

不是cookie的問題。
先要確定你瀏覽器返回的是什麼內容，如果是網頁，decode是可以的，但也要正確選擇編碼。
如果是其他格式比如二進制內容，那decode是必然出錯的。
建議把完整代碼特別是url貼出來。

③ python爬蟲為什麼打開一些網頁會幾率失敗

那是你的爬蟲程序被反爬了，現在的網頁反爬機制五花八門，有UA，有cookie，有時間戳等等，找到網頁加密規律，調整代碼再試試吧！

④ python爬蟲問題出錯原因求助

錯誤：httplib.BadStatusLine:''這個錯誤，一般是伺服器返回數據為空導致的。其實爬蟲，重要的是模擬正常的數據訪問，那麼你需要做的是先正常訪問你的目標頁面，抓下包，將header里的數據，完全在你的代碼中還原出來，這樣才能保證獲取到數據

⑤ Python 寫的爬蟲爬久了就假死怎麼回事

有可能你頻繁的爬取同一個網站的數據，這個網站把你的ip暫時或者永久的加入了黑名單，一段時間內或者永久限制你的訪問。網站可能有最大訪問頻率的限制，根據這個時間來設置時延可以解決這個問題。或者可能由於網路不穩定等原因。至於其他的問題就不清楚了。

⑥ python爬蟲學不好怎麼辦

大牛與小白的差別，就是小白花費九牛二虎之力完成的項目，大牛舉手投足就能分分鍾搞定。那大牛到底牛×在哪兒？是他們掌握了更多的工具和技能包，借力出招。今天小澤就給大家整理8個Python庫及使用方法與場景，助你快速提高效率。（建議收藏）
在資料庫中即時保存數據：Dataset
當我們想要在不知道最終資料庫表長什麼樣的情況下，快速收集數據並保存到資料庫中的時候，Dataset 庫將是我們的最佳選擇。Dataset 庫有一個簡單但功能強大的 API，因此我們可以很容易的把數據保存下來，之後再進行整理。
Dataset 建立在 SQLAlchemy 之上，所以如果需要對它進行擴展，你會感到非常熟悉。使用 Django 內建的 inspectdb 管理命令可以很容易地把底層資料庫模型導入 Django 中，這使得和現有資料庫一同工作不會出現任何障礙。
從網頁抓取數據：Beautiful Soup
Beautiful Soup（一般寫作 BS4）庫使得從 HTML 網頁中提取信息變得非常簡單。當我們需要把非結構化或弱結構化的 HTML 轉換為結構化數據的時候，就需要使用 Beautiful Soup 。用它來處理 XML 數據也是一個很好的選擇，否則 XML 的可讀性或許會很差。
和 HTTP 內容打交道：Requests
當需要和 HTTP 內容打交道的時候，Requests 毫無疑問是最好的標准庫。當我們想要抓取 HTML 網頁或連接 API 的時候，都離不開 Requests 庫。同時，它也有很好的文檔。
編寫命令行工具：Click
當需要寫一個簡單的 Python 腳本作為命令行工具的時候，Click 是我最喜歡用的庫。它的 API 非常直觀，並且在實現時經過了深思熟慮，我們只需要記住很少的幾個模式。它的文檔也很優秀，這使得學習其高級特性更加容易。
對事物命名：Python Slugify
眾所周知，命名是一件困難的事情。Python Slugify 是一個非常有用的庫，它可以把一個標題或描述轉成一個帶有特性的唯一標識符。如果你正在做一個 Web 項目，並且你想要使用對搜索引擎優化友好SEO-friendly的鏈接，那麼，使用 Python Slugify 可以讓這件事變得很容易。

⑦ 我在用python爬蟲，代碼沒錯，卻會報錯

代碼貼上來看看，調試一下就知道問題了，很可能是網頁編碼不對。你抓其它網站試試。

⑧ Python爬蟲採集遇到403問題怎麼辦

403是網頁狀態碼，表示訪問拒絕或者禁止訪問。

應該是你觸發到網站的反爬蟲機制了。

解決方法是：

1.偽造報文頭部user-agent（網上有詳細教程不用多說）
2.使用可用代理ip，如果你的代理不可用也會訪問不了
3.是否需要帳戶登錄，使用cookielib模塊登錄帳戶操作

4.如果以上方法還是不行，那麼你的ip已被拉入黑名單靜止訪問了。等一段時間再操作。如果等等了還是不行的話：

使用phatomjs或者selenium模塊試試。

還不行使用scrapy等爬蟲框架看看。

以上都不行，說明這網站反爬機製做的很好，爬不了了，沒法了，不過我覺得很少有這種做得很好的網站

⑨ python爬蟲失敗

解碼的時候記得加入

z_data=data.decode('UTF-8','ignore')

ignore是忽略錯誤解碼而不會報錯

因為什麼啊

現在寫前端的兄弟姐妹啊

怎麼方便用什麼碼寫

造成一個前端或者後端存在幾種編碼機制

當你utf-8遇到不是這個碼的時候就會報錯啦

⑩ python 爬蟲，爬不到數據

那數據是動態的，是通過js動態添加上去的，所以獲取不到。不僅是通過js動態添加的。而且從伺服器獲取的數據是加密過的，然後再解密，最後張渲染到頁面上。

導航:首頁 > 編程語言 > python爬蟲不行了

python爬蟲不行了

與python爬蟲不行了相關的資料