python爬蟲單線程_為什麼都說爬蟲PYTHON好

㈠ python線程多少合適

導讀：很多朋友問到關於python線程多少合適的相關問題，本文首席CTO筆記就來為大家做個詳細解答，供大家參考，希望對大家有所幫助！一起來看看吧！

python線程池的使用

最近在做一個爬蟲相關的項目，單線程的整站爬蟲，耗時真的不是一般的巨大，運行一次也是心累，，，所以，要想實現整站爬蟲，多線程是不可避免的，那麼python多線程又應該怎樣實現呢？這里主要要幾個問題（關於python多線程的GIL問題就不再說了，網上太多了）。

一、既然多線程可以縮短程序運行時間，那麼，是不是線程數量越多越好呢？

顯然，並不是，每一個線程的從生成到消亡也是需要時間和資源的，太多的線程會佔用過多的系統資源（內存開銷，cpu開銷），而且生成太多的線程時間也是可觀的，很可能會得不償失，這里給出一個最佳線程數量的計算方式：

最佳線程數的獲取：

1、通過用戶慢慢遞增來進行性能壓測，觀察QPS（即每秒的響應請求數，也即是最大吞吐能力。），響應時間

2、根據公式計算:伺服器端最佳線程數量=((線程等待時間+線程cpu時間)/線程cpu時間)*cpu數量

3、單用戶壓測，查看CPU的消耗，然後直接乘以百分比，再進行壓測，一般這個值的附近應該就是最佳線程數量。

二、為什麼要使用線程池？

對於任務數量不斷增加的程序，每有一個任務就生成一個線程，最終會導致線程數量的失控，例如，整站爬蟲，假設初始只有一個鏈接a，那麼，這個時候只啟動一個線程，運行之後，得到這個鏈接對應頁面上的b，c，d，，，等等新的鏈接，作為新任務，這個時候，就要為這些新的鏈接生成新的線程，線程數量暴漲。在之後的運行中，線程數量還會不停的增加，完全無法控制。所以，對於任務數量不端增加的程序，固定線程數量的線程池是必要的。

三、如何使用線程池

過去使用threadpool模塊，現在一般使用concurrent.futures模塊，這個模塊是python3中自帶的模塊，但是，python2.7以上版本也可以安裝使用，具體使用方式如下：

注意到：

concurrent.futures.ThreadPoolExecutor，在提交任務的時候，有兩種方式，一種是submit（）函數，另一種是map（）函數，兩者的主要區別在於：

python多線程並發數量控制

python多線程如果不進行並發數量控制，在啟動線程數量多到一定程度後，會造成線程無法啟動的錯誤。

控制多線程並發數量的方法有好幾鍾，下面介紹用queue控制多線程並發數量的方法。python3

python創建多少個線程得到最優的執行效率？

python因為有GIL全局解釋器鎖，所以python的多線程不能利用多核，但是如果是io密集型的項目，多線程效率也很好，我就是用多線程來做爬蟲的。

為什麼有人說Python的多線程是雞肋

因為Python中臭名昭著的GIL。

那麼GIL是什麼？為什麼會有GIL？多線程真的是雞肋嗎？GIL可以去掉嗎？帶著這些問題，我們一起往下看，同時需要你有一點點耐心。

多線程是不是雞肋，我們先做個實驗，實驗非常簡單，就是將數字「1億」遞減，減到0程序就終止，這個任務如果我們使用單線程來執行，完成時間會是多少？使用多線程又會是多少？showmethecode

單線程

在我的4核CPU計算機中，單線程所花的時間是6.5秒。可能有人會問，線程在哪裡？其實任何程序運行時，默認都會有一個主線程在執行。（關於線程與進程這里不展開，我會單獨開一篇文章）

多線程

創建兩個子線程t1、t2，每個線程各執行5千萬次減操作，等兩個線程都執行完後，主線程終止程序運行。結果，兩個線程以合作的方式執行是6.8秒，反而變慢了。按理來說，兩個線程同時並行地運行在兩個CPU之上，時間應該減半才對，現在不減反增。

是什麼原因導致多線程不快反慢的呢？

原因就在於GIL，在Cpython解釋器（Python語言的主流解釋器）中，有一把全局解釋鎖（GlobalInterpreterLock），在解釋器解釋執行Python代碼時，先要得到這把鎖，意味著，任何時候只可能有一個線程在執行代碼，其它線程要想獲得CPU執行代碼指令，就必須先獲得這把鎖，如果鎖被其它線程佔用了，那麼該線程就只能等待，直到佔有該鎖的線程釋放鎖才有執行代碼指令的可能。

因此，這也就是為什麼兩個線程一起執行反而更加慢的原因，因為同一時刻，只有一個線程在運行，其它線程只能等待，即使是多核CPU，也沒辦法讓多個線程「並行」地同時執行代碼，只能是交替執行，因為多線程涉及到上線文切換、鎖機制處理（獲取鎖，釋放鎖等），所以，多線程執行不快反慢。

什麼時候GIL被釋放呢？

當一個線程遇到I/O任務時，將釋放GIL。計算密集型（CPU-bound）線程執行100次解釋器的計步（ticks）時（計步可粗略看作Python虛擬機的指令），也會釋放GIL。可以通過設置計步長度，查看計步長度。相比單線程，這些多是多線程帶來的額外開銷

CPython解釋器為什麼要這樣設計？

多線程是為了適應現代計算機硬體高速發展充分利用多核處理器的產物，通過多線程使得CPU資源可以被高效利用起來，Python誕生於1991年，那時候硬體配置遠沒有今天這樣豪華，現在一台普通伺服器32核64G內存都不是什麼司空見慣的事

但是多線程有個問題，怎麼解決共享數據的同步、一致性問題，因為，對於多個線程訪問共享數據時，可能有兩個線程同時修改一個數據情況，如果沒有合適的機制保證數據的一致性，那麼程序最終導致異常，所以，Python之父就搞了個全局的線程鎖，不管你數據有沒有同步問題，反正一刀切，上個全局鎖，保證數據安全。這也就是多線程雞肋的原因，因為它沒有細粒度的控制數據的安全，而是用一種簡單粗暴的方式來解決。

這種解決辦法放在90年代，其實是沒什麼問題的，畢竟，那時候的硬體配置還很簡陋，單核CPU還是主流，多線程的應用場景也不多，大部分時候還是以單線程的方式運行，單線程不要涉及線程的上下文切換，效率反而比多線程更高（在多核環境下，不適用此規則）。所以，採用GIL的方式來保證數據的一致性和安全，未必不可取，至少在當時是一種成本很低的實現方式。

那麼把GIL去掉可行嗎？

還真有人這么干多，但是結果令人失望，在1999年GregStein和MarkHammond兩位哥們就創建了一個去掉GIL的Python分支，在所有可變數據結構上把GIL替換為更為細粒度的鎖。然而，做過了基準測試之後，去掉GIL的Python在單線程條件下執行效率將近慢了2倍。

Python之父表示：基於以上的考慮，去掉GIL沒有太大的價值而不必花太多精力。

Python多線程總結

在實際處理數據時，因系統內存有限，我們不可能一次把所有數據都導出進行操作，所以需要批量導出依次操作。為了加快運行，我們會採用多線程的方法進行數據處理，以下為我總結的多線程批量處理數據的模板：

主要分為三大部分：

共分4部分對多線程的內容進行總結。

先為大家介紹線程的相關概念:

在飛車程序中，如果沒有多線程，我們就不能一邊聽歌一邊玩飛車，聽歌與玩游戲不能並行；在使用多線程後，我們就可以在玩游戲的同時聽背景音樂。在這個例子中啟動飛車程序就是一個進程，玩游戲和聽音樂是兩個線程。

Python提供了threading模塊來實現多線程:

因為新建線程系統需要分配資源、終止線程系統需要回收資源，所以如果可以重用線程，則可以減去新建/終止的開銷以提升性能。同時，使用線程池的語法比自己新建線程執行線程更加簡潔。

Python為我們提供了ThreadPoolExecutor來實現線程池，此線程池默認子線程守護。它的適應場景為突發性大量請求或需要大量線程完成任務，但實際任務處理時間較短。

其中max_workers為線程池中的線程個數，常用的遍歷方法有map和submit+as_completed。根據業務場景的不同，若我們需要輸出結果按遍歷順序返回，我們就用map方法，若想誰先完成就返回誰，我們就用submit+as_complete方法。

我們把一個時間段內只允許一個線程使用的資源稱為臨界資源，對臨界資源的訪問，必須互斥的進行。互斥，也稱間接制約關系。線程互斥指當一個線程訪問某臨界資源時，另一個想要訪問該臨界資源的線程必須等待。當前訪問臨界資源的線程訪問結束，釋放該資源之後，另一個線程才能去訪問臨界資源。鎖的功能就是實現線程互斥。

我把線程互斥比作廁所包間上大號的過程，因為包間里只有一個坑，所以只允許一個人進行大號。當第一個人要上廁所時，會將門上上鎖，這時如果第二個人也想大號，那就必須等第一個人上完，將鎖解開後才能進行，在這期間第二個人就只能在門外等著。這個過程與代碼中使用鎖的原理如出一轍，這里的坑就是臨界資源。Python的threading模塊引入了鎖。threading模塊提供了Lock類，它有如下方法加鎖和釋放鎖：

我們會發現這個程序只會列印「第一道鎖」，而且程序既沒有終止，也沒有繼續運行。這是因為Lock鎖在同一線程內第一次加鎖之後還沒有釋放時，就進行了第二次acquire請求，導致無法執行release，所以鎖永遠無法釋放，這就是死鎖。如果我們使用RLock就能正常運行，不會發生死鎖的狀態。

在主線程中定義Lock鎖，然後上鎖，再創建一個子線程t運行main函數釋放鎖，結果正常輸出，說明主線程上的鎖，可由子線程解鎖。

如果把上面的鎖改為RLock則報錯。在實際中設計程序時，我們會將每個功能分別封裝成一個函數，每個函數中都可能會有臨界區域，所以就需要用到RLock。

一句話總結就是Lock不能套娃，RLock可以套娃；Lock可以由其他線程中的鎖進行操作，RLock只能由本線程進行操作。

一篇文章帶你深度解析Python線程和進程

使用Python中的線程模塊，能夠同時運行程序的不同部分，並簡化設計。如果你已經入門Python，並且想用線程來提升程序運行速度的話，希望這篇教程會對你有所幫助。

線程與進程

什麼是進程

進程是系統進行資源分配和調度的一個獨立單位進程是具有一定獨立功能的程序關於某個數據集合上的一次運行活動,進程是系統進行資源分配和調度的一個獨立單位。每個進程都有自己的獨立內存空間，不同進程通過進程間通信來通信。由於進程比較重量，占據獨立的內存，所以上下文進程間的切換開銷（棧、寄存器、虛擬內存、文件句柄等）比較大，但相對比較穩定安全。

什麼是線程

CPU調度和分派的基本單位線程是進程的一個實體，是CPU調度和分派的基本單位,它是比進程更小的能獨立運行的基本單位.線程自己基本上不擁有系統資源,只擁有一點在運行中必不可少的資源(如程序計數器,一組寄存器和棧),但是它可與同屬一個進程的其他的線程共享進程所擁有的全部資源。線程間通信主要通過共享內存，上下文切換很快，資源開銷較少，但相比進程不夠穩定容易丟失數據。

進程與線程的關系圖

線程與進程的區別：

進程

現實生活中，有很多的場景中的事情是同時進行的，比如開車的時候手和腳共同來駕駛汽車，比如唱歌跳舞也是同時進行的，再比如邊吃飯邊打電話；試想如果我們吃飯的時候有一個領導來電，我們肯定是立刻就接聽了。但是如果你吃完飯再接聽或者回電話，很可能會被開除。

注意：

多任務的概念

什麼叫多任務呢？簡單地說，就是操作系統可以同時運行多個任務。打個比方，你一邊在用瀏覽器上網，一邊在聽MP3，一邊在用Word趕作業，這就是多任務，至少同時有3個任務正在運行。還有很多任務悄悄地在後台同時運行著，只是桌面上沒有顯示而已。

現在，多核CPU已經非常普及了，但是，即使過去的單核CPU，也可以執行多任務。由於CPU執行代碼都是順序執行的，那麼，單核CPU是怎麼執行多任務的呢？

答案就是操作系統輪流讓各個任務交替執行，任務1執行0.01秒，切換到任務2，任務2執行0.01秒，再切換到任務3，執行0.01秒，這樣反復執行下去。表面上看，每個任務都是交替執行的，但是，由於CPU的執行速度實在是太快了，我們感覺就像所有任務都在同時執行一樣。

真正的並行執行多任務只能在多核CPU上實現，但是，由於任務數量遠遠多於CPU的核心數量，所以，操作系統也會自動把很多任務輪流調度到每個核心上執行。其實就是CPU執行速度太快啦！以至於我們感受不到在輪流調度。

並行與並發

並行（Parallelism）

並行：指兩個或兩個以上事件（或線程）在同一時刻發生，是真正意義上的不同事件或線程在同一時刻，在不同CPU資源呢上（多核），同時執行。

特點

並發（Concurrency）

指一個物理CPU(也可以多個物理CPU)在若幹道程序（或線程）之間多路復用，並發性是對有限物理資源強制行使多用戶共享以提高效率。

特點

multiprocess.Process模塊

process模塊是一個創建進程的模塊，藉助這個模塊，就可以完成進程的創建。

語法：Process([group[,target[,name[,args[,kwargs]]]]])

由該類實例化得到的對象，表示一個子進程中的任務（尚未啟動）。

注意：1.必須使用關鍵字方式來指定參數；2.args指定的為傳給target函數的位置參數，是一個元祖形式，必須有逗號。

參數介紹：

group：參數未使用，默認值為None。

target：表示調用對象，即子進程要執行的任務。

args：表示調用的位置參數元祖。

kwargs：表示調用對象的字典。如kwargs={'name':Jack,'age':18}。

name：子進程名稱。

代碼：

除了上面這些開啟進程的方法之外，還有一種以繼承Process的方式開啟進程的方式：

通過上面的研究，我們千方百計實現了程序的非同步，讓多個任務可以同時在幾個進程中並發處理，他們之間的運行沒有順序，一旦開啟也不受我們控制。盡管並發編程讓我們能更加充分的利用IO資源，但是也給我們帶來了新的問題。

當多個進程使用同一份數據資源的時候，就會引發數據安全或順序混亂問題，我們可以考慮加鎖，我們以模擬搶票為例，來看看數據安全的重要性。

加鎖可以保證多個進程修改同一塊數據時，同一時間只能有一個任務可以進行修改，即串列的修改。加鎖犧牲了速度，但是卻保證了數據的安全。

因此我們最好找尋一種解決方案能夠兼顧：1、效率高（多個進程共享一塊內存的數據）2、幫我們處理好鎖問題。

mutiprocessing模塊為我們提供的基於消息的IPC通信機制：隊列和管道。隊列和管道都是將數據存放於內存中隊列又是基於（管道+鎖）實現的，可以讓我們從復雜的鎖問題中解脫出來，我們應該盡量避免使用共享數據，盡可能使用消息傳遞和隊列，避免處理復雜的同步和鎖問題，而且在進程數目增多時，往往可以獲得更好的可獲展性（後續擴展該內容）。

線程

Python的threading模塊

Python供了幾個用於多線程編程的模塊，包括thread,threading和Queue等。thread和threading模塊允許程序員創建和管理線程。thread模塊供了基本的線程和鎖的支持，而threading供了更高級別，功能更強的線程管理的功能。Queue模塊允許用戶創建一個可以用於多個線程之間共享數據的隊列數據結構。

python創建和執行線程

創建線程代碼

1.創建方法一:

2.創建方法二:

進程和線程都是實現多任務的一種方式，例如：在同一台計算機上能同時運行多個QQ（進程),一個QQ可以打開多個聊天窗口（線程）。資源共享：進程不能共享資源，而線程共享所在進程的地址空間和其他資源，同時，線程有自己的棧和棧指針。所以在一個進程內的所有線程共享全局變數，但多線程對全局變數的更改會導致變數值得混亂。

代碼演示:

得到的結果是：

首先需要明確的一點是GIL並不是Python的特性，它是在實現Python解析器(CPython)時所引入的一個概念。就好比C++是一套語言（語法）標准，但是可以用不同的編譯器來編譯成可執行代碼。同樣一段代碼可以通過CPython，PyPy，Psyco等不同的Python執行環境來執行（其中的JPython就沒有GIL）。

那麼CPython實現中的GIL又是什麼呢？GIL全稱GlobalInterpreterLock為了避免誤導，我們還是來看一下官方給出的解釋：

主要意思為:

因此，解釋器實際上被一個全局解釋器鎖保護著，它確保任何時候都只有一個Python線程執行。在多線程環境中，Python虛擬機按以下方式執行:

由於GIL的存在，Python的多線程不能稱之為嚴格的多線程。因為多線程下每個線程在執行的過程中都需要先獲取GIL，保證同一時刻只有一個線程在運行。

由於GIL的存在，即使是多線程，事實上同一時刻只能保證一個線程在運行，既然這樣多線程的運行效率不就和單線程一樣了嗎，那為什麼還要使用多線程呢？

由於以前的電腦基本都是單核CPU，多線程和單線程幾乎看不出差別，可是由於計算機的迅速發展，現在的電腦幾乎都是多核CPU了，最少也是兩個核心數的，這時差別就出來了：通過之前的案例我們已經知道，即使在多核CPU中，多線程同一時刻也只有一個線程在運行，這樣不僅不能利用多核CPU的優勢，反而由於每個線程在多個CPU上是交替執行的，導致在不同CPU上切換時造成資源的浪費，反而會更慢。即原因是一個進程只存在一把gil鎖，當在執行多個線程時，內部會爭搶gil鎖，這會造成當某一個線程沒有搶到鎖的時候會讓cpu等待，進而不能合理利用多核cpu資源。

但是在使用多線程抓取網頁內容時，遇到IO阻塞時，正在執行的線程會暫時釋放GIL鎖，這時其它線程會利用這個空隙時間，執行自己的代碼，因此多線程抓取比單線程抓取性能要好，所以我們還是要使用多線程的。

GIL對多線程Python程序的影響

程序的性能受到計算密集型(CPU)的程序限制和I/O密集型的程序限制影響,那什麼是計算密集型和I/O密集型程序呢?

計算密集型：要進行大量的數值計算，例如進行上億的數字計算、計算圓周率、對視頻進行高清解碼等等。這種計算密集型任務雖然也可以用多任務完成，但是花費的主要時間在任務切換的時間，此時CPU執行任務的效率比較低。

IO密集型：涉及到網路請求(time.sleep())、磁碟IO的任務都是IO密集型任務，這類任務的特點是CPU消耗很少，任務的大部分時間都在等待IO操作完成（因為IO的速度遠遠低於CPU和內存的速度）。對於IO密集型任務，任務越多，CPU效率越高，但也有一個限度。

當然為了避免GIL對我們程序產生影響，我們也可以使用，線程鎖。

LockRLock

常用的資源共享鎖機制：有Lock、RLock、Semphore、Condition等，簡單給大家分享下Lock和RLock。

Lock

特點就是執行速度慢，但是保證了數據的安全性

RLock

使用鎖代碼操作不當就會產生死鎖的情況。

什麼是死鎖

死鎖：當線程A持有獨占鎖a，並嘗試去獲取獨占鎖b的同時，線程B持有獨占鎖b，並嘗試獲取獨占鎖a的情況下，就會發生AB兩個線程由於互相持有對方需要的鎖，而發生的阻塞現象，我們稱為死鎖。即死鎖是指多個進程因競爭資源而造成的一種僵局，若無外力作用，這些進程都將無法向前推進。

所以，在系統設計、進程調度等方面注意如何不讓這四個必要條件成立，如何確定資源的合理分配演算法，避免進程永久占據系統資源。

死鎖代碼

python線程間通信

如果各個線程之間各干各的，確實不需要通信，這樣的代碼也十分的簡單。但這一般是不可能的，至少線程要和主線程進行通信，不然計算結果等內容無法取回。而實際情況中要復雜的多，多個線程間需要交換數據，才能得到正確的執行結果。

python中Queue是消息隊列，提供線程間通信機制，python3中重名為為queue，queue模塊塊下提供了幾個阻塞隊列，這些隊列主要用於實現線程通信。

在queue模塊下主要提供了三個類，分別代表三種隊列，它們的主要區別就在於進隊列、出隊列的不同。

簡單代碼演示

此時代碼會阻塞，因為queue中內容已滿，此時可以在第四個queue.put('蘋果')後面添加timeout，則成為queue.put('蘋果'，timeout=1)如果等待1秒鍾仍然是滿的就會拋出異常，可以捕獲異常。

同理如果隊列是空的，無法獲取到內容默認也會阻塞，如果不阻塞可以使用queue.get_nowait()。

在掌握了Queue阻塞隊列的特性之後，在下面程序中就可以利用Queue來實現線程通信了。

下面演示一個生產者和一個消費者，當然都可以多個

使用queue模塊，可在線程間進行通信，並保證了線程安全。

協程

協程，又稱微線程，纖程。英文名Coroutine。

協程是python個中另外一種實現多任務的方式，只不過比線程更小佔用更小執行單元（理解為需要的資源）。為啥說它是一個執行單元，因為它自帶CPU上下文。這樣只要在合適的時機，我們可以把一個協程切換到另一個協程。只要這個過程中保存或恢復CPU上下文那麼程序還是可以運行的。

通俗的理解：在一個線程中的某個函數，可以在任何地方保存當前函數的一些臨時變數等信息，然後切換到另外一個函數中執行，注意不是通過調用函數的方式做到的，並且切換的次數以及什麼時候再切換到原來的函數都由開發者自己確定。

在實現多任務時，線程切換從系統層面遠不止保存和恢復CPU上下文這么簡單。操作系統為了程序運行的高效性每個線程都有自己緩存Cache等等數據，操作系統還會幫你做這些數據的恢復操作。所以線程的切換非常耗性能。但是協程的切換只是單純的操作CPU的上下文，所以一秒鍾切換個上百萬次系統都抗的住。

greenlet與gevent

為了更好使用協程來完成多任務，除了使用原生的yield完成模擬協程的工作，其實python還有的greenlet模塊和gevent模塊，使實現協程變的更加簡單高效。

greenlet雖說實現了協程，但需要我們手工切換，太麻煩了，gevent是比greenlet更強大的並且能夠自動切換任務的模塊。

其原理是當一個greenlet遇到IO

㈡姣曚笟鐢熷繀鐪婸ython鐖鉶涓婃墜鎶宸

Python蹇閫熶笂鎵嬬殑7澶ф妧宸

Python蹇閫熶笂鎵嬬埇鉶鐨7澶ф妧宸

1銆佸熀鏈鎶撳彇緗戦〉

get鏂規硶

post鏂規硶

2銆佷嬌鐢ㄤ唬鐞咺P

鍦ㄥ紑鍙戠埇鉶榪囩▼涓緇忓父浼氶亣鍒癐P琚灝佹帀鐨勬儏鍐碉紝榪欐椂灝遍渶瑕佺敤鍒

浠ｇ悊IP錛

鍦╱rllib 2鍖呬腑鏈塒roxy Handler綾伙紝閫氳繃姝ょ被鍙浠ヨ劇疆浠ｇ悊

璁塊棶緗戦〉錛屽備笅浠ｇ爜鐗囨碉細

3銆丆ookies澶勭悊

cookies鏄鏌愪簺緗戠珯涓轟簡杈ㄥ埆鐢ㄦ埛韜浠姐佽繘琛宻ession璺熻釜鑰

鍌ㄥ瓨鍦ㄧ敤鎴鋒湰鍦扮粓絝涓婄殑鏁版嵁(閫氬父緇忚繃鍔犲瘑) 錛 python鎻愪緵浜

cookie lib妯″潡鐢ㄤ簬澶勭悊cookies錛 cookie lib妯″潡鐨勪富瑕佷綔

鐢ㄦ槸鎻愪緵鍙瀛樺偍cookie鐨勫硅薄錛浠ヤ究浜庝笌urllib 2妯″潡閰嶅悎浣

鐢ㄦ潵璁塊棶Internet璧勬簮銆

浠ｇ爜鐗囨碉細

鍏抽敭鍦ㄤ簬Cookie Jar() 錛瀹冪敤浜庣＄悊HTTP cookie鍊箋佸瓨鍌

HTTP璇鋒眰鐢熸垚鐨刢ookie銆佸悜浼犲嚭鐨凥TTP璇鋒眰娣誨姞cookie

鐨勫硅薄銆傛暣涓猚ookie閮藉瓨鍌ㄥ湪鍐呭瓨涓錛瀵笴ookie Jar瀹炰緥榪

琛屽瀮鍦懼洖鏀跺悗cookie涔熷皢涓㈠け錛鎵鏈夎繃紼嬮兘涓嶉渶瑕佸崟鐙鍘繪搷浣

鎵嬪姩娣誨姞cookie錛

4銆佷吉瑁呮垚嫻忚堝櫒

鏌愪簺緗戠珯鍙嶆劅鐖鉶鐨勫埌璁匡紝浜庢槸瀵圭埇鉶涓寰嬫嫆緇濊鋒眰銆傛墍浠ョ敤

urllib 2鐩存帴璁塊棶緗戠珯緇忓父浼氬嚭鐜癏TTP Error 403錛

Forbidden鐨勬儏鍐點

瀵規湁浜沨eader瑕佺壒鍒鐣欐剰錛 Server絝浼氶拡瀵硅繖浜沨eader

鍋氭鏌ワ細

1.User-Agent鏈変簺Server鎴朠roxy浼氭鏌ヨュ礆紝鐢ㄦ潵鍒

鏂鏄鍚︽槸嫻忚堝櫒鍙戣搗鐨凴equest銆

2.Content-Type鍦ㄤ嬌鐢≧EST鎺ュ彛鏃訛紝 Server浼氭鏌ヨ

鍊礆紝鐢ㄦ潵紜瀹欻TTP Body涓鐨勫唴瀹硅ユ庢牱瑙ｆ瀽銆

榪欐椂鍙浠ラ氳繃淇鏀筯ttp鍖呬腑鐨刪eader鏉ュ疄鐜幫紝浠ｇ爜鐗囨靛備笅

5銆侀獙璇佺爜鐨勫勭悊

瀵逛簬涓浜涚畝鍗曠殑楠岃瘉鐮侊紝鍙浠ヨ繘琛岀畝鍗曠殑璇嗗埆銆傛垜浠鍙榪涜岃繃涓

浜涚畝鍗曠殑楠岃瘉鐮佽瘑鍒錛屼絾鏄鏈変簺鍙嶄漢綾葷殑楠岃瘉鐮侊紝姣斿12306

錛屽彲浠ラ氳繃鎵撶爜騫沖彴榪涜屼漢宸ユ墦鐮侊紝褰撶劧榪欐槸瑕佷粯璐圭殑銆

6銆乬zip鍘嬬緝

鏈夋病鏈夐亣鍒拌繃鏌愪簺緗戦〉錛屼笉璁烘庝箞杞鐮侀兘鏄涓鍥涔辯爜銆傚搱鍝堬紝閭

璇存槑浣犺繕涓嶇煡閬撹稿歸eb鏈嶅姟鍏鋒湁鍙戦佸帇緙╂暟鎹鐨勮兘鍔涳紝榪欏彲

浠ュ皢緗戠粶綰胯礬涓婁紶杈撶殑澶ч噺鏁版嵁娑堝噺60%浠ヤ笂銆傝繖灝ゅ叾閫傜敤浜

XML web鏈嶅姟錛鍥犱負XML鏁版嵁鐨勫帇緙╃巼鍙浠ュ緢楂樸

浣嗘槸涓鑸鏈嶅姟鍣ㄤ笉浼氫負浣犲彂閫佸帇緙╂暟鎹錛岄櫎闈炰綘鍛婅瘔鏈嶅姟鍣ㄤ綘鍙

浠ュ勭悊鍘嬬緝鏁版嵁銆

浜庢槸闇瑕佽繖鏍蜂慨鏀逛唬鐮侊細

榪欐槸鍏抽敭錛氬壋寤篟equest瀵硅薄錛娣誨姞涓涓獮ccept-

encoding澶翠俊鎮鍛婅瘔鏈嶅姟鍣ㄤ綘鑳芥帴鍙梘zip鍘嬬緝鏁版嵁銆

鐒跺悗灝辨槸瑙ｅ帇緙╂暟鎹錛

7銆佸氱嚎紼嬪苟鍙戞姄鍙

鍗曠嚎紼嬪お鎱㈢殑璇濓紝灝遍渶瑕佸氱嚎紼嬩簡錛岃繖閲岀粰涓綆鍗曠殑綰跨▼奼犳ā鏉

榪欎釜紼嬪簭鍙鏄綆鍗曞湴鎵撳嵃浜1-10錛屼絾鏄鍙浠ョ湅鍑烘槸騫跺彂鐨勩

鉶界劧璇碢ython鐨勫氱嚎紼嬪緢楦¤倠錛浣嗘槸瀵逛簬鐖鉶榪欑嶇綉緇滈戠箒鍨

錛岃繕鏄鑳戒竴瀹氱▼搴︽彁楂樻晥鐜囩殑銆

㈢如何利用python寫爬蟲程序

利用python寫爬蟲程序的方法：穗腔

1、先分析網站內容，紅色部芹族閉分即是網站文章內容div。

㈣為什麼都說爬蟲PYTHON好

python上手容易，第三方庫多（go現在第三方庫也多）。

如果不考慮採集速度，不用登陸——requests，單線程，簡單的代碼如下：

url = "http://dd.com"
html = requests.get(url)
html.encoding=('GBK') #避免編碼問題如有報錯，另外測試
print (html.text[:1000]) #輸出1000個字元，避免ide假死。

本人沒學過java c#，不清楚他們兩個一個簡單爬蟲的代碼量，想來最起碼比python的要多。

不過說實話python的工作機會沒有 java c#的多，也就是說別想著花錢去培訓班培訓了幾個月，就能找到月入過萬的工作。

python的運行效率比其他編程語言要差，不考慮效率的情況下，可以用python寫寫小代碼，有錢的可以寫scrapy代碼，堆伺服器做分布式爬蟲。

導航:首頁 > 編程語言 > python爬蟲單線程

python爬蟲單線程

與python爬蟲單線程相關的資料