導航:首頁 > 源碼編譯 > python爬取指令源碼

python爬取指令源碼

發布時間:2022-08-18 16:09:43

『壹』 python怎麼爬取數據

根據你要抓取頁面的源碼欄位來進行爬取。根據對應的源碼找到你的需求數據,主要用到requests+BeautifulSoup,其中requests用於請求頁面,BeautifulSoup用於解析頁面。

『貳』 python怎麼爬取網頁源代碼

#!/usr/bin/env python3
#-*- coding=utf-8 -*-

import urllib3

if __name__ == '__main__':
http=urllib3.PoolManager()
r=http.request('GET','IP')
print(r.data.decode("gbk"))

可以正常抓取。需要安裝urllib3,py版本3.43

『叄』 python怎麼看源碼進行網路爬蟲

在我們日常上網瀏覽網頁的時候,經常會看到一些好看的圖片,我們就希望把這些圖片保存下載,或者用戶用來做桌面壁紙,或者用來做設計的素材。
我們最常規的做法就是通過滑鼠右鍵,選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項,還有辦法就通過就是通過截圖工具截取下來,但這樣就降低圖片的清晰度。好吧~!其實你很厲害的,右鍵查看頁面源代碼。
我們可以通過python 來實現這樣一個簡單的爬蟲功能,把我們想要的代碼爬取到本地。下面就看看如何使用python來實現這樣一個功能。

一,獲取整個頁面數據

首先我們可以先獲取要下載圖片的整個頁面信息。
getjpg.py

#coding=utf-8
import urllib

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

html = getHtml("http://tieba..com/p/2738151262")

print html

Urllib 模塊提供了讀取web頁面數據的介面,我們可以像讀取本地文件一樣讀取www和ftp上的數據。首先,我們定義了一個getHtml()函數:
urllib.urlopen()方法用於打開一個URL地址。
read()方法用於讀取URL上的數據,向getHtml()函數傳遞一個網址,並把整個頁面下載下來。執行程序就會把整個網頁列印輸出。

二,篩選頁面中想要的數據

Python 提供了非常強大的正則表達式,我們需要先要了解一點python 正則表達式的知識才行。
http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html

假如我們網路貼吧找到了幾張漂亮的壁紙,通過到前段查看工具。找到了圖片的地址,如:src=」https://gss0..com/70cFfyinKgQFm2e88IuM_a/forum......jpg」pic_ext=」jpeg」

修改代碼如下:

import re
import urllib

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
return imglist

html = getHtml("http://tieba..com/p/2460150866")
print getImg(html)

我們又創建了getImg()函數,用於在獲取的整個頁面中篩選需要的圖片連接。re模塊主要包含了正則表達式:
re.compile() 可以把正則表達式編譯成一個正則表達式對象.
re.findall() 方法讀取html 中包含 imgre(正則表達式)的數據。
運行腳本將得到整個頁面中包含圖片的URL地址。

三,將頁面篩選的數據保存到本地

把篩選的圖片地址通過for循環遍歷並保存到本地,代碼如下:

#coding=utf-8
import urllib
import re

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1

html = getHtml("http://tieba..com/p/2460150866")

print getImg(html)

這里的核心是用到了urllib.urlretrieve()方法,直接將遠程數據下載到本地。
通過一個for循環對獲取的圖片連接進行遍歷,為了使圖片的文件名看上去更規范,對其進行重命名,命名規則通過x變數加1。保存的位置默認為程序的存放目錄。
程序運行完成,將在目錄下看到下載到本地的文件。

『肆』 Python如何爬取知乎一個話題下的全部源碼(為什麼我只能獲取很少一部分)

手動打開知乎也只能看到很少一部分,必須下拉才會載入。所以要模擬這種動作吧。

『伍』 求助,python 解析爬取的網頁源碼中的json部分

我用re把json的部分截取出來了,也用json.loads()解析成了字典,現在的問題是裡面需要的信息那部分是有一些是unicode 編碼的,求解。。。。
{"pageName":"mainsrp","mods":{"shopcombotip":{"status":"hide","export":false},"shopstar":{"status":"hide","export":false},"navtablink":{"status":"hide","export":false},"personalbar":{"status":"show","data":{"metisData":{"nickname":"","query":"秋季打底衫","shopItems":[{"text":"黃鑽愛買店鋪","count":"500+","url":"/search?q\u003d秋季打底衫\u0026tab\u003dmysearch\u0026filter_rectype\u003d44\u0026stats_click\u003dms_from:44","trace":"metis44"},{"text":"回頭客愛買店鋪","count":"500+","url":"/search?q\u003d秋季打底衫\u0026tab\u003dmysearch\

『陸』 python3.9。在網頁源代碼中爬取的漢字代碼如何轉換回漢字

以前總是覺得,爬蟲是個很高大上的東西,就像盜取別人的數據一樣。現在才知道,爬蟲能爬到的,都是網頁上能看到的,說白了就是別人給你看的。
所謂爬蟲,就是先獲取網頁的源代碼,然後從源代碼中篩選出自己想要的資源,比如網頁上的圖片、視頻等文件,甚至網頁上的文字。接下來,我們就用Python來爬取網頁上的圖片。
首先我們先獲取網站的源碼。
然後就是從萬千的源碼中解析出自己想要的資源了,我這里想要的是網站上的圖片。
個人覺得,這個爬蟲考驗的,還是正則表達式的功底,怎麼寫好正則表達式,才能將所有想要的資源都解析出來,其他的都比較簡單。
以下是我從網頁上爬下來的部分圖片。

『柒』 Python如何實現爬取需要登錄的網站代碼實例

final String url = "jdbc:oracle:thin:@localhost:1521:ORCL";
final String user = "store";
final String password = "store_password";
Class.forName("oracle.jdbc.driver.OracleDriver");
Connection con = DriverManager.getConnection(url, user, password);
return con;
}

『捌』 如何用Python爬取數據

方法/步驟

『玖』 python,求一個簡單的selenium+re的網頁源碼爬取

網頁爬取不一定要用Selenium,Selenium是為了注入瀏覽器獲取點擊行為的調試工具,如果網頁無需人工交互就可以抓取,不建議你使用selenium。要使用它,你需要安裝一個工具軟體,使用Chrome瀏覽器需要下載chromedriver.exe到system32下,如使用firefox則要下載geckodriver.exe到system32下。下面以chromedriver驅動chrome為例:

#-*-coding:UTF-8-*-
fromseleniumimportwebdriver
frombs4importBeautifulSoup
importre
importtime

if__name__=='__main__':

options=webdriver.ChromeOptions()
options.add_argument('user-agent="Mozilla/5.0(Linux;Android4.0.4;GalaxyNexusBuild/IMM76B)AppleWebKit/535.19(KHTML,likeGecko)Chrome/18.0.1025.133MobileSafari/535.19"')
driver=webdriver.Chrome()
driver.get('url')#你要抓取網路文庫的URL,隨便找個幾十頁的替換掉

html=driver.page_source
bf1=BeautifulSoup(html,'lxml')
result=bf1.find_all(class_='rtcspage')
bf2=BeautifulSoup(str(result[0]),'lxml')
title=bf2.div.div.h1.string
pagenum=bf2.find_all(class_='size')
pagenum=BeautifulSoup(str(pagenum),'lxml').span.string
pagepattern=re.compile('頁數:(d+)頁')
num=int(pagepattern.findall(pagenum)[0])
print('文章標題:%s'%title)
print('文章頁數:%d'%num)


whileTrue:
num=num/5.0
html=driver.page_source
bf1=BeautifulSoup(html,'lxml')
result=bf1.find_all(class_='rtcspage')
foreach_resultinresult:
bf2=BeautifulSoup(str(each_result),'lxml')
texts=bf2.find_all('p')
foreach_textintexts:
main_body=BeautifulSoup(str(each_text),'lxml')
foreachinmain_body.find_all(True):
ifeach.name=='span':
print(each.string.replace('xa0',''),end='')
elifeach.name=='br':
print('')
print(' ')
ifnum>1:
page=driver.find_elements_by_xpath("//div[@class='page']")
driver.execute_script('arguments[0].scrollIntoView();',page[-1])#拖動到可見的元素去
nextpage=driver.find_element_by_xpath("//a[@data-fun='next']")
nextpage.click()
time.sleep(3)
else:
break

執行代碼,chromedriver自動為你打開chrome瀏覽器,此時你翻頁到最後,點擊閱讀更多,然後等一段時間後關閉瀏覽器,代碼繼續執行。

『拾』 Python怎麼爬取證才通這家網站的源碼

不知道你是用框架還是用 Selenium 爬的內容, iframe 里的內容實際上就是另一個網頁了。
你只是爬它的源碼是爬不到的, 你要提取 iframe 里的 src 所指向的網址, 重新打開它, 然後才爬他的源碼。 或者如果你用框架, 裡面應該有另外提供方法, 讀取 iframe 中的內容

閱讀全文

與python爬取指令源碼相關的資料

熱點內容
androidhome重新啟動 瀏覽:478
英雄聯盟手游比賽用的什麼伺服器 瀏覽:254
伺服壓力機怎麼編程 瀏覽:842
數控車內半圓怎麼編程實例 瀏覽:874
bat編譯lan和錯誤檢測 瀏覽:41
java抓取圖片 瀏覽:118
編譯程序求矩形面積和周長 瀏覽:146
velocitypdf 瀏覽:622
不知道加密的wifi怎麼連接 瀏覽:121
C語言的規則適用於單片機嗎 瀏覽:507
什麼app可以看沙丘魔蟻 瀏覽:441
手機在切換app時為什麼會重啟 瀏覽:765
庫里雲相冊加密 瀏覽:366
摩托車拆車件有什麼好的app 瀏覽:282
c51語言編譯模式 瀏覽:218
仁波切pdf 瀏覽:286
linux給文件加鎖 瀏覽:325
python中進程間通信 瀏覽:933
javan替換 瀏覽:528
貪心演算法證明方法包括 瀏覽:183