導航:首頁 > 編程語言 > python提取div屬性

python提取div屬性

發布時間:2022-06-02 16:55:12

Ⅰ 怎麼用python的BeautifulSoup來獲取html中div的內容

# -*- coding:utf-8 -*-

#標簽操作

from bs4 import BeautifulSoup
import urllib.request
import re

#如果是網址,可以用這個辦法來讀取網頁
#html_doc = ""
#req = urllib.request.Request(html_doc)
#webpage = urllib.request.urlopen(req)
#html = webpage.read()

html="""
"""
soup = BeautifulSoup(html, 'html.parser') #文檔對象

# 類名為xxx而且文本內容為hahaha的div
for k in soup.find_all('div',class_='atcTit_more'):#,string='更多'
print(k)

Ⅱ Python獲取html的div標簽內容問題

import re

reg = re.compile(r'<div id="comicImg"><img.+id="drag".+src="(.+)".+')
try:
img_source = reg.findall(you_html_content)[0]
except IndexError:
print "Empty img_url!!"

Ⅲ 新手求助,關於python抓取一個DIV的內容

import re
a = '<div>test</div>'
b = '<div>(?P<content>.*)</div>'
c = re.match(b, a)
print c.groups()

結果('test', )

Ⅳ python用scrapy怎樣獲取div里的內容

我們都知道python中可以是threading模塊實現多線程, 但是模塊並沒有提供暫停, 恢復和停止線程的方法, 一旦線程對象調用start方法後, 只能等到對應的方法函數運行完畢. 也就是說一旦start後, 線程就屬於失控狀態.

Ⅳ python 用 beautifulsoup 獲得 <div id="z"></div>的東西

一、你取到的跟瀏覽器不一樣,這一般是因為內容是js生成或者js以ajax取到然後更新進去的。
想要自己寫代碼解決恐怕你要自己分析一下網頁所帶的js的功能了,或者想偷懶的話用webbrowser之類的模塊通過瀏覽器來取得內容。
二、要取div的id屬性用BeautifulSoup即可達到目的,要是裝了PyQuery的就更簡單,下面給個BeautifulSoup的例子:
from bs4 import BeautifulSoup
sp = BeautifulSoup('<div id="z"></div>')
assert(sp.div['id'],'z')
print sp.div['id']

Ⅵ python處理txt文本,提取其中的DN值、OPTRCL值、DIV值、 LNATT值跟COS值

import re
logfile = open("file.txt","r") # file.log 就是你的日誌名
outfile = open("out.txt","w") # out.txt 就是輸出文件

while True:

out = logfile.readline()
dn = out.find ("DN") #在每行中查找 DN 字元串
op = out.find("OPTRCL") #在每行中查找 OPTRCL 字元串
div = out.find("DIV") #在每行中查找 DIV 字元串
lna = out.find("LNATT") #在每行中查找 LNATT 字元串
cos = out.find("COS") #在每行中查找 COS 字元串

if dn > 0 :
outfile.wirte(out[dn:]+r"\d\d\d\d\d\d\d") #輸出 DN 之後的值
if op > 0 :
outfile.wirte(out[op:]+r"\d\d\d\d\d\d\d") #輸出 OPTRCL 之後的值
if div > 0 :
outfile.wirte(out[div:]+r"\d\d\d\d\d\d\d") #輸出 DIV 之後的值
if ina > 0 :
outfile.wirte(out[ina:]+r"\d\d\d\d\d\d\d") #輸出 LNATT 之後的值
if cos > 0 :
outfile.wirte(out[cos:]+r"\d\d\d\d\d\d\d") #輸出 COS 之後的值
if not out :
break

logfile.close()
outfile.close()

我這個是用我自己之前用過的。只提取一個值的程序擴展出來的,不知道能不能跑通。
如果方便的話,你可以傳一個 TXT 文件給我 做做測試。希望能幫到你!

Ⅶ python怎麼抓取網頁中DIV的文字

1、編寫爬蟲思路:
確定下載目標,找到網頁,找到網頁中需要的內容。對數據進行處理。保存數據。
2、知識點說明:
1)確定網路中需要的信息,打開網頁後使用F12打開開發者模式。
在Network中可以看到很多信息,我們在頁面上看到的文字信息都保存在一個html文件中。點擊文件後可以看到response,文字信息都包含在response中。
對於需要輸入的信息,可以使用ctrl+f,進行搜索。查看信息前後包含哪些特定欄位。
對於超鏈接的提取,可以使用最左邊的箭頭點擊超鏈接,這時Elements會打開有該條超鏈接的信息,從中判斷需要提取的信息。從下載小說來看,在目錄頁提取出小說的鏈接和章節名。
2)注意編碼格式
輸入字元集一定要設置成utf-8。頁面大多為GBK字元集。不設置會亂碼。

閱讀全文

與python提取div屬性相關的資料

熱點內容
人民幣怎麼演算法 瀏覽:754
什麼app可以聽懂刺蝟說話 瀏覽:596
安卓機內存小如何擴大 瀏覽:125
粉絲伺服器怎麼和安卓手機通信 瀏覽:398
初中數學競賽pdf 瀏覽:568
linux自定義安裝 瀏覽:186
fpic要在每個編譯文件 瀏覽:866
編譯原理廣義推導的定義 瀏覽:911
怎麼在已有的壓縮文件里加密碼 瀏覽:517
安卓手機怎麼設置系統軟體 瀏覽:766
php前端java後端 瀏覽:794
數據框轉換為矩陣python 瀏覽:74
單片機程序反匯編 瀏覽:853
編程和實物不一樣 瀏覽:880
天官賜福小說什麼app可看 瀏覽:208
原車空調改壓縮機 瀏覽:103
python調用其它文件中的函數 瀏覽:484
安卓車載大屏如何下載歌詞 瀏覽:959
刪除這些文件夾 瀏覽:675
新建文件夾怎麼設置快捷搜索 瀏覽:503