Ⅰ 怎么用python的BeautifulSoup来获取html中div的内容
# -*- coding:utf-8 -*-
#标签操作
from bs4 import BeautifulSoup
import urllib.request
import re
#如果是网址,可以用这个办法来读取网页
#html_doc = ""
#req = urllib.request.Request(html_doc)
#webpage = urllib.request.urlopen(req)
#html = webpage.read()
html="""
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象
# 类名为xxx而且文本内容为hahaha的div
for k in soup.find_all('div',class_='atcTit_more'):#,string='更多'
print(k)
Ⅱ Python获取html的div标签内容问题
import re
reg = re.compile(r'<div id="comicImg"><img.+id="drag".+src="(.+)".+')
try:
img_source = reg.findall(you_html_content)[0]
except IndexError:
print "Empty img_url!!"
Ⅲ 新手求助,关于python抓取一个DIV的内容
import re
a = '<div>test</div>'
b = '<div>(?P<content>.*)</div>'
c = re.match(b, a)
print c.groups()
结果('test', )
Ⅳ python用scrapy怎样获取div里的内容
我们都知道python中可以是threading模块实现多线程, 但是模块并没有提供暂停, 恢复和停止线程的方法, 一旦线程对象调用start方法后, 只能等到对应的方法函数运行完毕. 也就是说一旦start后, 线程就属于失控状态.
Ⅳ python 用 beautifulsoup 获得 <div id="z"></div>的东西
一、你取到的跟浏览器不一样,这一般是因为内容是js生成或者js以ajax取到然后更新进去的。
想要自己写代码解决恐怕你要自己分析一下网页所带的js的功能了,或者想偷懒的话用webbrowser之类的模块通过浏览器来取得内容。
二、要取div的id属性用BeautifulSoup即可达到目的,要是装了PyQuery的就更简单,下面给个BeautifulSoup的例子:
from bs4 import BeautifulSoup
sp = BeautifulSoup('<div id="z"></div>')
assert(sp.div['id'],'z')
print sp.div['id']
Ⅵ python处理txt文本,提取其中的DN值、OPTRCL值、DIV值、 LNATT值跟COS值
import re
logfile = open("file.txt","r") # file.log 就是你的日志名
outfile = open("out.txt","w") # out.txt 就是输出文件
while True:
out = logfile.readline()
dn = out.find ("DN") #在每行中查找 DN 字符串
op = out.find("OPTRCL") #在每行中查找 OPTRCL 字符串
div = out.find("DIV") #在每行中查找 DIV 字符串
lna = out.find("LNATT") #在每行中查找 LNATT 字符串
cos = out.find("COS") #在每行中查找 COS 字符串
if dn > 0 :
outfile.wirte(out[dn:]+r"\d\d\d\d\d\d\d") #输出 DN 之后的值
if op > 0 :
outfile.wirte(out[op:]+r"\d\d\d\d\d\d\d") #输出 OPTRCL 之后的值
if div > 0 :
outfile.wirte(out[div:]+r"\d\d\d\d\d\d\d") #输出 DIV 之后的值
if ina > 0 :
outfile.wirte(out[ina:]+r"\d\d\d\d\d\d\d") #输出 LNATT 之后的值
if cos > 0 :
outfile.wirte(out[cos:]+r"\d\d\d\d\d\d\d") #输出 COS 之后的值
if not out :
break
logfile.close()
outfile.close()
我这个是用我自己之前用过的。只提取一个值的程序扩展出来的,不知道能不能跑通。
如果方便的话,你可以传一个 TXT 文件给我 做做测试。希望能帮到你!
Ⅶ python怎么抓取网页中DIV的文字
1、编写爬虫思路:
确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。
2、知识点说明:
1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。
在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。
对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。
对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。
2)注意编码格式
输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。