python讀取網頁html_Python爬蟲怎麼抓取html網頁的代碼塊

⑴ python可以爬取本地html頁面信息嗎

本地的不叫爬取了吧，直接讀入文件就完了。

⑵ python如何讀取網頁中的數據

用Beautiful Soup這類解析模塊：

Beautiful Soup 是用Python寫的一個HTML/XML的解析器，它可以很好的處理不規范標記並生成剖析樹(parse tree)；
它提供簡單又常用的導航(navigating)，搜索以及修改剖析樹的操作；
用urllib或者urllib2(推薦)將頁面的html代碼下載後，用beautifulsoup解析該html；

然後用beautifulsoup的查找模塊或者正則匹配將你想獲得的內容找出來，就可以進行相關處理了，例如：


html='<html><head><title>test</title></head><body><p>testbody</p></body></html>'
soup=BeautifulSoup(html)
soup.contents[0].name
#u'html'
soup.comtents[0].contents[0].name
#u'head'
head=soup.comtents[0].contents[0]
head.parent.name
#u'html'
head.next
#u'<title>test</title>

⑶ python裡面request怎麼讀取html代碼

使用Python 3的requests模塊抓取網頁源碼並保存到文件示例：

import requests

ff = open('testt.txt','w',encoding='utf-8')

with open('test.txt',encoding="utf-8") as f:

for line in f:

ff.write(line)

ff.close()

這是演示讀取一個txt文件，每次讀取一行，並保存到另一個txt文件中的示例。

因為在命令行中列印每次讀取一行的數據，中文會出現編碼錯誤，所以每次讀取一行並保存到另一個文件，這樣來測試讀取是否正常。（注意open的時候制定encoding編碼方式）

⑷ python怎麼獲取網頁上html dom element 對象

可以使用Python自帶的HTMLParser模塊解析HTML文檔：
HTMLParser的核心模塊是org.htmlparser.Parser類，這個類實際完成了對於HTML頁面的分析工作。這個類有下面幾個構造函數：
public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一個靜態類public static Parser createParser (String html, String charset);

⑸ 怎麼用python的BeautifulSoup來獲取html中div的內容

# -*- coding:utf-8 -*-

#標簽操作

from bs4 import BeautifulSoup
import urllib.request
import re

#如果是網址，可以用這個辦法來讀取網頁
#html_doc = ""
#req = urllib.request.Request(html_doc)
#webpage = urllib.request.urlopen(req)
#html = webpage.read()

html="""
"""
soup = BeautifulSoup(html, 'html.parser') #文檔對象

# 類名為xxx而且文本內容為hahaha的div
for k in soup.find_all('div',class_='atcTit_more'):#,string='更多'
print(k)

⑹ python 如何快速找到動態頁面的html代碼

兩個方法：
1.通過抓包工具獲取數據發送的地址，發送post請求獲取json內容

2.selenium 模擬瀏覽器訪問網站，獲取載入後的動態頁面html內容

⑺ python selenium如何獲取下一頁的html網頁源碼

一開始，基本上很多人都是用selenium IDE錄制腳本開始的，我也是！有一本書寫得很不錯:selenium初學者指南！So，從錄制回放開始我的selenium，而在這個過程中，不斷地去補充我的html css知識，熟悉selenium的api！

慢慢地，發現錄制的腳本在回放的時候經常報錯，通過檢查發現，是定位上的錯誤，導致這種定位的錯誤的最大原因是系統前端採用了某種框架，如tigerUI,exj....所以HTML裡面的標簽很多都是動態的，比如id，class，name！這對selenium操作定位的元素而進行自動化來說是致命傷！

所以，開始自己寫定位信息，這已經是必須的了！從而學習了xpth和css選擇器，掌握了更加有效，快速和穩定地定位頁面上的元素（定位的時候難免會碰到有iframe，這就得先切換到iframe中再進行定位了）！也就是，在selenium IDE上寫腳本！

信心滿滿地在selenium IDE上寫了長長地一段腳本，並且反復跑都能成功！總算嘗到了一點點幸福的滋味！然後呢，問題來了，當我要修改和擴展這段的腳本的時候，才發現這效率是相當地低！一句句查！一句句改！多麼痛的領悟！

另外，selenium IDE 默認啟動的是火狐，在使用selenium RC 啟動 IE 進行跑腳本時瀏覽器總是會報錯！各種搞不定，各種不淡定！決定放棄使用IDE！

selenium有一個強大之處就是支持多種語方：java,C#,python等等，並且可以把錄制的腳本轉換成代碼！我用的是java，果斷走起！

不用說，當然是把腳本轉為java代碼了，在E www.hbbz08.com clipse中重新開始搞！

選擇一個測試框架：有Junit和TestNg兩個選擇，公司用的是junit，所以，不用多說，我就用junit驗證selenium腳本的運行結果！並且，Junit和TestNG都可以生成比較直觀的測試報告！

寫好一些代碼，會看到整段代碼中密密麻麻充斥著基本相同的代碼：開始封裝代碼！把常用到API封裝起來！封裝好之後代碼看著就舒服多了！

接下來，是不是也應該把代碼中的定位信息用一個專門的文件放起來，再去讀取裡面的定位信息，這樣，維護代碼和維護定位信息就放在了兩個地方，不用老是扎在代碼和定位路徑中，簡單地分一下層！果斷嘗試！

⑻ Python如何運行HTML程序

•實現效果1:點擊【運行python】按鈕,後台執行python,點擊【結果】,頁面下方顯示python的運行結果,方法:原理是python將執行結果寫入一個txt文件中,html再讀取txt,將結...

⑼ Python爬蟲怎麼抓取html網頁的代碼塊

范圍匹配大點，像這種

re.findall('(<div class="moco-course-wrap".*?</div>)',source,re.S)

可以看下這個

http://blog.csdn.net/tangdou5682/article/details/52596863

⑽ python怎麼獲取html中指定行內容

一般使用BeautifulSoup，還是比較簡單的
soup=BeaitifulSoup(html,'html.parser')
要找到某各元素使用find_all方法就行
for div in soup.find_all('div'):

但是經常會遇到網站有反爬的設置，比如子結點中含有換行符，只要寫個函數去掉子結點間的換行符就行

導航:首頁 > 編程語言 > python讀取網頁html

python讀取網頁html

與python讀取網頁html相關的資料