⑴ python可以爬取本地html頁面信息嗎
本地的不叫爬取了吧,直接讀入文件就完了。
⑵ python如何讀取網頁中的數據
用Beautiful Soup這類解析模塊:
Beautiful Soup 是用Python寫的一個HTML/XML的解析器,它可以很好的處理不規范標記並生成剖析樹(parse tree);
它提供簡單又常用的導航(navigating),搜索以及修改剖析樹的操作;
用urllib或者urllib2(推薦)將頁面的html代碼下載後,用beautifulsoup解析該html;
然後用beautifulsoup的查找模塊或者正則匹配將你想獲得的內容找出來,就可以進行相關處理了,例如:
html='<html><head><title>test</title></head><body><p>testbody</p></body></html>'
soup=BeautifulSoup(html)
soup.contents[0].name
#u'html'
soup.comtents[0].contents[0].name
#u'head'
head=soup.comtents[0].contents[0]
head.parent.name
#u'html'
head.next
#u'<title>test</title>
⑶ python裡面request怎麼讀取html代碼
使用Python 3的requests模塊抓取網頁源碼並保存到文件示例:
import requests
ff = open('testt.txt','w',encoding='utf-8')
with open('test.txt',encoding="utf-8") as f:
for line in f:
ff.write(line)
ff.close()
這是演示讀取一個txt文件,每次讀取一行,並保存到另一個txt文件中的示例。
因為在命令行中列印每次讀取一行的數據,中文會出現編碼錯誤,所以每次讀取一行並保存到另一個文件,這樣來測試讀取是否正常。(注意open的時候制定encoding編碼方式)
⑷ python怎麼獲取網頁上html dom element 對象
可以使用Python自帶的HTMLParser模塊解析HTML文檔:
HTMLParser的核心模塊是org.htmlparser.Parser類,這個類實際完成了對於HTML頁面的分析工作。這個類有下面幾個構造函數:
public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一個靜態類public static Parser createParser (String html, String charset);
⑸ 怎麼用python的BeautifulSoup來獲取html中div的內容
# -*- coding:utf-8 -*-
#標簽操作
from bs4 import BeautifulSoup
import urllib.request
import re
#如果是網址,可以用這個辦法來讀取網頁
#html_doc = ""
#req = urllib.request.Request(html_doc)
#webpage = urllib.request.urlopen(req)
#html = webpage.read()
html="""
"""
soup = BeautifulSoup(html, 'html.parser') #文檔對象
# 類名為xxx而且文本內容為hahaha的div
for k in soup.find_all('div',class_='atcTit_more'):#,string='更多'
print(k)
⑹ python 如何快速找到動態頁面的html代碼
兩個方法:
1.通過抓包工具獲取數據發送的地址,發送post請求獲取json內容
2.selenium 模擬瀏覽器訪問網站,獲取載入後的動態頁面html內容
⑺ python selenium如何獲取下一頁的html網頁源碼
一開始,基本上很多人都是用selenium IDE錄制腳本開始的,我也是!有一本書寫得很不錯:selenium初學者指南!So,從錄制回放開始我的selenium,而在這個過程中,不斷地去補充我的html css知識,熟悉selenium的api!
慢慢地,發現錄制的腳本在回放的時候經常報錯,通過檢查發現,是定位上的錯誤,導致這種定位的錯誤的最大原因是系統前端採用了某種框架,如tigerUI,exj....所以HTML裡面的標簽很多都是動態的,比如id,class,name!這對selenium操作定位的元素而進行自動化來說是致命傷!
所以,開始自己寫定位信息,這已經是必須的了!從而學習了xpth和css選擇器,掌握了更加有效,快速和穩定地定位頁面上的元素(定位的時候難免會碰到有iframe,這就得先切換到iframe中再進行定位了)!也就是,在selenium IDE上寫腳本!
信心滿滿地在selenium IDE上寫了長長地一段腳本,並且反復跑都能成功!總算嘗到了一點點幸福的滋味!然後呢,問題來了,當我要修改和擴展這段的腳本的時候,才發現這效率是相當地低!一句句查!一句句改!多麼痛的領悟!
另外,selenium IDE 默認啟動的是火狐,在使用selenium RC 啟動 IE 進行跑腳本時瀏覽器總是會報錯!各種搞不定,各種不淡定!決定放棄使用IDE!
selenium有一個強大之處就是支持多種語方:java,C#,python等等,並且可以把錄制的腳本轉換成代碼!我用的是java,果斷走起!
不用說,當然是把腳本轉為java代碼了,在E www.hbbz08.com clipse中重新開始搞!
選擇一個測試框架:有Junit和TestNg兩個選擇,公司用的是junit,所以,不用多說,我就用junit驗證selenium腳本的運行結果!並且,Junit和TestNG都可以生成比較直觀的測試報告!
寫好一些代碼,會看到整段代碼中密密麻麻充斥著基本相同的代碼:開始封裝代碼!把常用到API封裝起來!封裝好之後代碼看著就舒服多了!
接下來,是不是也應該把代碼中的定位信息用一個專門的文件放起來,再去讀取裡面的定位信息,這樣,維護代碼和維護定位信息就放在了兩個地方,不用老是扎在代碼和定位路徑中,簡單地分一下層!果斷嘗試!
⑻ Python如何運行HTML程序
•實現效果1:點擊【運行python】按鈕,後台執行python,點擊【結果】,頁面下方顯示python的運行結果,方法:原理是python將執行結果寫入一個txt文件中,html再讀取txt,將結...
⑼ Python爬蟲怎麼抓取html網頁的代碼塊
范圍匹配大點,像這種
re.findall('(<div class="moco-course-wrap".*?</div>)',source,re.S)
可以看下這個
http://blog.csdn.net/tangdou5682/article/details/52596863
⑽ python怎麼獲取html中指定行內容
一般使用BeautifulSoup,還是比較簡單的
soup=BeaitifulSoup(html,'html.parser')
要找到某各元素使用find_all方法就行
for div in soup.find_all('div'):
但是經常會遇到網站有反爬的設置,比如子結點中含有換行符,只要寫個函數去掉子結點間的換行符就行