① python 如何查找文本中的所有http鏈接
results=re.findall("(?isu)(http\://[a-zA-Z0-9\.\?/&\=\:]+)")
open("urls.txt","wb").write("\r\n".joint(results))
這樣可以。不過如果URL里中漢字就沒有辦法了。 主要的好處是適用性強。基本上所有的文本格式文檔都支持。
② python怎麼獲取百度搜索頁面的鏈接
目前可以獲取到頁面加密後的URL(但是針對相同的一個網址每次獲取的加密後URL都不同,可以理解),但是第3步獲取到的頁面,不是httpfox中的那個頁面,而是很復雜的頁面(應該是跳轉之後到頁面)。
嘗試了requests.get()中設定參數allow_redirects=False,但是獲取的回復也不是httpfox的那個content。
③ 如何在python創建兩個用來保存某一個網頁的所有鏈接 一個用來保存所有已經已經瀏覽過的鏈接。 一
#2個列表存儲,a存未瀏覽的,b存已瀏覽的:
a=[url1, url2, url3]
b=[]
#如果,瀏覽一個網址就像這樣操作一下:
b.append(a.pop(0))
④ 如何用python的selenium提取頁面所有資源載入的鏈接
用瀏覽器打開你那個連接(完整載入),通過 查看源 找到你要的數據(記住標記,比如某個元素),selenium+python獲取到頁面代碼再去判斷查找你的標記就知道是否載入完了。
⑤ python怎麼獲取動態網頁鏈接
四中方法:
'''
得到當前頁面所有連接
'''
import requests
import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver
url = 'http://www.ok226.com'
r = requests.get(url)
r.encoding = 'gb2312'
# 利用 re
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)
for link in matchs:
print(link)
print()
# 利用 BeautifulSoup4 (DOM樹)
soup = BeautifulSoup(r.text,'lxml')
for a in soup.find_all('a'):
link = a['href']
print(link)
print()
# 利用 lxml.etree (XPath)
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
print(link)
print()
# 利用selenium(要開瀏覽器!)
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
print(link.get_attribute("href"))
driver.close()
⑥ python爬蟲,抓取一個頁面中所有鏈接內的文字和圖片並保存在本地怎麼
並不是所有的網站結構都是一樣的,你說的功能大體可以用Python實現,但並沒有寫好的通用代碼,還需要根據不同的網頁去做調試。
⑦ python怎麼在爬出的html里的所有鏈接前加上一串字元串想創一個新的網頁,要打開裡面原本的相
正則替換 。
⑧ Python提取網頁鏈接和標題
提取所有鏈接應該用循環:
urls = driver.find_elements_by_xpath("//a")
for url in urls:
print(url.get_attribute("href"))如果get_attribute方法報錯應該是沒有找到a標簽對象,如果確定是有的話,可能是頁面載入比較慢還沒載入出來,selenium默認是不會等待對象出現的,需要在找對象前加一些等待時間;另外如果頁面上有iframe的話需要先切換進去才能找到裡面的對象。
⑨ python 怎樣爬取網頁所有鏈接
給你貼一下我前一段時間回答的類似問題,用的soup,還有一個用的正則就不貼了,手機不太方便,如下。
import beautifulsoup
import urllib2
def main():
userMainUrl = "你要抓取的地址"
req = urllib2.Request(userMainUrl)
resp = urllib2.urlopen(req)
respHtml = resp.read()
foundLabel = respHtml.findAll("label")
finalL =foundLabel.string
print "biaoti=",finalL
if __name__=="__main__":
main();
PS:如果不會改的話追問一下,回頭我用電腦給你寫一份
⑩ 用python selenium提取網頁中的所有<a>標簽中的超級鏈接地址
提取所有鏈接應該用循環:
urls=driver.find_elements_by_xpath("//a")
forurlinurls:
print(url.get_attribute("href"))
如果get_attribute方法報錯應該是沒有找到a標簽對象,如果確定是有的話,可能是頁面載入比較慢還沒載入出來,selenium默認是不會等待對象出現的,需要在找對象前加一些等待時間;另外如果頁面上有iframe的話需要先切換進去才能找到裡面的對象。