導航:首頁 > 編程語言 > python頁面所有鏈接

python頁面所有鏈接

發布時間:2022-05-24 01:36:07

python 如何查找文本中的所有http鏈接

results=re.findall("(?isu)(http\://[a-zA-Z0-9\.\?/&\=\:]+)")
open("urls.txt","wb").write("\r\n".joint(results))

這樣可以。不過如果URL里中漢字就沒有辦法了。 主要的好處是適用性強。基本上所有的文本格式文檔都支持。

② python怎麼獲取百度搜索頁面的鏈接

目前可以獲取到頁面加密後的URL(但是針對相同的一個網址每次獲取的加密後URL都不同,可以理解),但是第3步獲取到的頁面,不是httpfox中的那個頁面,而是很復雜的頁面(應該是跳轉之後到頁面)。
嘗試了requests.get()中設定參數allow_redirects=False,但是獲取的回復也不是httpfox的那個content。

③ 如何在python創建兩個用來保存某一個網頁的所有鏈接 一個用來保存所有已經已經瀏覽過的鏈接。 一

#2個列表存儲,a存未瀏覽的,b存已瀏覽的:
a=[url1, url2, url3]
b=[]
#如果,瀏覽一個網址就像這樣操作一下:
b.append(a.pop(0))

④ 如何用python的selenium提取頁面所有資源載入的鏈接

用瀏覽器打開你那個連接(完整載入),通過 查看源 找到你要的數據(記住標記,比如某個元素),selenium+python獲取到頁面代碼再去判斷查找你的標記就知道是否載入完了。

⑤ python怎麼獲取動態網頁鏈接

四中方法:

'''
得到當前頁面所有連接
'''

import requests

import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver

url = 'http://www.ok226.com'
r = requests.get(url)
r.encoding = 'gb2312'

# 利用 re
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)
for link in matchs:
print(link)

print()

# 利用 BeautifulSoup4 (DOM樹)
soup = BeautifulSoup(r.text,'lxml')
for a in soup.find_all('a'):
link = a['href']
print(link)

print()

# 利用 lxml.etree (XPath)
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
print(link)

print()

# 利用selenium(要開瀏覽器!)
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
print(link.get_attribute("href"))
driver.close()

⑥ python爬蟲,抓取一個頁面中所有鏈接內的文字和圖片並保存在本地怎麼

並不是所有的網站結構都是一樣的,你說的功能大體可以用Python實現,但並沒有寫好的通用代碼,還需要根據不同的網頁去做調試。

⑦ python怎麼在爬出的html里的所有鏈接前加上一串字元串想創一個新的網頁,要打開裡面原本的相

正則替換 。

⑧ Python提取網頁鏈接和標題

提取所有鏈接應該用循環:
urls = driver.find_elements_by_xpath("//a")
for url in urls:
print(url.get_attribute("href"))如果get_attribute方法報錯應該是沒有找到a標簽對象,如果確定是有的話,可能是頁面載入比較慢還沒載入出來,selenium默認是不會等待對象出現的,需要在找對象前加一些等待時間;另外如果頁面上有iframe的話需要先切換進去才能找到裡面的對象。

⑨ python 怎樣爬取網頁所有鏈接

給你貼一下我前一段時間回答的類似問題,用的soup,還有一個用的正則就不貼了,手機不太方便,如下。
import beautifulsoup
import urllib2

def main():

userMainUrl = "你要抓取的地址"
req = urllib2.Request(userMainUrl)
resp = urllib2.urlopen(req)
respHtml = resp.read()
foundLabel = respHtml.findAll("label")

finalL =foundLabel.string

print "biaoti=",finalL
if __name__=="__main__":

main();

PS:如果不會改的話追問一下,回頭我用電腦給你寫一份

⑩ 用python selenium提取網頁中的所有<a>標簽中的超級鏈接地址

提取所有鏈接應該用循環:

urls=driver.find_elements_by_xpath("//a")

forurlinurls:
print(url.get_attribute("href"))

如果get_attribute方法報錯應該是沒有找到a標簽對象,如果確定是有的話,可能是頁面載入比較慢還沒載入出來,selenium默認是不會等待對象出現的,需要在找對象前加一些等待時間;另外如果頁面上有iframe的話需要先切換進去才能找到裡面的對象。

閱讀全文

與python頁面所有鏈接相關的資料

熱點內容
虛擬機中編譯器 瀏覽:474
台達PLC編譯按鈕在哪裡 瀏覽:137
非編程計算器多少錢 瀏覽:653
房本還完貸款解壓 瀏覽:816
中國程序員有出名嗎 瀏覽:546
亳州雲伺服器 瀏覽:630
程序員最難的面試 瀏覽:892
配音秀app怎麼誦讀 瀏覽:751
sparkcore源碼 瀏覽:100
程序員中年生活 瀏覽:355
讀取加密信息失敗怎麼回事 瀏覽:510
編譯過程之後是預處理嗎 瀏覽:351
安卓是基於什麼做出來 瀏覽:600
視頻字幕提取APP怎麼使用 瀏覽:59
js通過ip地址連接伺服器嗎 瀏覽:848
java數字金額大寫金額 瀏覽:858
人人影視路由器固件編譯 瀏覽:967
照片通訊錄簡訊怎麼從安卓到蘋果 瀏覽:458
邏輯開發編譯環境 瀏覽:672
ce自己編譯 瀏覽:898