A. python 中提取URL參數時有多個問號怎麼辦
這個要看你用什麼框架來做了,要是用的django就是request.GET.get('userid'),這樣返回1或None
B. python 如何提取特定字元中間的內容
解題思路是用正則表達式匹配帶@的單詞。
第一:正則表達式匹配 @ 開頭,後面跟隨多個英文字母,匹配到字元串後,把 @ 替換為空,就可以得到用戶名.
C. python抓取的網頁源代碼中包含反斜杠,怎麼處理
上面的反斜杠是字元串中的轉義,為什麼要去掉?去掉後應該會讓url變成無效的吧。
一般使用BeautifulSoup解析網頁。創建BeautifuleSoup對象之後,直接取屬性就可以。
D. python 如何輸出包含特殊字元串的行的前五位字元到指定文件
可以用如下代碼試一下:
importre
importxlwt
text='''2.7%6944/com.imrn:2%user+0.7%kernel/faults:344minor
0%6966/com.imrn:core:0%user+0%kernel/faults:74minor
43%6944/com.imrn:2%user+0.7%kernel/faults:344minor'''
book=xlwt.Workbook(encoding='utf-8',style_compression=0)
sheet=book.add_sheet('mysheet',cell_overwrite_ok=True)
text=re.findall(r".+?(?=344minor)",text)
x=0
forsintext:
s=re.findall(r".+(?=6944)",s)
print(s)
sheet.write(x,0,s)
x=x+1
book.save('test.xls')
結果如下:
E. 如下一串字元串,用python怎樣提取其中的url,並放到列表中
re.findall(r'https?:[a-zA-Z./d]+',url)
F. python如何抓取網頁源代碼中的字元串
使用正則匹配,列:
importrequests
importre
req=requests.get(url)
r=re.findall('<scriptsrc="(.*?)"></script>',req.text)#(.*?)非貪婪匹配
print(r)
自己網上找找python正則方面的知識
G. python 截取特殊符號後面的字元串
s="01-1"
s1=s.split("-")
s2=int(s1[1])
如果都是只有一個 - 的話可以這樣就好...
H. python 如何去特殊字元
針對這里的問題,我們可以先將文件名解碼成unicode,然後用gbk編碼,如果拋出異常,說明編碼失敗,即文件名中存在特殊字元。下面是一個小例子:
#! /usr/bin/env python
# -*- coding: utf-8 -*-
file_names = ["œ®特殊字元.txt",
"沒有特殊字元.txt",
"ßååå.txt"
]
for file_name in file_names:
try:
file_name.decode("utf-8").encode("gbk")
print file_name, "..."
except UnicodeEncodeError:
print file_name, "中獎"
"""outputs:
œ®特殊字元.txt 中獎
沒有特殊字元.txt ...
ßååå.txt 中獎
"""
I. python3爬蟲urllib.request.urlopen("網址").read() 本來是utf-8,為什麼還要加上urlencode(「utf-8」)
你這行代碼是不需要urlencode()的。
對於返回的request對象,其read()方法獲得的其實是一個位元組流對象,而非字元串對象,所以這時需要調用該位元組流對象的decode()方法,按指定編碼方式進行解碼。
至於urlencode(),這是urllib中的一個函數,它的作用是將字元串進行url編碼。這個編碼其實就是個轉義的過程,將那些因可能造成解釋器誤會或安全問題而不適合出現在請求中的符號進行轉義,並且把超出url編碼表的字元降維。
J. python url提取
importre
text='<ahref="/Enterprise/GeneralWorkerDetails/3553297586.html"class="clearfix">'
p=re.compile("<ahref="(.*?)"");
match=p.match(text)
printmatch.group(1)