A. python 中提取URL参数时有多个问号怎么办
这个要看你用什么框架来做了,要是用的django就是request.GET.get('userid'),这样返回1或None
B. python 如何提取特定字符中间的内容
解题思路是用正则表达式匹配带@的单词。
第一:正则表达式匹配 @ 开头,后面跟随多个英文字母,匹配到字符串后,把 @ 替换为空,就可以得到用户名.
C. python抓取的网页源代码中包含反斜杠,怎么处理
上面的反斜杠是字符串中的转义,为什么要去掉?去掉后应该会让url变成无效的吧。
一般使用BeautifulSoup解析网页。创建BeautifuleSoup对象之后,直接取属性就可以。
D. python 如何输出包含特殊字符串的行的前五位字符到指定文件
可以用如下代码试一下:
importre
importxlwt
text='''2.7%6944/com.imrn:2%user+0.7%kernel/faults:344minor
0%6966/com.imrn:core:0%user+0%kernel/faults:74minor
43%6944/com.imrn:2%user+0.7%kernel/faults:344minor'''
book=xlwt.Workbook(encoding='utf-8',style_compression=0)
sheet=book.add_sheet('mysheet',cell_overwrite_ok=True)
text=re.findall(r".+?(?=344minor)",text)
x=0
forsintext:
s=re.findall(r".+(?=6944)",s)
print(s)
sheet.write(x,0,s)
x=x+1
book.save('test.xls')
结果如下:
E. 如下一串字符串,用python怎样提取其中的url,并放到列表中
re.findall(r'https?:[a-zA-Z./d]+',url)
F. python如何抓取网页源代码中的字符串
使用正则匹配,列:
importrequests
importre
req=requests.get(url)
r=re.findall('<scriptsrc="(.*?)"></script>',req.text)#(.*?)非贪婪匹配
print(r)
自己网上找找python正则方面的知识
G. python 截取特殊符号后面的字符串
s="01-1"
s1=s.split("-")
s2=int(s1[1])
如果都是只有一个 - 的话可以这样就好...
H. python 如何去特殊字符
针对这里的问题,我们可以先将文件名解码成unicode,然后用gbk编码,如果抛出异常,说明编码失败,即文件名中存在特殊字符。下面是一个小例子:
#! /usr/bin/env python
# -*- coding: utf-8 -*-
file_names = ["œ®特殊字符.txt",
"没有特殊字符.txt",
"ßååå.txt"
]
for file_name in file_names:
try:
file_name.decode("utf-8").encode("gbk")
print file_name, "..."
except UnicodeEncodeError:
print file_name, "中奖"
"""outputs:
œ®特殊字符.txt 中奖
没有特殊字符.txt ...
ßååå.txt 中奖
"""
I. python3爬虫urllib.request.urlopen("网址").read() 本来是utf-8,为什么还要加上urlencode(“utf-8”)
你这行代码是不需要urlencode()的。
对于返回的request对象,其read()方法获得的其实是一个字节流对象,而非字符串对象,所以这时需要调用该字节流对象的decode()方法,按指定编码方式进行解码。
至于urlencode(),这是urllib中的一个函数,它的作用是将字符串进行url编码。这个编码其实就是个转义的过程,将那些因可能造成解释器误会或安全问题而不适合出现在请求中的符号进行转义,并且把超出url编码表的字符降维。
J. python url提取
importre
text='<ahref="/Enterprise/GeneralWorkerDetails/3553297586.html"class="clearfix">'
p=re.compile("<ahref="(.*?)"");
match=p.match(text)
printmatch.group(1)