❶ python,求一个简单的selenium+re的网页源码爬取
网页爬取不一定要用Selenium,Selenium是为了注入浏览器获取点击行为的调试工具,如果网页无需人工交互就可以抓取,不建议你使用selenium。要使用它,你需要安装一个工具软件,使用Chrome浏览器需要下载chromedriver.exe到system32下,如使用firefox则要下载geckodriver.exe到system32下。下面以chromedriver驱动chrome为例:
#-*-coding:UTF-8-*-
fromseleniumimportwebdriver
frombs4importBeautifulSoup
importre
importtime
if__name__=='__main__':
options=webdriver.ChromeOptions()
options.add_argument('user-agent="Mozilla/5.0(Linux;Android4.0.4;GalaxyNexusBuild/IMM76B)AppleWebKit/535.19(KHTML,likeGecko)Chrome/18.0.1025.133MobileSafari/535.19"')
driver=webdriver.Chrome()
driver.get('url')#你要抓取网络文库的URL,随便找个几十页的替换掉
html=driver.page_source
bf1=BeautifulSoup(html,'lxml')
result=bf1.find_all(class_='rtcspage')
bf2=BeautifulSoup(str(result[0]),'lxml')
title=bf2.div.div.h1.string
pagenum=bf2.find_all(class_='size')
pagenum=BeautifulSoup(str(pagenum),'lxml').span.string
pagepattern=re.compile('页数:(d+)页')
num=int(pagepattern.findall(pagenum)[0])
print('文章标题:%s'%title)
print('文章页数:%d'%num)
whileTrue:
num=num/5.0
html=driver.page_source
bf1=BeautifulSoup(html,'lxml')
result=bf1.find_all(class_='rtcspage')
foreach_resultinresult:
bf2=BeautifulSoup(str(each_result),'lxml')
texts=bf2.find_all('p')
foreach_textintexts:
main_body=BeautifulSoup(str(each_text),'lxml')
foreachinmain_body.find_all(True):
ifeach.name=='span':
print(each.string.replace('xa0',''),end='')
elifeach.name=='br':
print('')
print(' ')
ifnum>1:
page=driver.find_elements_by_xpath("//div[@class='page']")
driver.execute_script('arguments[0].scrollIntoView();',page[-1])#拖动到可见的元素去
nextpage=driver.find_element_by_xpath("//a[@data-fun='next']")
nextpage.click()
time.sleep(3)
else:
break
执行代码,chromedriver自动为你打开chrome浏览器,此时你翻页到最后,点击阅读更多,然后等一段时间后关闭浏览器,代码继续执行。
❷ 寻找一个python的交流论坛,最好论坛里有PYTHON实际源代码的 像CSDN这种论坛据免了
python论坛:http://www.okpython.com/
http://www.pythonid.com/
http://www.itlong.com/
python资源站:http://www.python8.org
推荐:
javaEye上的python论坛 http://www.javaeye.com/forums/board/Python
Python 中文社区 (需轻功)http://python.cn/
啄木鸟社区 (有很多python英文书籍的翻译项目)http://wiki.woodpecker.org.cn/moin/
中文Zope/Plone用户组: http://czug.org/
❸ 初学Python,有哪些 Pythonic 的源码推荐阅读
如果一定要推荐一些 python 的源码去读,我的建议是标准库里关于网络的代码。从 SocketServer 开始,补上 socket
模块的知识,熟悉 TCP/UDP 编程,然后了解 Mixin 机制的最佳示例
SocketServer.{ForkingMixIn|ThreadingMixIn},借这个机会了解 thread/threading
模块,这时会对并发量提出新的要求,就可以读 select 模块,开始对 select/{epoll|kqueue}
有深刻理解,搞懂以后就可以接触一下异步框架 asyncore 和 asynchat。这时开始出现分岔。如果是做 game 等以 TCP/UDP
协议为基础的应用,可以去读 greenlet 和 gevent,如果是做 web,则走下一条路。
做 web,读
BaseHTTPServer、SimpleHTTPServer 和 CGIHTTPServer,读
cgi/cgitb,自己随意写框架,读cookielib,读 wsgiref,这时候自己写一个简便的 web framework 就 so
easy 了,老板再也不担心你写 web 了,选择 flask/web.py/django/pyramid 都心中有数了。因为走的是 web
的路,所以难免要调用一下别人的 api,搞懂一下 httplib/urllib/urllib/urlparse。
❹ 希望介绍个学Python的好网站或者下载资源,或者书本。采纳后追加~!谢谢分享
网络云课堂
http://study.163.com/,里面有很多不光是python的学习。
比如你找到这个地址中就有python的模块。
http://study.163.com/find.htm#/find/courselist?ct=31001&ct2=31013
❺ 有哪些python代码分享的网站
一个github就够了,都是开源项目
❻ python windows系统 源代码
一、python如何运行程序
首先说一下python解释器,它是一种让其他程序运行起来的程序。当你编写了一段python程序,python解释器将读取程序,并按照其中的命令执行,得出结果,实际上,解释器是代码与机器的计算机硬件之间的软件逻辑层。
通俗来说,我们的计算机是基于二进制进行运算的,无论你用什么语言来写程序,无论你的程序写的多么简单或多么复杂,最终交给计算机运行的一定是0或1,因为计算机只能识别0和1。
我们目前使用的大多数编程语言都是高级程序语言,也就是利于我们人类阅读的语言,要使我们编写的程序能够在计算机上跑起来,要经过一定的转换才可以,python程序大致的过程应该是这样:
源代码-->字节码-->pvm(虚拟机)-->机器码
可以到Python的官方网站下载python(http://www.python.org),通常包括解释器、库文件及简单的编码环境(IDLE)。把源代码编译成字节码其实是为了程序更节省时间,如果源代码没有变动,那么运行程序时会直接从字节码读取,加快速度,把字节码放到虚拟机去解释,可以更好的跨平台运行,最后转换成机器码。
二、Windows系统下搭建python编程环境。
1、进入Python官网http://www.python.org,在“Downloads”下拉菜单中选择相应的操作系统,我们选择windows。
最后选择菜单中的Run下的run mole即可运行,快捷键为F5。
❼ 哪里可以下载到python比较好的源代码.不是书
到网上找几个源代码下载网站,上面会有几个,但因为Python在国内还不怎么流行起来,所以多找几个源码网就可以了。
❽ 找一个可以存放源代码的站点(python语言编写)
类似PUDN的网站?
❾ 从哪能找到python示例程序或源码
哥,要下载源码也是去官网下载啊,点下面那个就行了
https://www.python.org/ftp/python/3.4.3/python-3.4.3.tar.xz
❿ 《python编程初学者指南》书本中的涉及的源码哪里可以下载
感谢楼上伙伴的无私分享~
虽然已经是5年前的提问了,不过我还是想在这里补充回答一下,虽然书中指定的网址已经发生了变化,但依然有效,输入原网址后会跳转到新的网址。因为网站中包含很多书籍的信息和配套资源,所以需要我们根据书籍的作者或书名或ISBN手动搜索到这本书,
上面页面对应的网址是:
网页链接
不过资源下载起来很慢……建议直接使用楼上的分享~