导航:首页 > 编程语言 > python新闻简报

python新闻简报

发布时间:2023-06-07 02:41:06

python 新浪微博爬虫,求助

0x00. 起因
因为参加学校大学生创新竞赛,研究有关微博博文表达的情绪,需要大量微博博文,而网上无论是国内的某度、csdn,还是国外谷歌、gayhub、codeproject等都找不到想要的程序,没办法只能自己写一个程序了。
ps.在爬盟找到类似的程序,但是是windows下的,并且闭源,而且最终爬取保存的文件用notepad++打开有很多奇怪的问题,所以放弃了。
0x01. 基础知识
本程序由Python写成,所以基本的python知识是必须的。另外,如果你有一定的计算机网络基础,在前期准备时会有少走很多弯路。
对于爬虫,需要明确几点:
1. 对爬取对象分类,可以分为以下几种:第一种是不需要登录的,比如博主以前练手时爬的中国天气网,这种网页爬取难度较低,建议爬虫新手爬这类网页;第二种是需要登录的,如豆瓣、新浪微博,这些网页爬取难度较高;第三种独立于前两种,你想要的信息一般是动态刷新的,如AJAX或内嵌资源,这种爬虫难度最大,博主也没研究过,在此不细举(据同学说淘宝的商品评论就属于这类)。
2. 如果同一个数据源有多种形式(比如电脑版、手机版、客户端等),优先选取较为“纯净的”展现。比如新浪微博,有网页版,也有手机版,而且手机版可以用电脑浏览器访问,这时我优先选手机版新浪微博。
3. 爬虫一般是将网页下载到本地,再通过某些方式提取出感兴趣的信息。也就是说,爬取网页只完成了一半,你还要将你感兴趣的信息从下载下来的html文件中提取出来。这时就需要一些xml的知识了,在这个项目中,博主用的是XPath提取信息,另外可以使用XQuery等等其他技术,详情请访问w3cschool。
4. 爬虫应该尽量模仿人类,现在网站反爬机制已经比较发达,从验证码到禁IP,爬虫技术和反爬技术可谓不断博弈。
0x02. 开始
决定了爬虫的目标之后,首先应该访问目标网页,明确目标网页属于上述几种爬虫的哪种,另外,记录为了得到感兴趣的信息你需要进行的步骤,如是否需要登录,如果需要登录,是否需要验证码;你要进行哪些操作才能获得希望得到的信息,是否需要提交某些表单;你希望得到的信息所在页面的url有什么规律等等。
以下博文以博主项目为例,该项目爬取特定新浪微博用户从注册至今的所有微博博文和根据关键词爬取100页微博博文(大约1000条)。
0x03. 收集必要信息
首先访问目标网页,发现需要登录,进入登录页面如下新浪微博手机版登录页面
注意url后半段有很多形如”%xx”的转义字符,本文后面将会讲到。
从这个页面可以看到,登录新浪微博手机版需要填写账号、密码和验证码。
这个验证码是近期(本文创作于2016.3.11)才需要提供的,如果不需要提供验证码的话,将有两种方法进行登录。
第一种是填写账号密码之后执行js模拟点击“登录”按钮,博主之前写过一个Java爬虫就是利用这个方法,但是现在找不到工程了,在此不再赘述。
第二种需要一定HTTP基础,提交包含所需信息的HTTP POST请求。我们需要Wireshark 工具来抓取登录微博时我们发出和接收的数据包。如下图我抓取了在登录时发出和接收的数据包Wireshark抓取结果1
在搜索栏提供搜索条件”http”可得到所有http协议数据包,右侧info显示该数据包的缩略信息。图中蓝色一行是POST请求,并且info中有”login”,可以初步判断这个请求是登录时发出的第一个数据包,并且这个180.149.153.4应该是新浪微博手机版登录认证的服务器IP地址,此时我们并没有任何的cookie。
在序号为30是数据包中有一个从该IP发出的HTTP数据包,里面有四个Set-Cookie字段,这些cookie将是我们爬虫的基础。
Wireshark抓取结果2
早在新浪微博服务器反爬机制升级之前,登录是不需要验证码的,通过提交POST请求,可以拿到这些cookie,在项目源码中的TestCookie.py中有示例代码。
ps.如果没有wireshark或者不想这么麻烦的话,可以用浏览器的开发者工具,以chrome为例,在登录前打开开发者工具,转到Network,登录,可以看到发出和接收的数据,登录完成后可以看到cookies,如下图chrome开发者工具
接下来访问所需页面,查看页面url是否有某种规律。由于本项目目标之一是获取某用户的全部微博,所以直接访问该用户的微博页面,以央视新闻 为例。
央视新闻1
图为央视新闻微博第一页,观察该页面的url可以发现,新浪微博手机版的微博页面url组成是 “weibo.cn/(displayID)?page=(pagenum)” 。这将成为我们爬虫拼接url的依据。
接下来查看网页源码,找到我们希望得到的信息的位置。打开浏览器开发者工具,直接定位某条微博,可以发现它的位置,如下所示。
xpath
观察html代码发现,所有的微博都在<div>标签里,并且这个标签里有两个属性,其中class属性为”c”,和一个唯一的id属性值。得到这个信息有助于将所需信息提取出来。
另外,还有一些需要特别注意的因素
* 微博分为原创微博和转发微博
* 按照发布时间至当前时间的差距,在页面上有”MM分钟前”、”今天HH:MM”、”mm月dd日 HH:MM”、”yyyy-mm-dd HH:MM:SS”等多种显示时间的方式* 手机版新浪微博一个页面大约显示10条微博,所以要注意对总共页数进行记录以上几点都是细节,在爬虫和提取的时候需要仔细考虑。
0x04. 编码
1.爬取用户微博
本项目开发语言是Python 2.7,项目中用了一些第三方库,第三方库可以用pip的方法添加。
既然程序自动登录的想法被验证码挡住了,想要访问特定用户微博页面,只能使用者提供cookies了。
首先用到的是Python的request模块,它提供了带cookies的url请求。
import request
print request.get(url, cookies=cookies).content使用这段代码就可以打印带cookies的url请求页面结果。
首先取得该用户微博页面数,通过检查网页源码,查找到表示页数的元素,通过XPath等技术提取出页数。
页数
项目使用lxml模块对html进行XPath提取。
首先导入lxml模块,在项目里只用到了etree,所以from lxml import etree
然后利用下面的方法返回页数
def getpagenum(self):
url = self.geturl(pagenum=1)
html = requests.get(url, cookies=self.cook).content # Visit the first page to get the page number.
selector = etree.HTML(html)
pagenum = selector.xpath('//input[@name="mp"]/@value')[0]
return int(pagenum)
接下来就是不断地拼接url->访问url->下载网页。
需要注意的是,由于新浪反爬机制的存在,同一cookies访问页面过于“频繁”的话会进入类似于“冷却期”,即返回一个无用页面,通过分析该无用页面发现,这个页面在特定的地方会出现特定的信息,通过XPath技术来检查这个特定地方是否出现了特定信息即可判断该页面是否对我们有用。
def ispageneeded(html):
selector = etree.HTML(html)
try:
title = selector.xpath('//title')[0]
except:
return False
return title.text != '微博广场' and title.text != '微博'
如果出现了无用页面,只需简单地重新访问即可,但是通过后期的实验发现,如果长期处于过频访问,返回的页面将全是无用页面,程序也将陷入死循环。为了避免程序陷入死循环,博主设置了尝试次数阈值trycount,超过这个阈值之后方法自动返回。
下面代码片展示了单线程爬虫的方法。
def startcrawling(self, startpage=1, trycount=20):
attempt = 0
try:
os.mkdir(sys.path[0] + '/Weibo_raw/' + self.wanted)except Exception, e:
print str(e)
isdone = False
while not isdone and attempt < trycount:
try:
pagenum = self.getpagenum()
isdone = True
except Exception, e:
attempt += 1
if attempt == trycount:
return False
i = startpage
while i <= pagenum:
attempt = 0
isneeded = False
html = ''
while not isneeded and attempt < trycount:
html = self.getpage(self.geturl(i))
isneeded = self.ispageneeded(html)
if not isneeded:
attempt += 1
if attempt == trycount:
return False
self.savehtml(sys.path[0] + '/Weibo_raw/' + self.wanted + '/' + str(i) + '.txt', html)print str(i) + '/' + str(pagenum - 1)
i += 1
return True
考虑到程序的时间效率,在写好单线程爬虫之后,博主也写了多线程爬虫版本,基本思想是将微博页数除以线程数,如一个微博用户有100页微博,程序开10个线程,那么每个线程只负责10个页面的爬取,其他基本思想跟单线程类似,只需仔细处理边界值即可,在此不再赘述,感兴趣的同学可以直接看代码。另外,由于多线程的效率比较高,并发量特别大,所以服务器很容易就返回无效页面,此时trycount的设置就显得更重要了。博主在写这篇微博的时候,用一个新的cookies,多线程爬取现场测试了一下爬取北京邮电大学的微博,3976条微博全部爬取成功并提取博文,用时仅15s,实际可能跟cookies的新旧程度和网络环境有关,命令行设置如下,命令行意义在项目网址里有说明python main.py _T_WM=xxx; SUHB=xxx; SUB=xxx; gsid_CTandWM=xxx u bupt m 20 20爬取的工作以上基本介绍结束,接下来就是爬虫的第二部分,解析了。由于项目中提供了多线程爬取方法,而多线程一般是无序的,但微博博文是依靠时间排序的,所以项目采用了一种折衷的办法,将下载完成的页面保存在本地文件系统,每个页面以其页号为文件名,待爬取的工作结束后,再遍历文件夹内所有文件并解析。
通过前面的观察,我们已经了解到微博博文存在的标签有什么特点了,利用XPath技术,将这个页面里所有有这个特点的标签全部提取出来已经不是难事了。
在这再次提醒,微博分为转发微博和原创微博、时间表示方式。另外,由于我们的研究课题仅对微博文本感兴趣,所以配图不考虑。
def startparsing(self, parsingtime=datetime.datetime.now()):
basepath = sys.path[0] + '/Weibo_raw/' + self.uidfor filename in os.listdir(basepath):
if filename.startswith('.'):
continue
path = basepath + '/' + filename
f = open(path, 'r')
html = f.read()
selector = etree.HTML(html)
weiboitems = selector.xpath('//div[@class="c"][@id]')for item in weiboitems:
weibo = Weibo()
weibo.id = item.xpath('./@id')[0]
cmt = item.xpath('./div/span[@class="cmt"]')if len(cmt) != 0:
weibo.isrepost = True
weibo.content = cmt[0].text
else:
weibo.isrepost = False
ctt = item.xpath('./div/span[@class="ctt"]')[0]
if ctt.text is not None:
weibo.content += ctt.text
for a in ctt.xpath('./a'):
if a.text is not None:
weibo.content += a.text
if a.tail is not None:
weibo.content += a.tail
if len(cmt) != 0:
reason = cmt[1].text.split(u'\xa0')
if len(reason) != 1:
weibo.repostreason = reason[0]
ct = item.xpath('./div/span[@class="ct"]')[0]
time = ct.text.split(u'\xa0')[0]
weibo.time = self.gettime(self, time, parsingtime)self.weibos.append(weibo.__dict__)
f.close()
方法传递的参数parsingtime的设置初衷是,开发前期爬取和解析可能不是同时进行的(并不是严格的“同时”),微博时间显示是基于访问时间的,比如爬取时间是10:00,这时爬取到一条微博显示是5分钟前发布的,但如果解析时间是10:30,那么解析时间将错误,所以应该讲解析时间设置为10:00。到后期爬虫基本开发完毕,爬取工作和解析工作开始时间差距降低,时间差将是爬取过程时长,基本可以忽略。
解析结果保存在一个列表里,最后将这个列表以json格式保存到文件系统里,删除过渡文件夹,完成。
def save(self):
f = open(sys.path[0] + '/Weibo_parsed/' + self.uid + '.txt', 'w')jsonstr = json.mps(self.weibos, indent=4, ensure_ascii=False)f.write(jsonstr)
f.close()
2.爬取关键词
同样的,收集必要的信息。在微博手机版搜索页面敲入”python”,观察url,研究其规律。虽然第一页并无规律,但是第二页我们发现了规律,而且这个规律可以返回应用于第一页第一页
第二页
应用后第一页
观察url可以发现,对于关键词的搜索,url中的变量只有keyword和page(事实上,hideSearchFrame对我们的搜索结果和爬虫都没有影响),所以在代码中我们就可以对这两个变量进行控制。
另外,如果关键词是中文,那么url就需要对中文字符进行转换,如我们在搜索框敲入”开心”并搜索,发现url如下显示搜索开心
但复制出来却为
http://weibo.cn/search/mblog?hideSearchFrame=&keyword=%E5%BC%80%E5%BF%83&page=1幸好,python的urllib库有qoute方法处理中文转换的功能(如果是英文则不做转换),所以在拼接url前使用这个方法处理一下参数。
另外,考虑到关键词搜索属于数据收集阶段使用的方法,所以在此只提供单线程下载网页,如有多线程需要,大家可以按照多线程爬取用户微博的方法自己改写。最后,对下载下来的网页进行提取并保存(我知道这样的模块设计有点奇怪,打算重(xin)构(qing)时(hao)时再改,就先这样吧)。
def keywordcrawling(self, keyword):
realkeyword = urllib.quote(keyword) # Handle the keyword in Chinese.
try:
os.mkdir(sys.path[0] + '/keywords')
except Exception, e:
print str(e)
weibos = []
try:
highpoints = re.compile(u'[\U00010000-\U0010ffff]') # Handle emoji, but it seems doesn't work.
except re.error:
highpoints = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')pagenum = 0
isneeded = False
while not isneeded:
html = self.getpage('http://weibo.cn/search/mblog?keyword=%s&page=1' % realkeyword)isneeded = self.ispageneeded(html)
if isneeded:
selector = etree.HTML(html)
try:
pagenum = int(selector.xpath('//input[@name="mp"]/@value')[0])except:
pagenum = 1
for i in range(1, pagenum + 1):
try:
isneeded = False
while not isneeded:
html = self.getpage('http://weibo.cn/search/mblog?keyword=%s&page=%s' % (realkeyword, str(i)))isneeded = self.ispageneeded(html)
selector = etree.HTML(html)
weiboitems = selector.xpath('//div[@class="c"][@id]')for item in weiboitems:
cmt = item.xpath('./div/span[@class="cmt"]')if (len(cmt)) == 0:
ctt = item.xpath('./div/span[@class="ctt"]')[0]
if ctt.text is not None:
text = etree.tostring(ctt, method='text', encoding="unicode")tail = ctt.tail
if text.endswith(tail):
index = -len(tail)
text = text[1:index]
text = highpoints.sub(u'\u25FD', text) # Emoji handling, seems doesn't work.
weibotext = text
weibos.append(weibotext)
print str(i) + '/' + str(pagenum)
except Exception, e:
print str(e)
f = open(sys.path[0] + '/keywords/' + keyword + '.txt', 'w')try:
f.write(json.mps(weibos,indent=4,ensure_ascii=False))except Exception,ex:
print str(ex)
finally:
f.close()
博主之前从未写过任何爬虫程序,为了获取新浪微博博文,博主先后写了3个不同的爬虫程序,有Python,有Java,爬虫不能用了是很正常的,不要气馁,爬虫程序和反爬机制一直都在不断博弈中,道高一尺魔高一丈。
另. 转载请告知博主,如果觉得博主帅的话就可以不用告知了

⑵ python3 怎么爬取新闻网站

需求:

从门户网站爬取新闻,将新闻标题,作者,时间,内容保存到本地txt中。

用到的python模块:

importre#正则表达式
importbs4#BeautifulSoup4解析模块
importurllib2#网络访问模块
importNews#自己定义的新闻结构
importcodecs#解决编码问题的关键,使用codecs.open打开文件
importsys#1解决不同页面编码问题

其中bs4需要自己装一下,安装方法可以参考:Windows命令行下pip安装python whl包

程序:

#coding=utf-8
importre#正则表达式
importbs4#BeautifulSoup4解析模块
importurllib2#网络访问模块
importNews#自己定义的新闻结构
importcodecs#解决编码问题的关键,使用codecs.open打开文件
importsys#1解决不同页面编码问题

reload(sys)#2
sys.setdefaultencoding('utf-8')#3

#从首页获取所有链接
defGetAllUrl(home):
html=urllib2.urlopen(home).read().decode('utf8')
soup=bs4.BeautifulSoup(html,'html.parser')
pattern='http://w+.jia..com/article/w+'
links=soup.find_all('a',href=re.compile(pattern))
forlinkinlinks:
url_set.add(link['href'])

defGetNews(url):
globalNewsCount,MaxNewsCount#全局记录新闻数量
whilelen(url_set)!=0:
try:
#获取链接
url=url_set.pop()
url_old.add(url)

#获取代码
html=urllib2.urlopen(url).read().decode('utf8')

#解析
soup=bs4.BeautifulSoup(html,'html.parser')
pattern='http://w+.jia..com/article/w+'#链接匹配规则
links=soup.find_all('a',href=re.compile(pattern))

#获取URL
forlinkinlinks:
iflink['href']notinurl_old:
url_set.add(link['href'])

#获取信息
article=News.News()
article.url=url#URL信息
page=soup.find('div',{'id':'page'})
article.title=page.find('h1').get_text()#标题信息
info=page.find('div',{'class':'article-info'})
article.author=info.find('a',{'class':'name'}).get_text()#作者信息
article.date=info.find('span',{'class':'time'}).get_text()#日期信息
article.about=page.find('blockquote').get_text()
pnode=page.find('div',{'class':'article-detail'}).find_all('p')
article.content=''
fornodeinpnode:#获取文章段落
article.content+=node.get_text()+' '#追加段落信息

SaveNews(article)

printNewsCount
break
exceptExceptionase:
print(e)
continue
else:
print(article.title)
NewsCount+=1
finally:
#判断数据是否收集完成
ifNewsCount==MaxNewsCount:
break

defSaveNews(Object):
file.write("【"+Object.title+"】"+" ")
file.write(Object.author+" "+Object.date+" ")
file.write(Object.content+" "+" ")

url_set=set()#url集合
url_old=set()#爬过的url集合

NewsCount=0
MaxNewsCount=3

home='http://jia..com/'#起始位置

GetAllUrl(home)

file=codecs.open("D:\test.txt","a+")#文件操作

forurlinurl_set:
GetNews(url)
#判断数据是否收集完成
ifNewsCount==MaxNewsCount:
break

file.close()

新闻文章结构

#coding:utf-8
#文章类定义
classNews(object):
def__init__(self):
self.url=None
self.title=None
self.author=None
self.date=None
self.about=None
self.content=None

对爬取的文章数量就行统计。

⑶ python可以做到自动抓取互联网上的新闻更新到网站吗

理论上完全可以实现,相应的技术方案也是比较成熟的。不知道需要爬取的网站内容复杂不复杂的。目前我想到的方案是借助爬虫框架,数据存储可利用mysql,mongodb之类的。打个比方,这是我用scrapy爬取诗词网站的数据,腊纯然后存储到Mongodb中,就是缺少一部更新。

我们可以设定一个任务,任务可以是每1分钟更新一下爬取数据,这样就可以做到对应网站数据的更新,至于自身网站数据的更新,因为是客户端发起的,所以,只要做到服务器商数汪带据更新了,客户端就可以看到最新的数据,当然,需要注意相应的缓存技术的影响。

总的来说,爬取网站的数据然后更新到网站,是完全可以实现的。主要是看出于什么的目的,以及爬轮陵咐取的网站的复杂性问题。

⑷ Python如何简单爬取腾讯新闻网前五页文字内容

可以使用python里面的一个爬虫库,beautifulsoup,这个库可以很方便的爬取数据。爬虫首先就得知道网页的链接,然后获取网页的源代码,通过正则表达式或者其他方法来获取所需要的内容,具体还是要对着网页源代码进行操作,查看需要哪些地方的数据,然后通过beautifulsoup来爬取特定html标签的内容。网上有很多相关的内容,可以看看。

⑸ 请教python Scrapy 高手 如何抓取腾讯新闻评论页面内容,有重谢

其实你可以换个思路,scrapy的确是可以爬去js生成的代码,使用webkit中间件,这个网上有教程,你可以搜一下。
但是有个更好的方法,通过请求分析获取到评论的信息,比如:
这个新闻:http://coral.qq.com/1129103872
对应的评论地址:http://coral.qq.com/article/1129103872/comment?reqnum=2000
后面那个reqnum是你要提取的评论数,希望这个能帮到你。

如果解决了您的问题请采纳!
如果未解决请继续追问

⑹ python如何利用已有的语料库,对一篇新闻文本进行分词

把自己的语料库(sogou文本分类语料库)放在LTK_DATA/corpora/目录下;
然后在命令行输入以下之后,即可看到所有的txt文件名列表了。

⑺ Python 在编程语言中是什么地位为什么很多大学不教 Python

Python是当下非常热门的一种编程语言。热门到什么程度?我们首先看看最近流行的编程语言排行榜:

这是 TIOBE编程语言社区发布的2018年1月排行榜,Python已经超过C#跃居热门编程语言的第四位。

那么,Python为什么会成长为如此热门的语言呢?

首先,跟最近大热的AI人工智能和深度学习技术是分不开的。现在流行的AI人工智能技术大部分都是用Python语言编写的,这大大促进了的Python语言的发展。AI深度学习技术本身的特点决定了其不适合静态编译型语言,而Python语言被选作AI技术框架的基础语言,更多的是源于Python的动态特性及其开发效率高等性能优势。

说起来Ruby、Perl等与Python同属动态语言,三者的运行效率相差并不大,而Python既可以写网络又可以处理数据,所以Python当仁不让的成为了AI技术的首选。

豆瓣的崛起是对Python语言性能的实例鉴证。豆瓣是最早使用Python作为语言的网站,其创始人用3个月时间使用基于Python的Quixote框架开发搭建了最初的豆瓣社区的框架。当时,PHP和JAVA是绝对的主流技术,但是想要用PHP或JAVA开发网站,需要自己动手处理大量的工作,单靠一个人在短时间内完成开发一个功能齐全的大型网站几乎是不可能的,所以Python的敏捷性与高效性使其当选为豆瓣的网站语言。

其次,Python涉及多领域的应用范围,促进了其成为热门语言。除了web开发,Python也应用于学术研究及科学领域。对于科研人员来说,Python简单易学,容易上手,即使非计算机专业的科研学者利用Python庞大的库和简单的语法,也可以编写工具帮助进行科学学术研究。

Python拥有Matplotlib(matplotlib.org/)及numPy(www.numpy.org/)这样强大的绘图库和数值扩展,能帮助科研学术人员进行绘图和数值分析。这使得Python在该领域成为难以替代的选择。基于同样的原因,Python在国外政府部门也被大量运用。

Python还广泛应用于电子制造行业,比如布线仿真等CAD领域,比起传统的TCL编程,Python语言要友好的多。很多使用C/C++/JAVA编写的测试工具,由于静态编译语言维护成本相对较高,现在已经开始转为用Python编写了。在金融领域,比如量化交易,Python同样有许多强大的扩展库。

随着Python扩展库不断发展壮大,Python在科研、电子、政府、数据分析、web、金融、图像处理、AI技术各方面都有强大的类库、框架和解决方案,以致有了“已经没有任何语言能够动摇Python在今后生产生活的核心语言地位”的说法。因此也出现了在义务教育阶段就开始教授Python语言的情况出现。据说在美国,连婴幼儿都有 Python 编程书,Python 要从娃娃抓起。

第三,国家对于人工智能的重视,助推了Python的热门。2018年1月16日上午,教育部召开新闻发布会,介绍了《普通高中课程方案和语文等学科课程标准(2017年版)》的有关情况,并重新修订了语文等14门学科的课程标准。在此次“新课标”改革中,正式将人工智能、物联网、大数据处理划入新课标,这也就意味着今年秋季入学的高中生,将要开始学习Python了。

⑻ python背后是一项科技运动

比较官方的说法,python是一种解释型语言,解释型语言是指代码一行一行的解释执行,就好像有个 同声传译 ,你每说一句话,他都能不间断地给你翻译,把你说的话(意指写好的代码)翻译成机器能够理解的语言。对于机器来说,这些翻译后的语言就是机器语言,就是指令,机器收到指令后,就会根据指令执行对应的操作。

与解释型语言相对的,有编译型语言,编译型语言则通过编译器先将代码翻译成机器语言,再交给机器去执行。举个例子,我方主持了一个会议,参会的分别有英国人、俄国人和西班牙人,他们三方都带了自己的同声传译。假如是解释型语言呢,我在开会的时候用一种每个同声传译都听得懂的的语言,也就是一种官方用语。这样我可以不间断地用这种语言来做交流,因为这些翻译人员都会为这三国参会人员同步翻译成目标语言,你应该也注意到了,解释型语言类似于一种通用的语言。而如果是编译型语言呢,我会让我这边的3个翻译人员将我的一份中文演讲稿,分别翻译成英文版的、俄文版的和西班牙语版的,在开会的时候,我只要交给参会的国际友人去翻阅就好了。解释型语言侧重的是一种通用的、能够实时解释翻译的特性,而编译型语言侧重的是有针对性、提前准备的特性。然而,在开会的时候,解释型效率是没有那么高的,因为需要同声传译消耗时间去做翻译,而编译型的效率会高些,因为翻译工作已经在开会前做好了,只需要参会人员理解并且执行就好。


1989年的圣诞节,荷兰程序员Guido van Rossum( 吉多·范罗苏姆 ,以下简称吉多)在家休假无聊,为了打发时间,他开发了一种新的解释型语言。可见,该程序员无聊的时候,就是写代码。因为作者非常喜欢 Monty Python's Flying Circus (巨蟒剧团之飞翔的马戏团,这是英国的一个电视喜剧),就拿python作为这个新语言的名字。我想大家不一定都知道这部喜剧,但是可能都听说过python,可能微信在几天前给你推过python相关的培训广告,可能一些学校已经将掌握python基础概念作为一门选修课,可能你的智能家居里的操作系统有一部分核心代码是用python实现的,可能你的手机里有一个插件也是用python实现的,python现在的应用范围非常广泛,功能也非常强大。

吉多之前在 荷兰数学和计算机科学研究学会 上班,在那里,他为ABC编程语言工作了好多年。 ABC语言长这样的

这是一个函数,你也许看不懂,根据英文单词,或许可以大概猜出点什么。这里只想让你知道,python也差不多长这样,相比较会更容易理解些。

ABC虽然是一门编程语言,它的定位是作为教学或原型设计的工具,是专门为学校老师或者科研人员设计的。ABC的定位决定了它受众不是很广泛,并且它也有使用门槛,对计算机不了解的人,没有经过一段时间的学习,可能根本就上不了手。所以,ABC并不能作为一门通用的编程语言,在业内也无法获得成功。虽然说ABC没有python那么成功,但是ABC可以说是"the mother of python",作者在很多地方都借鉴了ABC,取其精华、取其糟粕。现如今,python是长这样的

可能对于没接触过编程的人来说,它们两不都是一样的,不都是一堆英文字母么,我都看不懂。但是对于初学计算机课程,那些需要学习C语言的人来说,python相比较算是更容易理解了。python非常简短,一些复杂的流程,在C语言中,可能需要几十行代码,但是在python中,可能就只需要几行代码。当然不同的业务场景,可能不是这样的,但是普遍情况下,用python的开发效率是非常高的。python适合快速开发,适合产品快速迭代出新。

1999年1月,也就是语言面世的10年后, 吉多 向DARPA(Defense Advanced Research Projects Agency,美国国防部一个负责科研的下属机构)申请资金。我去翻了下该申请的修订版,修订版在1999年8月份提交,修订版比第一版内容更具有概括性,并且内容翔实,条理清晰,值得翻阅。

该修订版叫 Computer Programming for Everybody ,直译过来,就是针对每个人的计算机编程,翻译为通俗易懂的词——人人编程,人人编程是一种 社会 现象,每个人都有一定的编程能力,并且对计算机有一定的认识,了解软硬件是怎么运转起来的,了解一些软硬件的设计规范,能够通过编程来表达自己的想法,能够通过编程来配置自己的软件,通过编程来控制自己的机器,以改善自己的生活。举个例子,你在某宝买了一个扫地机器人,该机器人支持定义打扫路线,支持设置扫地机器人在需要更换扫把的时候,指示灯显示指定的颜色。你知道扫地机器人可以做什么,有什么操作习惯,这是基于你对一些机器的理解,如果你用过很多软件,或者参与过软件的设计,你大概都知道一些软件可能都有“设置”、“编辑”或“帮助”等菜单键。这种设计思维,或者操作习惯,都是很多软件都有的,有了这种认识之后,你面对很多同类型的软件、或者同类型的产品,就大概能够知道从那里入手,以及对它有什么功能,都有一个初步的期待或者认识。既然大家都了解计算机了,那么计算机的一些概念或者说是理念,可以说是属于常识的一部分,面对一些计算机或者说智能设备,也大概知道从哪里上手使用。我觉得这就是作者要达到的愿景。

该修订版主要有几个目的:

在这里,他想从推广python开始,因为python作为一门适合快速开发的工具,既适合专家,也适合初学者,同时python有一个活跃的且不断增长的用户群体,这个用户群体对他这个申请也非常感兴趣,愿意为之努力。python的用户数多,说明已经在市场得到了一定的认可,并且这个用户群体也愿意为python的发展做贡献,这对于一门编程语言来说,最好不过了。

该提案的 基本论点 部分写得很好,他说他想普及计算机应用,但并非通过介绍新的硬件,或者新软件这种形式,而是通过赋予每个人编程能力来实现。信息技术的发展给了人们各种强大的计算机,它们以桌面电脑、笔记本电脑或者嵌入式系统的形式存在,如果用户在软件设计和实现上有一个通用的认知,那将会极大地促进生产和创造,并且对未来有深远的影响。试想一下,如果你有一种修改和配置软件的能力,并且你可以把你的修改通过社区网站分享其他人,其他人碰到同样的问题的话,就可以参照你的方法。这种能力在紧急的情况下是很重要的,你不必等专家来给你解决问题,你自己就可以尝试解决这些问题。说到这里,你有没有想起贴吧,或者论坛,论坛有很多个板块,不同的领域分不同的板块,假如你想root手机(手机越狱,指解除手机厂商的限制,获取手机的用户最高权限,以实现对手机的某种控制),你可以到论坛上root板块找答案,这种形式可谓跟吉多提到的是一样的。如果你对你的手机或者电脑有更深入的了解,你可以通过编程改善你的输入法,或者改变你的显示器冷暖色等等,这些都是对你生活有帮助的。吉多在这里就是想达到这种状态,简单点说,人人都对计算机有一定的了解,且都有处理计算机问题的能力。

为了实现这个目标,作者制定了5年计划,这个5年计划如下:

5年计划循序渐进,由浅入深。1999年3月,美国国防部对此进行了回应,同意拨款给他。作者的5年计划在1999年底开始实施,虽然想推进5年,但是只收到1年的资金支持。不过,作者还是没有放弃这个项目,一直推进,直到他不再参与python的工作。当时美国国防部对他们提供了多少资金呢,我没看到官方公开的数据。2013年有报道称,DARPA向Continuum Analytics提供3百万美元的支持,让该公司给python开发数据处理以及数据可视化工具。具体数字是否可靠,这个尚不清楚,但管中窥豹,可见美国国防部对该项目表示认可,并提供了资金支持。Continuum Analytics有一个比较有名的工具,叫Anaconda,Anaconda可以理解为是python + 各种科学计算库的工具箱,Anaconda官网有这么一句话

翻译为“Continuum Analytics的Anaconda是使用python的、领先的开源科学计算平台,我们赋予那些正在改变世界的人超能力。”

在查资料的时候,我发现了一个wiki论坛, 该论坛对该项目进行了评价,论坛列出了该项目成功的地方和失败的地方,以及一些 社会 人士的看法。论坛这样总结道,这个项目成功的地方在于:

这个项目失败的地方在于:

回想自己初学python的时候,我觉得这个总结是很公正的。python确实容易入门,有编程基础的人可能只需要一个星期就能掌握python的一些基本语法。相比C语言,python对于初学者是很友好的,很容易让人上手。但是,要深入理解python,并没有这么简单,需要花很多时间去磨练。接手一个使用python的项目,你需要花一些时间精力去熟悉,去摸透里面的逻辑,这对于初学者来说,是无法避免的。 对于一个程序员来说,作者能想象到以后计算机的普及应用,以及用户的认知水平,还有他能够做什么,通过什么来实现,能有这些远大的抱负,这是非常不容易的。西方世界经常说到“change the world,make the world a better place”,作者也确实做到了,他设计的python在计算机世界里扮演者一个非常重要的角色。如果通过 科技 能够改变世界,那么python就是改变世界的其中一步。1980-2000年,美国对 科技 公司是政策扶持、技术扩散,这期间涌现了如IBM、HP、思科等 科技 公司,大家熟知的微软和苹果都是在这期间上市的。python可以说是这个 科技 运动的一个缩影,在 科技 浪潮的推动下,python得到了长足的发展。

很多 科技 或工业相关的网站会根据当年编程语言的流行度做下排名,它们会列出当年在业界最受欢迎的编程语言。其中,IEEE Spectrum 和 TIOBE 的2021年度编程语言是python,如果我还没记错的话,TIOBE的2020年度编程语言也是python。可见python是非常受欢迎的,用现在的话讲,就是“网红”编程语言。现在,很多计算设备上都有python的身影,小到智能家居、手机、智能手表,大到锂电车、工控车床、甚至航天飞机都有python的身影。你可能在浏览网页的时候,右下角弹出一个“7天python入门”的广告,可见python现在还是有很多需求,因为有需求,所以才有人去投广告,才会有人去找培训机构。

作者在给美国国防部的提案中写到,他想跟高中或大学展开合作,设计一些python的课程,针对不同年级,设计不同水平的课程。现在来看,他确实是做到了,现在哈佛、密歇根大学等排名靠前的大学,都有python课程,python在这些大学的CS(计算机科学)课程中应用非常广泛,可以说是作为CS导论的一个教学工具。在一些比较高级的课程,比如数据科学、人工智能等都可以看到python的身影,这是因为学术界以及工业界为python提供了一些处理科学计算和大数据的工具,这也归功于美国国防部的支持。美国有许多编程夏令营,针对不同年龄段有不同的课程,并且也有许多支持python代码的编程竞赛。Google在coursera上有一个面向初学者的课程,该课程叫 Google IT Automation with Python,完成课程大约需要 8 个月,课程建议每周花5小时学习,课程结束后就可以获得Google颁发的证书。可见,不管是工业界,还是教育界,都对python有不同程度的支持。这里打个岔,第一版的Google搜索引擎还是用python写的,作者也在Google工作了一段时间。

现如今,每隔一段时间,就有一个PyCon活动,这个活动汇聚世界各地的开发者,每年都有开发者来展示他们使用python的成功案例,或者表达自己对python的新功能或者缺陷的看法。可见,python用户社区一直都是很活跃的。这让我想到了某新能源 汽车 ,该 汽车 用户有很高的粘性,有一位车主跟我说过,他们有一个微信群,里面有该新能源 汽车 的高管,很多车主乐意在里面指出问题,或者提建议,因为这些高管会对问题或者建议做出相应的反馈。用户愿意提意见,产品经理愿意广开言路,采纳多方建议,实属不易。python社区也差不多如此。

几年前,你是否看过一个新闻,《人工智能“网红”编程语言Python进入山东小学课本》,这是2017年澎湃网的一则新闻,里面讲了python进入了山东省小学六年级教材,作为一门“网红”编程语言,它是否适合低龄学生,这个倒是没细说,但是可见国内有些地方是把编程作为一种比较基础的能力来考量。python往低龄阶段渗透是否合适呢,我在翻资料的时候瞥到韩国高丽大学的一篇论文,论文讲述小学生在学习python的过程中会碰到一些困难,比如经常少打了一些括号,经常拼错单词,经常碰到语法错误,以及对这些现象的看法。还有,南京师范大学有一篇报道,讲述了中学生学习在学习python时,采用面向问题的学习模式,我理解是case by case的教学模式,这种模式有利于学生培养学生的计算机思维,以及帮助他们理解一些计算机相关的概念,解决计算机相关的问题。

python是否适合低龄学生呢,我觉得这个是值得讨论的话题。最后还要问你一句,你会让你的小孩学习python么,从什么时候开始学呢?你的娃因为不知道打多少个括号嚎啕大哭时,你能帮得上忙么?你到时候需要专门请一个程序员来给你的娃做家教么?


https://zh.wikipedia.org/wiki/Python%E8%BB%9F%E9%AB%94%E5%9F%BA%E9%87%91%E6%9C%83

https://www.python.org/psf/

https://www.computerworld.com/article/2711690/python-gets-a-big-data-boost-from-darpa.html

https://legacy.python.org/doc/essays/omg-darpa-mcc-position/

https://legacy.python.org/doc/essays/blurb/

https://www.python.org/doc/essays/cp4e/

http://wiki.c2.com/?

https://koreauniv.pure.elsevier.com/en/publications/an-analysis-of-the-difficulties-of-elementary-school-students-in-

https://www.frontiersin.org/articles/10.3389/fpsyg.2021.771221/full

https://zh.wikipedia.org/wiki/%E7%BB%88%E8%BA%AB%E4%BB%81%E6%85%88%E7%8B%AC%E8%A3%81%E8%80%85

https://gvanrossum.github.io//

http://neopythonic.blogspot.com/2016/04/kings-day-speech.html

https://www.artima.com/intv/guido.html

https://www.htsec.com/jfimg/colimg/upload/20200113/68981578882847978.pdf

阅读全文

与python新闻简报相关的资料

热点内容
有个小姑娘叫美娜的韩剧 浏览:143
韩国美容院老板出轨顾客的片子 浏览:870
日本爱情动作大片 浏览:617
微信好友怎么加密不能让别人看见聊天记录 浏览:145
爱情电影网 apdy类似网站 浏览:945
地铁快线和加密线 浏览:41
计算机科学程序员 浏览:356
激光手术治疗近视适合程序员吗 浏览:107
资深程序员优良习惯 浏览:358
宏晶单片机中文手册 浏览:965
主人公叫林枫的小说 浏览:773
有一个美剧学生一直想跟老师发生关系 浏览:276
kettle解压后没有bat文件 浏览:71
只剩最后一个男人的电影 浏览:578
编译原理词法未来前景 浏览:890
唐子睿 浏览:642
有弹窗广告的小说网站 浏览:745
大陆战争老电影全部 浏览:967
我的世界迪哥使用的服务器是什么 浏览:734
淘宝批量压缩图片 浏览:209