python怎么统计频率_如何高效地使用Python统计数据的频率

㈠如何高效地使用python统计数据的频率

之前用 Python 写过一个脚本，用来处理上千万用户的一些数据，其中有一个需求是统计用户的某一数据的去重数量。为了加快程序的速度，我启用了多进程。但不幸的是，程序跑了近一个星期，还没处理完。这时，我感觉到了不对，于是开始查看程序的性能瓶颈。
对于统计去重数，我是将用户的数据放到一个列表中，然后用 len(set(data)) 去统计去重数量。刚开始我以为这的数据量并不大，每个用户的数据不会过百，我并没有注意到有的用户会有上万条的数据，因此消耗了大量的时间（其实我的脚本消耗时间最大的地方是因为从远程 redis 中取大量数据时发生长时间的阻塞，甚至连接超时，最后我采用的方式分而治之，每次取少量的数据，这样大大的提高了性能）。
为了做优化，我开始寻求高效的方法。我发现，有大量的人认为采用字典效率会更高，即：
data_unique = {}.fromkeys(data).keys() len(data_unique)

于是，我做了下测试：
In [1]: import random In [2]: data = [random.randint(0, 1000) for _ in xrange(1000000)] In [3]: %timeit len(set(data)) 10 loops, best of 3: 39.7 ms per loop In [4]: %timeit len({}.fromkeys(data).keys()) 10 loops, best of 3: 43.5 ms per loop

由此可见，采用字典和采用集合的性能是差不多的，甚至可能还要慢些。
在 Python 中其实有很多高效的库，例如用 numpy、pandas 来处理数据，其性能接近于 C 语言。那么，我们就用 numpy 和 pandas 来解决这个问题，这里我还比较了获取去重数据的性能，代码如下：
import collections import random as py_random import timeit import numpy.random as np_random import pandas as pd DATA_SIZE = 10000000 def py_cal_len(): data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)] len(set(data)) def pd_cal_len(): data = np_random.randint(1000, size=DATA_SIZE) data = pd.Series(data) data_unique = data.value_counts() data_unique.size def py_count(): data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)] collections.Counter(data) def pd_count(): data = np_random.randint(1000, size=DATA_SIZE) data = pd.Series(data) data.value_counts() # Script starts from here if __name__ == "__main__": t1 = timeit.Timer("py_cal_len()", setup="from __main__ import py_cal_len") t2 = timeit.Timer("pd_cal_len()", setup="from __main__ import pd_cal_len") t3 = timeit.Timer("py_count()", setup="from __main__ import py_count") t4 = timeit.Timer("pd_count()", setup="from __main__ import pd_count") print t1.timeit(number=1) print t2.timeit(number=1) print t3.timeit(number=1) print t4.timeit(number=1)

运行结果：
12.438587904 0.435907125473 14.6431810856 0.258564949036

利用 pandas 统计数据的去重数和去重数据，其性能是 Python 原生函数的 10 倍以上。

㈡一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非

#!/usr/bin/envpython3
#-*-coding:utf-8-*-

importos,random

#假设要读取文件名为aa，位于当前路径
filename='aa.txt'
dirname=os.getcwd()
f_n=os.path.join(dirname,filename)
#注释掉的程序段，用于测试脚本，它生成20行数据，每行有1-20随机个数字，每个数字随机1-20
'''
test=''
foriinrange(20):
forjinrange(random.randint(1,20)):
test+=str(random.randint(1,20))+''
test+='
'
withopen(f_n,'w')aswf:
wf.write(test)
'''
withopen(f_n)asf:
s=f.readlines()

#将每一行数据去掉首尾的空格和换行符，然后用空格分割，再组成一维列表
words=[]
forlineins:
words.extend(line.strip().split(''))

#格式化要输出的每行数据，首尾各占8位，中间占18位
defgeshi(a,b,c):
returnalignment(str(a))+alignment(str(b),18)+alignment(str(c))+'
'
#中英文混合对齐，参考http://bbs.fishc.com/thread-67465-1-1.html，二楼
#汉字与字母格式化占位format对齐出错对不齐汉字对齐数字汉字对齐字母中文对齐英文
#alignment函数用于英汉混合对齐、汉字英文对齐、汉英对齐、中英对齐
defalignment(str1,space=8,align='left'):
length=len(str1.encode('gb2312'))
space=space-lengthifspace>=lengthelse0
ifalignin['left','l','L','Left','LEFT']:
str1=str1+''*space
elifalignin['right','r','R','Right','RIGHT']:
str1=''*space+str1
elifalignin['center','c','C','Center','CENTER','centre']:
str1=''*(space//2)+str1+''*(space-space//2)
returnstr1

w_s=geshi('序号','词','频率')
#由(词,频率)元组构成列表，先按频率降序排序，再按词升序排序，多级排序，一组升，一组降，高级sorted
wordcount=sorted([(w,words.count(w))forwinset(words)],key=lambdal:(-l[1],l[0]))
#要输出的数据，每一行由：序号(占8位)词(占20位)频率(占8位)+'
'构成，序号=List.index(element)+1
for(w,c)inwordcount:
w_s+=geshi(wordcount.index((w,c))+1,w,c)
#将统计结果写入文件ar.txt中
writefile='ar.txt'
w_n=os.path.join(dirname,writefile)
withopen(w_n,'w')aswf:
wf.write(w_s)

热点内容

进化论pdf 发布：2025-07-31 00:14:37 浏览：71

低功耗51单片机发布：2025-07-30 23:45:05 浏览：303

MDR对程序员透明吗发布：2025-07-30 23:15:58 浏览：433

订机票什么app好发布：2025-07-30 22:12:49 浏览：10

php自动关闭页面发布：2025-07-30 21:29:05 浏览：534

文件或文件夹一般有四种属性发布：2025-07-30 20:57:58 浏览：896

php源码七牛发布：2025-07-30 20:12:44 浏览：334

云服务器如何看后台运行发布：2025-07-30 19:55:05 浏览：123

一品威客网程序员发布：2025-07-30 19:24:03 浏览：945

设计数的算法发布：2025-07-30 18:41:56 浏览：797

为什么鸿蒙会显示安卓正在运行发布：2025-07-30 18:40:36 浏览：400

bcb编译原理发布：2025-07-30 18:02:34 浏览：366

如何查看公司内网pop3服务器发布：2025-07-30 17:53:15 浏览：713

linuxscp端口发布：2025-07-30 17:29:22 浏览：253

服务器网元指的是什么发布：2025-07-30 17:23:38 浏览：18

51单片机传输信号发布：2025-07-30 17:22:54 浏览：718

暴肝程序员的异界之旅第五集发布：2025-07-30 17:19:42 浏览：930

新手入坑程序员先学什么发布：2025-07-30 17:09:13 浏览：246

hellojava程序发布：2025-07-30 17:00:54 浏览：217

为什么我的app特别喜欢手机号注册发布：2025-07-30 16:53:55 浏览：644

导航:首页 > 编程语言 > python怎么统计频率

python怎么统计频率

与python怎么统计频率相关的资料