‘壹’ python怎么创建元胞数组cell
貌似不可能吧。 个人理解:a=[1,2];b=[3,4];c=[a,b];那怎么读取c中的元素名称,貌似c直接存储数,而不存元素名称吧。 以上仅个人理解,不知对错。
‘贰’ 用python写测试脚本,怎么拿到table中某个cell中的值
利用soup,find_all方法获取cell数列,然后通过数列获取想要的具体值。
‘叁’ python 怎么修改pandas的某个cell的值
数据缺失
数据缺失在大部分数据分析应用中都很常见,Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据,他只是一个便于被检测出来的数据而已。
from pandas import Series,DataFrame
string_data=Series(['abcd','efgh','ijkl','mnop'])
print(string_data)
print("...........\n")
print(string_data.isnull())12345671234567
Python内置的None值也会被当作NA处理
from pandas import Series,DataFrame
string_data=Series(['abcd','efgh','ijkl','mnop'])
print(string_data)
print("...........\n")
string_data[0]=None
print(string_data.isnull())123456789123456789
处理NA的方法有四种:dropna,fillna,isnull,notnull
is(not)null,这一对方法对对象做出元素级的应用,然后返回一个布尔型数组,一般可用于布尔型索引。
dropna,对于一个Series,dropna返回一个仅含非空数据和索引值的Series。
问题在于DataFrame的处理方式,因为一旦drop的话,至少要丢掉一行(列)。这里解决方法与前面类似,还是通过一个额外的参数:dropna(axis=0,how=’any’,thresh=None),how参数可选的值为any或者all.all仅在切片元素全为NA时才抛弃该行(列)。thresh为整数类型,eg:thresh=3,那么一行当中至少有三个NA值时才将其保留。
fillna,fillna(value=None,method=None,axis=0)中的value除了基本类型外,还可以使用字典,这样可以实现对不同列填充不同的值。
过滤数据:
对于一个Series,dropna返回一个仅含非空数据和索引值的Series:
from pandas import Series,DataFrame
from numpy import nan as NA
data=Series([1,NA,3.5,NA,7])
print(data.dropna())123456123456
另一个过滤DataFrame行的问题涉及问题序列数据。假设只想留一部分观察数据,可以用thresh参数实现此目的:
from pandas import Series,DataFrame, np
from numpy import nan as NA
data=DataFrame(np.random.randn(7,3))
data.ix[:4,1]=NA
data.ix[:2,2]=NA
print(data)
print("...........")
print(data.dropna(thresh=2))
不想滤除缺失的数据,而是通过其他方式填补“空洞”,fillna是最主要的函数。
通过一个常数调用fillna就会将缺失值替换为那个常数值:
from pandas import Series,DataFrame, np
from numpy import nan as NA
data=DataFrame(np.random.randn(7,3))
data.ix[:4,1]=NA
data.ix[:2,2]=NA
print(data)
print("...........")
print(data.fillna(0))
若是通过一个字典调用fillna,就可以实现对不同列填充不同的值。
from pandas import Series,DataFrame, np
from numpy import nan as NA
data=DataFrame(np.random.randn(7,3))
data.ix[:4,1]=NA
data.ix[:2,2]=NA
print(data)
print("...........")
print(data.fillna({1:111,2:222}))
可以利用fillna实现许多别的功能,比如可以传入Series的平均值或中位数:
from pandas import Series,DataFrame, np
from numpy import nan as NA
data=Series([1.0,NA,3.5,NA,7])
print(data)
print("...........\n")
print(data.fillna(data.mean()))
123456789123456789
检测和过滤异常值
异常值(outlier)的过滤或变换运算在很大程度上就是数组运算。如下一个(1000,4)的标准正态分布数组:
from pandas import Series,DataFrame, np
from numpy import nan as NA
data=DataFrame(np.random.randn(1000,4))
print(data.describe())
print("\n....找出某一列中绝对值大小超过3的项...\n")
col=data[3]
print(col[np.abs(col) > 3] )
print("\n....找出全部绝对值超过3的值的行...\n")
print(col[(np.abs(data) > 3).any(1)] )
移除重复数据
DataFrame的plicated方法返回一个布尔型Series,表示各行是否是重复行。
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np
data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.plicated())123456789123456789
与此相关的还有一个drop_plicated方法,它用于返回一个移除了重复行的DataFrame:
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np
data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.drop_plicates())123456789123456789
上面的两个方法会默认判断全部列,也可以指定部分列进行重复项判断,假设还有一列值,而只希望根据k1列过滤重复项。
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np
data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_plicates(['k1']))1234567891012345678910
plicates和drop_plicates默认保留第一个出现的值组合。传入take_last=True则保留最后一个:
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np
data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_plicates(['k1','k2'],take_last=True))1234567891012345678910
‘肆’ python如何对excel数据进行处理
在python语言中,可以使用xlrd和xlwt两个库操作excel。
在python语言中处理Excel的方法:
在python项目中,新建python文件,并依次导入xlrd和xlwt。
接着调用open_workbook()方法,打开一个excel文件
调用sheet_by_name()方法,读取文件的sheet页
如果是后面加了个s,sheet_names表示获取excel中所有的sheet页
利用sheets()方法加序号,可以获取某个sheet页对象
如果想要获取excel某个sheet页中记录的总数,使用nrows
在cell()中传入两个值,一个行一个列,然后value获取对应单元格的值
推荐:python视频教程以上就是小编分享的关于python如何对excel数据进行处理的详细内容希望对大家有所帮助,更多有关python教程请关注环球青藤其它相关文章!
‘伍’ python 如何读取 excel 指定单元格内容
1、首先打开电脑上编写python的软件。
‘陆’ 在python语言中CellA=PartA.cell[:]时什么意思
object.attribute
表示得到对象的属性
然后一个变量值,是列表类型的话可以通过
listTypeValue[startNum:endNum]
去获得从startNum到endNum中这段的值
而如果把startNum到endNum都省略的话,则表示从头到尾,获得所有的。
所以你那句的意思是:
获得对象PartA中属性cell(是个列表)中的所有的值。
‘柒’ 怎么用Python提取Excel中下一行名字中有几个上一行名字,也就是怎么得到2这个数
用python读取excel中的一列数据步骤如下:
1、首先打开dos命令窗,安装必须的两个库,命令是:pip3 installxlrd;Pip3 install xlwt。
‘捌’ 麻烦注释一下python其中语句的含义。
使用cell(col,0).value 作为 键,cell(col,1).value作为 值,构建了键值对,存储在zd 这个字典中
字典对键值的引用 可以使用, 字典名[键] = 值 的方式
网页链接