‘壹’ python常见数据类型
一,python整数类型所表示的数据。
1,一般用以表示一类数值:所有正整数,0和负整数;
2,整型作为最常用的,频繁参与计算的数据类型,在python3.5中解释器会自动在内存中创建-5-3000之间的(包含5,不包含3000)整型对象,也就是说在该范围内,相等都是同一个已经创建好的整型对象。范围之外的即使相等也表示不同对象,该特性随python版本而改变,不要过于依赖。
3,bool型继承了int型,他是int的子类。
4,Python2中有长整型long,数值范围更大,在python3中已取消,所有整型统一由int表示。
5,参与所有数值计算,数学运算,科学计算。这也是所有编程语言都有的数据类型,因为编程语言生而需要模拟人的思维,借助数学方式,自动计算、更好的解决大量重复性的事务,因此数值类型、整数类型在编程语言中不可或缺。
6,支持二进制(0b\0B开头),十进制,八进制(0o\0O),十六进制(0x\0X)
二,python整数和浮点型支持常规的数值运算
整数和浮点数都可参与的运算:+ - * / %(取余) //(整除) **(幂)
Python字符型:
python字符型表示的数据:
python3支持Unicode编码,由字母、数字和符号组成的形式就叫字符串,更接近或者相同与人们文字符号表示,因此在信息表示和传递时它也是最受认可的形式。在程序编写中也是非常常用,对应的可操作的方法也很多,很有意思。
字符串不可被修改,可以拼接等方法创建新字符串对象;
支持分片和下标操作;a[2:]
支持+拼接,*重复操作和成员关系in/not in;
表示形式:用单引号双引号包含起来的符号;a = str(‘sdfsdfsdf’) 或 r’\t\nabcd’ 原始字符,Bytes:b’abcd’;
6,字符串属于不可变数据类型,内部机制为了节省空间,相同的两个字符串表示相同的一个对象。a = ‘python’ b = ‘python’ a is b :True
二, 字符串支持的运算方法
1,capitalize() :首字母大写后边的字母小写 a = ‘abcd’ b = a.capitalize() b:Abcd
2,casefold() lower():字母转换为全小写
3,center(width,fillchar) :居中,width填补的长度;fillchar添加的字符
a = a.center(10,’_’) //’____abcd____’ 默认无fillchar填充空格
4,count(sub,star,end) :字母计数:sub要查询的字符
5,encode(encoding=’utf-8’,errors=’strict’) 设置编码
Errors :设置错误类型
6,endswith(suffix,star,end) : 若以suffix结尾返回True
7,expandtabs(8) :设置字符串中tab按键符的空格长度:’\tabcde’
8,find(sub,star,end) : 返回指定范围内的字符串下标,未找到返回-1
9,index(sub,star,end) :返回指定范围字符串下标未找到抛出异常
10,isalnum() :判断字符串是否是字母或数字,或字母和数字组合
11,isalpha() :判断是否全是字母
12,isdecimal() :判断字符串是否是十进制数值
13,isdigit() :判断字符串是否是数字
14,isidentifier() :判断字符串中是否包含关键字
15,islower() :判断是否全小写
16,isnumeric() :判断全是数字
17,isspace() :判断是否是空格
18,isupper() 判断是否大写
19,istitle() :判断是否首字母大写
20,join(iterable) :把可迭代对象用字符串进行分割:a.join(‘123’)
21,ljust(width,fillchar);rjust() :左对齐右对齐
22, upper() :将字符串改为大写
23,split(sep=None,maxsplit=-1) :分割一个字符串,被选中字符在字符串中删除
‘ab1cd1efg’.split(‘1’) :[‘ab’,’cd’,’efg’]
三,字符串格式化:按照规格输出字符串
format(*args,**kwargs) :args位置参数,kwargs关键字参数
‘{0:.1f}’.format(123.468) :格式化参数,小数点后保留1位四舍五入
四,字符串操作符%
1,%s :格式化字符串 ‘abcd%sdef’%’dddd’
2,%d:格式化整数
3,%o格式化无符号八进制
4,%x格式化无符号十六进制
5,%f格式化定点数
6, %e: 科学计数法格式化定点数
7,%g 根据值大小自动选%f,%e
8, %G E X :大写形式
五,格式化辅助命令:
m.n :m最小总宽度,n小数点后位数:’%12.4f’%23456.789
六,转义字符:字符串前r避免转义:r’\nhello\thi’
\n:换行符
\t:横向制表符
\':'
\":"
\b:退格符
\r:回车
\v:纵向制表符
\f:换页符
\o,\x:八进制和十六进制
\0:空字符串
Python列表list
一,Python的列表list类型表示的数据:
Python列表在cpython中被解释为长度可变的数组,用其他对象组成的连续数组。
列表中元素可以是相同或不同的数据类型;
当列表元素增加或删除时,列表对象自动进行扩展或收缩内存,保证元素之间没有缝隙,总是连续的。
Python中的列表是一个序列,也是一个容器类型
创建列表:a = []; b = [1,’python’]; c = list(); d = list((1,3,4,5))
支持切片操作list[start,stop,step]
python列表常用方法
1,append添加单个元素:list.append(object); //a.append(‘python’)
2,extend添加可迭代对象: list.extend(iterable); //a.extend(‘abcde’/[1,2,3])
3,insert 插入元素:list.insert(index,object): 在index下标前插入元素//a.insert(2,’python’)
4,clear 清空所有元素:list.clear() //a.clear()
5,pop 删除并返回一个元素:list.pop(index) //默认删除默认一个元素
remove 删除指定元素:list.remove(v) ,v元素不存在报错 //a.remove(‘c’)
7,count 返回这个值在列表中数量:list.count(value)
8, 浅拷贝一个新列表:list.()
9,sort:排序list.sort(reverse=False/True) :默认升序
排序函数:sorted(list)
10,reverse: 原地翻转:list.reverse()
11,index(value,star,stop) :指定范围内该值下标:list.index(2,0,5)
列表元素访问:
下标访问:list[1]
For循环遍历
通过下标修改元素:list[2 ] = ‘hello’
列表常用运算符:
1,比较运算符:从第一个元素开始对比
2,+ 拼接一个新列表:l1+ l2
3, 重复操作符:* ,多个列表拼接
成员关系操作符:in/ not in
逻辑运算符:and not or
列表常用的排序方法:
冒泡排序;选择排序;快速排序;归并排序
Python元组tuple
一,Python元组tuple数据类型表示的数据:
元组是受到限制的、不可改变的列表;
可以是同构也可以是异构;
元组是序列类型、是可迭代对象,是容器类型。
元组的创建: a = (1,2,3)或a=1,2,3; b = tuple(); c = tuple(iterable)
支持切片操作tuple[start,stop,step]
二,python元组常用方法
1,index(value,star,stop) :指定范围内该值下标:tuple.index(2,0,5)
2,count(value) :值出现次数
三,支持运算:
1,比较运算符:从第一个元素开始对比
2,+ 拼接一个新元组:l1+ l2
3, 重复操作符:* ,多个元组拼接
4成员关系操作符:in/ not in
逻辑运算符:and not or
四,元组的访问
下标操作;
For循环遍历访问。
Python字典类型
一,Python字典dict表示的数据:{key:value}
可根据关键字:键快速索引到对应的值;
字典是映射类型,键值对一一对应关系,不是序列;
字典元素是无序的;
字典是可迭代对象,是容器类型;
字典的创建:k = {}; k1={‘keyword’:object}; k2 = dict();
K3 = dict(mapping); dict=(iterable)
二,字典的访问:
通过key:k[‘key’]
修改key对应的值:K[‘key’] = value
For循环遍历出来的是key;
For循环键值对:for I in d.items():
For 循环enumerate: for k,v in enumerate(k1):
In/not in 成员关系查询键不支持查值
三,字典常用方法
get(key,de):获取值:k.get(key,de) //若不存在则默认输出de
pop(k,de):删除一个键值对,不存在输出de,未设置报错;
keys() :返回字典所有key组成的序列:list(k.keys()) [1,2,3];
values():返回字典所有value组成的序列:list(k.values())
items():返回键值对组成的元组为元素的序列:(类set)list(k.items())
update(e):更新字典:e可是字典或两元素组成的单位元素序列:e=[(5,6),(7,8)];
k.update(e)
clear():清空字典;
popitem()删除某个键值对,若字典为空则报错
() :浅拷贝
10, fromkeys(iterable,value=None):从可迭代对象创建字典
{}.fromkeys([1,2,3]) -----{1:None,2:None,3:None}
11,setdefault(k,d=None) :若key不存在则生成一个键值对
k.setdefault(‘keyword’)
Python 集合set
集合表示的数据:
多个元素的无序组合,集合是无序的,集合元素是唯一的;
字典的键是由集合实现的;
集合是可迭代对象
集合创建:s = {1,2}; s1 = set(); s2 = set(iterable)
集合元素的访问:
For 循环将集合所有元素全部访问一遍,不重复
常用方法:
add(object):s.add(‘hi’) 向集合添加一个元素
pop() :弹栈,集合为空则报错:删除任意一个元素;
clear():清空集合,返回一个空集合对象;
remove(object):删除一个元素,不存在和报错:s.remove(‘hi’)
update(集合):更新另一个集合,元素不存在则不更新;
() :浅拷贝
集合的运算:
交集:s1&s2;
差集,补集:s1-s2;
并集:s1|s2;
Issubset():判断是否是子集:s1.issubset(s2) s1是否s2的集合子集
Issuperset():判断是否是父集:s1.issuperset()
不可变集合:
Frozenset():返回一个空的不可变集合对象
Frozenset(iterable):
S = frozenset(iterable)
Python序列类型共同特性
一,序列类型共同特性
python序列类型有:str字符串,list列表,tuple元组
都支持下标索引,切片操作;
下标都是从0开始,都可通过下标进行访问;
拥有相同的操作符
二,支持的函数:
len(obj):返回对象长度;
list(iterable):将可迭代对象转为列表;
tuple(iterable):将可迭代对象转为元组;
str(ojb):将任何对象转为字符串形式;
max(iterable): python3中元素要是同类型,python2中元素可异构:max([‘a’,1])
min(iterable):和max类似;
sum(iterable,star=0),求可迭代对象和,默认star为0,元素不能为字符串
sorted(iterable,key=None,reverse=False)
s=[(‘a’,3),(‘b’,2),(‘c’,9)]
sorted(s,key=lambda s:s[1]) //按照数字排序
reversed(sequence):翻转序列,返回迭代器
enumerate(iterable):返回enumerate对象,其元素都是一个元组(下标,值)
zip(iter1,iter2): zip([1,2],[3,4]) ----[(1,3),(2,4)]
序列类型的切片操作:
Slice:
L[index]; 访问某个元素;
L[1:4]; 区间
L[star:stop:step]; 设置步长取区间元素
‘贰’ python的数据类型有哪些
python数据类型主要分为以下六大类:Numbers(数字)、String(字符串)、List(列表、Tuple(元组)、Dictionary(字典)、Set(集合)。
Python的六个标准数据类型中:
不可变数据(3 个):Number(数字)、String(字符串)、Tuple(元组)。
可变数据(3 个):List(列表)、Dictionary(字典)、Set(集合)。
字符串类型:
python的字符串或串(String)是由数字、字母、下划线组成的一串字符。
‘叁’ python3种数据类型
Python3 中有六个标准的数据类型:Number(数字) + String(字符串) + List(列表) + Tuple(元组) + Sets(集合) + Dictionary(字典)。
Number(数字)
数字类型是顾名思义是用来存储数值的,需要记住的是,有点和Java的字符串味道差不多,如果改变了数字数据类型的值,将重新分配内存空间。
可以使用del语句删除一些数字对象的引用:del var1[,var2[,var3[....,varN]]]]。
Python 支持三种不同的数值类型:
1.整型(Int) - 通常被称为是整型或整数,是正或负整数,不带小数点。Python3 整型是没有限制大小的,可以当作 Long 类型使用,所以 Python3 没有 Python2 的 Long 类型。
2.浮点型(float) - 浮点型由整数部分与小数部分组成,浮点型也可以使用科学计数法表示(2.5e2 = 2.5 x 102 = 250)
3.复数( (complex)) - 复数由实数部分和虚数部分构成,可以用a + bj,或者complex(a,b)表示, 复数的实部a和虚部b都是浮点型。
数字类型转换
1.int(x) 将x转换为一个整数。
2.float(x) 将x转换到一个浮点数。
3.complex(x) 将x转换到一个复数,实数部分为 x,虚数部分为 0。
4.complex(x, y) 将 x 和 y 转换到一个复数,实数部分为 x,虚数部分为 y。x 和 y 是数字表达式。
额外说明
和别的语言一样,数字类型支持各种常见的运算,不过python的运算比别的大多数常见语言都更加丰富,此外,还有大量丰富的方法,提供更高效的开发。
String(字符串)
创建字符串
创建字符串可以使用单引号、双引号、三单引号和三双引号,其中三引号可以多行定义字符串,有点类似ES6中的反引号。
Python 不支持单字符类型,单字符也在Python也是作为一个字符串使用。
访问字符串中的值
和ES一样,可以使用方括号来截图字符串,例子如下:
val_str='yelloxing'
print(val_str[0]) #y
print(val_str[1:3]) #el
print(val_str[:3]) #yel
print(val_str[:5]) #yello
字符串运算符
除了上面已经说明的方括号,还有一些别的字符串运算,具体查看文档。
字符串格式化
temp="我叫 %s 今年 %d 岁!" % ('心叶', 7)
print('['+temp+']') #[我叫 心叶 今年 7 岁!]
如上所示,字符串支持格式化,当然,出来上面用到的%s和%d以外,还有一些别的,具体看文档;是不是感觉有点C语言的味道。
额外说明
所有的字符串都是Unicode字符串(针对python3),有很多有用的方法,真的很有ES和C结合体的味道。
List(列表)
序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。
Python有6个序列的内置类型(列表、元组、字符串、Unicode字符串、buffer对象和xrange对象)。
列表其实类似数组,具体的一些操作就很像字符串(类似ES中数组和字符串的关系)。
常见运算
下面用一个例子来展示一些常见的运算:
val_arr=['Made','in','China']
del val_arr[1]
print(val_arr) #['Made', 'China']
print(len(val_arr)) #2
val_newarr=val_arr+[':information']
print(val_newarr) #['Made', 'China', ':information']
val_arr=val_arr*2
print(val_arr) #['Made', 'China', 'Made', 'China']
print('in' in val_arr) #False
print('Made' in val_arr) #True
for row in val_newarr:
print(row, end=" - ") #Made - China - :information -
print(val_newarr[-1]) #:information
print(val_newarr[1:]) #['China', ':information']
再来看一个有用的例子:
cols=3
rows=2
list_2d = [[0 for col in range(cols)] for row in range(rows)]
print(list_2d) #[[0, 0, 0], [0, 0, 0]]
嵌套列表
使用嵌套列表即在列表里创建其它列表,例如:
loop_arr=['yelloxing','心叶']
result_arr=[loop_arr,'同级别']
print(result_arr) #[['yelloxing', '心叶'], '同级别']
列表的嵌套就很灵活,此外随便提一下:和前面说的一样,也有很多方法提供高效的开发。
Tuple(元组)
元组与列表类似,不同之处在于元组的元素不能修改,元组使用小括号,列表使用方括号。
创建
元组中只包含一个元素时,需要在元素后面添加逗号,否则括号会被当作运算符使用
tup1 = ('Google', 'Runoob', 1997, 2000);
tup2 = (1, 2, 3, 4, 5 );
tup3 = "a", "b", "c", "d";
print(tup1) #('Google', 'Runoob', 1997, 2000)
print(tup2) #(1, 2, 3, 4, 5)
print(tup3) #('a', 'b', 'c', 'd')
基本操作
和列表的操作很相似,下面说一个几天特殊的地方:
1.del可以删除某个元组,不过不可以删除元组的某个条目。
2.不可以修改,或许元组会更快,感觉的,没有实际测试。
3.由于元组不可以修改,虽然同样有一些方法,不过和修改相关的方法就没有了。
Sets(集合)
回想一下数学里面的集合,合、交、差、补等运算是不是一下子回想起来了,这里的集合也有这些方法。
和Java的集合类似,一个无序不重复元素集(与列表和元组不同,集合是无序的,也无法通过数字进行索引)。
更具体的说明,如果必要会在单独说明。
Dictionary(字典)
字典是另一种可变容器模型,且可存储任意类型对象。
字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中,键必须是唯一的,但值则不必。
和ES中的JSON的差不多,操作也很像,不过区别也很大,内置方法很多,具体还是一样,看文档去。
删除字典元素
可以用del删除一个条目或字典,也可以用clear()方法清空字典(比如现在有字段dict,就是:dict.clear())。
‘肆’ python六大数据类型
6个数据类型:Number,String,List,Tuple,Set,Dictionary
不可变数据(3 个):Number(数字)、String(字符串)、Tuple(元组);
可变数据(3 个):List(列表)、Dictionary(字典)、Set(集合)
‘伍’ Python中的几种特殊数据类型小结
下面介绍了Python中的6种特殊数据类型:
1.list:列表
是一种有序的数据集合,在列表数据结构中的类型并不唯一
定义形式:L=['Micha',100,True]
输出整个列表的时候显示为['Micha',100,True]
输出单个的数值则为:Micha
a.访问,直接使用L[0]表示第一个元素或者使用L[-1]表示最后一个数据,以此类推,但是注意访问不能越界(访问的序号不能超过元素的总数)。
b.添加新元素:使用L.append(100)直接将100加入列表末尾,或者使用L.insert(0,'paul')将paul插入任意位置。
c.删除元素:L.pop()删除最后一个元素,或者L.pop(2)删除第2个位置的元素。
d.替换元素:直接赋值就可以了L[2]=100
2.tuple:元组
是一种有序的列表,但是其一旦创立完毕就不能够更改,即不能插入,删除里面的元素,访问的方式跟List结构一致。
a.t=()其打印后输出的形式是()
若t中的数据为一个数字则需要在后面加逗号,以区分普通数字,如t=(1,),打印出(1,)而非1,多元素的话则没有这个要求。
b.可以在不变的tuple中加入可变的List如t=(‘a’,'b',['A','B'])
3.dict:字典
d = {
'Adam': 95,
'Lisa': 85,
'Bart': 59
}
len()函数可以计算任意集合的大小
其中可以简单地使用d[key]的形式来查找对应的value,这和list很像,不同之处是,list必须使用索引返回对应的元素,而dict使用key,当key不存在的时候,使用该key可能出现错误,因此:要避免KeyError发生,有两个办法:
一是先判断一下key是否存在,用in操作符:
if'Paul' in d:
print d['Paul']
如果'Paul'不存在,if语句判断为False,自然不会执行print d['Paul'],从而避免了错误。
二是使用dict本身提供的一个get方法,在Key不存在的时候,返回None:
>>>print d.get('Bart')
59
a.dict中的key不能重复,且dict中的存储的对应值没有顺序,打印出的东西可能是无序的
b.dict的更新:使用d[‘paul']=72求解
c.dict遍历:
d = {'Adam': 95, 'Lisa': 85, 'Bart': 59 }
>>>for key in d:
...print key
遍历只能获得key的值,需要通过key值获得对应的value
4.set:集合
无序但是所有元素唯一,不重复
a.定义:s = set(['A', 'B', 'C']),查看set的内容:
>>>print s
set(['A','C', 'B'])
可以用in来判断是否存在于集合中
b.遍历
s =set([('Adam', 95), ('Lisa', 85), ('Bart', 59)])
for xin s:
print x[0]+':',x[1]
c.添加元素到集合中
s.add(4)
d.删除元素
s.remove(4)若该元素不在集合中将会报错
5.Unicode编码
Python在后来添加了对Unicode的支持,以Unicode表示的字符串用u'...'表示,比如:
printu'中文'
注意:不加u,中文就不能正常显示中文。
a.转义形式:u'中文 日文 韩文'
b.输出多行:
u'''第一行
第二行'''
c.raw+多行的形式:
ur'''Python的Unicode字符串支持"中文",
"日文",
"韩文"等多种语言'''
如果中文字符串在Python环境下遇到UnicodeDecodeError,这是因为.py文件保存的格式有问题。可以在第一行添加注释
# -*-coding: utf-8 -*-
目的是告诉Python解释器,用UTF-8编码读取源代码。然后用Notepad++另存为, 并选择UTF-8格式保存。
6.raw的作用
如果一个字符串包含很多需要转义的字符,对每一个字符都进行转义会很麻烦。为了避免这种情况,我们可以在字符串前面加个前缀r,表示这是一个“raw”字符串,里面的字符就不需要转义了。例如:
r'(~_~)//'
但是r'...'表示法不能表示多行字符串,也不能表示包含'和"的字符串,如果要表示多行字符串。
‘陆’ python支持的数据类型
数字:数字类型是不可更改的对象。对变量改变的数字值就是生成/创建新的对象。Python支持多种数字类型:整型、布尔型、双精度浮点型、十进制浮点型、复数等。
字符串:字符串是不可变类型。就是说改变一个字符串的元素需要新建一个新的字符串,字符串是由独立的字符组成的,并且这些字符可以通过切片操作顺序地访问。Python里面通过在引号间包含字符的方式创建字符串,单引号和双引号的作用是相同的。Python实际上有三类字符串,通常意义的字符串和Unicode字符串实际上都是抽象类basestring的子类。
列表:像字符串类型一样,列表类型也是序列式的数据类型,字符串只能由字符组成,而且是不可变的,列表则是能保留任意数目的Python对象的灵活的容器。列表不仅可以包含Python的标准类型,可以用用户定义的对象作为自己的元素。列表可以包含不同类型的对象,要比C或者Python自己的数组类型都要灵活,因为数组类型所有的元素只能是一种类型。列表可以执行pop、sort、reverse等操作。
元组:元组类型在很多操作上跟列表一样,许多用在列表上的例子在元组上照样可以用。他们主要不同在于元组是不可变的,或者说是只读的,所以那些用于更新列表的操作,比如用切片操作来更新一部分元素的操作,就不能用于元组类型。
字典:字典是Python语言中唯一的映射类型。映射类型对象里哈希值(键,key) 和指向的对象(值。value)
是一对多的关系。一个字典对象是可变的,它是一个容器类型,能存储任意个数的Python对象,其中包括其他容器类型。字典类型和序列类型容器类的区别是存储和访问数据的方式不同。序列类型只用数字类型的键。映射类型可以用其他对象类型做键,一般最常用的是用字符串做键。字典常见的操作有:字典创建、字典赋值、字典中值的访问、字典更新、字典元素删除等操作。
集合。最早出现在Python2.3版本中,通过集合模块来创建,并通过immutableset类和set类进行访问。集合有两种不同的类型,可变集合和不可变集合。可变集合,可以添加和删除元素,不可变集合则不允许这样做。
‘柒’ 如何利用 Python 读取数据科学中常见几种文件
前言
如果你是数据行业的一份子,那么你肯定会知道和不同的数据类型打交道是件多么麻烦的事。不同数据格式、不同压缩算法、不同系统下的不同解析方法——很快就会让你感到抓狂!噢!我还没提那些非结构化数据和半结构化数据呢。
对于所有数据科学家和数据工程师来说,和不同的格式打交道都乏味透顶!但现实情况是,人们很少能得到整齐的列表数据。因此,熟悉不同的文件格式、了解处理它们时会遇到的困难以及处理某类数据时的最佳/最高效的方法,对于任何一个数据科学家(或者数据工程师)而言都必不可少。
在本篇文章中,你会了解到数据科学家或数据工程师必须知道的几种常规格式。我会先向你介绍数据行业里常用的几种不同的文件格式。随后,我会向大家介绍如何在 Python 里读取这些文件格式。
PS:在后文中提到的数据科学家,同样也包括数据工程师以及所有的数据科学专家。
目录
文件格式是什么。数据科学家应当了解各种不同文件格式的原因。不同的文件格式以及从 Python 中读取这些文件的方法。
1. 逗号分隔值
2. XLSX
3. ZIP
4. 纯文本(txt)
5. JSON
6. XML
7. HTML
8. 图像
9. 分层数据格式
10. PDF
11. DOCX
12. MP3
13. MP4
1. 文件格式是什么。
文件格式是计算机为了存储信息而使用的对信息的特殊编码方式。首先,文件格式代表着文件的类型,如二进制文件或者 ASCII 文件等。其次,它体现了信息组织的方式。比如,逗号分隔值(CSV)文件格式用纯文本来储存列表数据。
为了识别一个文件的格式,你通常会去看这个文件的扩展名。比如,一个以“CSV”格式保存的名为“Data”的文件下方的文件名会显示为“Data.csv”。看到“.csv”这个扩展名,我们就会清楚地知道这是一个“CSV”文件,并且还可以知道其中的数据是以表格的形式储存的。
2. 数据科学家应当了解各种不同文件格式的原因。
通常,你碰到的文件类型取决于你当下构造的应用。举个例子,在一个图像处理系统中,你需要把图像作为输入和输出。所以,你所见到的文件大都是jpeg、gif 或者 png 格式的。
作为一个数据科学家,你需要了解各种文件格式的底层结构以及相应的优势和劣势。只有了解了数据的底层结构,你才能够进一步去探索它,或者决定如何来储存相关的数据。
选择一个最理想的文件格式来储存数据能够提升你的模型在处理数据时的性能。
现在,让我们讨论一下下方这些文件格式以及如何在 Python 中读取它们:
逗号分隔值(CSV)XLSXZIP纯文本(txt)JSONXMLHTML图像分层数据格式PDFDOCXMP3MP4
3. 不同的文件格式以及从 Python 中读取这些文件的方法。
3.1 逗号分隔值
逗号分隔值文件格式属于电子表格文件格式的一种。
什么是电子表格文件格式?
在电子表格文件格式中,数据被储存在单元格里。每个单元格都处于特定的行和列中。电子表格文件中的列拥有不同的类型。比如说,它可以是字符串型的、日期型的或者整数型的。最常用的电子表格文件格式包括:逗号分隔值(CSV)、Microsoft Excel 电子表格(xls)以及 Microsoft Excel Open XML 电子表格(xlsx)。
CSV 文件中的每一行都代表一份观察报告,或者也可以说是一条记录。每一个记录都包含一个或者更多由逗号分隔的字段。
有时你看你会遇到用制表符而非逗号来分隔字段的文件。这种文件格式被称为 TSV(制表符分隔值)文件格式。
下面是一个用 Notepad 打开的 CSV 文件。
在Python 中从 CSV 文件里读取数据
现在让我们看看如何在 Python 中读取一个 CSV 文件。你可以用 Python 中的“pandas”库来加载数据。import pandas as pd
df = pd.read_csv(“/home/Loan_Prediction/train.csv”)
上方的代码将会把 train.csv 文件加载进 DataFrame df 中。
3.2 XLSX文件
XLSX 是 Microsoft Excel Open XML 的文件格式,它同样可以归入电子表格文件格式这一类中。它是由 Microsoft Excel 开发的一种基于 XML 文件格式。Microsoft Office 2007 最先采用 XLSX 格式来储存数据。
在XLSX 中,数据被放在工作表的单元格和列当中。每个 XLSX 文件可能包含一个或者更多工作表,所以一个工作簿中可能会包含多个工作表。
下面是一个在 Microsoft Excel 中打开的“xlsx”文件。
上图显示的这个文件里包含多个工作表,这些工作表的名称分别为 Customers、Employees、Invoice 和 Order。图片中显示的是其中一个工作表——“Invoice”——中的数据。
从XLSX 文件读取数据
让我们一起来加载一下来自 XLSX 文件的数据并且定义一下相关工作表的名称。此时,你可以用 Python 中的“pandas”库来加载这些数据。import pandas as pd
df = pd.read_excel(“/home/Loan_Prediction/train.xlsx”,sheetname = “Invoice”)
上方的代码将会把来自“train.xlsx”文件的工作表“Invoice”加载进 DataFrame df 中。
3.3 ZIP 文件
ZIP 格式是一种归档文件格式。
什么是归档文件格式?
在归档文件格式中,你可以创建一个包含多个文件和元数据的文件。归档文件格式通常用于将多个数据文件放入一个文件中的过程。这么做是为了方便对这些文件进行压缩从而减少储存它们所需的存储空间。
有很多种常用的电脑数据归档格式可以创建归档文件。Zip、RAR 和 Tar 是最常用的3种用于压缩数据的归档文件格式。
因此,ZIP 文件格式是一种无损压缩格式,这意味着如果你用 ZIP 格式压缩了多个文件,那么在解压缩之后你能够完全恢复这些数据。ZIP 文件格式使用多种压缩算法来压缩文件。你可以通过 .zip 这个扩展名轻易地识别出一个 ZIP 文件。
在Python 中读取 .ZIP 文件
你可以通过导入“zipfile”包来读取 zip 文件。下方的代码可以实现读取“T.zip”中的“train.csv”文件。import zipfile
在这里我已经讨论了其中一种最常用的归档格式,也已经讨论了如何在 python 中打开这种归档格式。我不会再对其他的归档格式进行展开讨论。如果你想了解不同类型的归档格式并且想对其做出比较
‘捌’ python数据类型有哪些
Python基本数据类型一般分为:数字、字符串、列表、元组、字典、集合这六种基本数据类型。
其中数字又包含整型(整型又包括标准整型、长整型(Python2.7及之前版本有))、浮点型、复数类型、布尔型(布尔型就是只有两个值的整型)、这几种数字类型。列表、元组、字符串都是序列。
1、数字
数字类型是不可更改的对象。对变量改变数字值就是生成/创建新的对象。Python支持多种数字类型:
整型(标准整型和长整型(Python2.7及之前的有这种类型))、布尔型、双精度浮点型、十进制浮点型、复数。
2、标准整型
int,标准整型,在大多数32位机器上标准整型取值范围是-2^31到2^31-1,也就是-2147483648~2147483647,如果在64位机器使用64位编译器,那么这个系统的标准整型将是64位。
3、布尔型
bool,从Python2.3开始Python中添加了布尔类型。布尔类型有两种True和False。对于没有__nozero__方法的对象默认是True。
对于值为0的数字、空集(空列表、空元组、空字典等)在Python中的布尔类型中都是False。
>>>bool(1)
True
>>>bool('a')
True
>>>bool(0)
False
>>>bool('')
False
4、浮点型
float,每个浮点型占8个字节(64位),完全遵守IEEE754号规范(52M/11E/1S),其中52个位用于表示底,11个位用于表示指数(可表示的范围大约是±10**308.25),剩下的一个位表示符号。这看上去相当完美,然而,实际精度依赖于机器架构和创建Python解释器的编译器。
浮点型值通常都有一个小数点和一个可选的后缀e(大写或小写,表示科学计数法)。在e和指数之间可以用正(+)或负(-)表示指数的正负(正数的话可以省略符号)。
以上是Python核心编程的对浮点型(双精度浮点型)的说明。经过Python实测浮点型默认长度是24字节如果超出这个范围会自动
5、复数类型
complex,在复数中虚数不能单独存在,它们总是和一个值为0.0的实数部分一起来构成一个复数。复数由实数部分和虚数部分构成。表示虚数的语法:real+imagj。
实数部分和虚数部分都是浮点型。虚数部分必须有后缀j或J。
‘玖’ python基础教程-数据类型详解
python提供了多种的数据类型,用来存放数据。其中数据类型中又包括:字符串,布尔类型,整数,浮点数,数字,列表,元组,字典,日期。
1、字符串
a='this is string'print aa="this is string"print aa='''this is stringthis is stringthis is string'''print a
布尔类型
常见的用于循环判断中
整数
a=int(80.9741)print a
浮点数
a= float(80.974)print a
字符类型的转换
int(x [,base]) 将x转换为一个整数
float(x ) 将x转换到一个浮点数
complex(real [,imag]) 创建一个复数
str(x) 将对象x转换为字符串
repr(x) 将对象x转换为表达式字符串
eval(str) 用来计算在字符串中的有效Python表达式,并返回一个对象
tuple(s) 将序列s转换为一个元组
list(s) 将序列s转换为一个列表
chr(x) 将一个整数转换为一个字符
unichr(x) 将一个整数转换为Unicode字符
ord(x) 将一个字符转换为它的整数值
hex(x) 将一个整数转换为一个十六进制字符串
oct(x) 将一个整数转换为一个八进制字符串
列表
L1 = [1,2,3]print L1L2 = ['abc']print L2L3 = ["a","b","c"]print L3L = list("Python")print Lprint L[0]print L[3]print L[-1]
Python的元组与列表类似,不同之处在于元组的元素不能修改;元组使用小括号(),列表使用方括号[];元组创建很简单,只需要在括号中添加元素,并使用逗号(,)隔开即可,例如:
tup1 = ('physics', 'chemistry', 1997, 2000);
tup2 = (1, 2, 3, 4, 5 );
tup3 = "a", "b", "c", "d";
字典(dictionary)是除列表之外python中最灵活的内置数据结构类型。列表是有序的对象结合,字典是无序的对象集合。两者之间的区别在于:字典当中的元素是通过键来存取的,而不是通过偏移存取。
字典由键和对应的值组成。字典也被称作关联数组或哈希表。基本语法如下:
dict = {'Alice': '2341', 'Beth': '9102', 'Cecil': '3258'};
时间日期
import time, datetime;localtime = time.localtime(time.time())today = datetime.date.today()print "Local current time :", today
‘拾’ python中的数据类型
手机和电脑都可以跆拳道等另一个去看下都是没关系的,我乐你可以去看下都是可以的。