python模糊数据归类_PYTHON实现对CSV文件多维不同单位数据的归一化处理

‘壹’ python语言中有哪些数据类型

python数据类型有很多，这里为大家简单例举几个：

第一种：整数

python可以处理任意大小的整数，当然包含负整数，在python程序中，整数的表示方法和数学上的写法一模一样，比如：1,100，-8080,0,等。

计算机由于使用二进制，所以有时候用十六进制表示整数比较方便，十六进制用0x前缀和0-9，a-f表示，比如：0xff00。

第二种：浮点数

浮点数也就是小数，之所以称为浮点数，是因为按照科学计数法表示时，一个浮点数的小数点位置是可变的。浮点数可以用数学写法，比如1.23,3.15,-9.01等。但是对于很大或者很小的浮点数，就必须用科学计数法表示，把10用e替代，1.23x10^9就是1.23e9。

整数和浮点数在计算机内部存储的方法是不同的，整数运算永远是精确的，而浮点数运算则可能会有四舍五入的误差。

第三种：字符串

字符串是以“或”括起来的任意文本，比如'abc'，'xyz'等。请注意，“或”本身只是一种表示方式，不是字符串的一部分，因此，字符串'abc'只有a，b，c这3个字符。

第四个：布尔值

布尔值和布尔代数的表示完全一致，一个布尔值只有True、False两种值，要么是True，要么是False，在python中，可以直接用True、False表示布尔值，也可以通过布尔运算计算出来。

布尔值可以用and、or或not运算。

and运算是与运算，只有所有都为True，and运算结果才是True。

or运算是或运算，只要其中有一个为True，or运算结果就是True。

not运算是非运算，它是一个单目运算符，把True变成False，False变成True。

第五个：空值

空值是python里一个特殊的值，用None表示。None不能理解为0，因为0是有意义的，而None是一个特殊的空值。

此外，python还提供了列表、字典等多种数据类型，还允许创建自定义数据类型。

‘贰’ Python 数据可视化：分类特征统计图

上一课已经体验到了 Seaborn 相对 Matplotlib 的优势，本课将要介绍的是 Seaborn 对分类数据的统计，也是它的长项。

针对分类数据的统计图，可以使用 sns.catplot 绘制，其完整参数如下：

本课使用演绎的方式来学习，首先理解这个函数的基本使用方法，重点是常用参数的含义。

其他的参数，根据名称也能基本理解。

下面就依据 kind 参数的不同取值，分门别类地介绍各种不同类型的分类统计图。

读入数据集：

然后用这个数据集制图，看看效果：

输出结果：

毫无疑问，这里绘制的是散点图。但是，该散点图的横坐标是分类特征 time 中的三个值，并且用 hue='kind' 又将分类特征插入到图像中，即用不同颜色的的点代表又一个分类特征 kind 的值，最终得到这些类别组合下每个记录中的 pulse 特征值，并以上述图示表示出来。也可以理解为，x='time', hue='kind' 引入了图中的两个特征维度。

语句 ① 中，就没有特别声明参数 kind 的值，此时是使用默认值 'strip'。

与 ① 等效的还有另外一个对应函数 sns.stripplot。

输出结果：

② 与 ① 的效果一样。

不过，在 sns.catplot 中的两个参数 row、col，在类似 sns.stripplot 这样的专有函数中是没有的。因此，下面的图，只有用 sns.catplot 才能简洁直观。

输出结果：

不过，如果换一个叫角度来说，类似 sns.stripplot 这样的专有函数，表达简单，参数与 sns.catplot 相比，有所精简，使用起来更方便。

仔细比较，sns.catplot 和 sns.stripplot 两者还是稍有区别的，虽然在一般情况下两者是通用的。

因此，不要追求某一个是万能的，各有各的用途，存在即合理。

不过，下面的声明请注意： 如果没有非常的必要，比如绘制分区图，在本课中后续都演示如何使用专有名称的函数。

前面已经初步解释了这个函数，为了格式完整，这里再重复一下，即 sns.catplot 中参数 kind='strip'。

如果非要将此函数翻译为汉语，可以称之为“条状散点图”。以分类特征为一坐标轴，在另外一个坐标轴上，根据分类特征，将该分类特征数据所在记录中的连续值沿坐标轴描点。

从语句 ② 的结果图中可以看到，这些点虽然纵轴的数值有相同的，但是没有将它们重叠。因此，我们看到的好像是“一束”散点，实际上，所有点的横坐标都应该是相应特征分类数据，也不要把分类特征的值理解为一个范围，分散开仅仅是为了图示的视觉需要。

输出结果：

④ 相对 ② 的图示，在于此时同一纵轴值的都重合了——本来它们的横轴值都是一样的。实现此效果的参数是 jitter=0，它可以表示点的“振动”，如果默认或者 jitter=True，意味着允许描点在某个范围振动——语句 ② 的效果；还可设置为某个 0 到 1 的浮点，表示许可振动的幅度。请对比下面的操作。

输出结果：

语句 ② 中使用 hue='kind' 参数向图中提供了另外一个分类特征，但是，如果感觉图有点乱，还可以这样做：

输出结果：

dodge=True 的作用就在于将 hue='kind' 所引入的特征数据分开，相对 ② 的效果有很大差异。

并且，在 ⑤ 中还使用了 paletter='Set2' 设置了色彩方案。

sns.stripplot 函数中的其他有关参数，请读者使用帮助文档了解。

此函数即 sns.catplot 的参数 kind='swarm'。

输出结果：

再绘制一张简单的图，一遍研究这种图示的本质。

输出结果：

此图只使用了一个特征的数据，简化表象，才能探究 sns.swarmplot 的本质。它同样是将该特征中的数据，依据其他特征的连续值在图中描点，并且所有点在默认情况下不彼此重叠——这方面与 sns.stripplot 一样。但是，与之不同的是，这些点不是随机分布的，它们经过调整之后，均匀对称分布在分类特征数值所在直线的两侧，这样能很好地表示数据的分布特点。但是，这种方式不适合“大数据”。

sns.swarmplot 的参数似乎也没有什么太特殊的。下面使用几个，熟悉一番基本操作。

在分类维度上还可以再引入一个维度，用不同颜色的点表示另外一种类别，即使用 hue 参数来实现。

输出结果：

这里用 hue = 'smoker' 参数又引入了一个分类特征，在图中用不同颜色来区分。

如果觉得会 smoker 特征的值都混在一起有点乱，还可以使用下面方式把他们分开——老调重弹。

输出结果：

生成此效果的参数就是 dodge=True，它的作用就是当 hue 参数设置了特征之后，将 hue 的特征数据进行分类。

sns.catplot 函数的参数 kind 可以有三个值，都是用于绘制分类的分布图：

下面依次对这三个专有函数进行阐述。

‘叁’ PYTHON实现对CSV文件多维不同单位数据的归一化处理

1）线性归一化
这种归一化比较适用在数值比较集中的情况，缺陷就是如果max和min不稳定，很容易使得归一化结果不稳定，使得后续的效果不稳定，实际使用中可以用经验常量来代替max和min。
2）标准差标准化
经过处理的数据符合标准正态分布，即均值为0，标准差为1。
3）非线性归一化
经常用在数据分化较大的场景，有些数值大，有些很小。通过一些数学函数，将原始值进行映射。该方法包括log、指数、反正切等。需要根据数据分布的情况，决定非线性函数的曲线。
log函数：x = lg(x)/lg(max)
反正切函数：x = atan(x)*2/pi
Python实现
线性归一化
定义数组：x = numpy.array(x)
获取二维数组列方向的最大值：x.max(axis = 0)
获取二维数组列方向的最小值：x.min(axis = 0)
对二维数组进行线性归一化：
def max_min_normalization(data_value, data_col_max_values, data_col_min_values):
""" Data normalization using max value and min value

Args:
data_value: The data to be normalized
data_col_max_values: The maximum value of data's columns
data_col_min_values: The minimum value of data's columns
"""
data_shape = data_value.shape
data_rows = data_shape[0]
data_cols = data_shape[1]

for i in xrange(0, data_rows, 1):
for j in xrange(0, data_cols, 1):
data_value[i][j] = \
(data_value[i][j] - data_col_min_values[j]) / \
(data_col_max_values[j] - data_col_min_values[j])

标准差归一化
定义数组：x = numpy.array(x)
获取二维数组列方向的均值：x.mean(axis = 0)
获取二维数组列方向的标准差：x.std(axis = 0)
对二维数组进行标准差归一化：
def standard_deviation_normalization(data_value, data_col_means,
data_col_standard_deviation):
""" Data normalization using standard deviation

Args:
data_value: The data to be normalized
data_col_means: The means of data's columns
data_col_standard_deviation: The variance of data's columns
"""
data_shape = data_value.shape
data_rows = data_shape[0]
data_cols = data_shape[1]

for i in xrange(0, data_rows, 1):
for j in xrange(0, data_cols, 1):
data_value[i][j] = \
(data_value[i][j] - data_col_means[j]) / \
data_col_standard_deviation[j]

非线性归一化（以lg为例）
定义数组：x = numpy.array(x)
获取二维数组列方向的最大值：x.max(axis=0)
获取二维数组每个元素的lg值：numpy.log10(x)
获取二维数组列方向的最大值的lg值：numpy.log10(x.max(axis=0))
对二维数组使用lg进行非线性归一化：
def nonlinearity_normalization_lg(data_value_after_lg,
data_col_max_values_after_lg):
""" Data normalization using lg

Args:
data_value_after_lg: The data to be normalized
data_col_max_values_after_lg: The maximum value of data's columns
"""

data_shape = data_value_after_lg.shape
data_rows = data_shape[0]
data_cols = data_shape[1]

for i in xrange(0, data_rows, 1):
for j in xrange(0, data_cols, 1):
data_value_after_lg[i][j] = \
data_value_after_lg[i][j] / data_col_max_values_after_lg[j]

‘肆’ python数据类型有哪些

Python基本数据类型一般分为：数字、字符串、列表、元组、字典、集合这六种基本数据类型。

其中数字又包含整型(整型又包括标准整型、长整型(Python2.7及之前版本有)）、浮点型、复数类型、布尔型(布尔型就是只有两个值的整型)、这几种数字类型。列表、元组、字符串都是序列。

1、数字

数字类型是不可更改的对象。对变量改变数字值就是生成/创建新的对象。Python支持多种数字类型：

整型(标准整型和长整型(Python2.7及之前的有这种类型))、布尔型、双精度浮点型、十进制浮点型、复数。

2、标准整型

int，标准整型，在大多数32位机器上标准整型取值范围是-2^31到2^31-1，也就是-2147483648~2147483647，如果在64位机器使用64位编译器，那么这个系统的标准整型将是64位。

3、布尔型

bool，从Python2.3开始Python中添加了布尔类型。布尔类型有两种True和False。对于没有__nozero__方法的对象默认是True。

对于值为0的数字、空集（空列表、空元组、空字典等）在Python中的布尔类型中都是False。

>>>bool(1)
True
>>>bool('a')
True
>>>bool(0)
False
>>>bool('')
False

4、浮点型

float，每个浮点型占8个字节（64位），完全遵守IEEE754号规范（52M/11E/1S）,其中52个位用于表示底，11个位用于表示指数（可表示的范围大约是±10**308.25），剩下的一个位表示符号。这看上去相当完美，然而，实际精度依赖于机器架构和创建Python解释器的编译器。

浮点型值通常都有一个小数点和一个可选的后缀e（大写或小写，表示科学计数法）。在e和指数之间可以用正（+）或负（-）表示指数的正负（正数的话可以省略符号）。

以上是Python核心编程的对浮点型(双精度浮点型)的说明。经过Python实测浮点型默认长度是24字节如果超出这个范围会自动

5、复数类型

complex，在复数中虚数不能单独存在，它们总是和一个值为0.0的实数部分一起来构成一个复数。复数由实数部分和虚数部分构成。表示虚数的语法：real+imagj。

实数部分和虚数部分都是浮点型。虚数部分必须有后缀j或J。

导航:首页 > 编程语言 > python模糊数据归类

python模糊数据归类

与python模糊数据归类相关的资料