pythonmeanaxis0_PYTHON實現對CSV文件多維不同單位數據的歸一化處理

❶ 數據分析員用python做數據分析是怎麼回事，需要用到python中的那些內容，具體是怎麼操作的

大數據！大數據！其實是離不開數據二字，但是總體來講，自己之前對數據的認知是不太夠的，更多是在關注技術的提升上。換句話講，自己是在做技術，這些技術處理的是數據，而不能算是自己是在做數據的。大規模數據的處理是一個非常大的課題，但是這一點更偏向於是搞技術的。

與數據分析相關的Python庫很多，比如Numpy、pandas、matplotlib、scipy等，數據分析的操作包括數據的導入和導出、數據篩選、數據描述、數據處理、統計分析、可視化等等。接下來我們看一下如何利用Python完成數據的分析。
生成數據表
常見的生成方法有兩種，第一種是導入外部數據，第二種是直接寫入數據，Python支持從多種類型的數據導入。在開始使用Python進行數據導入前需要先導入pandas庫，為了方便起見，我們也同時導入Numpy庫。代碼是最簡模式，裡面有很多可選參數設置，例如列名稱、索引列、數據格式等等。
檢查數據表
Python中使用shape函數來查看數據表的維度，也就是行數和列數。你可以使用info函數查看數據表的整體信息，使用dtypes函數來返回數據格式。Isnull是Python中檢驗空值的函數，你可以對整個數據表進行檢查，也可以單獨對某一列進行空值檢查，返回的結果是邏輯值，包含空值返回True，不包含則返回False。使用unique函數查看唯一值，使用Values函數用來查看數據表中的數值。
數據表清洗
Python中處理空值的方法比較靈活，可以使用Dropna函數用來刪除數據表中包含空值的數據，也可以使用fillna函數對空值進行填充。Python中dtype是查看數據格式的函數，與之對應的是astype函數，用來更改數據格式，Rename是更改列名稱的函數，drop_plicates函數刪除重復值，replace函數實現數據替換。
數據預處理
數據預處理是對清洗完的數據進行整理以便後期的統計和分析工作，主要包括數據表的合並、排序、數值分列、數據分組及標記等工作。在Python中可以使用merge函數對兩個數據表進行合並，合並的方式為inner，此外還有left、right和outer方式。使用ort_values函數和sort_index函數完成排序，使用where函數完成數據分組，使用split函數實現分列。
數據提取
主要是使用三個函數：loc、iloc和ix，其中loc函數按標簽值進行提取，iloc按位置進行提取，ix可以同時按標簽和位置進行提取。除了按標簽和位置提起數據以外，還可以按具體的條件進行數據，比如使用loc和isin兩個函數配合使用，按指定條件對數據進行提取。
數據篩選匯總
Python中使用loc函數配合篩選條件來完成篩選功能，配合sum和 count函數還能實現excel中sumif和countif函數的功能。Python中使用的主要函數是groupby和pivot_table。groupby是進行分類匯總的函數，使用方法很簡單，制定要分組的列名稱就可以，也可以同時制定多個列名稱，groupby 按列名稱出現的順序進行分組。

❷ python中如何讓二維數組中的每個元素減去它的均值

如果是圖像處理就用PIL庫。似乎有這樣的演算法。

我的想法就是用numpy包中的減法。矩陣相減。

其實用python遍歷的速度比你想像的要快。

如果還不夠快就C語言寫，其中有一個庫prex，可以方便的實現python與C的介面，比直接用pyobject要方便很多。

另外你可以用CTYPE中的整型存貯，應該比如直接用python中的int節約空間，速度可能也會快些。

我曾經用PIL結合python寫驗證碼識別的演算法，速度快，消耗的時間基本上可以忽略。

❸ python 怎麼修改pandas的某個cell的值

數據缺失
數據缺失在大部分數據分析應用中都很常見，Pandas使用浮點值NaN表示浮點和非浮點數組中的缺失數據，他只是一個便於被檢測出來的數據而已。
from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)
print("...........\n")
print(string_data.isnull())12345671234567

Python內置的None值也會被當作NA處理
from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)
print("...........\n")

string_data[0]=None
print(string_data.isnull())123456789123456789

處理NA的方法有四種：dropna,fillna,isnull,notnull
is(not)null，這一對方法對對象做出元素級的應用，然後返回一個布爾型數組，一般可用於布爾型索引。
dropna，對於一個Series，dropna返回一個僅含非空數據和索引值的Series。
問題在於DataFrame的處理方式，因為一旦drop的話，至少要丟掉一行（列）。這里解決方法與前面類似，還是通過一個額外的參數：dropna(axis=0,how=』any』,thresh=None)，how參數可選的值為any或者all.all僅在切片元素全為NA時才拋棄該行(列)。thresh為整數類型，eg:thresh=3,那麼一行當中至少有三個NA值時才將其保留。
fillna,fillna(value=None,method=None,axis=0)中的value除了基本類型外，還可以使用字典，這樣可以實現對不同列填充不同的值。
過濾數據：
對於一個Series，dropna返回一個僅含非空數據和索引值的Series：
from pandas import Series,DataFrame
from numpy import nan as NA

data=Series([1,NA,3.5,NA,7])

print(data.dropna())123456123456

另一個過濾DataFrame行的問題涉及問題序列數據。假設只想留一部分觀察數據，可以用thresh參數實現此目的：
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.dropna(thresh=2))

不想濾除缺失的數據，而是通過其他方式填補「空洞」，fillna是最主要的函數。
通過一個常數調用fillna就會將缺失值替換為那個常數值：
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna(0))

若是通過一個字典調用fillna，就可以實現對不同列填充不同的值。
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna({1:111,2:222}))

可以利用fillna實現許多別的功能，比如可以傳入Series的平均值或中位數：
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=Series([1.0,NA,3.5,NA,7])
print(data)
print("...........\n")
print(data.fillna(data.mean()))

123456789123456789

檢測和過濾異常值
異常值(outlier)的過濾或變換運算在很大程度上就是數組運算。如下一個(1000,4)的標准正態分布數組：
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(1000,4))
print(data.describe())

print("\n....找出某一列中絕對值大小超過3的項...\n")
col=data[3]
print(col[np.abs(col) > 3] )

print("\n....找出全部絕對值超過3的值的行...\n")
print(col[(np.abs(data) > 3).any(1)] )

移除重復數據
DataFrame的plicated方法返回一個布爾型Series，表示各行是否是重復行。
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.plicated())123456789123456789

與此相關的還有一個drop_plicated方法，它用於返回一個移除了重復行的DataFrame：
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.drop_plicates())123456789123456789

上面的兩個方法會默認判斷全部列，也可以指定部分列進行重復項判斷，假設還有一列值，而只希望根據k1列過濾重復項。
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_plicates(['k1']))1234567891012345678910

plicates和drop_plicates默認保留第一個出現的值組合。傳入take_last=True則保留最後一個：
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_plicates(['k1','k2'],take_last=True))1234567891012345678910

❹ python中pd.rolling_window和pd.rolling_mean區別

rolling_mean 計算移動窗口的均值
rolling_window 計算移動窗口
pandas.rolling_window(arg, window=None, win_type=None, min_periods=None, freq=None, center=False, mean=True, axis=0, how=None, **kwargs)

❺ python axis=0是代表的行還是列

axis=0表示數組的第0軸，因為h本來就只包含1列，你直接做數組運算一下x.sum()就知道了。

❻ PYTHON實現對CSV文件多維不同單位數據的歸一化處理

1）線性歸一化
這種歸一化比較適用在數值比較集中的情況，缺陷就是如果max和min不穩定，很容易使得歸一化結果不穩定，使得後續的效果不穩定，實際使用中可以用經驗常量來代替max和min。
2）標准差標准化
經過處理的數據符合標准正態分布，即均值為0，標准差為1。
3）非線性歸一化
經常用在數據分化較大的場景，有些數值大，有些很小。通過一些數學函數，將原始值進行映射。該方法包括log、指數、反正切等。需要根據數據分布的情況，決定非線性函數的曲線。
log函數：x = lg(x)/lg(max)
反正切函數：x = atan(x)*2/pi
Python實現
線性歸一化
定義數組：x = numpy.array(x)
獲取二維數組列方向的最大值：x.max(axis = 0)
獲取二維數組列方向的最小值：x.min(axis = 0)
對二維數組進行線性歸一化：
def max_min_normalization(data_value, data_col_max_values, data_col_min_values):
""" Data normalization using max value and min value

Args:
data_value: The data to be normalized
data_col_max_values: The maximum value of data's columns
data_col_min_values: The minimum value of data's columns
"""
data_shape = data_value.shape
data_rows = data_shape[0]
data_cols = data_shape[1]

for i in xrange(0, data_rows, 1):
for j in xrange(0, data_cols, 1):
data_value[i][j] = \
(data_value[i][j] - data_col_min_values[j]) / \
(data_col_max_values[j] - data_col_min_values[j])

標准差歸一化
定義數組：x = numpy.array(x)
獲取二維數組列方向的均值：x.mean(axis = 0)
獲取二維數組列方向的標准差：x.std(axis = 0)
對二維數組進行標准差歸一化：
def standard_deviation_normalization(data_value, data_col_means,
data_col_standard_deviation):
""" Data normalization using standard deviation

Args:
data_value: The data to be normalized
data_col_means: The means of data's columns
data_col_standard_deviation: The variance of data's columns
"""
data_shape = data_value.shape
data_rows = data_shape[0]
data_cols = data_shape[1]

for i in xrange(0, data_rows, 1):
for j in xrange(0, data_cols, 1):
data_value[i][j] = \
(data_value[i][j] - data_col_means[j]) / \
data_col_standard_deviation[j]

非線性歸一化（以lg為例）
定義數組：x = numpy.array(x)
獲取二維數組列方向的最大值：x.max(axis=0)
獲取二維數組每個元素的lg值：numpy.log10(x)
獲取二維數組列方向的最大值的lg值：numpy.log10(x.max(axis=0))
對二維數組使用lg進行非線性歸一化：
def nonlinearity_normalization_lg(data_value_after_lg,
data_col_max_values_after_lg):
""" Data normalization using lg

Args:
data_value_after_lg: The data to be normalized
data_col_max_values_after_lg: The maximum value of data's columns
"""

data_shape = data_value_after_lg.shape
data_rows = data_shape[0]
data_cols = data_shape[1]

for i in xrange(0, data_rows, 1):
for j in xrange(0, data_cols, 1):
data_value_after_lg[i][j] = \
data_value_after_lg[i][j] / data_col_max_values_after_lg[j]

❼ Python,的numpy模塊中有沒有階乘函數

有階乘函數，Numpy中，mat必須是2維的,但是array可以是多維的（1D，2D，3D····ND）. Matrix是Array的一個小的分支，包含於Array。所以matrix 擁有array的所有特性。

在numpy中matrix的主要優勢是：相對簡單的乘法運算符號。例如，a和b是兩個matrices，那麼a*b，就是矩陣積。

若a=mat([1,2,3])是矩陣，則 a.A 則轉換成了數組，反之，a.M則轉換成了矩陣。

(7)pythonmeanaxis0擴展閱讀：

常用的Numpy運算：

取矩陣中的某一行ss[1,:]或該行的某兩列ss[1,0:2]

將數組轉換成矩陣randMat=mat(random.rand(4,4))

矩陣求逆randMat.I

單位陣eye(4)

零矩陣zeros((x,y))建立x行y列的零矩陣。

最大值和最小值a.max(),a.min(),而a.max(0)表示按列選取每列的最大值。最大/小元素的下標a.argmax(),a.argmin()

#作為方法x.sum() #所有元素相加x.sum(axis=0) #按列相加x.sum(axis=1) #按行相加#作為函數sum(a,axis=0)ss.mean()

mean(a,axis=0(或1)) #按列或行求均值var(a)var(a,axis=0(或1)) #按列或行求方差。

std(a)std(a,axis=0(或1)) #按列或行求標准差ss.T或ss.transpose() #轉置。

❽ 減法聚類如何用Python實現

下面是一個k-means聚類演算法在python2.7.5上面的具體實現，你需要先安裝Numpy和Matplotlib：
from numpy import *
import time
import matplotlib.pyplot as plt

# calculate Euclidean distance
def euclDistance(vector1, vector2):
return sqrt(sum(power(vector2 - vector1, 2)))
# init centroids with random samples
def initCentroids(dataSet, k):
numSamples, dim = dataSet.shape
centroids = zeros((k, dim))
for i in range(k):
index = int(random.uniform(0, numSamples))
centroids[i, :] = dataSet[index, :]
return centroids
# k-means cluster
def kmeans(dataSet, k):
numSamples = dataSet.shape[0]
# first column stores which cluster this sample belongs to,
# second column stores the error between this sample and its centroid
clusterAssment = mat(zeros((numSamples, 2)))
clusterChanged = True
## step 1: init centroids
centroids = initCentroids(dataSet, k)
while clusterChanged:
clusterChanged = False
## for each sample
for i in xrange(numSamples):
minDist = 100000.0
minIndex = 0
## for each centroid
## step 2: find the centroid who is closest
for j in range(k):
distance = euclDistance(centroids[j, :], dataSet[i, :])
if distance < minDist:
minDist = distance
minIndex = j

## step 3: update its cluster
if clusterAssment[i, 0] != minIndex:
clusterChanged = True
clusterAssment[i, :] = minIndex, minDist**2
## step 4: update centroids
for j in range(k):
pointsInCluster = dataSet[nonzero(clusterAssment[:, 0].A == j)[0]]
centroids[j, :] = mean(pointsInCluster, axis = 0)
print 'Congratulations, cluster complete!'
return centroids, clusterAssment
# show your cluster only available with 2-D data
def showCluster(dataSet, k, centroids, clusterAssment):
numSamples, dim = dataSet.shape
if dim != 2:
print "Sorry! I can not draw because the dimension of your data is not 2!"
return 1
mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']
if k > len(mark):
print "Sorry! Your k is too large! please contact Zouxy"
return 1
# draw all samples
for i in xrange(numSamples):
markIndex = int(clusterAssment[i, 0])
plt.plot(dataSet[i, 0], dataSet[i, 1], mark[markIndex])
mark = ['Dr', 'Db', 'Dg', 'Dk', '^b', '+b', 'sb', 'db', '<b', 'pb']
# draw the centroids
for i in range(k):
plt.plot(centroids[i, 0], centroids[i, 1], mark[i], markersize = 12)
plt.show()

❾ python數據分析里axis=0/1 行列定義為什麼每次都不同

Pandas保持了Numpy對關鍵字axis的用法，用法在Numpy庫的詞彙表當中有過解釋：
軸用來為超過一維的數組定義的屬性，二維數據擁有兩個軸：第0軸沿著行的垂直往下，第1軸沿著列的方
向水平延伸。
如果簡單點來說，就是0軸匹配的是index，涉及上下運算；1軸匹配的是columns, 涉及左右運算。
給你舉個栗子：

❿ python axis是什麼意思

python axis的意思是：1、【axis=0】表述列，【axis=1】表述行；2、等式【axis=i】操作就是沿第i維變化的方向進行。
python axis的意思是：
axis=0表述列
axis=1表述行
就記住axis=i，操作就是沿第i維變化的方向進行;
對於一個4*3*2*3的數組：
axis=0,操作時只有第0維的下標變化其他不變。
axis=1,操作時只有第1維的下標變化其他不變。
axis=2,操作時只有第2維的下標變化其他不變。
axis=3,操作時只有第3維的下標變化其他不變。
相關學習推薦：python視頻
以上就是小編分享的關於python axis是什麼意思的詳細內容希望對大家有所幫助，更多有關python教程請關注環球青藤其它相關文章！

導航:首頁 > 編程語言 > pythonmeanaxis0

pythonmeanaxis0

與pythonmeanaxis0相關的資料