1. 怎麼使用python中Pandas庫Resample,實現重采樣,完成線性插值
#python中的pandas庫主要有DataFrame和Series類(面向對象的的語言更願意叫類) DataFrame也就是
#數據框(主要是借鑒R裡面的data.frame),Series也就是序列 ,pandas底層是c寫的 性能很棒,有大神
#做過測試 處理億級別的數據沒問題,起性能可以跟同等配置的sas媲美
#DataFrame索引 df.loc是標簽選取操作,df.iloc是位置切片操作
print(df[['row_names','Rape']])
df['行標簽']
df.loc[行標簽,列標簽]
print(df.loc[0:2,['Rape','Murder']])
df.iloc[行位置,列位置]
df.iloc[1,1]#選取第二行,第二列的值,返回的為單個值
df.iloc[0,2],:]#選取第一行及第三行的數據
df.iloc[0:2,:]#選取第一行到第三行(不包含)的數據
df.iloc[:,1]#選取所有記錄的第一列的值,返回的為一個Series
df.iloc[1,:]#選取第一行數據,返回的為一個Series
print(df.ix[1,1]) # 更廣義的切片方式是使用.ix,它自動根據你給到的索引類型判斷是使用位置還是標簽進行切片
print(df.ix[0:2])
#DataFrame根據條件選取子集 類似於sas裡面if、where ,R裡面的subset之類的函數
df[df.Murder>13]
df[(df.Murder>10)&(df.Rape>30)]
df[df.sex==u'男']
#重命名 相當於sas裡面的rename R軟體中reshape包的中的rename
df.rename(columns={'A':'A_rename'})
df.rename(index={1:'other'})
#刪除列 相當於sas中的drop R軟體中的test['col']<-null
df.drop(['a','b'],axis=1) or del df[['a','b']]
#排序 相當於sas裡面的sort R軟體裡面的df[order(x),]
df.sort(columns='C') #行排序 y軸上
df.sort(axis=1) #各個列之間位置排序 x軸上
#數據描述 相當於sas中proc menas R軟體裡面的summary
df.describe()
#生成新的一列 跟R裡面有點類似
df['new_columns']=df['columns']
df.insert(1,'new_columns',df['B']) #效率最高
df.join(Series(df['columns'],name='new_columns'))
#列上面的追加 相當於sas中的append R裡面cbind()
df.append(df1,ignore_index=True)
pd.concat([df,df1],ignore_index=True)
#最經典的join 跟sas和R裡面的merge類似 跟sql裡面的各種join對照
merge()
#刪除重行 跟sas裡面nokey R裡面的which(!plicated(df[])類似
df.drop_plicated()
#獲取最大值 最小值的位置 有點類似矩陣裡面的方法
df.idxmin(axis=0 ) df.idxmax(axis=1) 0和1有什麼不同 自己摸索去
#讀取外部數據跟sas的proc import R裡面的read.csv等類似
read_excel() read_csv() read_hdf5() 等
與之相反的是df.to_excel() df.to_ecv()
#缺失值處理 個人覺得pandas中缺失值處理比sas和R方便多了
df.fillna(9999) #用9999填充
#鏈接資料庫 不多說 pandas裡面主要用 MySQLdb
import MySQLdb
conn=MySQLdb.connect(host="localhost",user="root",passwd="",db="mysql",use_unicode=True,charset="utf8")
read_sql() #很經典
#寫數據進資料庫
df.to_sql('hbase_visit',con, flavor="mysql", if_exists='replace', index=False)
#groupby 跟sas裡面的中的by R軟體中dplyr包中的group_by sql裡面的group by功能是一樣的 這里不多說
#求啞變數
miper=pd.get_mmies(df['key'])
df['key'].join(mpier)
#透視表 和交叉表 跟sas裡面的proc freq步類似 R裡面的aggrate和cast函數類似
pd.pivot_table()
pd.crosstab()
#聚合函數經常跟group by一起組合用
df.groupby('sex').agg({'height':['mean','sum'],'weight':['count','min']})
#數據查詢過濾
test.query("0.2
將STK_ID中的值過濾出來
stk_list = ['600809','600141','600329']中的全部記錄過濾出來,命令是:rpt[rpt['STK_ID'].isin(stk_list)].
將dataframe中,某列進行清洗的命令
刪除換行符:misc['proct_desc'] = misc['proct_desc'].str.replace('\n', '')
刪除字元串前後空格:df["Make"] = df["Make"].map(str.strip)
如果用模糊匹配的話,命令是:
rpt[rpt['STK_ID'].str.contains(r'^600[0-9]{3}$')]
對dataframe中元素,進行類型轉換
df['2nd'] = df['2nd'].str.replace(',','').astype(int) df['CTR'] = df['CTR'].str.replace('%','').astype(np.float64)
#時間變換 主要依賴於datemie 和time兩個包
http://www.2cto.com/kf/201401/276088.html
#其他的一些技巧
df2[df2['A'].map(lambda x:x.startswith('61'))] #篩選出以61開頭的數據
df2["Author"].str.replace("<.+>", "").head() #replace("<.+>", "")表示將字元串中以」<」開頭;以」>」結束的任意子串替換為空字元串
commits = df2["Name"].head(15)
print commits.unique(), len(commits.unique()) #獲的NAME的不同個數,類似於sql裡面count(distinct name)
#pandas中最核心 最經典的函數apply map applymap
2. python數據採集是什麼
數據採集(DAQ),又稱數據獲取,是指從感測器和其它待測設備等模擬和數字被測單元中自動採集非電量或者電量信號,送到上位機中進行分析,處理。數據採集系統是結合基於計算機或者其他專用測試平台的測量軟硬體產品來實現靈活的、用戶自定義的測量系統。採集一般是采樣方式,即隔一定時間(稱采樣周期)對同一點數據重復採集。採集的數據大多是瞬時值,也可是某段時間內的一個特徵值。
網路爬蟲是用於數據採集的一門技術,可以幫助我們自動地進行信息的獲取與篩選。從技術手段來說,網路爬蟲有多種實現方案,如PHP、Java、Python ...。那麼用python 也會有很多不同的技術方案(Urllib、requests、scrapy、selenium...),每種技術各有各的特點,只需掌握一種技術,其它便迎刃而解。同理,某一種技術解決不了的難題,用其它技術或方依然無法解決。網路爬蟲的難點並不在於網路爬蟲本身,而在於網頁的分析與爬蟲的反爬攻克問題。
python學習網,免費的在線學習python平台,歡迎關注!
3. python 有沒有對信號進行升采樣的方法,從1000點序列數據轉成10000點數據
這個裡面他的話這個是可以進行進行采樣的方法,然後再從他的點訓練數據中轉換乘1000點的話,它都是裡面是轉化的,數據比較多,所以所以的話工程量比較大。
4. python 做監控數據採集,怎麼做.新手請教
這么具體的問題,找通用demo很難啊,個人覺得問題的難點不在Python。
1. 獲取什麼伺服器性能數據和如何獲取,可以請教公司內部運維。
2. 獲取什麼資料庫性能數據和如何獲取,可以請教公司內部DBA。
3. 以上兩點搞定了,才能確定臨時數據存儲結構和最終資料庫表結構。
以上三點是關鍵,Python的事情就簡單多了,提供一種思路:一分鍾一次,實時性不高,每台伺服器用cron部署一個a.py,用於獲取性能數據,在某
一台伺服器有一個b.py,負責獲取所有伺服器a.py產生的數據,然後寫入資料庫;a.py如何上報到b.py取決於你擅長什麼,如果熟悉網路編程,用
a.py做客戶端上報到服務端b.py,如果熟悉shell的文件同步(如rsync),a.py只寫本地文件,b.py調用c.sh(封裝rsync)
拉取遠程文件。
如果解決了您的問題請採納!
如果未解決請繼續追問!
5. 如何用最簡單的Python爬蟲採集整個網站
你要對你想爬的網站的HTML做一些簡要分析的。 爬蟲用python很好寫的。
6. python用opencv庫和OS庫如何獲取視頻並將其使用上采樣的當然拖充負樣本,並保存
後面的沒看懂
opencv打開視頻可以通過
cap=cv2.VideoCapture(path)
path 可以是文件路徑,url等
網上可以找到的
ret,frame=cap.read()
來讀照片,ret是返回是否獲取成功
7. 基於python數據採集與處理
數據採集作為信息獲取的主要方法,被廣泛應用於電力監測、航空航天、生物醫學、電子通信等測控領域。
針對LabVIEW數據採集系統整體架構以及系統軟體設計進行了分析,希望能藉助LabVIEW豐富的函數庫,易於進行系統功能擴展。
8. python 怎麼採集磁碟利用率
1. 使用python中的psutil實現,psutil下載及介紹地址:
「https://pypi.python.org/pypi/psutil」
2. 說明,使用前需安裝psutil模塊到本地主機
3. python源代碼
#測試代碼為windows環境下,通過os木塊引入windows系統下的DOS和wmi命令提取數據
import os
import psutil
import time
9. python如何實現隨機抽樣以實現構建多個樣本
select_user = r'select * from person where name = %s' select_data = (newName, )