python數據平滑處理_怎麼用python畫數據分布直方圖

A. python使用matplotlib怎麼畫光滑曲線

matplotlib 是Python最著名的繪圖庫，它提供了一整套和matlab相似的命令API，十分適合互動式地進行制圖。而且也可以方便地將它作為繪圖控制項，嵌入GUI應用程序中。
它的文檔相當完備，並且 Gallery頁面中有上百幅縮略圖，打開之後都有源程序。因此如果你需要繪制某種類型的圖，只需要在這個頁面中瀏覽/復制/粘貼一下，基本上都能搞定。

在Linux下比較著名的數據圖工具還有gnuplot，這個是免費的，Python有一個包可以調用gnuplot，但是語法比較不習慣，而且畫圖質量不高。
而 Matplotlib則比較強：Matlab的語法、python語言、latex的畫圖質量（還可以使用內嵌的latex引擎繪制的數學公式）。

快速繪圖
matplotlib的pyplot子庫提供了和matlab類似的繪圖API，方便用戶快速繪制2D圖表。例子：

?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

#
coding=gbk
'''
Created
on Jul 12,2014
python
科學計算學習：numpy快速處理數據測試
@author:
皮皮
'''
importstring
importmatplotlib.pyplot
as plt
importnumpy
as np

if__name__
== '__main__':
file
= open(E:machine_learningdatasetshousing_datahousing_data_ages.txt, 'r')
linesList
= file.readlines()
#
print(linesList)
linesList
= [line.strip().split(,) forline
in linesList]
file.close()
print(linesList:)
print(linesList)
#
years = [string.atof(x[0])forx
in linesList]
years
= [x[0]forx
in linesList]
print(years)
price
= [x[1]forx
in linesList]
print(price)
plt.plot(years,
price, 'b*')#,label=$cos(x^2)$)
plt.plot(years,
price, 'r')
plt.xlabel(years(+2000))
plt.ylabel(housing
average price(*2000yuan))
plt.ylim(0,15)
plt.title('line_regression
& gradient decrease')
plt.legend()
plt.show()

B. python的語言特點有

Python語言在軟體開發公司中具有多樣化的應用，例如游戲、Web框架和應用程序、語言開發、原型設計、圖形設計應用程序等。這使得該語言的應用會比業內使用的其他編程語言更多。它的一些優點是 -
廣泛的支持庫
它提供大型標准庫，包括字元串操作、Internet、Web服務工具、操作系統介面和協議等領域。大多數高度使用的編程任務已編寫到其中，限制了用Python編寫的代碼的長度。
集成功能
Python集成了企業應用程序集成，通過調用COM或COBRA組件可以輕松開發Web服務。它具有強大的控制功能，因為它通過Jython直接通過C、C ++或Java調用。 Python還處理XML和其他標記語言，因為它可以通過相同的位元組代碼在所有現代操作系統上運行。
提高程序員的工作效率
該語言具有廣泛的支持庫和干凈的面向對象設計，使用Java、VB、Perl、C、C ++和C＃等語言時，程序員的工作效率提高了2到10倍。
生產率
憑借其強大的流程集成功能、單元測試框架和增強的控制功能有助於提高大多數應用程序的速度和應用程序的生產率。它是構建可擴展的多協議網路應用程序的絕佳選擇。
Python的局限性或缺點
Pyt hon具有各種各樣的優勢特性，與其他編程相比，程序員更喜歡這種語言，因為它易於學習和編寫代碼。但是，這種語言仍然沒有在包括企業開發商店在內的一些計算領域占據一席之地。因此，這種語言可能無法解決某些企業解決方案，其局限性包括 -
使用其他語言有困難
Python愛好者已經習慣了它的特性和廣泛的庫，因此他們在學習或使用其他編程語言時遇到了問題。 Python專家可能會看到對「值」或變數「類型」的聲明、添加花括弧或分號作為繁重任務的語法要求。
移動計算領域的弱勢
Python已經在許多桌面和伺服器平台上出現，但它被視為移動計算的弱語言。這就是為什麼很少有移動應用程序像Carbonnelle一樣內置的原因。
速度變慢
Python在解釋器而不是編譯器的幫助下執行，這將導致它變慢，因為編譯和執行有助於它正常工作。另一方面，可以看出它對於許多Web應用程序來說也很快。
運行時錯誤
Python語言是動態類型的，因此它有許多Python開發人員報告的設計限制。甚至可以看出它需要更多的測試時間，並且在最終運行應用程序時，會出現錯誤。
欠發達的資料庫訪問層
與JDBC和ODBC等流行技術相比，Python的資料庫訪問層有點不發達和原始。但是，它不能應用於需要復雜遺留數據平滑交互的企業。

C. Python爬蟲：如何在一個月內學會爬取大規模數

爬蟲是入門Python最好的方式，沒有之一。Python有很多應用的方向，比如後台開發、web開發、科學計算等等，但爬蟲對於初學者而言更友好，原理簡單，幾行代碼就能實現基本的爬蟲，學習的過程更加平滑，你能體會更大的成就感。
掌握基本的爬蟲後，你再去學習Python數據分析、web開發甚至機器學習，都會更得心應手。因為這個過程中，Python基本語法、庫的使用，以及如何查找文檔你都非常熟悉了。
對於小白來說，爬蟲可能是一件非常復雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python，然後哼哧哼哧系統學習 Python 的每個知識點，很久之後發現仍然爬不了數據；有的人則認為先要掌握網頁的知識，遂開始 HTMLCSS，結果入了前端的坑，瘁……
但掌握正確的方法，在短時間內做到能夠爬取主流網站的數據，其實非常容易實現，但建議你從一開始就要有一個具體的目標。
在目標的驅動下，你的學習才會更加精準和高效。那些所有你認為必須的前置知識，都是可以在完成目標的過程中學到的。這里給你一條平滑的、零基礎快速入門的學習路徑。
1.學習 Python 包並實現基本的爬蟲過程
2.了解非結構化數據的存儲
3.學習scrapy，搭建工程化爬蟲
4.學習資料庫知識，應對大規模數據存儲與提取
5.掌握各種技巧，應對特殊網站的反爬措施
6.分布式爬蟲，實現大規模並發採集，提升效率
- -
學習 Python 包並實現基本的爬蟲過程
大部分Python爬蟲都是按「發送請求——獲得頁面——解析頁面——抽取並儲存內容」這樣的流程來進行，這其實也是模擬了我們使用瀏覽器獲取網頁信息的過程。
Python爬蟲相關的包很多：urllib、requests、bs4、scrapy、pyspider 等，建議從requests+Xpath 開始，requests 負責連接網站，返回網頁，Xpath 用於解析網頁，便於抽取數據。
如果你用過 BeautifulSoup，會發現 Xpath 要省事不少，一層一層檢查元素代碼的工作，全都省略了。這樣下來基本套路都差不多，一般的靜態網站根本不在話下，豆瓣、糗事網路、騰訊新聞等基本上都可以上手了。
當然如果你需要爬取非同步載入的網站，可以學習瀏覽器抓包分析真實請求或者學習Selenium來實現自動化，這樣，知乎、時光網、貓途鷹這些動態的網站也可以迎刃而解。
- -
了解非結構化數據的存儲
爬回來的數據可以直接用文檔形式存在本地，也可以存入資料庫中。
開始數據量不大的時候，你可以直接通過 Python 的語法或 pandas 的方法將數據存為csv這樣的文件。
當然你可能發現爬回來的數據並不是干凈的，可能會有缺失、錯誤等等，你還需要對數據進行清洗，可以學習 pandas 包的基本用法來做數據的預處理，得到更干凈的數據。
- -
學習 scrapy，搭建工程化的爬蟲
掌握前面的技術一般量級的數據和代碼基本沒有問題了，但是在遇到非常復雜的情況，可能仍然會力不從心，這個時候，強大的 scrapy 框架就非常有用了。
scrapy 是一個功能非常強大的爬蟲框架，它不僅能便捷地構建request，還有強大的 selector 能夠方便地解析 response，然而它最讓人驚喜的還是它超高的性能，讓你可以將爬蟲工程化、模塊化。
學會 scrapy，你可以自己去搭建一些爬蟲框架，你就基本具備爬蟲工程師的思維了。
- -
學習資料庫基礎，應對大規模數據存儲
爬回來的數據量小的時候，你可以用文檔的形式來存儲，一旦數據量大了，這就有點行不通了。所以掌握一種資料庫是必須的，學習目前比較主流的 MongoDB 就OK。
MongoDB 可以方便你去存儲一些非結構化的數據，比如各種評論的文本，圖片的鏈接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。
因為這里要用到的資料庫知識其實非常簡單，主要是數據如何入庫、如何進行提取，在需要的時候再學習就行。
- -
掌握各種技巧，應對特殊網站的反爬措施
當然，爬蟲過程中也會經歷一些絕望啊，比如被網站封IP、比如各種奇怪的驗證碼、userAgent訪問限制、各種動態載入等等。
遇到這些反爬蟲的手段，當然還需要一些高級的技巧來應對，常規的比如訪問頻率控制、使用代理IP池、抓包、驗證碼的OCR處理等等。
往往網站在高效開發和反爬蟲之間會偏向前者，這也為爬蟲提供了空間，掌握這些應對反爬蟲的技巧，絕大部分的網站已經難不到你了。
- -
分布式Python爬蟲，實現大規模並發採集
爬取基本數據已經不是問題了，你的瓶頸會集中到爬取海量數據的效率。這個時候，相信你會很自然地接觸到一個很厲害的名字：分布式爬蟲。
分布式這個東西，聽起來很恐怖，但其實就是利用多線程的原理讓多個爬蟲同時工作，需要你掌握 Scrapy + MongoDB + Redis 這三種工具。
Scrapy 前面我們說過了，用於做基本的

D. python的opencv怎麼對圖像進行平滑處理

幀差法的代碼：
#define
threshold_diff1
10
//設置簡單幀差法閾值
#define
threshold_diff2
10
//設置簡單幀差法閾值
int
main(int
argc,unsigned
char*
argv[])
{
Mat
img_src1,img_src2,img_src3;//3幀法需要3幀圖片
Mat
img_dst,gray1,gray2

E. 如何使用Python繪制光滑實驗數據曲線

樓主的問題是否是「怎樣描繪出沒有數據點的位置的曲線」，或者是「x在某個位置時，即使沒有數據，我也想知道他的y值是多少，好繪制曲線」。這就是個預測未知數據的問題。

傳統的方法就是回歸，python的scipy可以做。流行一點的就是機器學習，python的scikit-learn可以做。

但問題在於，僅由光強能預測出開路電壓嗎（當然，有可能可以預測。）？就是你的圖1和圖2的曲線都不能說是不可能發生的情況吧，所以想預測開路電壓值還需引入其他影響因子。這樣你才能知道平滑曲線到底應該像圖1還是圖2還是其他樣子。

如果是單因子的話，從散點圖觀察，有點像 y = Alnx + B，用線性回歸模型確定A,B的值就可以通過x預測y的值，從而繪制平滑的曲線了。

F. arima模型python 怎麼看平穩性

時間序列分析(一) 如何判斷序列是否平穩
序列平穩不平穩，一般採用兩種方法：
第一種：看圖法
圖是指時序圖，例如(eviews畫滴)：

分析：什麼樣的圖不平穩，先說下什麼是平穩，平穩就是圍繞著一個常數上下波動。
看看上面這個圖，很明顯的增長趨勢，不平穩。

第二種：自相關系數和偏相關系數
還以上面的序列為例：用eviews得到自相關和偏相關圖，Q統計量和伴隨概率。

分析：判斷平穩與否的話，用自相關圖和偏相關圖就可以了。
平穩的序列的自相關圖和偏相關圖不是拖尾就是截尾。截尾就是在某階之後，系數都為 0 ，怎麼理解呢，看上面偏相關的圖，當階數為 1 的時候，系數值還是很大， 0.914. 二階長的時候突然就變成了 0.050. 後面的值都很小，認為是趨於 0 ，這種狀況就是截尾。再就是拖尾，拖尾就是有一個衰減的趨勢，但是不都為 0 。
自相關圖既不是拖尾也不是截尾。以上的圖的自相關是一個三角對稱的形式，這種趨勢是單調趨勢的典型圖形。

下面是通過自相關的其他功能
如果自相關是拖尾，偏相關截尾，則用 AR 演算法
如果自相關截尾，偏相關拖尾，則用 MA 演算法
如果自相關和偏相關都是拖尾，則用 ARMA 演算法， ARIMA 是 ARMA 演算法的擴展版，用法類似。
不平穩，怎麼辦？
答案是差分
還是上面那個序列，兩種方法都證明他是不靠譜的，不平穩的。確定不平穩後，依次進行1階、2階、3階...差分，直到平穩位置。先來個一階差分，上圖。

從圖上看，一階差分的效果不錯，看著是平穩的。

G. 怎麼用python畫數據分布直方圖

計算頻數：
給定一個序列t：
hist = {}
for x in t:
hist[x] = hist.get(x,0)+1
得到的結果是一個將值映射到其頻數的字典。將其除以n即可把頻數轉換成頻率，這稱為歸一化：
n = float(len(t))
pmf = {}
for x, freq in hist.items():
pmf[x] = freq/n

繪制直方圖：
Vals, freqs = hist.Render()
rectangles = pyplot.bar(vals, freqs)
pyplot.show()

繪制概率質量函數：
採用柱狀圖，可以用pyplot.bar或myplot.Hist。如果Pmf中的值不多，柱狀圖就比較合適
採用折線圖，可以用pyplot.plot或者myplot.Pmf。如果Pmf中的值較多，且比較平滑，折線圖就比較合適。

*百分比差異圖
直觀顯示兩組數據的分布差異，詳見教材。

H. 怎麼用python做光滑折線圖，謝謝了，困擾我很多天了

參考python散點的平滑曲線化方法

I. python有哪些特點和優點

顯著的優點

Python 語言擁有諸多的優點，這其中，以下幾個優點特別顯著：

簡單易學：Python語言相對於其他編程語言來說，屬於比較容易學習的一門編程語言，它注重的是如何解決問題而不是編程語言的語法和結構。正是因為Python語言簡單易學，所以，已經有越來越多的初學者選擇Python語言作為編程的入門語言。例如，在浙江省 2017年高中信息技術改革中，《演算法與程序設計》課程將使用 Python語言替換原有的VB 語言。

語法優美：Python語言力求代碼簡潔、優美。在Python語言中，採用縮進來標識代碼塊，通過減少無用的大括弧，去除語句末尾的分號等視覺雜訊，使得代碼的可讀性顯著提高。閱讀一段良好的Python程序就感覺像是在讀英語一樣，它使你能夠專注於解決問題，而不用太糾結編程語言本身的語法。

豐富強大的庫：Python語言號稱自帶電池(Battery Included)，寓意是Python語言的類庫非常的全面，包含了解決各種問題的類庫。無論實現什麼功能，都有現成的類庫可以使用。如果一個功能比較特殊，標准庫沒有提供相應的支持，那麼，很大概率也會有相應的開源項目提供了類似的功能。合理使用Python的類庫和開源項目，能夠快速的實現功能，滿足業務需求。

開發效率高：Python的各個優點是相輔相成的。例如，Python語言因為有了豐富強大的類庫，所以，Python的開發效率能夠顯著提高。相對於 C、C++ 和 Java等編譯語言，Python開發者的效率提高了數倍。實現相同的功能，Python代碼的文件往往只有 C、C++和Java代碼的1/5~1/3。雖然Python語言擁有很多吸引人的特性，但是，各大互聯網公司廣泛使用Python語言，很大程度上是因為Python語言開發效率高這個特點。開發效率高的語言，能夠更好的滿足互聯網快速迭代的需求，因此，Python語言在互聯網公司使用非常廣泛。

應用領域廣泛：Python語言的另一大優點就是應用領域廣泛，工程師可以使用Python 做很多的事情。例如，Web開發、網路編程、自動化運維、Linux系統管理、數據分析、科學計算、人工智慧、機器學習等等。Python語言介於腳本語言和系統語言之間，我們根據需要，既可以將它當做一門腳本語言來編寫腳本，也可以將它當做一個系統語言來編寫服務。

不可忽視的缺點

毫無疑問，Python確實有用很多的優點，每一個優點看起來都非常吸引人。但是，Python並不是沒有缺點的，最主要的缺點有以下幾個：

Python的執行速度不夠快。當然，這也不是一個很嚴重的問題，一般情況下，我們不會拿Python語言與C/C++這樣的語言進行直接比較。在Python語言的執行速度上，一方面，網路或磁碟的延遲，會抵消掉部分Python本身消耗的時間；另一方面，因為Python 特別容易和C結合起來，因此，我們可以通過分離一部分需要優化速度的應用，將其轉換為編譯好的擴展，並在整個系統中使用Python腳本將這部分應用連接起來，以提高程序的整體效率。

Python的GIL鎖限制並發：Python的另一個大問題是，對多處理器支持不好。如果讀者接觸Python時間比較長，那麼，一定聽說過GIL這個詞。GIL是指Python全局解釋器鎖（Global Interpreter Lock），當Python的默認解釋器要執行位元組碼時，都需要先申請這個鎖。這意味著，如果試圖通過多線程擴展應用程序，將總是被這個全局解釋器鎖限制。當然，我們可以使用多進程的架構來提高程序的並發，也可以選擇不同的Python實現來運行我們的程序。

Python 2與Python 3不兼容： 如果一個普通的軟體或者庫，不能夠做到後向兼容，那麼，它會被用戶無情的拋棄了。在Python中，一個槽點是Python 2與Python 3不兼容。因為Python沒有向後兼容，給所有的Python工程師帶來了無數的煩惱。

上述就是總結的Python語言的優缺點。總體來說，Python目前的發展還是非常不錯的。借著人工智慧時代的東風，Python開發人員的未來一定會很光明。

J. python scikit-learn 有什麼演算法

1，前言

很久不發文章，主要是Copy別人的總感覺有些不爽，所以整理些干貨，希望相互學習吧。不啰嗦，進入主題吧，本文主要時說的為樸素貝葉斯分類演算法。與邏輯回歸，決策樹一樣，是較為廣泛使用的有監督分類演算法，簡單且易於理解（號稱十大數據挖掘演算法中最簡單的演算法）。但其在處理文本分類，郵件分類，拼寫糾錯，中文分詞，統計機器翻譯等自然語言處理范疇較為廣泛使用，或許主要得益於基於概率理論，本文主要為小編從理論理解到實踐的過程記錄。

2，公式推斷

一些貝葉斯定理預習知識：我們知道當事件A和事件B獨立時，P（AB）=P（A）（B），但如果事件不獨立，則P（AB）=P（A）P（B|A）。為兩件事件同時發生時的一般公式，即無論事件A和B是否獨立。當然也可以寫成P（AB）=P（B）P（A|B），表示若要兩件事同事發生，則需要事件B發生後，事件A也要發生。

由上可知，P（A）P（B|A）= P（B）P（A|B）

推出P（B|A）=

其中P（B）為先驗概率，P（B|A）為B的後驗概率，P（A|B）為A的後驗概率（在這里也為似然值），P（A）為A的先驗概率（在這也為歸一化常量）。

由上推導可知，其實樸素貝葉斯法就是在貝葉斯定理基礎上，加上特徵條件獨立假設，對特定輸入的X（樣本，包含N個特徵），求出後驗概率最大值時的類標簽Y（如是否為垃圾郵件），理解起來比邏輯回歸要簡單多，有木有，這也是本演算法優點之一，當然運行起來由於得益於特徵獨立假設，運行速度也更快。

8. Python代碼

# -*-coding: utf-8 -*-

importtime

fromsklearn import metrics

fromsklearn.naive_bayes import GaussianNB

fromsklearn.naive_bayes import MultinomialNB

fromsklearn.naive_bayes import BernoulliNB

fromsklearn.neighbors import KNeighborsClassifier

fromsklearn.linear_model import LogisticRegression

fromsklearn.ensemble import RandomForestClassifier

fromsklearn import tree

fromsklearn.ensemble import GradientBoostingClassifier

fromsklearn.svm import SVC

importnumpy as np

importurllib

# urlwith dataset

url ="-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"

#download the file

raw_data= urllib.request.urlopen(url)

#load the CSV file as a numpy matrix

dataset= np.loadtxt(raw_data, delimiter=",")

#separate the data from the target attributes

X =dataset[:,0:7]

#X=preprocessing.MinMaxScaler().fit_transform(x)

#print(X)

y =dataset[:,8]

print(" 調用scikit的樸素貝葉斯演算法包GaussianNB ")

model= GaussianNB()

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(" 調用scikit的樸素貝葉斯演算法包MultinomialNB ")

model= MultinomialNB(alpha=1)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(" 調用scikit的樸素貝葉斯演算法包BernoulliNB ")

model= BernoulliNB(alpha=1,binarize=0.0)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(" 調用scikit的KNeighborsClassifier ")

model= KNeighborsClassifier()

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(" 調用scikit的LogisticRegression(penalty='l2')")

model= LogisticRegression(penalty='l2')

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(" 調用scikit的RandomForestClassifier(n_estimators=8) ")

model= RandomForestClassifier(n_estimators=8)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(" 調用scikit的tree.DecisionTreeClassifier()")

model= tree.DecisionTreeClassifier()

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(" 調用scikit的GradientBoostingClassifier(n_estimators=200) ")

model= GradientBoostingClassifier(n_estimators=200)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print(" 調用scikit的SVC(kernel='rbf', probability=True) ")

model= SVC(kernel='rbf', probability=True)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

"""

# 預處理代碼集錦

importpandas as pd

df=pd.DataFrame(dataset)

print(df.head(3))

print(df.describe())##描述性分析

print(df.corr())##各特徵相關性分析

##計算每行每列數據的缺失值個數

defnum_missing(x):

return sum(x.isnull())

print("Missing values per column:")

print(df.apply(num_missing, axis=0)) #axis=0代表函數應用於每一列

print(" Missing values per row:")

print(df.apply(num_missing, axis=1).head()) #axis=1代表函數應用於每一行"""

導航:首頁 > 編程語言 > python數據平滑處理

python數據平滑處理

與python數據平滑處理相關的資料