導航:首頁 > 源碼編譯 > 變數重要性分析演算法

變數重要性分析演算法

發布時間:2022-07-11 03:13:42

『壹』 幾個相乘的自變數對因變數的重要性衡量用什麼方法

不知道你問的問題是不是指因變數對自變數的敏感度。有專門兒的敏感度分析理論的。你可以參考一下。因變數對不同的自變數的敏感度是不一樣的。敏感度分析理論也比較成熟。你可以查閱一下相關的文獻。這幾個自變數如果只是相乘的話,感覺重要性是一樣的。如果是復雜的函數關系, 建議做一下敏感度分析。

『貳』 簡述變數間的相關分析有哪些方法

《變數間的相關關系》的主要內容為採用定性和定量相結合的方法研究變數之間的相關關系,主要研究線性相關關系.主要概念有「相關關系」、「散點圖」、「回歸直線和回歸直線方程」、「相關系數」等.研究方法為先繪制散點圖,直觀表示觀測數據,定性描述變數間相關關系的類型、方向、相關程度.然後應用最小二乘法確定變數間相關關系的具體表達形式,描述變數間的數量規律,並由一個變數的取值去推測另一個變數的取值.這部分內容涉及到一些重要的統計思想和方法,對學生的學習和教師的教學都有一定的難度.本文就研究對象、核心概念、研究方法、統計思想及相關應用進行簡單的解讀,提出一些教學建議,希望對教學能提供一些幫助.一、相關概念及統計思想方法1.相關關系——變數間的不確定關系兩個變數之間的數量關系有兩種不同的類型:一種是函數關系,一種是相關關系.當一個變數取一定的值時,另一個變數有確定的值與之對應,我們稱這種關系為確定的函數關系.一般把作為影響因素的變數稱為自變數,把與之對應變化的變數稱為因變數.當一個變數取一定的數值時,與之對應的另一個變數的值雖然不確定,但它按某種規律在一定的范圍內變化,變數間的這種關系稱為不確定性的相關關系.或者說兩個變數之間確實存在某種關系,但不具備函數關系所要求的確定性.函數關系和相關關系都是指兩個變數之間的數量關系.函數關系是兩個非隨機變數之間的一種確定關系,是一種因果關系.而相關關系是兩個變數之間的一種不確定的關系,這兩個變數中至少有一個是隨機變數.兩個相關變數之間可能有內在聯系(真實相關),也可能完全不存在內在聯系(虛假相關).之所以X和Y之間是相關關系,原因是變數X是影響變數Y的主要因素,但不是唯一因素,還有其他種種因素,而這些因素我們又不能完全把握.研究函數關系,可以用數學分析的方法.例如,已知y和x之間具有線性關系,即,此時只要知道變數的兩組取值就可以確定函數表達式.研究相關關系則必須對變數進行多次觀測,藉助統計的相關思想和方法.例如,有人認為人的體重y和身高x之間具有近似的二次函數關系,由三個人的身高和體重數據,確定出y和x之間的表達式.這樣得到的結果很不可靠,難以使人信服.2.散點圖—描述相關關系的直觀工具由於相關關系的不確定性,尋找變數X和Y之間的相關關系時,首先要對變數進行觀測.設n次觀測值為.在直角坐標系中,橫軸代表變數X,縱軸代表變數Y,將觀測數據用坐標點的形式描繪出來,得到的圖形稱為散點圖.散點圖是研究相關關系的直觀工具,可以定性的判斷相關的方向和程度. 如果散點大致分布在一條直線附近,又不完全在一條直線上,說明變數間具有線性相關關系;如果這些點大致分布在一條曲線附近,說明變數間具有非線性相關關系;如果這些點的分布幾乎沒有什麼規則,說明兩個變數間沒有相關關系.對於線性相關,如果散點從左下角到右上角沿直線分布,那麼兩個變數正相關,如果散點從左上角到右下角沿直線分布,兩個變數負相關.如果散點在整體上和某一直線越接近,表明變數間相關關系越強.3.數據分析方法—相關分析與回歸分析對變數間相關關系,在定性分析的基礎上,需要進行定量分析.定量分析有相關分析和回歸分析兩種方法.相關分析是用一個指標(稱為相關系數)來反映變數間相關關系的密切程度(見人教A版必修3P85,閱讀與思考).回歸分析就是根據相關關系的具體形態,選擇一個合適的數學模型,來近似表達變數間的平均變化關系.相關分析和回歸分析具有共同的研究對象,在具體應用時,需要互相補充.作相關分析需要依靠回歸分析表明變數相關的具體形式,而進行回歸分析需要通過相關分析表明變數間的相關程度,只有變數間存在高度相關時,由回歸分析得到的變數間的具體形式才有意義.相關分析研究變數間的相關的方向和相關程度,它不提供相互關系的具體形式,也無法從一個變數的變化來推測另一個變數的變化情況.相關分析不必確定哪個變數是自變數,哪個是因變數,所涉及的兩個變數可以都是隨機變數.回歸分析根據觀測數據,確定一個數學方程式(回歸方程),根據這個方程式可以由已知量推測未知量,為估算和預測提供一個重要方法.回歸分析必須事先確定具有相關關系的變數中哪個為自變數,哪個為因變數.一般地說,自變數是普通變數(人為可以控制其取值),因變數是隨機變數.4.最小二乘思想—統計學基礎的重要部分當兩個變數之間存在相關關系時,由於不確定性,如果只有很少幾組變數觀測值,很難估計誤差的大小.法國法數學家勒讓德(Le Gendre,1752—1833)在根據測量數據預測彗星軌道的問題時,發現了如何有效利用全部測量數據的方法.即通過計算得出一組數值,在使數據組的偏差達到最小的意義下,這些數值是最優的.由勒讓德的方法得出的數值充分利用了所有數據信息,這個方法現在叫做最小二乘法.人們立即認識到勒讓德發現的價值,運用最小二乘法的數學並不難,所以絕大多數從事測量的科學家,都能從這一方法中受益,他們可以充分利用數據.當時最小二乘思想在科學界迅速流傳.1809年,德國數學家高斯(Gauss,1777—1855年)在一篇論文中,分析了如何充分利用一系列測量數據來預測天體軌道的問題,在文章中也敘述了最小二乘法,並聲稱自己發明了這一方法.事實上,勒讓德第一個發表了最小二乘法思想,並影響了統計學;高斯也使用了最小二乘法,並且考慮了最小二乘法的誤差分析問題,他還發現了最小二乘法理論中的重要結果,它從統計學的角度回答了最小二乘法在縮小誤差上的優勢,使得在勒讓德那裡只是處理測量數據的代數方法逐漸滲透到統計數據分析的領域,最小二乘法對統計學就象微積分對於數學中的影響一樣深遠,高斯的巨大聲望使一些歷史學家把最小二乘法歸功於他.下面通過一個簡單問題,闡述最小二乘思想.一段公路,實際長度為a千米,a是未知的,對公路進行n次實際測量,假設測量值為.可是每次測量都有一定的誤差,這些誤差或正或負,或大或小.應該如何估計a的值呢?直觀的想法是a 的值應該最接近這些測量數據,數學描述就是: a的值應該使所有的誤差平方和 達到最小. 當時,達到最小.即用測量數據的平均值作為a的估計值.這里估計參數a所採用的就是最小二乘法的思想.用數理統計知識可以證明這樣的估計也是最佳的.
最小二乘法的優點是:有效利用了全部測量數據,使誤差平方和達到最小,防止了某一極端誤差對決定參數估計值取得支配性地位.在計算上只需對參數求偏導數求解線性方程組即可. 5.回歸直線與回歸方程當兩個變數之間具有線性相關關系時,散點圖中的點大致分布在一條直線附近,這條直線叫做回歸直線,這條直線的方程叫做回歸方程.數學模型:假設因變數y主要受自變數x的影響,它們之間的數量關系為,其中x是非隨機變數,是未知的常數.是隨機誤差項,它反映了未列入方程的其它各種因素對y的影響.從而y是隨機變數,它可以用由x的值完全確定的部分和隨機誤差部分來解釋.當由觀測數據估計出和b時,得到直線回歸方程為.將觀測數據代入中,得,或,其中為n次觀測的誤差.求的估計值,使「從整體上看各點與直線的距離最小」.應用最小二乘思想,就是求使誤差平方和達到最小的的值.可以用配方法或求偏導數的方針求出的估計值. 6.相關系數—變數間線性關系密切程度的度量相關系數是用來衡量兩個變數之間線性關系密切程度(強與弱)的一個數量指標.只有了解構造相關系數的統計思想,才能對相關系數有較深刻的理解.下面對相關統計量的意義及構造相關系數的統計思想做一簡述.設回歸方程為,與對應的回歸值為.稱為偏差,稱為偏差方和.的值越小,反映各偏差普遍較小,數據點整體上比較接近回歸直線,說明變數間線性關系比較密切.但是一個絕對量,需要進行調整.為方便引入以下記號:,,,.衡量數據的波動大小,衡量數據的波動大小.,反映主要由的變化引起的間的波動,反映除線性關系之外的各種隨機因素引起的間的波動.可以證明:.令,顯然,而且越接近1,就越接近0,說明x和y之間的線性關系越密切.當時,x和y正相關,當時,x和y負相關.但由於只與有關,所以不能反映相關的方向.因此定義相關系數如下: ,一般越接近1,x和y之間的線性關系越密切.需要注意的兩點是:(1)相關系數只衡量變數間線性關系的密切程度,即使變數間具有確定的非線性函數關系,也可能非常接近0.(2)當n很小時,即使非常接近1,也不表明變數間的線性關系強.例如,無論x和y之間是何種關系,當n=2時,總有.二、教學建議1.「相關關系」的有關概念及定性描述相關關系的概念是描述性的,不必追求形式化上的嚴格.建議採用案例教學法.對比函數關系,重點突出相關關系的兩個本質特徵:關聯性和不確定性.關聯性是指當一個變數變化時,伴隨另一個變數有一定的變化趨勢;不確定性是指當一個變數取定值時,與之相關的變數的取值仍具有隨機性.因為有關聯性,才有研究的必要性.因為其不確定性,從少量的變數觀測值,很難估計誤差的大小,因此必須對變數作大量的觀測.但每個觀測值都有一定誤差,為了消除誤差的影響,揭示變數間的本質聯系,就必須要用統計分析方法.判斷兩個變數間是否具有相關關系,一是憑經驗及學科專業知識,二是藉助散點圖.下面是一些可供選擇的例子,教學時可先逐一分析其關聯性和不確定性,然後結合散點圖,進一步判斷相關關系的類型和方向.實例變數X和Y關聯性不確定性相關類型例1家庭收入X,消費支出Y收入高的家庭消費支出相應也較高.收入相同的家庭,消費支出未必相同.正線性相關例2人的身高X,腳的長度Y一般身材較高者,腳的尺寸也較大同樣身高的人,腳的尺寸不一定相同.正線性相關例3數學成績X,英語成績Y數學成績高者,一般英語成績也較高,反之也對.存在數學成績高(低)而英語成績低(高)的學生.正線性相關(虛假相關)例4氣溫X,熱飲銷量Y隨著氣溫的升高,熱飲的銷量相應會減少.溫度相同的日期內,熱飲的銷量也未必相同.負線性相關例5(非線性相關和不相關的例子)對0到18歲之間的未成年人來說,年齡和身高之間具有非線性的相關關系.對成年人來說,年齡和身高之間沒有相關關系(散點圖略).例6 吸煙和患肺部疾病之間不具有因果關系,但具有相關關系.我們引入兩值變數X和Y: 如果調查了700人,其中400個不吸煙者中有40人患肺部疾病(10%),300個吸煙者中有60個人患肺部疾病(20%),說明吸煙對患肺部疾病有一定的影響.但不吸煙者也可能患肺部疾病,吸煙者也可能不患肺部疾病,因此X和Y之間具有相關關系.例7 有人曾經觀察過某一國家歷年的國內生產總值與精神病患者的人數的關系,發現兩者之間存在較強的正相關.實際上國內生產總值與精神病患者的人數之間沒有內在聯系,是一種典型的虛假相關.這是因為它們都和人口總量有內在的相關關系.說明:(1)適當例舉非線性相關和不相關的例子,有助於對相關關系的全面了解,但我們研究的重點是線性相關關系,而且正相關或負相關只對線性相關有意義.(2)討論「相關關系」時,對中學生來說,不要求說明哪個變數是隨機變數,哪個變數是普通變數.(3)根據學生實際情況,可以從散點圖判斷線性關系的強弱,進行適當拓展.2.相關關系的定量描述——求回歸直線方程本小節的重點是用最小二乘法求回歸直線方程.採用探究式教學方式.在給出回歸直線和回歸直線方程的定義後,提出如下問題:如何求回歸直線方程,要求這條直線在整體上與數據點最接近?許多統計思想和方法都比較直觀,學生可能提出各種不同的方法,包括教材上列舉的方法.為了防止漫無目的,對求回歸直線的方法應提出一些基本要求:盡可能利用全部數據,體現整體偏差最小,便於數學計算,結果確定等.離這些要求越來越遠的方法,不必多加考慮.通過對有些方法逐步修正,最後引導到使用最小二乘法求回歸直線方程.方法1:逐漸移動直線,測量各點到直線的距離,使距離和最小.該方法體現了整體偏差最小的思想,缺點是難以實現,而且測量的方法很難得到確定的結果.方法2:選擇兩點畫直線,使直線兩側的點的個數基本相同.這種方法沒有利用全部數據信息,其結果會因人而異.方法3:用多條直線的斜率和截距的平均值作為回歸直線的斜率和截距.這種方法既沒有利用全部數據信息,也沒有體現整體誤差最小的思想,結果也不確定.設回歸方程為,,是第i個觀測值的偏差,是第i個觀測點到回歸直線的距離.設是回歸直線的傾斜角,則.方法4:距離和最小.求a,b使達到最小.這是方法1的數學嚴格化.方法5:總的偏差和最小.求a,b使達到最小.方法4和方法5是等價的.方法5利用了全部數據,體現整體偏差最小的思想,結果是唯一確定的.唯一的缺點是不便數學計算.方法6偏差平方和最小.求a,b使達到最小.該方法克服了方法5的缺點.這種方法稱為最小二乘法.說明:(1)我們的目的是通過探究找到一個求回歸方程的「較優」的方法,這里所說的「較優」也是基於直觀的思想,在學生現有的知識水平下,無法嚴格證明.如果對用上面的方法得到直線的「優劣」進行評判,我認為是理解上的偏差,況且也做不到.(2)應用最小二乘法求回歸方程是一個純數學的問題,用配方法顯得繁瑣,用求偏導數的方法超出了學生的能力要求.對此不做要求,直接給出a,b的公式,不影響對統計方法的理解.(3)也可以按下面的過程展開教學.①提供實際問題情境,從測量數據出發,採用偏差平方和最小的思想(最小二乘思想)求參數的估計值.②通過類比用最小二乘法求回歸直線方程.3.回歸方程的計算回歸方程中a,b的計算公式比較復雜,要求利用計算器或計算機進行計算.為了熟悉公式的構成及相關量的計算過程,建議使用Excel軟體中的公式進行計算.以年齡和脂肪含量的關系為例.如下表所示:在相應的單元格內輸入數據,第15行為合計.先計算,,在單元格C1,D1,E1中輸入相應的公式.通過公式復制然後求和得到:(C15)(D15)(E15),相關系數,,回歸方程為.作為拓展還可以計算與對應的回歸值,與實際觀測值進行比較,了解偏差的大小.由相關系數的大小判斷線性關系的強弱. ABCDEFG1239.5628.50445.24315.4212.81-3.3122717.8443.94199.3289.4915.112.6933921.282.2654.9636.7222.03-0.8344125.949.989.621.8523.192.7154527.59.42-0.740.0625.492.0164926.30.86-0.890.9227.80-1.5075028.23.721.810.8828.37-0.1785329.624.3011.545.4830.10-0.5095430.235.1617.438.6430.68-0.48105631.462.8832.8317.1431.83-0.43115730.879.7431.6112.5332.41-1.61125833.598.6061.9638.9432.990.51136035.2142.3294.7263.0434.141.06146134.6167.1894.9153.8834.72-0.1215673381.71828.931054.34644.99———— 4.回歸方程的意義及應用回歸直線方程作為變數x和y之間線性關系的代表,它近似描述了x和y之間的數量關系.利用回歸方程,當已知x的值時,可以推斷y的取值.回歸方程中b的意義為:當自變數x改變一個單位時,因變數y的平均改變數.為當時y的估計值,也可以理解為當時y的可能取值的平均值.在教學中下面的實例可供選擇.例1主要解釋系數b和回歸值的意義;例2說明回歸方程用於預測時的作用;例3介紹「回歸」一詞的由來的背景知識,同時也說明了回歸方程在揭示了變數間的依存規律時的作用.例1 年齡和脂肪含量之間的回歸方程為.(1)解釋b(0.5765)的意義;(2)當x=37時,計算相應的值並解釋其意義.解 (1)回歸直線方程中b是直線的斜率,b>0表示隨年齡的增長,人體脂肪含量呈現增長的趨勢,b=0.5765說明年齡每增加1歲,身體脂肪含量平均增加0.5765%.(2)當x=37時,%,20.9%是37歲的人脂肪含量的一個估計值,可以理解為眾多37歲人脂肪含量的平均值.說明:年齡的取值范圍為23—61歲,一般在這個年齡范圍內估計脂肪含量時誤差相對較小,如果估計80歲人的脂肪含量,誤差會很大,結果不可靠.例2 某博物館發現文物被盜,公安刑偵人員經過分析,推測案犯的身高在175㎝左右.刑偵人員是如何推斷的呢?原來在現場發現了案犯的腳印,測量腳印的長度為25.5㎝,已知成年人的腳印長x和身高y之間存在線性相關關系,回歸方程為.因此可以從腳印的長度,推斷其大致身高,為破案提供重要線索.例3 英國遺傳學家高爾頓(Francis Galton,1822-1911年)在子女與父母相像程度遺傳學研究方面,取得了重要進展.高爾頓的學生卡爾·皮爾遜(Karl Pearson,1857-1936年)在繼續這一遺傳學研究的過程中,測量了1078個父親及其成年兒子的身高.用x表示父親的身高,y表示兒子的身高(單位為英寸).求得回歸方程為(如圖所示),發現了一個重要的規律.主要計算結果及描述見下表: 計算結果關系描述子代的平均身高大於父代的平均身高,大約高1英寸.父親的身高與兒子的身高線性正相關,相關關系較弱.一般高個子的父親兒子身材也較高,而矮個子父親的兒子身材也較矮.時,時,較矮父親的兒子們的平均身高比父親要高.較高父親的兒子們的平均身高比父親要矮.有回歸到一般高度的趨勢.高爾頓和皮爾遜把這種現象稱為「回歸效應」,現在人們把由一個變數的變化去推斷另一個變數變化的方法統稱為回歸分析.

『叄』 數據挖掘分類分析變數重要性是什麼意思

這個簡單的理解就是:你分析每個變數(就是特徵)對分類結果的影響,每個變數的影響程度(貢獻程度)是不同的,所以你可以對每個變數進行打分,對所有的變數進行一個排序。在後續的工作中,可以根據排序的結果進行變數的選擇,就是特徵選擇,等等。
卡方檢驗就是一種常用的方法,你可以試試。

『肆』 多變數分析如何對變數的重要性(相關程度)進行排序,這些變數不完全獨立

在實驗上,可以通過控制變數法來實現。多變數分析(multivariable analysis)是指多個變數統計分析技術在社會研究中的運用。又稱多元分析。

回歸分析

當多個變數x1,x2,…,xm(稱為回歸變數或自變數、獨立變數)同時影響某個指標 y(稱為因變數或依賴變數)時,可進行回歸分析,回歸分析的第一個任務就是求回歸變數對指標 y的影響的統計規律性(也稱回歸關系)。

第二個任務是尋找眾多的回歸變數中哪一些能對指標 y產生影響(常稱為因素分析或變數的篩選);第三個任務(也稱相關分析)是在固定(或稱消除)其他變數的影響後,考察每一個回歸變數對指標 y的相關程度(稱為偏相關系數)。上述三個任務常是相互聯系,可以同時完成。

『伍』 回歸分析能否計算自變數的重要性

回歸分析,建立直線回歸方程一般用於預測的,得不出相對重要性的結果。相對重要性就是數據的相關性,還是用其他統計學的方法。

『陸』 除了主成分分析法還有什麼確定多變數權重的方法

權重計算的確定方法在綜合評價中重中之重,不同的方法對應的計算原理並不相同。在實際分析過程中,應結合數據特徵及專業知識選擇適合的權重計算。

此類方法適合於多種領域。比如想構建一個員工績效評價體系,指標包括工作態度、學習能力、工作能力、團隊協作。通過專家打分計算權重,得到每個指標的權重,並代入員工數據,即可得到每個員工的綜合得分情況。


比如收集各地區的某年份的經濟指標數據,包括產品銷售率(X1)、資金利潤率(X2)、成本費用利潤率(X3)、勞動生產率(X4)、流動資金周轉次數(X5),用熵值法計算出各指標權重,再對各地區經濟效益進行比較。


比如研究利用某省醫院2011年共計5個科室的數據指標(共計6個指標數據)進行CRITIC權重計算,最終可得到出院人數、入出院診斷符合率、治療有效率、平均床位使用率、病床周轉次數、出院者平均住院日這6個指標的權重。如果希望針對各個科室進行計算綜合得分,那麼可以直接將權重與自身的數據進行相乘累加即可,分值越高代表該科室評價越高。


比如對30個地區的經濟發展情況的8項指標作主成分分析,主成分分析法可以將8個指標濃縮為幾個綜合指標(主成分),用這些指標(主成分)反映原來指標的信息,同時利用方差解釋率得出各個主成分的權重。

『柒』 如何分析解釋變數的相對重要性

應該使用非標准化系數。
原因:
1、標准化回歸系數測度的是對被解釋變數的重要性,只有標准化了,才能進行重要性對比。故,比較重要性時用標准化系數,做實際的預測,應該用非標准化系數。
2、需要注意的是,標准化系數比較的主要性是一種同量綱化後的相對重要性。相對重要性,與某一特定的情況下,自變數間的離散程度有關。
故,標准化回歸系數的比較結果只是適用於某一特定環境的,而不是絕對正確的,它可能因時因地而變化。舉例來說,從某一次數據中得出,在影響人格形成的因素中,環境因素的Beta值比遺傳因素的Beta值大,這只能說明數據採集當時當地的情況,而不能加以任何不恰當的推論,不能絕對地不加任何限定地說,環境因素的影響就是比遺傳因素大。事實上,如果未來環境因素的波動程度變小,很可能遺傳因素就顯得更為重要。數據的情況千差萬別,變數的相對重要性也可能完全不同但都符合當時的實際情況。

『捌』 如何計算隨機森林中的 變數重要性

首先對於每棵樹,每次利用Bootstrap方法抽取樣本進行訓練,但是有1/3的數據沒有抽取到,這樣的數據成為袋外數據OOB(out of bag),將OOB帶入決策樹中,計算出誤差error1,對OOB中所有樣本的特徵X對應的值進行雜訊干擾,即隨機改變特徵的值,再將數據帶入決策樹中,計算出誤差error2。對於N棵樹,計算出變數X的重要性為error2-error1的均值

閱讀全文

與變數重要性分析演算法相關的資料

熱點內容
噴油螺桿製冷壓縮機 瀏覽:578
python員工信息登記表 瀏覽:376
高中美術pdf 瀏覽:160
java實現排列 瀏覽:512
javavector的用法 瀏覽:981
osi實現加密的三層 瀏覽:231
大眾寶來原廠中控如何安裝app 瀏覽:915
linux內核根文件系統 瀏覽:242
3d的命令面板不見了 瀏覽:525
武漢理工大學伺服器ip地址 瀏覽:148
亞馬遜雲伺服器登錄 瀏覽:524
安卓手機如何進行文件處理 瀏覽:70
mysql執行系統命令 瀏覽:929
php支持curlhttps 瀏覽:142
新預演算法責任 瀏覽:443
伺服器如何處理5萬人同時在線 瀏覽:250
哈夫曼編碼數據壓縮 瀏覽:425
鎖定伺服器是什麼意思 瀏覽:383
場景檢測演算法 瀏覽:616
解壓手機軟體觸屏 瀏覽:349