A. java代碼怎麼實現計算圖像二值連通區域的質心
一:幾何距(Geometric Moments)知識與質心尋找原理
1. Image Moments是圖像處理中非常有用的演算法,可以用來計算區域圖像的質心,方向等幾何特性,同時Mpq的高階具有旋轉不變性,可以用來實現圖像比較分類,正是因為Moments有這些特性,很多手繪油畫效果也會基於該演算法來模擬實現。它的數學表達為:
它的低階M00,M01, M10可以用來計算質心,中心化以後M11,M02,M20可以用來計算區域的方向/角度
2. 什麼是質心
就是通過該點,區域達到一種質量上的平衡狀態,可能物理學上講的比較多,簡單點的說就是規則幾何物體的中心,不規則的可以通過掛繩子的方法來尋找。
二:演算法流程
1. 輸入圖像轉換為二值圖像
2. 通過連通組件標記演算法找到所有的連通區域,並分別標記
3. 對每個連通區域運用計算幾何距演算法得到質心
4. 用不同顏色繪制連通區域與質心,輸出處理後圖像
三:演算法效果
左邊為原圖, 右邊藍色為連通組件標記演算法處理以後結果,白色點為質心
四:關鍵代碼解析
1. 計算幾何距演算法代碼
doublem00 = moments(pixels, width, height, 0, 0);
doublexCr = moments(pixels, width, height, 1, 0) / m00;// row
doubleyCr = moments(pixels, width, height, 0, 1) / m00;// column
return new double[]{xCr, yCr};
B. K-Means聚類演算法
所謂聚類演算法是指將一堆沒有標簽的數據自動劃分成幾類的方法,屬於無監督學習方法,這個方法要保證同一類的數據有相似的特徵,如下圖所示:
根據樣本之間的距離或者說是相似性(親疏性),把越相似、差異越小的樣本聚成一類(簇),最後形成多個簇,使同一個簇內部的樣本相似度高,不同簇之間差異性高。
相關概念:
K值 :要得到的簇的個數
質心 :每個簇的均值向量,即向量各維取平均即可
距離量度 :常用歐幾里得距離和餘弦相似度(先標准化)
演算法流程:
1、首先確定一個k值,即我們希望將數據集經過聚類得到k個集合。
2、從數據集中隨機選擇k個數據點作為質心。
3、對數據集中每一個點,計算其與每一個質心的距離(如歐式距離),離哪個質心近,就劃分到那個質心所屬的集合。
4、把所有數據歸好集合後,一共有k個集合。然後重新計算每個集合的質心。
5、如果新計算出來的質心和原來的質心之間的距離小於某一個設置的閾值(表示重新計算的質心的位置變化不大,趨於穩定,或者說收斂),我們可以認為聚類已經達到期望的結果,演算法終止。
6、如果新質心和原質心距離變化很大,需要迭代3~5步驟。
K-Means採用的啟發式方式很簡單,用下面一組圖就可以形象的描述:
上圖a表達了初始的數據集,假設k=2。在圖b中,我們隨機選擇了兩個k類所對應的類別質心,即圖中的紅色質心和藍色質心,然後分別求樣本中所有點到這兩個質心的距離,並標記每個樣本的類別為和該樣本距離最小的質心的類別,如圖c所示,經過計算樣本和紅色質心和藍色質心的距離,我們得到了所有樣本點的第一輪迭代後的類別。此時我們對我們當前標記為紅色和藍色的點分別求其新的質心,如圖d所示,新的紅色質心和藍色質心的位置已經發生了變動。圖e和圖f重復了我們在圖c和圖d的過程,即將所有點的類別標記為距離最近的質心的類別並求新的質心。最終我們得到的兩個類別如圖f。
坐標系中有六個點:
1、我們分兩組,令K等於2,我們隨機選擇兩個點:P1和P2
2、通過勾股定理計算剩餘點分別到這兩個點的距離:
3、第一次分組後結果:
組A:P1
組B:P2、P3、P4、P5、P6
4、分別計算A組和B組的質心:
A組質心還是P1=(0,0)
B組新的質心坐標為:P哥=((1+3+8+9+10)/5,(2+1+8+10+7)/5)=(6.2,5.6)
5、再次計算每個點到質心的距離:
6、第二次分組結果:
組A:P1、P2、P3
組B:P4、P5、P6
7、再次計算質心:
P哥1=(1.33,1)
P哥2=(9,8.33)
8、再次計算每個點到質心的距離:
9、第三次分組結果:
組A:P1、P2、P3
組B:P4、P5、P6
可以發現,第三次分組結果和第二次分組結果一致,說明已經收斂,聚類結束。
優點:
1、原理比較簡單,實現也是很容易,收斂速度快。
2、當結果簇是密集的,而簇與簇之間區別明顯時, 它的效果較好。
3、主要需要調參的參數僅僅是簇數k。
缺點:
1、K值需要預先給定,很多情況下K值的估計是非常困難的。
2、K-Means演算法對初始選取的質心點是敏感的,不同的隨機種子點得到的聚類結果完全不同 ,對結果影響很大。
3、對噪音和異常點比較的敏感。用來檢測異常值。
4、採用迭代方法, 可能只能得到局部的最優解,而無法得到全局的最優解 。
1、K值怎麼定?
答:分幾類主要取決於個人的經驗與感覺,通常的做法是多嘗試幾個K值,看分成幾類的結果更好解釋,更符合分析目的等。或者可以把各種K值算出的 E 做比較,取最小的 E 的K值。
2、初始的K個質心怎麼選?
答:最常用的方法是隨機選,初始質心的選取對最終聚類結果有影響,因此演算法一定要多執行幾次,哪個結果更reasonable,就用哪個結果。 當然也有一些優化的方法,第一種是選擇彼此距離最遠的點,具體來說就是先選第一個點,然後選離第一個點最遠的當第二個點,然後選第三個點,第三個點到第一、第二兩點的距離之和最小,以此類推。第二種是先根據其他聚類演算法(如層次聚類)得到聚類結果,從結果中每個分類選一個點。
3、關於離群值?
答:離群值就是遠離整體的,非常異常、非常特殊的數據點,在聚類之前應該將這些「極大」「極小」之類的離群數據都去掉,否則會對於聚類的結果有影響。但是,離群值往往自身就很有分析的價值,可以把離群值單獨作為一類來分析。
4、單位要一致!
答:比如X的單位是米,Y也是米,那麼距離算出來的單位還是米,是有意義的。但是如果X是米,Y是噸,用距離公式計算就會出現「米的平方」加上「噸的平方」再開平方,最後算出的東西沒有數學意義,這就有問題了。
5、標准化
答:如果數據中X整體都比較小,比如都是1到10之間的數,Y很大,比如都是1000以上的數,那麼,在計算距離的時候Y起到的作用就比X大很多,X對於距離的影響幾乎可以忽略,這也有問題。因此,如果K-Means聚類中選擇歐幾里德距離計算距離,數據集又出現了上面所述的情況,就一定要進行數據的標准化(normalization),即將數據按比例縮放,使之落入一個小的特定區間。
參考文章: 聚類、K-Means、例子、細節
C. 目前行業內有哪些比較高精度的室內定位演算法和實現
目前室內定位常用的較高精度的定位方法,從原理上主要分為七種:鄰近探測法、質心定位法、多邊定位法、三角定位法、極點法、指紋定位法和航位推演算法。
一、鄰近探測法
通過一些有范圍限制的物理信號的接收,從而判斷移動設備是否出現在某一個發射點附近。該方法雖然只能提供大概的定位信息,但其布設成本低、易於搭建,適合於一些對定位精度要求不高的應用,例如自動識別系統用於公司的員工簽到。
二、質心定位法
根據移動設備可接收信號范圍內所有已知的信標(beacon)位置,計算其質心坐標作為移動設備的坐標。該方法易於理解,計算量小,定位精度取決於信標的布設密度。
三、多邊定位法
通過測量待測目標到已知參考點之間的距離,從而確定待測目標的位置。精度高、應用廣。
四、三角定位法
基於無線信號的三角測量定位演算法是室內定位演算法中非常常見的一種,三角測量定位演算法類似GPS衛星定位。實際定位過程中使用的是RSSI信號值衰減模型。原理是在無線信號強度在空間中傳播隨著距離衰減,而無線信號強度(RSSI值)對於定位標簽上的接收器來說是可測的,那麼依據測試到的信號強度,再根據信號衰減模型就可以反推出距離了。獲取待測目標相對2個已知參考點的角度後結合兩參考點間的距離信息可以確定唯一的三角形,即可確定待測目標的位置。基於三角測量定位演算法的定位方案是被動式藍牙定位方案和主被動一體式藍牙定位方案。
五、極點法
通過測量相對某一已知參考點的距離和角度從而確定待測點的位置。該方法僅需已知一個參考點的位置坐標,因此使用非常方便,已經在大地測量中得到廣泛應用。
六、指紋定位法
在定位空間中建立指紋資料庫,通過將實際信息與資料庫中的參數進行對比來實現定位。指紋定位的優勢是幾乎不需要參考測量點,定位精度相對較高;但缺點是前期離線建立指紋庫的工作量巨大,同時很難自適應於環境變化較大的場景。
七、航位推演算法
是在已知上一位置的基礎上,通過計算或已知的運動速度和時間計算得到當前的位置。數據穩定,無依賴,但該方法存在累積誤差,定位精度隨著時間增加而惡化。