1. MLK | 非監督學習最強攻略
非監督學習最強攻略如下:
核心演算法:
- KMean聚類法:通過迭代優化數據的分組,以最小化樣本與簇中心的距離平方和。優點在於處理大數據集效率較高,但K值選擇需人工干預,且易受初始值和異常值影響。優化方法包括數據標准化和選擇合適的K值。
- KMean++:改進了KMean的初始值選取策略,提高了演算法的穩定性和效率。
- ISODATA演算法:適應K值不確定的情況,在KMean基礎上增加了數據組織和參數調整步驟,提高了演算法的靈活性和適應性。
- 高斯混合模型:假設數據符合正態分布,通過EM演算法實現,既可用於聚類又可估計概率密度,提供了更豐富的數據表示和分析能力。
其他重要演算法:
- SOM:模仿大腦神經系統,通過競爭學習和空間位置調整,提供了一種強大的數據可視化和聚類工具。無需預設K值,但可能在雜訊影響和准確性上有所犧牲。
評估聚類效果的指標:
- 輪廓系數:衡量聚類效果的緊密性和分離性,值越大表示聚類效果越好。
- CalinskiHarabaz指數:通過計算類內離散度和類間離散度的比值來評估聚類效果,值越大表示聚類效果越好。
- 互信息分數:衡量聚類結果與真實標簽之間的相關性,適用於有真實標簽的情況下的聚類效果評估。
Python實現:
- Scikit learn庫中提供了多種聚類演算法的實現,如KMeans、分層聚類、tSNE、DBSCAN和MiniBatchKMeans等,可以通過編寫Python代碼來應用這些演算法進行數據處理和分析。
總結:非監督學習是一種強大的數據分析工具,通過探索數據內在結構來發現數據的隱藏模式和特徵。掌握核心演算法和評估指標是非監督學習的關鍵,同時Python實現也是將理論應用於實踐的重要途徑。
2. 輪廓系數怎麼算
輪廓系數的計算步驟如下:
計算樣本i到同一類中其他樣本的平均距離ai。ai越小,說明樣本i與同類中其他樣本的距離越近,即越相似。我們將ai稱為樣本i的類別內不相似度。
計算樣本i到其他類別的所有樣本的平均距離bi,稱為樣本i與其他類之間的不相似度。bi越大,說明樣本i與其他類之間距離越遠,即越不相似。
根據樣本i的簇內不相似度ai和簇間不相似度bi ,定義樣本i的輪廓系數為:

了解清楚原理以後,我們來看下在Python中怎麼實現,這個系數在Sklearn庫中是有現成的包可以供我們使用的:
silhouette_score:是獲取模型總體的輪廓系數
silhouette_samples:是獲取每個樣本的輪廓系數