Ⅰ apriori演算法
Apriori演算法是第一個關聯規則挖掘演算法,也是最經典的演算法。它利用逐層搜索的迭代方法找出資料庫中項集的關系,以形成規則,其過程由連接(類矩陣運算)與剪枝(去掉那些沒必要的中間結果)組成。
Ⅱ 關聯演算法—Apriori
Apriori演算法是一種數據挖掘技術,主要用於發現數據集中的關聯規則。以下是關於Apriori演算法的詳細解答:
一、基本概念
事務型數據:關聯分析的數據通常是事務型數據,每條記錄表示一個事務,包含多個項。項集是指包含一個或多個項的集合,例如K項集即包含K個項的集合。
支持度:項集在事務型數據中出現的頻率,用於衡量項集的普遍性。
置信度:在已知第一項為項A的條件下,第二項為項B的概率,用於衡量項集預測准確度。
提升度:表示在已知X的情況下,同時包含Y的概率與Y總體發生的概率之比,用於評估規則的有效性。
二、演算法原理與性質
核心原理:利用頻繁項集的先驗性質,即頻繁項集的所有子集必須也是頻繁的。通過不斷生成候選項集並篩選出頻繁項集,直至無法生成滿足支持度的更高項集。
性質:通過剪枝候選集,有效減少了數據集的頻繁項集搜索空間,提高了演算法效率。
三、演算法步驟
四、演算法優點與局限
五、基於R語言的實現
在R語言中,可以使用arules拓展包實現Apriori演算法。通過載入包、讀取數據集、創建稀疏矩陣表示商品交易記錄、調用apriori函數執行關聯規則挖掘、根據支持度和置信度閾值篩選規則,並使用arulesViz包中的函數實現關聯規則的可視化。