CRM系統:CRM 中用Apriori 算法評估客戶興趣度
CRM 中用Apriori 算法評估客戶興趣度
王荇李慧
( 常州工學院計算機信息工程學院" 江蘇常州213002)
[摘要] Apriori 算法作為一種典型的關聯規則算法" 將其應用在CRM 中" 對于促進CRM 進一步向智能化發展" 提升CRM
價值起到非常重要的作用! 文章首先介紹Apriori 算法的基本原則* 方法" 然后介紹興趣關聯規則的概念與實現方法" 最后對
用Apriori 算法評估客戶興趣度進行了探討!
[關鍵詞] Apriori 算法+ 關聯規則+ 頻繁項集+ 支持度
1 引言
CRM(客戶關系管理)是一種以客戶為中心的經營策略! 它以
信息技術為手段" 將客戶數據作為基礎" 通過數據分析技術加強
對客戶的了解" 并對CRM 流程進行重新設計! 面對海量的數據
信息" 怎樣采用方便有效的手段從中找出有價值的信息" 數據挖
掘作為最有效的手段成為目前熱門的話題!
2 Apriori 算法概述
Apriori 算法是一種典型的關聯規則算法! Apriori 使用一種稱
作逐層搜索的迭代方法" k- 項集用于(k+1)- 項集! 首先" 找出
頻繁1- 項集的集合" 該集合記作L1! L1 用作頻繁2- 項集的集
合L2" 而L2 用于找L3" 如此下去" 直到不能找到頻繁k- 項集!
找到每個Lk 需要一次數據庫掃描!
下面介紹發現關聯規則的Apriori 算法! 我們引入若干記號"
具有k 個項的項集稱為k- 項集" 同時我們稱該項集的長度為k!
Lk 記由k- 項集構成的集合! 頻繁項集的發現方法是一種漸近的
方法! 具體如下#
!遍歷數據庫一次" 記錄每個數據項出現次數" 即計算每個
項的支持度" 收集所有支持度不低于用戶最低支持度閾值的項"
構成頻繁1- 項集的集合L1!
"兩兩連接L1 中的項集" 形成候選2- 項集的集合C2!
#再次遍歷數據庫" 計算C2 中每個候選2- 項集的支持度"
收集所有支持度不低于用戶最低支持度閾值的2- 項集構成頻繁
2- 項集的集合L2!
$通過兩兩連接L2 中的項集" 形成候選3- 項集的集合C3!
%再次遍歷數據庫" 計算C3 中每個候選3- 項集的支持度"
收集所有支持度不低于用戶最低支持度閾值的3- 項集構成頻繁
3- 項集的集合L3! 反復執行上述過程" 直到新的候選項集Ck 為
空時停止!
顯然" 該方法需要對數據庫作多次遍歷! 如果頻繁項集的長
度最長為P" 就要偏歷P 次!
算法高效的關鍵在于生成較小的候選項集" 也就是盡可能不
生成和計算那些不可能成為頻繁項集的候選項集! 為了實現這一
點" Apriori 算法使用了這樣一個基本性質" 即一個頻繁項集的任
意子集必定也是一個頻繁項集!
如何將Apriori 性質用子算法$ 為理解這一點" 必須看看如何
用Lk- 1 找Lk,其步驟由連接和剪枝組成!
2.1 連接步
為找Lk" 通過Lk- 1 與自己連接產生候選k- 項集的集合!
該候選項集的集合稱作Ck! 設l1 和l2 是Lk- 1 中的項集" 記號li
[j]表示li 的第j 項(例如" l1[k- 2]表示l1 的倒數第3 項)! 為方便計
算" 假定事務或項集中的項按字典次序排序! 執行連接
Lk- 1&Lk- 1,其中Lk- 1 的元素是可連接的" 如果他們前(k- 2)個
項相同! 即Lk- 1 的元素l1 和l2 是可連接的" 如果(l1 [1]= l2 [1])
!(l1 [2]= l2 [2])!%!(l1 [k- 2]= l2 [k- 2])!(l1 [k- 1]= l2 [k- 1])"
條件(l1 [k- 2]< l2 [k- 2])是簡單的保證不產生重復! 連接l1 和l2 產
生的結果項集是l1 [1] l1 [2] %l1 [k- 2]l1 [k- 1] l2 [k- 1]!
2.2 剪枝步
Ck 是Lk 的超集" 即是" 它的成員可以是也可以不是頻繁的"
但所有的頻繁k- 項集都包含在Ck 中! 掃描數據庫" 確定Ck 中
每個候選的計數" 從而確定Lk (即根據定義" 計數值不小于最小
支持度計數的所有候選是頻繁的" 從而屬于Lk)! 然而Ck 可能很
大" 這樣所涉及的計算量就很大! 為壓縮Ck" 可以用以下辦法使
用Apriori 性質" 任何非頻繁的(k- 1)- 項集都不可能是頻繁k- 項
集的子集! 因此" 如果一個候選k- 項集的(k- 1)- 子集不在Lk- 1
中" 則該候選也不可能是頻繁的" 從而可以由Ck 中刪除!
3 興趣關聯規則概述
關聯規則挖掘技術主要用于從用戶訪問序列數據庫的訪問序
列項中挖掘出相應規則! 在WEB 數據挖掘中" 關聯規則挖掘就
是挖掘出用戶在一個訪問期間從服務器上訪問的文件/ 頁面的聯
系" 這些頁面之間可能并不存在直接參引關系(Reference)!
站點的設計一般遵循一種分類結構" 即一個頁面的子頁面的
組織是根據子頁面的類別來安排的! 從另一方面來說" 這種結構
也反映了用戶的興趣! 設一個頁面中有K個鏈接" 一個用戶對該
頁面的這些鏈接進行訪問" 如果他首先訪問第i 個" 那么代表了
他對于該鏈接所達頁面的興趣大于其他鏈接所達頁面" 即
Interes t(i)> Interes t(i& ), i& !=i 式1
興趣關聯規則就是利用客戶興趣的相關性原則" 根據用戶已
經或正在瀏覽的網頁推測客戶下一步將瀏覽的網頁" 并提前預取
出來" 這將大大加快打開網頁的速度" 提高網站的運行效率!
通過興趣關聯規則" 我們可以發現客戶瀏覽網頁的相關性"
從而預測用戶將瀏覽的下一個頁面" 可以通過提前預取該網頁"
大大節約訪問時間!
4 Apriori 算法評估客戶興趣度
當客戶訪問站點時" 通常帶有某種喜好" 客戶的訪問路徑中
蘊藏了客戶對該站點的興趣及客戶的興趣轉移! Apriori 算法是數
據挖掘關聯規則技術中一種發現模式的典型方法! 在一個事務數
據庫中" 每一個事務都是一個’ 項’ 的集合! 一個規則由一個前
驅(左手邊)和一個后繼(右手邊)組成! 如果一個客戶購買了前驅中
的一個項" 那么它也可能購買后繼中的項! 首先構造一個頻繁項
的候選集合" 其長度為k" 只要其中一項頻繁發生" 那么就從較
小長度的頻繁項集中構造一個長度為k+1 的候選集合! 如此反復
迭代" 直到無法構造候選項集! 該規則反應了關聯.
強力推薦:
天柏客戶關系管理系統
天柏客戶關系管理系統(CRM)是一款集專業性、實用性、易用性為一體的純B/S架構的CRM系統,它基于以客戶為中心的協同管理思想和營銷理念,圍繞客戶生命周期的整個過程,針對不同價值的客戶實施以客戶滿意為目標的營銷策略,通過企業級協同,有效的“發現、保持和留住客戶”,從而達到留住客戶、提高銷售,實現企業利潤最大化的目的。通過對客戶進行7P的深入分析,即客戶概況分析(Profiling)、客戶忠誠度分析(Persistency)、客戶利潤分析(Profitability)、客戶性能分析(Performance)、客戶未來分析(Prospecting)、客戶產品分析(Product)、客戶促銷分析(Promotion)以及改善與管理企業銷售、營銷、客戶服務和支持等與客戶關系有關的業務流程并提高各個環節的自動化程度,從而幫助企業達到縮短銷售周期、降低銷售成本、擴大銷售量、增加收入與盈利、搶占更多市場份額、尋求新的市場機會和銷售渠道,最終從根本上提升企業的核心競爭力,使得企業在當前激烈的競爭環境中立于不敗之地。
關鍵詞:CRM,CRM系統,CRM軟件,客戶關系管理,客戶管理軟件,客戶管理系統,客戶關系管理軟件,客戶關系管理系統