CRM系統:聚類模型在客戶關系管理中的應用以及對特征提取的探討
聚類模型在客戶關系管理中的應用
以及對特征提取的探討
譚元戎, 孫劍平
(南京理工大學經濟管理學院, 南京210094)
摘要:隨著數據挖掘技術的發展和信息的增長,企業和公司開始運用數據挖掘技術來分析和處理他們在商業活
動中積累的關于客戶的大量數據,以從中發現重要的規律,來指導公司的營銷策略。客戶聚類就是一個重要的問
題。它根據客戶的個人屬性和行為屬性,把相似的客戶群聚集起來。公司可以根據不同類型的客戶作出不同的營
銷策略。本文討論了有關聚類模型的兩個問題。第一,介紹了兩種經典的聚類算法,以及他們的復雜度。并討論它
們在客戶關系管理中的應用和有效性;第二,討論了特征提取在聚類過程中的必要性,并給出了如何在聚類模型中
進行特征提取的有效算法。
關鍵詞:聚類;客戶關系管理;數據挖掘;特征提取;非監督學習
中圖分類號: F22419 文獻標志碼:A
1 引言
隨著數據挖掘技術的成熟,以及客戶的個人信
息和行為數據的積累,企業和公司開始重視運用數
據挖掘技術來分析這些數據,希望從中得到有用的
知識和規律,來指導公司的營銷策略和發展計劃。
因此,數據挖掘技術在客戶關系管理[1 ] 領域中找到
了很重要的應用。
例如,銀行有一個數據庫來保存客戶數據。包
括客戶的個人信息,如性別,年齡,收入水平等,以及
客戶的行為數據,如客戶在銀行開的賬戶類型,每月
的存儲活動,信用卡客戶的刷卡紀錄等。移動公司
可以掌握用戶的個人信息,以及行為數據:每月通話
的頻率,時間長短,通話類型(本地,長途,漫游) 等。
綜合用戶的個人信息和行為數據,公司可以分析客
戶的消費特性。
基于對客戶的分析,對客戶群體進行聚類,是一
個重要的問題。聚類就是對客戶群體的一個劃
分———把相似的客戶歸為一類,把不相似的客戶劃
分到不同的類中。比如移動客戶中,如果每月話費
在1 000 元以上,有很多長途或者漫游的呼叫,這類
客戶通常是經常出差,公務繁忙的高額漫游客戶群;
如果每月話費在100 元內,短信數量很大而通話比
重較小的,這類客戶往往是工作地點比較固定,并且
比較經濟型消費的低端客戶群;如果用GPRS 上網
量大消費額高,這類客戶就是GPRS 大客戶群。如
果企業能夠對客戶進行有效的聚類,識別出客戶子
群體,就能夠根據每種子群體,總結出他們有代表性
的屬性,并針對他們的消費行為,設計營銷策略。對
移動公司而言,可以針對不同客戶群,設計不同的優
惠移動套餐,以吸引相應的消費人群。
聚類(clustering) 算法和分類(classification)
算法的一個重要的區別是,聚類是一種非監督的學
習(unsupervised learning) , 而分類是一種有監督
的學習( supervised learning)1 在分類問題中,數據
除了屬性之外,還有類屬性,標示數據屬于哪一類。
分類算法就是根據這些訓練數據來建立一個分類模
型,模型的參數調整到使得模型可以最好的區分訓
練數據。而聚類問題只有數據的屬性值,沒有類屬
性。并且用戶事先不知道有幾個子類。聚類算法是
通過數據屬性的分布而找出相對密集的點,作為一
個子類,相對分散的點作為其他的子類。
聚類模型為分析客戶數據提供了一種有力的工
具。在實際應用中,客戶數據通常只有屬性,沒有類
屬性。或者類別通常由客戶根據主題而定義,并人
為地給每個數據點賦上類屬性值。因此,給訓練數
據集人工的賦上類屬性是很耗時,并且很主觀的。
而聚類算法就沒有這樣的要求,因此聚類算法很適
合用于分析無類屬性值的數據。
但是,運用聚類算法也有一些難點。①有些算
法需要用戶預先指定子類的個數。可是用戶往往面
對著大量數據,很難準確地估計出這些數據可以自
然的分割成幾個子類。而且,聚類的結果也會因為
用戶指定子類的個數不同而不同。②數據里有很多
屬性。可是有些對于聚類并不相關,比如說,用戶的
家庭住址。怎樣有效的選擇相關的屬性進行聚類,
需要在聚類之前對數據進行分析,進行特征提取。
③數據里有連續的屬性, 例如工資,年齡;也有離散
的屬性,例如性別,職位。對連續屬性計算距離很自
然,但是對于離散的屬性,很難定義不同屬性值之間
的距離。④不同的連續屬性,他們的取值有不同的
范圍。比如說,工資通常在(1 000 ,10 000) 間取值,
而年齡通常在(18 ,80) 間取值。如果兩個數據點,他
們的工資差別是2 000 ,而年齡差別是5 , 如果把這
兩個距離簡單的相加,那么在工資屬性上的距離會
大大超過年齡的差距,從而削弱年齡這個屬性的影
響力。因此,在聚類之前,要先對各屬性進行歸一化
(normalization) 。一種辦法是把每個連續的屬性值
都歸一化到一個統一的區間,比如[ 0 ,1 ]之間。
作者認為,在上面提到的對聚類的數據進行特
征提取是一個很重要、值得研究的問題。在數據挖
掘或者機器學習的領域中,絕大部分的對特征提取
問題進行研究的工作都是在有監督學習的框架下,
比如分類算法中, 決策樹C415[2 ] 用Information
Gain 來進行特征提取。然而,聚類問題屬于非監督
學習。在這種情況下進行特征提取,難度會大大增
加,由于缺乏類屬性的信息,因此不能給每個單獨的
特征給出一個有效性的衡量。
盡管使用聚類算法有這些難度,它還是給用戶
分析公司的客戶數據提供很好的模型。公司可以根
據客戶在屬性上的差別,把他們分成不同的子類。
然后分析每個子類的特點。本文將討論兩種重要的
聚類算法,然后討論如何將它們運用到客戶關系管
理的實例中。再給出在聚類問題中(非監督學習) 進
行特征提取的算法。本文將按照以下的結構組織。
第二節討論兩種重要的聚類算法,他們的優缺點,以
及他們的時間復雜度。這些算法將作為分析客戶子
群體的重要模型。第三節討論將聚類算法運用到客
戶聚類問題上的步驟,和每一步應注意的問題。第
四節,介紹聚類問題中的特征提取算法。第五節用
一些實驗來驗證聚類算法和特征提取算法。第六節
給出結論并結束全文。
2 聚類模型
聚類算法根據不同的方法,可以分成以下幾種
類型: 基于劃分的,例如K - Means [3 ] , K - Me2
doids [4 ] ; 基于層次的,例如BIRCH [5 ] , CURE [6 ] ;
基于密度的, 例如DBSCAN[7 ] , OPTICS [8 ]1 在這
一節我們將詳細介紹K - Means 算法,并討論它的
一個改進版本,并分析它們的復雜度。
K- Means 屬于基于劃分的聚類算法。其基本
思路是,選擇K 個數據點作為子類的中心,然后根
據所定義的距離的衡量,把其余的點都劃分到不同
的子類。K2Means 是聚類模型中最有代表性的一
個算法。它的思路是: ①隨機的挑選K 個數據點作
為初始的中心; ②把每一個數據點歸到離它最近的
中心; ③對每一個子類,計算它們的屬性值的平均
值,把算出的平均值作為新的中心; ④重復步驟②,
直到每一個數據點的歸類都不再變化。K2Means
的好處在于它的時間復雜度比較低,是O ( t kn) , t
是算法循環的次數,k 是子類的個數,n 是數據點的
個數。通常t , k < < n , 因此K - Means 可以看成
是數據點個數的線性復雜度。但是K2Means 算法
的最終結果常常因為初始化中心的不同而不同。K
- Means 實際上是一個EM ( Expectation2Maximi2
zation) [ 9 ] 算法,所以它的結果是一個局部最優解,而
不能保證全局最優解。另一個問題是每一步在計算
每個子類的平均值。對于離散值,如何定義平均值
是一個問題。而且K2Means 算法對于容易受到數
據中的噪音影響總體的聚類效果, 比如說,有一個
數據點,它的某一個屬性值的值異常的大,用這個屬
性值計算出來的平均值會影響整個數據的分布,從
而影響聚類的結果。
K2Medoids 是對K2Means 的一個改進。算法
的思路基本相同,但是在每一步不用子類中數據點
的平均值作為子類的中心,而是選擇子類中最中心
的數據點作為這個子類的中心。K2Medoids 的算法
如下: ①隨機的選擇K 個數據點作為初始的中心;
②選一個非中心的數據點A 去代替一個中心B ,計
算這個代替會不會在帶來更好的聚類效果。如果
是,用A 代替B 作為中心; ③重復步驟②,直到子類
的中心不再變化。K2Medoids 比K2Means 能夠更
好的處理數據中的噪音,因為用一個實際的數據點
作為子類的中心,比用一個子類的平均值作中心,會
更少的受數據中的噪音影響。但是K - Medoids 時
間復雜度比K- Means 高,是O( k ( n - k) 2 ) , n 是數
據點的個數,k 是子類的個數。因此對于小的數據
集, K2Medoids 效果很不錯,但是對于大的數據集,
效率卻不夠高了。
強力推薦:
天柏客戶關系管理系統
天柏客戶關系管理系統(CRM)是一款集專業性、實用性、易用性為一體的純B/S架構的CRM系統,它基于以客戶為中心的協同管理思想和營銷理念,圍繞客戶生命周期的整個過程,針對不同價值的客戶實施以客戶滿意為目標的營銷策略,通過企業級協同,有效的“發現、保持和留住客戶”,從而達到留住客戶、提高銷售,實現企業利潤最大化的目的。通過對客戶進行7P的深入分析,即客戶概況分析(Profiling)、客戶忠誠度分析(Persistency)、客戶利潤分析(Profitability)、客戶性能分析(Performance)、客戶未來分析(Prospecting)、客戶產品分析(Product)、客戶促銷分析(Promotion)以及改善與管理企業銷售、營銷、客戶服務和支持等與客戶關系有關的業務流程并提高各個環節的自動化程度,從而幫助企業達到縮短銷售周期、降低銷售成本、擴大銷售量、增加收入與盈利、搶占更多市場份額、尋求新的市場機會和銷售渠道,最終從根本上提升企業的核心競爭力,使得企業在當前激烈的競爭環境中立于不敗之地。
關鍵詞:CRM,CRM系統,CRM軟件,客戶關系管理,客戶管理軟件,客戶管理系統,客戶關系管理軟件,客戶關系管理系統