CRM系統:聚類模型在客戶關系管理中的應用以及對特征提取的探討
3 對客戶數據進行聚類分析
把聚類算法應用到客戶數據上面,通常需要以
下幾個步驟: ①特征提取; ②歸一化; ③聚類; ④分
析聚類的結果。表1 是關于移動客戶的數據。本節
將以這個移動數據作為例子,討論進行聚類分析的
每個步驟。
311 特征提取
特征屬性提取是應用聚類算法,也是其他數據
挖掘算法之前的一個重要的步驟。因為數據都是從
現實世界中收集的,不像用于理論分析而人工生成
的數據那樣“純凈”。在收集數據時,常常會記錄很
多屬性。但是,在對數據進行聚類的時候,并不是每
一個屬性都對聚類分析有用;每一個對聚類分析有
用的屬性,他們對聚類的影響也不是同等的。比如
在表1 中的移動數據,地址對移動客戶消費群的劃
分是沒有貢獻的,因為移動客戶不會因為他們的地
理上的相近而產生相似的消費行為。像手機用戶的
年齡和性別,他們對聚類有一定的貢獻,可是他們的
影響不像用戶的通話分鐘數等消費屬性那么直接。
因此,在進行聚類分析前,需要把無關的屬性去掉,
并給一些影響小的屬性確定一個較小的權重,以減
輕它們在聚類過程中,對距離的貢獻。
另一個問題是,不同的屬性之間可能會存在關
聯,甚至是完全相關。比如說,一個客戶的月收入水
平比較低,那么他的話費很可能就比較低;而一個高
收入的客戶,他的話費也比較可能偏高。因此月收
入和話費這兩個特征是有一定關聯性的。再看一個
例子,在表格一中,特征“短途分鐘”和“短途話費”是
完全相關的。從前者可以通過某種公式計算出后者
(在我們的例子中,是“單價3 短途分鐘= 短途話
費”) 常常我們不希望在計算兩個客戶之間的距離
時,計入一個屬性的雙重或者多重影響。所以我們
需要進行特征提取,除去冗余和無關的屬性,剩下的
屬性就是用于聚類分析的相關屬性了。在第四節
中,我們將會給出在非監督學習中,進行特征提取的
具體算法,并且和監督學習中的特征提取算法進行
比較。
312 離散屬性值
聚類算法是基于數據點之間的距離,它的目標
是把相似的數據點聚為一類,把不相似的數據點劃
分到不同的子類。對于連續的屬性值,距離的衡量
是很自然的。
313 歸一化
歸一化是數據預處理的另一個重要步驟。在聚
類的不同屬性中,每一個屬性有不同的取值范圍。
比如在表1 中的移動數據,年齡通常在[ 18 , 80 ] , 然
而,通話分鐘數的取值通常在幾百。如果把這兩個
距離簡單的相加,那么在通話分鐘屬性上的距離會
大大超過年齡上的距離,從而削弱年齡差距的影響。
一種辦法是把每個屬性的取值范圍都歸一化到[ 0 ,
1 ] 的范圍內。也可以給不同的屬性根據他們重要
性的大小,賦上不同的權值。
314 聚類分析
對數據預處理好之后,就可以運用聚類算法進
行聚類分析了。可以根據問題的需要,選擇相應的
算法。
運用聚類算法之后,需要管理人員對聚類的結
果進行分析,并作出反饋。比如說,從聚類的結果來
看,是否合理,是否符合他們的預期結果。比如,用
戶在運用K2Means 分析移動客戶的時候,指定k =
3 。但是從聚類的結果來看,分成3 個子類,并不能
很好的區分客戶群體。因此用戶需要調整聚類的參
數,重新對數據進行聚類分析,直到聚類的結果合理
為止。
4 非監督學習中的特征提取算法
在這一節中,我們介紹在非監督學習中的特征
提取算法。在監督學習中,特征提取問題被研究的
很多。主要有兩類代表性的算法。第一類叫wrap2
per app roach[10 ] , 就是把各種特征組合成不同的特
征子集,用一個分類算法來測試在不同特征子集上
的分類正確率,以此來選擇最好的特征子集。特征
子集通常有以下兩種方法產生: ①向前選擇,從單個
特征開始,然后每次往當前的特征子集里面增加一
個好的特征,再測試正確率; ②向后消除,現選中所
有的特征,然后每次剔除一個差的特征,在剩下的特
征子集中,測試正確率。第二類算法是對每個特征
計算一個分數,衡量它的重要性。對所有特征按分
數排序,剔除那些分數低的特征。Fisher Score 和
Information Gain 就屬于這一類。在進行這一類分
數計算的時候,通常需要類屬性值來幫助衡量一個
特征的重要性。
在文獻[ 11 ]中提出了一個新的特征提取算法
Laplacian Score (L S)1 這個算法的思想是,假設在
一個n 維空間,兩個數據點距離很近。如果我們選
擇一個k (k < n) 維的子空間,在這個子空間中,這
兩個數據點仍然很近。那么我們認為這個k 維的子
空間能夠很好的保持數據點在原來n 維空間的臨近
關系。這種性質叫做Locality Preserving1 在LS
算法中, 對每一個特征都計算出它的Laplacian
Score , 來反映它的Locality Preserving power 。為
了描述數據點附近的幾何結構,我們建一個nearest
neighbor 圖。LS 要提取出那些能夠保持這個圖的
結構的特征。
我們認為,L S 很適用于解決聚類問題中的特征
選擇問題。因為①L S 不需要知道類屬性,這正是
聚類問題所不能提供的信息。②L S 尋找的是可以
保持數據點臨近結構(距離) 的特征,這與聚類問題
的目標是一致的。
我們在下面給出L S 算法的詳細描述。讓Lr
表示第r 個特征的Laplacian Score1 讓f ri 表示第i
個數據點的第r 個特征值, i = 1 , ⋯,m1 該算法的
理論分析可以參見文獻[11 ] 。
在第五節,我們將在實驗中檢驗LS 算法在聚
類算法中的有效性。
強力推薦:
天柏客戶關系管理系統
天柏客戶關系管理系統(CRM)是一款集專業性、實用性、易用性為一體的純B/S架構的CRM系統,它基于以客戶為中心的協同管理思想和營銷理念,圍繞客戶生命周期的整個過程,針對不同價值的客戶實施以客戶滿意為目標的營銷策略,通過企業級協同,有效的“發現、保持和留住客戶”,從而達到留住客戶、提高銷售,實現企業利潤最大化的目的。通過對客戶進行7P的深入分析,即客戶概況分析(Profiling)、客戶忠誠度分析(Persistency)、客戶利潤分析(Profitability)、客戶性能分析(Performance)、客戶未來分析(Prospecting)、客戶產品分析(Product)、客戶促銷分析(Promotion)以及改善與管理企業銷售、營銷、客戶服務和支持等與客戶關系有關的業務流程并提高各個環節的自動化程度,從而幫助企業達到縮短銷售周期、降低銷售成本、擴大銷售量、增加收入與盈利、搶占更多市場份額、尋求新的市場機會和銷售渠道,最終從根本上提升企業的核心競爭力,使得企業在當前激烈的競爭環境中立于不敗之地。
關鍵詞:CRM,CRM系統,CRM軟件,客戶關系管理,客戶管理軟件,客戶管理系統,客戶關系管理軟件,客戶關系管理系統