CRM系統(tǒng):聚類模型在客戶關(guān)系管理中的應(yīng)用以及對(duì)特征提取的探討
聚類模型在客戶關(guān)系管理中的應(yīng)用
以及對(duì)特征提取的探討
譚元戎, 孫劍平
(南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院, 南京210094)
摘要:隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展和信息的增長(zhǎng),企業(yè)和公司開始運(yùn)用數(shù)據(jù)挖掘技術(shù)來分析和處理他們?cè)谏虡I(yè)活
動(dòng)中積累的關(guān)于客戶的大量數(shù)據(jù),以從中發(fā)現(xiàn)重要的規(guī)律,來指導(dǎo)公司的營(yíng)銷策略。客戶聚類就是一個(gè)重要的問
題。它根據(jù)客戶的個(gè)人屬性和行為屬性,把相似的客戶群聚集起來。公司可以根據(jù)不同類型的客戶作出不同的營(yíng)
銷策略。本文討論了有關(guān)聚類模型的兩個(gè)問題。第一,介紹了兩種經(jīng)典的聚類算法,以及他們的復(fù)雜度。并討論它
們?cè)诳蛻絷P(guān)系管理中的應(yīng)用和有效性;第二,討論了特征提取在聚類過程中的必要性,并給出了如何在聚類模型中
進(jìn)行特征提取的有效算法。
關(guān)鍵詞:聚類;客戶關(guān)系管理;數(shù)據(jù)挖掘;特征提取;非監(jiān)督學(xué)習(xí)
中圖分類號(hào): F22419 文獻(xiàn)標(biāo)志碼:A
1 引言
隨著數(shù)據(jù)挖掘技術(shù)的成熟,以及客戶的個(gè)人信
息和行為數(shù)據(jù)的積累,企業(yè)和公司開始重視運(yùn)用數(shù)
據(jù)挖掘技術(shù)來分析這些數(shù)據(jù),希望從中得到有用的
知識(shí)和規(guī)律,來指導(dǎo)公司的營(yíng)銷策略和發(fā)展計(jì)劃。
因此,數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理[1 ] 領(lǐng)域中找到
了很重要的應(yīng)用。
例如,銀行有一個(gè)數(shù)據(jù)庫來保存客戶數(shù)據(jù)。包
括客戶的個(gè)人信息,如性別,年齡,收入水平等,以及
客戶的行為數(shù)據(jù),如客戶在銀行開的賬戶類型,每月
的存儲(chǔ)活動(dòng),信用卡客戶的刷卡紀(jì)錄等。移動(dòng)公司
可以掌握用戶的個(gè)人信息,以及行為數(shù)據(jù):每月通話
的頻率,時(shí)間長(zhǎng)短,通話類型(本地,長(zhǎng)途,漫游) 等。
綜合用戶的個(gè)人信息和行為數(shù)據(jù),公司可以分析客
戶的消費(fèi)特性。
基于對(duì)客戶的分析,對(duì)客戶群體進(jìn)行聚類,是一
個(gè)重要的問題。聚類就是對(duì)客戶群體的一個(gè)劃
分———把相似的客戶歸為一類,把不相似的客戶劃
分到不同的類中。比如移動(dòng)客戶中,如果每月話費(fèi)
在1 000 元以上,有很多長(zhǎng)途或者漫游的呼叫,這類
客戶通常是經(jīng)常出差,公務(wù)繁忙的高額漫游客戶群;
如果每月話費(fèi)在100 元內(nèi),短信數(shù)量很大而通話比
重較小的,這類客戶往往是工作地點(diǎn)比較固定,并且
比較經(jīng)濟(jì)型消費(fèi)的低端客戶群;如果用GPRS 上網(wǎng)
量大消費(fèi)額高,這類客戶就是GPRS 大客戶群。如
果企業(yè)能夠?qū)蛻暨M(jìn)行有效的聚類,識(shí)別出客戶子
群體,就能夠根據(jù)每種子群體,總結(jié)出他們有代表性
的屬性,并針對(duì)他們的消費(fèi)行為,設(shè)計(jì)營(yíng)銷策略。對(duì)
移動(dòng)公司而言,可以針對(duì)不同客戶群,設(shè)計(jì)不同的優(yōu)
惠移動(dòng)套餐,以吸引相應(yīng)的消費(fèi)人群。
聚類(clustering) 算法和分類(classification)
算法的一個(gè)重要的區(qū)別是,聚類是一種非監(jiān)督的學(xué)
習(xí)(unsupervised learning) , 而分類是一種有監(jiān)督
的學(xué)習(xí)( supervised learning)1 在分類問題中,數(shù)據(jù)
除了屬性之外,還有類屬性,標(biāo)示數(shù)據(jù)屬于哪一類。
分類算法就是根據(jù)這些訓(xùn)練數(shù)據(jù)來建立一個(gè)分類模
型,模型的參數(shù)調(diào)整到使得模型可以最好的區(qū)分訓(xùn)
練數(shù)據(jù)。而聚類問題只有數(shù)據(jù)的屬性值,沒有類屬
性。并且用戶事先不知道有幾個(gè)子類。聚類算法是
通過數(shù)據(jù)屬性的分布而找出相對(duì)密集的點(diǎn),作為一
個(gè)子類,相對(duì)分散的點(diǎn)作為其他的子類。
聚類模型為分析客戶數(shù)據(jù)提供了一種有力的工
具。在實(shí)際應(yīng)用中,客戶數(shù)據(jù)通常只有屬性,沒有類
屬性。或者類別通常由客戶根據(jù)主題而定義,并人
為地給每個(gè)數(shù)據(jù)點(diǎn)賦上類屬性值。因此,給訓(xùn)練數(shù)
據(jù)集人工的賦上類屬性是很耗時(shí),并且很主觀的。
而聚類算法就沒有這樣的要求,因此聚類算法很適
合用于分析無類屬性值的數(shù)據(jù)。
但是,運(yùn)用聚類算法也有一些難點(diǎn)。①有些算
法需要用戶預(yù)先指定子類的個(gè)數(shù)。可是用戶往往面
對(duì)著大量數(shù)據(jù),很難準(zhǔn)確地估計(jì)出這些數(shù)據(jù)可以自
然的分割成幾個(gè)子類。而且,聚類的結(jié)果也會(huì)因?yàn)?
用戶指定子類的個(gè)數(shù)不同而不同。②數(shù)據(jù)里有很多
屬性。可是有些對(duì)于聚類并不相關(guān),比如說,用戶的
家庭住址。怎樣有效的選擇相關(guān)的屬性進(jìn)行聚類,
需要在聚類之前對(duì)數(shù)據(jù)進(jìn)行分析,進(jìn)行特征提取。
③數(shù)據(jù)里有連續(xù)的屬性, 例如工資,年齡;也有離散
的屬性,例如性別,職位。對(duì)連續(xù)屬性計(jì)算距離很自
然,但是對(duì)于離散的屬性,很難定義不同屬性值之間
的距離。④不同的連續(xù)屬性,他們的取值有不同的
范圍。比如說,工資通常在(1 000 ,10 000) 間取值,
而年齡通常在(18 ,80) 間取值。如果兩個(gè)數(shù)據(jù)點(diǎn),他
們的工資差別是2 000 ,而年齡差別是5 , 如果把這
兩個(gè)距離簡(jiǎn)單的相加,那么在工資屬性上的距離會(huì)
大大超過年齡的差距,從而削弱年齡這個(gè)屬性的影
響力。因此,在聚類之前,要先對(duì)各屬性進(jìn)行歸一化
(normalization) 。一種辦法是把每個(gè)連續(xù)的屬性值
都?xì)w一化到一個(gè)統(tǒng)一的區(qū)間,比如[ 0 ,1 ]之間。
作者認(rèn)為,在上面提到的對(duì)聚類的數(shù)據(jù)進(jìn)行特
征提取是一個(gè)很重要、值得研究的問題。在數(shù)據(jù)挖
掘或者機(jī)器學(xué)習(xí)的領(lǐng)域中,絕大部分的對(duì)特征提取
問題進(jìn)行研究的工作都是在有監(jiān)督學(xué)習(xí)的框架下,
比如分類算法中, 決策樹C415[2 ] 用Information
Gain 來進(jìn)行特征提取。然而,聚類問題屬于非監(jiān)督
學(xué)習(xí)。在這種情況下進(jìn)行特征提取,難度會(huì)大大增
加,由于缺乏類屬性的信息,因此不能給每個(gè)單獨(dú)的
特征給出一個(gè)有效性的衡量。
盡管使用聚類算法有這些難度,它還是給用戶
分析公司的客戶數(shù)據(jù)提供很好的模型。公司可以根
據(jù)客戶在屬性上的差別,把他們分成不同的子類。
然后分析每個(gè)子類的特點(diǎn)。本文將討論兩種重要的
聚類算法,然后討論如何將它們運(yùn)用到客戶關(guān)系管
理的實(shí)例中。再給出在聚類問題中(非監(jiān)督學(xué)習(xí)) 進(jìn)
行特征提取的算法。本文將按照以下的結(jié)構(gòu)組織。
第二節(jié)討論兩種重要的聚類算法,他們的優(yōu)缺點(diǎn),以
及他們的時(shí)間復(fù)雜度。這些算法將作為分析客戶子
群體的重要模型。第三節(jié)討論將聚類算法運(yùn)用到客
戶聚類問題上的步驟,和每一步應(yīng)注意的問題。第
四節(jié),介紹聚類問題中的特征提取算法。第五節(jié)用
一些實(shí)驗(yàn)來驗(yàn)證聚類算法和特征提取算法。第六節(jié)
給出結(jié)論并結(jié)束全文。
2 聚類模型
聚類算法根據(jù)不同的方法,可以分成以下幾種
類型: 基于劃分的,例如K - Means [3 ] , K - Me2
doids [4 ] ; 基于層次的,例如BIRCH [5 ] , CURE [6 ] ;
基于密度的, 例如DBSCAN[7 ] , OPTICS [8 ]1 在這
一節(jié)我們將詳細(xì)介紹K - Means 算法,并討論它的
一個(gè)改進(jìn)版本,并分析它們的復(fù)雜度。
K- Means 屬于基于劃分的聚類算法。其基本
思路是,選擇K 個(gè)數(shù)據(jù)點(diǎn)作為子類的中心,然后根
據(jù)所定義的距離的衡量,把其余的點(diǎn)都劃分到不同
的子類。K2Means 是聚類模型中最有代表性的一
個(gè)算法。它的思路是: ①隨機(jī)的挑選K 個(gè)數(shù)據(jù)點(diǎn)作
為初始的中心; ②把每一個(gè)數(shù)據(jù)點(diǎn)歸到離它最近的
中心; ③對(duì)每一個(gè)子類,計(jì)算它們的屬性值的平均
值,把算出的平均值作為新的中心; ④重復(fù)步驟②,
直到每一個(gè)數(shù)據(jù)點(diǎn)的歸類都不再變化。K2Means
的好處在于它的時(shí)間復(fù)雜度比較低,是O ( t kn) , t
是算法循環(huán)的次數(shù),k 是子類的個(gè)數(shù),n 是數(shù)據(jù)點(diǎn)的
個(gè)數(shù)。通常t , k < < n , 因此K - Means 可以看成
是數(shù)據(jù)點(diǎn)個(gè)數(shù)的線性復(fù)雜度。但是K2Means 算法
的最終結(jié)果常常因?yàn)槌跏蓟行牡牟煌煌
- Means 實(shí)際上是一個(gè)EM ( Expectation2Maximi2
zation) [ 9 ] 算法,所以它的結(jié)果是一個(gè)局部最優(yōu)解,而
不能保證全局最優(yōu)解。另一個(gè)問題是每一步在計(jì)算
每個(gè)子類的平均值。對(duì)于離散值,如何定義平均值
是一個(gè)問題。而且K2Means 算法對(duì)于容易受到數(shù)
據(jù)中的噪音影響總體的聚類效果, 比如說,有一個(gè)
數(shù)據(jù)點(diǎn),它的某一個(gè)屬性值的值異常的大,用這個(gè)屬
性值計(jì)算出來的平均值會(huì)影響整個(gè)數(shù)據(jù)的分布,從
而影響聚類的結(jié)果。
K2Medoids 是對(duì)K2Means 的一個(gè)改進(jìn)。算法
的思路基本相同,但是在每一步不用子類中數(shù)據(jù)點(diǎn)
的平均值作為子類的中心,而是選擇子類中最中心
的數(shù)據(jù)點(diǎn)作為這個(gè)子類的中心。K2Medoids 的算法
如下: ①隨機(jī)的選擇K 個(gè)數(shù)據(jù)點(diǎn)作為初始的中心;
②選一個(gè)非中心的數(shù)據(jù)點(diǎn)A 去代替一個(gè)中心B ,計(jì)
算這個(gè)代替會(huì)不會(huì)在帶來更好的聚類效果。如果
是,用A 代替B 作為中心; ③重復(fù)步驟②,直到子類
的中心不再變化。K2Medoids 比K2Means 能夠更
好的處理數(shù)據(jù)中的噪音,因?yàn)橛靡粋€(gè)實(shí)際的數(shù)據(jù)點(diǎn)
作為子類的中心,比用一個(gè)子類的平均值作中心,會(huì)
更少的受數(shù)據(jù)中的噪音影響。但是K - Medoids 時(shí)
間復(fù)雜度比K- Means 高,是O( k ( n - k) 2 ) , n 是數(shù)
據(jù)點(diǎn)的個(gè)數(shù),k 是子類的個(gè)數(shù)。因此對(duì)于小的數(shù)據(jù)
集, K2Medoids 效果很不錯(cuò),但是對(duì)于大的數(shù)據(jù)集,
效率卻不夠高了。
強(qiáng)力推薦:
天柏客戶關(guān)系管理系統(tǒng)
天柏客戶關(guān)系管理系統(tǒng)(CRM)是一款集專業(yè)性、實(shí)用性、易用性為一體的純B/S架構(gòu)的CRM系統(tǒng),它基于以客戶為中心的協(xié)同管理思想和營(yíng)銷理念,圍繞客戶生命周期的整個(gè)過程,針對(duì)不同價(jià)值的客戶實(shí)施以客戶滿意為目標(biāo)的營(yíng)銷策略,通過企業(yè)級(jí)協(xié)同,有效的“發(fā)現(xiàn)、保持和留住客戶”,從而達(dá)到留住客戶、提高銷售,實(shí)現(xiàn)企業(yè)利潤(rùn)最大化的目的。通過對(duì)客戶進(jìn)行7P的深入分析,即客戶概況分析(Profiling)、客戶忠誠度分析(Persistency)、客戶利潤(rùn)分析(Profitability)、客戶性能分析(Performance)、客戶未來分析(Prospecting)、客戶產(chǎn)品分析(Product)、客戶促銷分析(Promotion)以及改善與管理企業(yè)銷售、營(yíng)銷、客戶服務(wù)和支持等與客戶關(guān)系有關(guān)的業(yè)務(wù)流程并提高各個(gè)環(huán)節(jié)的自動(dòng)化程度,從而幫助企業(yè)達(dá)到縮短銷售周期、降低銷售成本、擴(kuò)大銷售量、增加收入與盈利、搶占更多市場(chǎng)份額、尋求新的市場(chǎng)機(jī)會(huì)和銷售渠道,最終從根本上提升企業(yè)的核心競(jìng)爭(zhēng)力,使得企業(yè)在當(dāng)前激烈的競(jìng)爭(zhēng)環(huán)境中立于不敗之地。
關(guān)鍵詞:CRM,CRM系統(tǒng),CRM軟件,客戶關(guān)系管理,客戶管理軟件,客戶管理系統(tǒng),客戶關(guān)系管理軟件,客戶關(guān)系管理系統(tǒng)