CRM系統(tǒng):數(shù)據(jù)挖掘技術(shù)在CRM中應(yīng)用的過程研究
數(shù)據(jù)挖掘技術(shù)在CRM中應(yīng)用的過程研究
戴艷紅
( 河北政法職業(yè)學(xué)院計(jì)算機(jī)系, 石家莊050061)
[ 摘要] 本文介紹了客戶關(guān)系管理的概念, 并對(duì)數(shù)據(jù)挖掘的概念和技術(shù)方法做了簡(jiǎn)要說明, 最后著重介紹了在客戶
關(guān)系管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)的過程。
[ 關(guān)鍵詞] 客戶關(guān)系管理; 數(shù)據(jù)挖掘; 電子商務(wù)
[ 中圖分類號(hào)] F270.7;F273.7 [ 文獻(xiàn)標(biāo)識(shí)碼] A [ 文章編號(hào)] 1673- 0194( 2007) 04- 0043- 02
客戶關(guān)系管理(CRM) 的核心思想是將企業(yè)的客戶作
為最重要的企業(yè)資源, 通過完善的客戶服務(wù)和對(duì)客戶的行
為方式進(jìn)行深入分析, 尋找其中的規(guī)律, 滿足客戶的需求,
提高服務(wù)水平, 保證實(shí)現(xiàn)客戶的終生價(jià)值。同時(shí)CRM也是
一種管理軟件和技術(shù), 它將最佳的商業(yè)實(shí)踐與數(shù)據(jù)挖掘、
數(shù)據(jù)倉(cāng)庫(kù)、OLAP 以及其他信息技術(shù)緊密結(jié)合在一起, 為企
業(yè)的銷售、客戶服務(wù)和決策支持等領(lǐng)域提供解決方案, 使
企業(yè)能有一個(gè)基于電子商務(wù)的面向客戶的平臺(tái), 從而順利
實(shí)現(xiàn)由傳統(tǒng)企業(yè)模式到以電子商務(wù)為基礎(chǔ)的現(xiàn)代企業(yè)模
式的轉(zhuǎn)化。數(shù)據(jù)挖掘技術(shù)能對(duì)大量的數(shù)據(jù)及信息進(jìn)行挖
掘, 從中發(fā)現(xiàn)潛在的關(guān)系, 并利用模型對(duì)客戶需求進(jìn)行預(yù)
測(cè), 幫助企業(yè)做出決策, 使企業(yè)獲得高額的投資回報(bào)。
一、數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(Data Mining,DM), 又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)
現(xiàn)(Knowledge Discovery in Database,KDD), 是指從大型數(shù)
據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱含的、未知的、非平凡的及有潛
在應(yīng)用價(jià)值的信息或模式。它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有
應(yīng)用價(jià)值的新領(lǐng)域, 融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、
統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。從商業(yè)角度看, 數(shù)據(jù)挖
掘是一種嶄新的商業(yè)信息處理技術(shù), 其主要特點(diǎn)是對(duì)商業(yè)
數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)化、分析和模式化
處理, 從中提取輔助商業(yè)決策的關(guān)鍵知識(shí), 即從一個(gè)數(shù)據(jù)
庫(kù)中自動(dòng)發(fā)現(xiàn)相關(guān)商業(yè)模式。它可以描述成: 按企業(yè)既定
業(yè)務(wù)目標(biāo), 對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析, 揭示隱藏
的、未知的或驗(yàn)證已知的商業(yè)規(guī)律, 并進(jìn)一步模式化的數(shù)
據(jù)處理方法。數(shù)據(jù)挖掘工具能夠?qū)淼内厔?shì)和行為進(jìn)行
預(yù)測(cè), 從而很好地支持人們的決策。比如, 經(jīng)過對(duì)整個(gè)公司
數(shù)據(jù)庫(kù)系統(tǒng)的分析, 數(shù)據(jù)挖掘工具可以回答諸如“什么樣
的客戶對(duì)我們公司的郵件推銷活動(dòng)最有可能做出反應(yīng), 為
什么”等類似的問題。如果將其運(yùn)用到客戶關(guān)系管理中, 就
能在數(shù)據(jù)量龐大的客戶數(shù)據(jù)倉(cāng)庫(kù)中, 將看似無關(guān)聯(lián)的數(shù)據(jù)
進(jìn)行篩選, 凈化, 提取出有價(jià)值的客戶關(guān)系, 實(shí)現(xiàn)對(duì)客戶需
求做出恰當(dāng)?shù)幕貞?yīng), 并預(yù)測(cè)需求趨勢(shì)。
二、常用的數(shù)據(jù)挖掘方法
常用的數(shù)據(jù)挖掘方法主要包括: 分類、聚類、關(guān)聯(lián)規(guī)
則、統(tǒng)計(jì)回歸、偏差分析等等。
1. 分類
分類在數(shù)據(jù)挖掘中是一項(xiàng)非常重要的任務(wù)。分類的目
的是通過統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法( 包括決策樹法和規(guī)則
歸納法) 、神經(jīng)網(wǎng)絡(luò)方法等構(gòu)造一個(gè)分類模型, 然后把數(shù)據(jù)
庫(kù)中的數(shù)據(jù)映射到給定類別中的某一個(gè)。
2. 聚類
聚類是把一組個(gè)體按照相似性歸成若干類別, 即“物
以類聚”。它的目的是使同一類別之內(nèi)的相似性盡可能大,
而類別之間的相似性盡可能小。這種方法可以用來對(duì)客戶
進(jìn)行細(xì)分, 根據(jù)客戶的特征和屬性把客戶分成不同客戶
群, 根據(jù)其不同需求, 制訂針對(duì)不同客戶群的營(yíng)銷策略。
3. 關(guān)聯(lián)規(guī)則
它是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間存在關(guān)聯(lián)的規(guī)則, 即根
據(jù)一個(gè)事物中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一項(xiàng)在同一事物中
也出現(xiàn), 即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系
管理中, 通過對(duì)企業(yè)客戶數(shù)據(jù)庫(kù)里大量數(shù)據(jù)進(jìn)行挖掘, 可
以從中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系, 例如, 買過A 商品的客戶以
后會(huì)購(gòu)買B 商品。通過對(duì)這些數(shù)據(jù)進(jìn)行挖掘, 獲得對(duì)顧客
購(gòu)買行為極有價(jià)值的信息, 從而可以幫助企業(yè)及時(shí)把握客
戶需求, 對(duì)客戶實(shí)行交叉銷售, 為企業(yè)決策提供參考。
4. 回歸分析
回歸分析反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的
特征, 主要用于預(yù)測(cè), 即利用歷史數(shù)據(jù)自動(dòng)推出對(duì)給定數(shù)
據(jù)的推廣描述, 從而對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)。它可應(yīng)用于商
品銷售趨勢(shì)預(yù)測(cè)、客戶贏利能力分析和預(yù)測(cè)等。
5. 偏差分析
偏差分析側(cè)重于發(fā)現(xiàn)不規(guī)則和異常變化, 即與通常不
同的事件。在相類似的客戶中, 對(duì)客戶的異常變化要給予
密切關(guān)注。例如某客戶購(gòu)買行為發(fā)生較大變化, 購(gòu)買量較
以前大大減少, 就要對(duì)客戶的這種原因進(jìn)行調(diào)查, 避免客
戶流失。
三、CRM中的數(shù)據(jù)挖掘過程
為使CRM系統(tǒng)建立良好的模型, 在實(shí)施數(shù)據(jù)挖掘之
前, 先確定采取什么樣的步驟, 每一步都做什么, 達(dá)到什么
樣的目標(biāo)是必要的, 有了好的計(jì)劃才能保證數(shù)據(jù)挖掘有條
不紊地實(shí)施并取得成功。
雖然把各個(gè)步驟按順序排列, 但要注意數(shù)據(jù)挖掘過程
并不是線性的, 要取得好的結(jié)果就要不斷重復(fù)這些步驟。
比如在“分析數(shù)據(jù)”時(shí)可能會(huì)發(fā)現(xiàn)在“建立數(shù)據(jù)挖掘數(shù)據(jù)
庫(kù)”時(shí)做的不夠好, 需要添加一些新的數(shù)據(jù)。
有效的CRM中的數(shù)據(jù)挖掘的基本步驟為:
1. 定義商業(yè)問題
每一個(gè)CRM應(yīng)用程序都有一個(gè)或多個(gè)商業(yè)目標(biāo), 要
想充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值, 必須要對(duì)目標(biāo)有一個(gè)清晰明
確的定義, 即決定到底想干什么。
2. 建立數(shù)據(jù)挖掘庫(kù)
連同下面的兩個(gè)步驟, 這三步構(gòu)成了數(shù)據(jù)預(yù)處理的核
心。這三步比其他所有的步驟加在一起所花的時(shí)間和精力
還多。數(shù)據(jù)準(zhǔn)備和模型建立之間可能反復(fù)進(jìn)行, 因?yàn)閺哪?
型中會(huì)學(xué)到新的東西, 而這又需要修改數(shù)據(jù)。數(shù)據(jù)準(zhǔn)備階
段也要占去全部數(shù)據(jù)采集過程的80%到90%的時(shí)間和努
力。
應(yīng)該把要挖掘的數(shù)據(jù)都收集到一個(gè)數(shù)據(jù)庫(kù)中。注意這
并不是說一定要使用一個(gè)數(shù)據(jù)庫(kù)管理系統(tǒng)。根據(jù)要挖掘的
數(shù)據(jù)量的大小、數(shù)據(jù)的復(fù)雜程度、使用方式的不同, 有時(shí)一
個(gè)簡(jiǎn)單的平面文件或電子表格就足夠了。
需要建立獨(dú)立的數(shù)據(jù)挖掘庫(kù)的另一個(gè)理由是, 數(shù)據(jù)倉(cāng)
庫(kù)可能不支持對(duì)數(shù)據(jù)進(jìn)行各種復(fù)雜分析所需的數(shù)據(jù)結(jié)構(gòu),
包括對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)查詢, 多維分析和各種復(fù)雜的圖表及
其可視化。
建立數(shù)據(jù)挖掘庫(kù)可分成下面幾個(gè)部分:
(1) 數(shù)據(jù)收集。確定要挖掘的數(shù)據(jù)源。
(2) 數(shù)據(jù)描述。描述每個(gè)文件和數(shù)據(jù)庫(kù)表的內(nèi)容。
(3) 數(shù)據(jù)提取。把一些冗余或無關(guān)的數(shù)據(jù)除去, 選擇用
于數(shù)據(jù)挖掘的數(shù)據(jù)。在數(shù)據(jù)提取過程中, 可以利用數(shù)據(jù)庫(kù)
的查詢功能以加快數(shù)據(jù)的提取速度。
(4) 數(shù)據(jù)清理。了解數(shù)據(jù)庫(kù)中字段的含義及其與其他
字段的關(guān)系。對(duì)提取出的數(shù)據(jù)進(jìn)行合法性檢查并清理含有
錯(cuò)誤的數(shù)據(jù)。
(5) 合并與整合。大部分情況下需要的所有數(shù)據(jù)是分
布在不同的數(shù)據(jù)庫(kù)中的。數(shù)據(jù)合并與整合把來自不同數(shù)據(jù)
源的數(shù)據(jù)合并到同一個(gè)數(shù)據(jù)挖掘庫(kù)中, 并且要使那些本來
存在沖突和不一致的數(shù)據(jù)一致化。
3. 為建模準(zhǔn)備數(shù)據(jù)
這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作。可以把
此步驟劃分成4 個(gè)部分:
(1) 選擇變量。理想情況下, 可選擇所擁有的全部變
量, 輸入到數(shù)據(jù)挖掘工具中, 找出哪些是最好的預(yù)測(cè)變量。
實(shí)際上這樣做并不是很好, 其中一個(gè)原因是建立模型的時(shí)
間隨著變量的增加而增加;另一個(gè)原因就是盲目性, 包括無
關(guān)緊要的數(shù)據(jù)列被加入, 卻很少甚至不能提高預(yù)測(cè)能力。
(2) 構(gòu)建新的預(yù)測(cè)依據(jù)。例如, 預(yù)測(cè)信用風(fēng)險(xiǎn)時(shí), 使用
債務(wù)—收入的比率而不是單獨(dú)使用債務(wù)或收入作為預(yù)測(cè)
變量, 可以產(chǎn)生更準(zhǔn)確的結(jié)果, 并且更容易理解。
(3) 選取一個(gè)子集或標(biāo)本來建立模型。建立數(shù)據(jù)挖掘
模型時(shí), 要從大量數(shù)據(jù)中取出一個(gè)與問題相關(guān)的樣板數(shù)據(jù)
子集, 而不是動(dòng)用全部數(shù)據(jù)。使用恰當(dāng)?shù)碾S機(jī)挑選的子集
并不會(huì)引起信息不足, 反而能減少數(shù)據(jù)處理量, 節(jié)省系統(tǒng)
資源, 而且能通過數(shù)據(jù)的篩選, 使規(guī)律性更容易凸現(xiàn)出來。
(4) 轉(zhuǎn)換變量。使之和建立模型的運(yùn)算法則一致。
4. 建立模型
建立模型是一個(gè)反復(fù)的過程。需要仔細(xì)考察不同的模
型以判斷哪個(gè)模型更有用。在尋找好的模型的過程中學(xué)到
的東西, 會(huì)啟發(fā)用戶修改數(shù)據(jù), 甚至改變最初對(duì)問題的定
義。
為保證得到的模型具有較好的精確度和健全性, 需要
一個(gè)定義完善的訓(xùn)練—驗(yàn)證協(xié)議, 有時(shí)也稱為指導(dǎo)性學(xué)
習(xí)。主要思想就是先用一部分?jǐn)?shù)據(jù)建立模型, 然后再用剩
下的數(shù)據(jù)來測(cè)試和驗(yàn)證這個(gè)得到的模型。
5. 評(píng)價(jià)模型
對(duì)模型的評(píng)價(jià)依賴于需要解決的問題, 由領(lǐng)域?qū)<覍?duì)
模型的精確性和有效性進(jìn)行評(píng)價(jià)。
6. 實(shí)施
把數(shù)據(jù)挖掘模型所發(fā)現(xiàn)的知識(shí)應(yīng)用到實(shí)際工作中, 為
決策提供支持。如根據(jù)得到的知識(shí)可以設(shè)置某些觸發(fā)器,
當(dāng)滿足條件時(shí)進(jìn)行特殊處理。
四、結(jié)論
本文在探討CRM的基礎(chǔ)上引入數(shù)據(jù)挖掘技術(shù), 詳細(xì)
闡述了該技術(shù)在客戶關(guān)系管理的重要應(yīng)用及其實(shí)現(xiàn)過程。
數(shù)據(jù)挖掘技術(shù)在以客戶為中心的客戶關(guān)系管理中扮演著
越來越重要的角色, 隨著理論的進(jìn)一步發(fā)展和深化, 必然
會(huì)帶給CRM更為廣泛的應(yīng)用前景和市場(chǎng)價(jià)值, 提高企業(yè)
的競(jìng)爭(zhēng)力。
主要參考文獻(xiàn)
[ 1] 趙紅宇. CRM中的數(shù)據(jù)挖掘技術(shù)[M] . 商場(chǎng)現(xiàn)代化, 2006, ( 6) ( 上
旬刊) .
[ 2] 趙靜,和斌. 基于數(shù)據(jù)挖掘的客戶關(guān)系管理系統(tǒng)的構(gòu)建[ J] . 情報(bào)
技術(shù), 2005, ( 11) .
[ 3] 吳志軍. 客戶關(guān)系管理中的數(shù)據(jù)挖掘[ J] . 商場(chǎng)現(xiàn)代化, 2005, ( 9)
( 中旬刊) .
[ 4] 顏炎. 構(gòu)建基于數(shù)據(jù)挖掘的客戶關(guān)系管理系統(tǒng)[M] . 長(zhǎng)沙: 國(guó)防科
技大學(xué)出版社, 2002.
[ 5] 陳文偉, 黃金才. 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M] . 北京: 人民郵電出版
社, 2004.