CRM系統(tǒng):基于SAS 數(shù)據(jù)挖掘技術(shù)的航空CRM系統(tǒng)分析
基于SAS 數(shù)據(jù)挖掘技術(shù)的航空CRM系統(tǒng)分析
奉國(guó)和
(華南師范大學(xué)經(jīng)濟(jì)管理學(xué)院信息管理系 廣州 510006)
摘 要 數(shù)據(jù)挖掘是實(shí)施客戶關(guān)系管理強(qiáng)有力的手段,而SAS 是一整套有效的數(shù)據(jù)挖掘技術(shù)平臺(tái)。通過運(yùn)用SAS 設(shè)
計(jì)三層客戶關(guān)系管理應(yīng)用系統(tǒng)和與航空業(yè)務(wù)緊密相關(guān)的幾大數(shù)據(jù)挖掘模塊,幫助公司設(shè)計(jì)有針對(duì)性的服務(wù)、銷售與管
理辦法,提高客戶服務(wù)水平,大幅度降低客戶維護(hù)費(fèi)用與促銷成本,爭(zhēng)取公司利潤(rùn)最大化。
關(guān)鍵詞 客戶關(guān)系管理 SAS 數(shù)據(jù)挖掘 航空系統(tǒng)
航空業(yè)激烈競(jìng)爭(zhēng),促使航空公司采用先進(jìn)技術(shù)加大管理力
度,爭(zhēng)取優(yōu)質(zhì)服務(wù)。而實(shí)施客戶關(guān)系管理系統(tǒng)是公司提高管理
的重要一環(huán),其中數(shù)據(jù)挖掘是實(shí)施客戶關(guān)系管理系統(tǒng)的核心技
術(shù),尋找成熟的數(shù)據(jù)挖掘技術(shù)和平臺(tái)快速構(gòu)建公司的信息分析
應(yīng)用系統(tǒng)是每個(gè)企業(yè)的期望。SAS 系統(tǒng)是大型集成式軟件包,
在數(shù)據(jù)管理、數(shù)據(jù)挖掘、查詢分析等方面具有很強(qiáng)的優(yōu)勢(shì),能非
常方便地構(gòu)建企業(yè)信息分析應(yīng)用系統(tǒng)。運(yùn)用SAS 搭建航空公
司的客戶關(guān)系管理系統(tǒng),為航空公司優(yōu)化決策管理必將提供有
力保障。
1 數(shù)據(jù)挖掘理論
數(shù)據(jù)挖掘(Data Mining) 是指從大量的數(shù)據(jù)中提取出可信、
新穎、有效并能被人們所理解的、潛在的模式、規(guī)律或趨勢(shì)的高
級(jí)處理過程。它融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等
多個(gè)領(lǐng)域的理論和技術(shù),在理論研究領(lǐng)域也被稱為數(shù)據(jù)庫(kù)中的
知識(shí)發(fā)現(xiàn)( Knowledge Discovery in Database ,KDD) 。數(shù)據(jù)挖掘模
式一般分為以下幾種類型:
1. 1 概念或類描述 概念或類描述通過數(shù)據(jù)特征化即匯總
所研究的數(shù)據(jù)、數(shù)據(jù)區(qū)分將目標(biāo)與一個(gè)或多個(gè)比較類比較、數(shù)
據(jù)特征化和比較得到。
1. 2 關(guān)聯(lián)分析 關(guān)聯(lián)分析的目的就是為了挖掘出隱藏在數(shù)
據(jù)間的相互關(guān)系。在數(shù)據(jù)挖掘研究領(lǐng)域,對(duì)于關(guān)聯(lián)分析的研究
開展得比較深入,人們提出了多種關(guān)聯(lián)規(guī)則的挖掘算法,如
APRIORI、STEM、AIS、DHP 等算法。
1. 3 序列模式分析 序列模式分析和關(guān)聯(lián)分析相似,其目
的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側(cè)重點(diǎn)在
于分析數(shù)據(jù)間的前后序列關(guān)系。序列模式分析描述的問題是:
在給定交易序列數(shù)據(jù)庫(kù)中,每個(gè)序列是按照交易時(shí)間排列的一
組交易集,挖掘序列函數(shù)作用在這個(gè)交易序列數(shù)據(jù)庫(kù)上,返回
該數(shù)據(jù)庫(kù)中出現(xiàn)的高頻序列。在進(jìn)行序列模式分析時(shí),同樣也
需要由用戶輸入最小置信度C 和最小支持度S。
1. 4 分類和預(yù)測(cè)分析 假定記錄集合和一組標(biāo)記( TAG) ,
所謂標(biāo)記是指一組具有不同特征的類別。分類分析首先為每
一個(gè)記錄賦予一個(gè)標(biāo)記,即按標(biāo)記分類記錄,然后檢查這些標(biāo)
記的記錄,描述出這些記錄的特征。這種描述可能是顯式的,
例如一組規(guī)則定義;或者是隱式的,例如一個(gè)數(shù)學(xué)模型或公式。
目前,已有很多種分類分析模型得到應(yīng)用,其中的幾種典型模
型為線性回歸模型、決策樹模型、基于規(guī)則模型、神經(jīng)網(wǎng)絡(luò)模型
和支持向量機(jī)模型。
1. 5 聚類分析 與分類分析不同,聚類分析輸入的是一組
未分類記錄,并且這些記錄應(yīng)分成幾類事先也不知道。聚類分
析就是通過分析數(shù)據(jù)庫(kù)中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,
合理地劃分記錄集合,確定每個(gè)記錄所在類別。它所采用的分
類規(guī)則是由聚類分析工具決定的。聚類分析的方法很多,其中
包括系統(tǒng)聚類法、分解法、加入法、動(dòng)態(tài)聚類法、模糊聚類法、運(yùn)
籌方法等。采用不同的聚類方法,對(duì)于相同的記錄集合可能有
不同的劃分結(jié)果。
1. 6 孤立點(diǎn)分析 孤立點(diǎn)分析是一種發(fā)現(xiàn)異常數(shù)據(jù)的方
法,數(shù)據(jù)庫(kù)中往往包含一些數(shù)據(jù)對(duì)象,他們與數(shù)據(jù)的一般行為
或模型不一致,這些數(shù)據(jù)對(duì)象就是孤立點(diǎn)(Outlier) 。應(yīng)用中異
常的數(shù)據(jù)點(diǎn)可能比正常數(shù)據(jù)點(diǎn)更有用或者更有趣,比如孤立點(diǎn)
可以發(fā)現(xiàn)信用卡欺騙,也可以發(fā)現(xiàn)黃金客戶。
1. 7 演變分析 演變分析描述行為隨時(shí)間變化的對(duì)象的規(guī)
律或趨勢(shì),包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配等。
數(shù)據(jù)挖掘最吸引人的地方是它能建立預(yù)測(cè)模型而不是回顧型
的模型,表1 是傳統(tǒng)工具與數(shù)據(jù)挖掘工具比較。
2 SAS 數(shù)據(jù)挖掘工程方法
美國(guó)SAS 研究所在多年的數(shù)據(jù)處理研究工作中積累了一
套行之有效的數(shù)據(jù)挖掘方法———SEMMA。
2. 1 Sample :數(shù)據(jù)取樣 當(dāng)進(jìn)行數(shù)據(jù)挖掘時(shí),先要從企業(yè)大
量數(shù)據(jù)中取出一個(gè)與要探索問題相關(guān)的樣板數(shù)據(jù)子集,而不是
動(dòng)用全部企業(yè)數(shù)據(jù)。通過數(shù)據(jù)取樣,要把好數(shù)據(jù)的質(zhì)量關(guān),一
定要保證取樣的代表性、真實(shí)性、完整性和有效性。這樣才能
通過此后的分析研究得出反映本質(zhì)規(guī)律性的結(jié)果。
2. 2 Explore :數(shù)據(jù)特征探索、分析和予處理 當(dāng)拿到了一個(gè)
樣本數(shù)據(jù)集后,分析它是否達(dá)到原來設(shè)想的要求,其中有沒有
什么明顯的規(guī)律和趨勢(shì),有沒有出現(xiàn)你所從未設(shè)想過的數(shù)據(jù)狀
態(tài),因素之間有什么相關(guān)性,它們可區(qū)分成怎樣一些類別,這都
是要首先探索的內(nèi)容。進(jìn)行數(shù)據(jù)特征的探索、分析,最好是能
進(jìn)行可視化的操作,如SAS 的SAS/ INSIGHT 和SAS/ SPEC2
TRAVIEW。這兩個(gè)產(chǎn)品提供了可視化數(shù)據(jù)操作的最強(qiáng)有力的
工具、方法和圖形。它們不僅能做各種不同類型的統(tǒng)計(jì)分析顯
示,而且可做多維、動(dòng)態(tài)甚至旋轉(zhuǎn)的顯示。應(yīng)用這兩個(gè)工具對(duì)
樣本數(shù)據(jù)進(jìn)行預(yù)分析,推測(cè)主要的數(shù)據(jù)、異常趨勢(shì)和規(guī)律性。
2. 3 Modify :問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇 通過Sam2
ple 和Explore 兩步之后,對(duì)原來要解決的問題可能會(huì)有了進(jìn)一
步的明確,這時(shí)要盡可能對(duì)問題解決的要求能進(jìn)一步量化。在
問題進(jìn)一步明確化的基礎(chǔ)上,可以按照問題的具體要求來審視
數(shù)據(jù)集,看它是否適應(yīng)問題的需要。針對(duì)問題的需要,可能要
對(duì)數(shù)據(jù)進(jìn)行增刪,也可能按照你對(duì)整個(gè)數(shù)據(jù)挖掘過程的新認(rèn)
識(shí),組合或者生成一些新的變量,以體現(xiàn)對(duì)狀態(tài)的有效描述。
SAS 對(duì)數(shù)據(jù)強(qiáng)有力的存取、管理和操作的能力保證了對(duì)數(shù)據(jù)的
調(diào)整、修改和變動(dòng)的可能性。
2. 4 Model :模型的研發(fā)、知識(shí)的發(fā)現(xiàn) 數(shù)理統(tǒng)計(jì)方法是數(shù)據(jù)
挖掘工作中最常用的主流技術(shù)手段。SAS/ STAT 軟件包中就
覆蓋了所有的實(shí)用數(shù)理統(tǒng)計(jì)方法,提供了十多個(gè)過程可進(jìn)行各
種不同類型模型、不同特點(diǎn)數(shù)據(jù)的回歸分析,如正交回歸、響應(yīng)
面回歸、Logistic 回歸、非線性回歸等,且有多種形式模型化的方
法選擇??商幚淼臄?shù)據(jù)有實(shí)型數(shù)據(jù)、有序數(shù)據(jù)和屬性數(shù)據(jù),并
能產(chǎn)生各種有用的統(tǒng)計(jì)量和診斷信息。在方差分析方面,SAS/
STAT 為多種試驗(yàn)設(shè)計(jì)模型提供了方差分析工具,它還有處理
一般線性模型和廣義線性模型的專用過程。在多變量統(tǒng)計(jì)分
析方面,SAS/ STAT 為主成分分析、典型相關(guān)分析、判別分析和
因子分析提供了許多專用過程。SAS/ STAT 含有多種聚類準(zhǔn)
則的聚類分析方法,利用SAS/ STAT 可進(jìn)行生存分析。
這些工具不僅能揭示企業(yè)已有數(shù)據(jù)間的新關(guān)系、隱藏著的
規(guī)律性,而且能反過來預(yù)測(cè)它的發(fā)展趨勢(shì),或是在一定條件下
將會(huì)出現(xiàn)什么結(jié)果。另外,SAS 人工神經(jīng)元網(wǎng)絡(luò)和決策樹的方
法結(jié)合起來可用于從相關(guān)性不強(qiáng)的多變量中選出重要的變量。
2. 5 Assess :模型和知識(shí)的綜合解釋和評(píng)價(jià) 從上述過程中
將會(huì)得出一系列的分析結(jié)果、模式或模型。若能得出一個(gè)直接
的結(jié)論當(dāng)然很好,但更多的時(shí)候會(huì)得出對(duì)目標(biāo)問題多側(cè)面的描
述。這時(shí)就要能很好地綜合它們的影響規(guī)律性,提供合理的決
策支持信息。所謂合理,實(shí)際上往往是要你在所付出的代價(jià)和
達(dá)到預(yù)期目標(biāo)的可靠性的平衡上作出選擇。假如在數(shù)據(jù)挖掘
過程中就預(yù)見到最后要進(jìn)行這樣的選擇的話,那么最好把這些
平衡的指標(biāo)盡可能地量化,以利于綜合抉擇。
決策支持信息適用性如何,是個(gè)十分重要的問題。SAS 軟
件除了在數(shù)據(jù)處理過程中提供給許多檢驗(yàn)參數(shù)外,評(píng)價(jià)的另一
辦法是直接使用原來建立模型的樣板數(shù)據(jù)來進(jìn)行檢驗(yàn)。一般
來說,在這一步得到較好評(píng)價(jià),說明確實(shí)從這批數(shù)據(jù)樣本中挖
掘出了符合實(shí)際的規(guī)律性。
3 基于SAS 的系統(tǒng)構(gòu)架
整個(gè)系統(tǒng)基于B/ S 結(jié)構(gòu),前端應(yīng)用基于Java 技術(shù)實(shí)現(xiàn),系
統(tǒng)分為數(shù)據(jù)服務(wù)器、Web 應(yīng)用服務(wù)器、Web 客戶端三個(gè)層次。
應(yīng)用服務(wù)器起到封裝業(yè)務(wù)邏輯、支持前端應(yīng)用、隔離用戶和數(shù)
據(jù)等作用。在工作壓力不大的情況下,數(shù)據(jù)服務(wù)器和應(yīng)用服務(wù)
器可以部署到同一臺(tái)物理服務(wù)器上。SAS 平臺(tái)的B/ S 系統(tǒng)架
構(gòu)圖如圖1 所示。
圖1 SAS 平臺(tái)的B/ S 系統(tǒng)架構(gòu)圖
在B/ S 架構(gòu)下,應(yīng)用服務(wù)器采用SAS/ AppDev Studio 開發(fā)
套件。SAS/ AppDev Studio 套件是SAS 公司的基于Java 中間件
技術(shù)的應(yīng)用服務(wù)器組件包。其中包括了Java 開發(fā)環(huán)境、應(yīng)用/
Web 服務(wù)器產(chǎn)品,以及一整套功能全面的SAS 擴(kuò)展類庫(kù)。通過
這套類庫(kù)可以支持各種通用的或SAS 專有的訪問接口,借助這
些接口可以實(shí)現(xiàn)各種數(shù)據(jù)訪問和統(tǒng)計(jì)分析功能。數(shù)據(jù)服務(wù)器
底層的通訊服務(wù)組件換成了傳統(tǒng)的SAS/ SHARE 和SAS/ CON2
NECT。借助SAS/ AppDev Studio 套件中的接口支持,前臺(tái)應(yīng)用
可以通過JDBC 接口連接SAS/ SHARE 組件獲得數(shù)據(jù)服務(wù),或
通過J - CONNECT 接口連接SAS/ CONNECT 組件獲得計(jì)算服
務(wù)。
4 系統(tǒng)總體設(shè)計(jì)目標(biāo)
4. 1 數(shù)據(jù)通道集中、獨(dú)立 建立集中、獨(dú)立的數(shù)據(jù)采集通
道,實(shí)現(xiàn)相關(guān)業(yè)務(wù)數(shù)據(jù)的自動(dòng)獲取和連續(xù)積累,采用數(shù)據(jù)統(tǒng)一
管理的整體構(gòu)想,通過對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)的自動(dòng)抽取、整合、分
析、加工,建立各類業(yè)務(wù)管理模型。
4. 2 確保實(shí)現(xiàn)資源共享 通過辦公自動(dòng)化系統(tǒng)已有的內(nèi)部
網(wǎng)絡(luò)結(jié)構(gòu),可以實(shí)時(shí)查詢各主題的分析數(shù)據(jù)報(bào)表和數(shù)據(jù)分析報(bào)
告,利用數(shù)據(jù)集中的優(yōu)勢(shì),實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一管理。
4. 3 集中采用元數(shù)據(jù)管理,實(shí)現(xiàn)功能參數(shù)化 功能邏輯的
改變不影響到程序,只需修改參數(shù),這樣可以及時(shí)響應(yīng)客戶的
新需求,提高工作效率。
4. 4 安全機(jī)制 建立完善的系統(tǒng)安全和數(shù)據(jù)安全控制機(jī)
制,對(duì)用戶采取集中授權(quán)的管理模式,基本實(shí)現(xiàn)安全管理的統(tǒng)
一化。
4. 5 數(shù)據(jù)挖掘技術(shù) 利用商業(yè)智能技術(shù)和數(shù)據(jù)挖掘技術(shù)對(duì)
業(yè)務(wù)數(shù)據(jù)進(jìn)行及時(shí)、科學(xué)的匯總、分析和預(yù)測(cè),實(shí)現(xiàn)分析自動(dòng)
化,為領(lǐng)導(dǎo)分析決策提供真實(shí)、全面和準(zhǔn)確的依據(jù)。
4. 6 經(jīng)濟(jì)效益性 分析系統(tǒng)的建設(shè)是一項(xiàng)復(fù)雜的、長(zhǎng)期不
斷發(fā)展的系統(tǒng)工程,因此在規(guī)劃建設(shè)過程中必須遵循長(zhǎng)遠(yuǎn)規(guī)
劃、逐步建設(shè)的指導(dǎo)方針。同時(shí),在技術(shù)實(shí)現(xiàn)上,應(yīng)采