CRM系統:基于SAS 數據挖掘技術的航空CRM系統分析
基于SAS 數據挖掘技術的航空CRM系統分析
奉國和
(華南師范大學經濟管理學院信息管理系 廣州 510006)
摘 要 數據挖掘是實施客戶關系管理強有力的手段,而SAS 是一整套有效的數據挖掘技術平臺。通過運用SAS 設
計三層客戶關系管理應用系統和與航空業務緊密相關的幾大數據挖掘模塊,幫助公司設計有針對性的服務、銷售與管
理辦法,提高客戶服務水平,大幅度降低客戶維護費用與促銷成本,爭取公司利潤最大化。
關鍵詞 客戶關系管理 SAS 數據挖掘 航空系統
航空業激烈競爭,促使航空公司采用先進技術加大管理力
度,爭取優質服務。而實施客戶關系管理系統是公司提高管理
的重要一環,其中數據挖掘是實施客戶關系管理系統的核心技
術,尋找成熟的數據挖掘技術和平臺快速構建公司的信息分析
應用系統是每個企業的期望。SAS 系統是大型集成式軟件包,
在數據管理、數據挖掘、查詢分析等方面具有很強的優勢,能非
常方便地構建企業信息分析應用系統。運用SAS 搭建航空公
司的客戶關系管理系統,為航空公司優化決策管理必將提供有
力保障。
1 數據挖掘理論
數據挖掘(Data Mining) 是指從大量的數據中提取出可信、
新穎、有效并能被人們所理解的、潛在的模式、規律或趨勢的高
級處理過程。它融合了數據庫、人工智能、機器學習、統計學等
多個領域的理論和技術,在理論研究領域也被稱為數據庫中的
知識發現( Knowledge Discovery in Database ,KDD) 。數據挖掘模
式一般分為以下幾種類型:
1. 1 概念或類描述 概念或類描述通過數據特征化即匯總
所研究的數據、數據區分將目標與一個或多個比較類比較、數
據特征化和比較得到。
1. 2 關聯分析 關聯分析的目的就是為了挖掘出隱藏在數
據間的相互關系。在數據挖掘研究領域,對于關聯分析的研究
開展得比較深入,人們提出了多種關聯規則的挖掘算法,如
APRIORI、STEM、AIS、DHP 等算法。
1. 3 序列模式分析 序列模式分析和關聯分析相似,其目
的也是為了挖掘數據之間的聯系,但序列模式分析的側重點在
于分析數據間的前后序列關系。序列模式分析描述的問題是:
在給定交易序列數據庫中,每個序列是按照交易時間排列的一
組交易集,挖掘序列函數作用在這個交易序列數據庫上,返回
該數據庫中出現的高頻序列。在進行序列模式分析時,同樣也
需要由用戶輸入最小置信度C 和最小支持度S。
1. 4 分類和預測分析 假定記錄集合和一組標記( TAG) ,
所謂標記是指一組具有不同特征的類別。分類分析首先為每
一個記錄賦予一個標記,即按標記分類記錄,然后檢查這些標
記的記錄,描述出這些記錄的特征。這種描述可能是顯式的,
例如一組規則定義;或者是隱式的,例如一個數學模型或公式。
目前,已有很多種分類分析模型得到應用,其中的幾種典型模
型為線性回歸模型、決策樹模型、基于規則模型、神經網絡模型
和支持向量機模型。
1. 5 聚類分析 與分類分析不同,聚類分析輸入的是一組
未分類記錄,并且這些記錄應分成幾類事先也不知道。聚類分
析就是通過分析數據庫中的記錄數據,根據一定的分類規則,
合理地劃分記錄集合,確定每個記錄所在類別。它所采用的分
類規則是由聚類分析工具決定的。聚類分析的方法很多,其中
包括系統聚類法、分解法、加入法、動態聚類法、模糊聚類法、運
籌方法等。采用不同的聚類方法,對于相同的記錄集合可能有
不同的劃分結果。
1. 6 孤立點分析 孤立點分析是一種發現異常數據的方
法,數據庫中往往包含一些數據對象,他們與數據的一般行為
或模型不一致,這些數據對象就是孤立點(Outlier) 。應用中異
常的數據點可能比正常數據點更有用或者更有趣,比如孤立點
可以發現信用卡欺騙,也可以發現黃金客戶。
1. 7 演變分析 演變分析描述行為隨時間變化的對象的規
律或趨勢,包括時間序列數據分析、序列或周期模式匹配等。
數據挖掘最吸引人的地方是它能建立預測模型而不是回顧型
的模型,表1 是傳統工具與數據挖掘工具比較。
2 SAS 數據挖掘工程方法
美國SAS 研究所在多年的數據處理研究工作中積累了一
套行之有效的數據挖掘方法———SEMMA。
2. 1 Sample :數據取樣 當進行數據挖掘時,先要從企業大
量數據中取出一個與要探索問題相關的樣板數據子集,而不是
動用全部企業數據。通過數據取樣,要把好數據的質量關,一
定要保證取樣的代表性、真實性、完整性和有效性。這樣才能
通過此后的分析研究得出反映本質規律性的結果。
2. 2 Explore :數據特征探索、分析和予處理 當拿到了一個
樣本數據集后,分析它是否達到原來設想的要求,其中有沒有
什么明顯的規律和趨勢,有沒有出現你所從未設想過的數據狀
態,因素之間有什么相關性,它們可區分成怎樣一些類別,這都
是要首先探索的內容。進行數據特征的探索、分析,最好是能
進行可視化的操作,如SAS 的SAS/ INSIGHT 和SAS/ SPEC2
TRAVIEW。這兩個產品提供了可視化數據操作的最強有力的
工具、方法和圖形。它們不僅能做各種不同類型的統計分析顯
示,而且可做多維、動態甚至旋轉的顯示。應用這兩個工具對
樣本數據進行預分析,推測主要的數據、異常趨勢和規律性。
2. 3 Modify :問題明確化、數據調整和技術選擇 通過Sam2
ple 和Explore 兩步之后,對原來要解決的問題可能會有了進一
步的明確,這時要盡可能對問題解決的要求能進一步量化。在
問題進一步明確化的基礎上,可以按照問題的具體要求來審視
數據集,看它是否適應問題的需要。針對問題的需要,可能要
對數據進行增刪,也可能按照你對整個數據挖掘過程的新認
識,組合或者生成一些新的變量,以體現對狀態的有效描述。
SAS 對數據強有力的存取、管理和操作的能力保證了對數據的
調整、修改和變動的可能性。
2. 4 Model :模型的研發、知識的發現 數理統計方法是數據
挖掘工作中最常用的主流技術手段。SAS/ STAT 軟件包中就
覆蓋了所有的實用數理統計方法,提供了十多個過程可進行各
種不同類型模型、不同特點數據的回歸分析,如正交回歸、響應
面回歸、Logistic 回歸、非線性回歸等,且有多種形式模型化的方
法選擇??商幚淼臄祿袑嵭蛿祿?、有序數據和屬性數據,并
能產生各種有用的統計量和診斷信息。在方差分析方面,SAS/
STAT 為多種試驗設計模型提供了方差分析工具,它還有處理
一般線性模型和廣義線性模型的專用過程。在多變量統計分
析方面,SAS/ STAT 為主成分分析、典型相關分析、判別分析和
因子分析提供了許多專用過程。SAS/ STAT 含有多種聚類準
則的聚類分析方法,利用SAS/ STAT 可進行生存分析。
這些工具不僅能揭示企業已有數據間的新關系、隱藏著的
規律性,而且能反過來預測它的發展趨勢,或是在一定條件下
將會出現什么結果。另外,SAS 人工神經元網絡和決策樹的方
法結合起來可用于從相關性不強的多變量中選出重要的變量。
2. 5 Assess :模型和知識的綜合解釋和評價 從上述過程中
將會得出一系列的分析結果、模式或模型。若能得出一個直接
的結論當然很好,但更多的時候會得出對目標問題多側面的描
述。這時就要能很好地綜合它們的影響規律性,提供合理的決
策支持信息。所謂合理,實際上往往是要你在所付出的代價和
達到預期目標的可靠性的平衡上作出選擇。假如在數據挖掘
過程中就預見到最后要進行這樣的選擇的話,那么最好把這些
平衡的指標盡可能地量化,以利于綜合抉擇。
決策支持信息適用性如何,是個十分重要的問題。SAS 軟
件除了在數據處理過程中提供給許多檢驗參數外,評價的另一
辦法是直接使用原來建立模型的樣板數據來進行檢驗。一般
來說,在這一步得到較好評價,說明確實從這批數據樣本中挖
掘出了符合實際的規律性。
3 基于SAS 的系統構架
整個系統基于B/ S 結構,前端應用基于Java 技術實現,系
統分為數據服務器、Web 應用服務器、Web 客戶端三個層次。
應用服務器起到封裝業務邏輯、支持前端應用、隔離用戶和數
據等作用。在工作壓力不大的情況下,數據服務器和應用服務
器可以部署到同一臺物理服務器上。SAS 平臺的B/ S 系統架
構圖如圖1 所示。
圖1 SAS 平臺的B/ S 系統架構圖
在B/ S 架構下,應用服務器采用SAS/ AppDev Studio 開發
套件。SAS/ AppDev Studio 套件是SAS 公司的基于Java 中間件
技術的應用服務器組件包。其中包括了Java 開發環境、應用/
Web 服務器產品,以及一整套功能全面的SAS 擴展類庫。通過
這套類庫可以支持各種通用的或SAS 專有的訪問接口,借助這
些接口可以實現各種數據訪問和統計分析功能。數據服務器
底層的通訊服務組件換成了傳統的SAS/ SHARE 和SAS/ CON2
NECT。借助SAS/ AppDev Studio 套件中的接口支持,前臺應用
可以通過JDBC 接口連接SAS/ SHARE 組件獲得數據服務,或
通過J - CONNECT 接口連接SAS/ CONNECT 組件獲得計算服
務。
4 系統總體設計目標
4. 1 數據通道集中、獨立 建立集中、獨立的數據采集通
道,實現相關業務數據的自動獲取和連續積累,采用數據統一
管理的整體構想,通過對業務系統數據的自動抽取、整合、分
析、加工,建立各類業務管理模型。
4. 2 確保實現資源共享 通過辦公自動化系統已有的內部
網絡結構,可以實時查詢各主題的分析數據報表和數據分析報
告,利用數據集中的優勢,實現數據統一管理。
4. 3 集中采用元數據管理,實現功能參數化 功能邏輯的
改變不影響到程序,只需修改參數,這樣可以及時響應客戶的
新需求,提高工作效率。
4. 4 安全機制 建立完善的系統安全和數據安全控制機
制,對用戶采取集中授權的管理模式,基本實現安全管理的統
一化。
4. 5 數據挖掘技術 利用商業智能技術和數據挖掘技術對
業務數據進行及時、科學的匯總、分析和預測,實現分析自動
化,為領導分析決策提供真實、全面和準確的依據。
4. 6 經濟效益性 分析系統的建設是一項復雜的、長期不
斷發展的系統工程,因此在規劃建設過程中必須遵循長遠規
劃、逐步建設的指導方針。同時,在技術實現上,應采