CRM系統:CRM 中的數據倉庫技術研究
CRM 中的數據倉庫技術研究
雷 蘊
摘 要:介紹了客戶關系管理(CRM)以及數據倉庫技術,著重分析了CRM 中的數據倉庫技術,對數據轉移和數
據的存儲與管理的改進及其在CRM 中的應用作了深入的探討和研究。
關鍵詞:客戶關系管理(CRM) 數據倉庫 數據轉移 數據粒度 數據分割
中圖分類號:TP311 文獻標識碼:A 文章編號:1006-7973(2007)03-0138-02
一、CRM 對數據倉庫技術的需求
1.動態、整合的客戶數據管理和查詢功能
客戶關系管理系統中的客戶信息必須是動態的、整合的。
動態需求方面,客戶數據倉庫能夠實時地向客戶關系管理系
統提供客戶的基本資料和歷史交易行為等信息,并在客戶每
次交易完成后,補充新的信息;整合需求方面,綜合、統一
客戶管理系統中客戶數據的客戶信息數據倉庫,可以使各業
務部門權限的不同實施信息查詢和更新功能。
2.客戶購買行為參考功能
客戶信息數據倉庫可以使企業的每一個服務人員在向客
戶提供產品和服務的時候,都能清楚客戶的習慣購買行為,
從而提供更具針對性的個性化服務。例如,聯系中心能夠根
據客戶最后一次的選擇和購買記錄,以及他們最近一次與客
戶交流獲得的有關信息,向客戶推薦不同的產品和服務。
3.客戶流失警告功能
對于企業來說,留住一個客戶的費用大約是發展一個新
客戶的費用的6 倍之多。通過對客戶信息數據倉庫中客戶歷
史交易行為的觀察和分析,可以警示客戶異常購買的行力。
例如,某個客戶的購買周期和購買量出現顯著萎縮變化時,
都是潛在客戶流失的跡象。
二、CRM 中的數據倉庫技術
1.數據轉移
數據轉移是一個較為復雜的過程,它包括數據的抽取、
轉換和裝載(ETL)。
(1)數據抽取(Data Extraction)
數據抽取就是根據CRM 數據倉庫系統數據模型的需求,
從相應的業務系統、外數據源等中抽取需要的數據。抽取出
來的數據可能需要經過轉換,采取同步或異步的方式加載到
CRM 數據倉庫系統中。根據抽取的源數據形式,選擇數據抽
取接口的原則建議為以下幾點:
① 對于數據形式為關系型數據庫的系統,建議采用
ODBC、OLEDB 或專用數據庫驅動接口方式;
② 對于數據形式是文件方式的源數據,則一般直接進入
轉換和加載流程;
③ 對于業務系統性能要求較高,業務量大,不能影響系
統性能的系統,一般應當采用高性能的數據抽取接口,比如:
專用數據庫驅動接口、OLEDB 接口等;
④ 對于數據量特別大的業務系統數據的抽取,必須采用
高效率的數據接口,比如專用的API 接口,進行編程。
數據的抽取必須能夠充分滿足CRM 數據倉庫系統分析
及決策支持的需要,同時必須保證不能影響業務系統的性能,
所以進行數據抽取時必須充分考慮這些因素,制定相應的策
略。
(2)數據轉換( Data Transformation)
數據轉換是指對從業務系統中抽取的源數據根據CRM
數據倉庫系統模型的要求,進行數據的轉換、清洗、拆分、
匯總等處理,保證數據按要求裝入CRM 數據倉庫。
根據實際情況,數據轉換工作一般會在以下幾個環節中
具體實現:
① 在抽取過程中進行數據處理;
② 使用異步數據加載,以文件的方式處理;
③ 在數據加載過程中進行數據處理;
④ 進入數據倉庫以后再進行數據處理;
采用在數據抽取過程中進行數據轉換時,必須考慮抽取
的性能以及對業務系統性能的影響;采用異步數據加載需要
以文件方式處理時,必須充分考慮中間磁盤的存儲量以及
ETL 整個流程的協調性工作和大量的非SQL 語句的編程;
采用在數據加載過程中進行數據轉換時,必須考慮加載性能;
采用先將數據裝載到CRM 數據倉庫后再處理時,必須考慮
CRM 數據倉庫引擎的海量數據處理能力。
(3)數據加載(Data Loading)
數據加載就是將從源業務系統中抽取、轉換后的數據加
載到CRM 數據倉庫系統中。一般來講,不同的數據倉庫提
供廠商,都會有自己的數據加載工具以及深入編程的API 接
口。對于用戶而言,需要重點考察的是數據加載工具的加載
性能。
數據加載策略主要包括兩方面的內容:加載周期和數據
追加策略。加載周期是指多長時間從業務系統中抽取并向
CRM 數據倉庫中加載一次數據。數據追加策略是指數據每次
是如何向CRM 數據倉庫系統中追加的。
根據CRM 系統所需業務數據的實際情況,建議對不同
業務系統采用不同的加載周期,但必須保持同一時間業務數
據的完整性。數據的追加策略可以根據數據的抽取策略以及
業務規則來確定,一般建議采用三種類型:直接追加、全部
覆蓋、更新追加。
2.數據的存儲和管理
數據倉庫的真正關鍵技術是數據的存儲和管理。大量數
據的存儲和管理是數據倉庫最重要的技術需求。管理大量數
據的方法可以通過尋址、索引、數據的外延和有效的溢出管
理。在建造CRM 數據倉庫時,理想的情況是假定其能夠滿
足處理大量數據的需求。對于CRM 中數據倉庫數據的存儲
和管理,可以從數據的粒度、數據分割和數據組織方面來研
究。這里重點討論CRM 中數據倉庫的數據粒度和數據分割。
(1)數據粒度
粒度問題是設計CRM 數據倉庫的一個最重要方面。粒
度是指CRM 數據倉庫的數據單位中保存數據的細化或綜合
程度的級別。細化程度越高,粒度級就越小;相反,細化程
度越低,粒度級就越大。
如果CRM 數據倉庫的空間很有限的話(數據量總是
CRM 數據倉庫中的首要問題),用高粒度級表示數據將比用
低粒度級表示數據的效率要高得多。高粒度級不僅只需要少
得多的字節存放數據,而且只需要較少的索引項。然而數據
量大小和原始空間問題不是僅有的應考慮的問題。為了訪問
大量數據,其處理能力的大小同樣也是應考慮的一個因素。
所以,在CRM 數據倉庫中數據壓縮非常有用。當數據被壓
縮后就會大大節省所用的DASD 存儲空間,節省所需的索引
項,以及節省處理數據的處理器資源。但是,當提高數據粒
度級時,數據所能回答查詢的能力就會隨之降低。換句話說,
在一個很低的粒度級上你實際可以回答任何問題,但在高粒
度級上,數據所能處理的問題的數量是有限的。如果在高粒
度級上包括了足夠的細節,則使用高粒度級數據的效率將會
高得多。
在管理數據的粒度問題中,粒度的權衡是首要的,大多
數據組織的最佳解決辦法是采用多重粒度級的形式。在設計
和構造CRM 數據倉庫之初就必須仔細考慮這種權衡。當一
個企業或組織的CRM 數據倉庫中擁有大量數據時,在CRM
數據倉庫的細節部分考慮雙重(或多重)粒度級是很有意義的。
事實上,需要多個粒度級而不是一個粒度級的需求,是因為
粒度級設計采用雙重級別應該是幾乎每個機構默認的選擇。
鑒于費用、效率、訪問便利和能夠回答任何可以回答的查詢
的能力,數據雙重粒度級是大多數機構建造CRM 數據倉庫
細節級的最好選擇。只有當一個機構的CRM 數據倉庫環境
中只有相對較少的數據時,才應嘗試采用數據粒度的單一級
別。
數據倉庫中往往存在著多個主題,而用戶對這些主題的
訪問頻率是不同的,就是對屬于同一主題的綜合數據,用戶
查詢的概率也不盡相同,因此在這種多重粒度的數據倉庫中,
不需要將所有綜合數據都放在CRM 數據倉庫中,可以把在
一段時間內訪問頻率相對較低的這部分綜合數據調出數據倉
庫,將其釋放的空間供當前被訪問的綜合數據使用。
綜合上述的論述,給出一種數據粒度的劃分方法:
① 按數據的歷史時序劃分粒度級別,數據存貯時間越
久,數據匯總粒度級別越高;
② 在粒度級別不同的數據間.給出緩沖區,在緩沖區內
保存同一數據的兩種存貯粒度類型,用以回答不同問題;
③ 緩沖區內數據按使用頻度決定新的粒度變換.變換閾
值由領域專家給定;
④ 變換粒度的使用頻度閾值的有效性.決定于領域專家
給定的較大的正整數值,該值取決于專家經驗。
(2)數據分割
分割是CRM 數據倉庫中數據的第二個主要的設計問題
(在粒度問題之后)。數據分割是指把數據分散到各自的物理單
元中去,它們能獨立地處理。在CRM 數據倉庫環境中,問
題不是要不要對當前細節數據進行分割,而是怎樣對當前細
節數據進行分割。對當前細節數據進行分割的總體目的是把
數據劃分成小的物理單元。小的物理單元能為操作者和設計
者在管理數據時提供比對大的物理單元更大的靈活性。
CRM 數據倉庫開發人員面臨的主要問題之一是在系統
層上還是在應用層上對數據進行分割。通常,在應用層上分
割CRM 數據倉庫的數據是很有意義的。這是有某些重要原
因的,最重要的是在應用層上每年的數據可以有不同的定義。
2002 年和2003 年的數據定義,可以相同也可以不相同。
CRM 數據倉庫中數據的性質是長期數據積累的結果。當數據
在系統層上分割時,DBMS 不可避免地希望只有一種數據定
義。假定CRM 數據倉庫中保存的數據時間較長(如達到十
年),而且數據定義經常變化,讓DBMS 或操作系統去管理
一個本該只有一種數據定義的系統將是毫無意義的。在應用
層上管理數據分割的另一重要特點是它能從一個處理集轉移
到另一個處理集而沒有損失。在CRM 數據倉庫環境中,當
工作負載和數據量成為真正的負擔時,這種特點就是一種真
正的優點。
三、結束語
全球信息化的普及使得企業CRM 所采集的數據量會更
加龐大,因此數據倉庫技術的引入可以說是一個根本上的解
決方案,可以為企業爭取更多的客戶份額,使之在激烈的市
場競爭中立于不敗之地。可以預見,隨著數據倉庫技術的進
一步成熟,CRM 也會越來越完善,必將發揮重要的作用。
參考文獻
[1] 羅納德.S.史威福特.客戶關系管理.楊東龍,姚成龍,黃
燕譯.中國經濟出版社.2002.3.
[2] 宋擒豹,楊向榮,沈均毅.數據倉庫技術研究.計算機工
程.2002.28.1:125~127.
[3] 熊忠陽,張玉芳,吳中福.數據倉庫數據加載技術.重慶大
學學報.2002.25.2:106~108.
[4] Alex Berson.構建面向CRM 的數據挖掘應用.賀奇,鄭巖
譯.人民郵電出版社.2001.8.
強力推薦:
天柏客戶關系管理系統
天柏