元數(shù)據(jù)管理涉及到數(shù)據(jù)倉庫構造、運行、維護的整個生命周期,是企業(yè)級數(shù)據(jù)倉庫構建過程中十分重要的一環(huán)。
元數(shù)據(jù)就是關于數(shù)據(jù)的數(shù)據(jù),是企業(yè)數(shù)據(jù)倉庫的數(shù)據(jù)地圖,記錄數(shù)據(jù)從業(yè)務系統(tǒng)到數(shù)據(jù)倉庫的整個過程,并記錄數(shù)據(jù)倉庫使用過程的信息。
元數(shù)據(jù)在數(shù)據(jù)倉庫的創(chuàng)建和維護時,都可以發(fā)揮作用。在定義元數(shù)據(jù)時,應該先完成最了解的部分,最后才為數(shù)據(jù)倉庫里的每一對象類型定義元數(shù)據(jù)。元數(shù)據(jù)細化了數(shù)據(jù)結構及數(shù)據(jù)間的關系(從數(shù)據(jù)庫視圖,或是事務規(guī)則和數(shù)據(jù)流描述的結果)。還應該記載別名、代碼表、缺省值、完成途徑、數(shù)值單位(美元或英鎊)、算法和及它相關信息,形成元數(shù)據(jù)知識庫
由于元數(shù)據(jù)涉及到數(shù)據(jù)倉庫項目建設全過程以及使用過程,如果將所有元數(shù)據(jù)都納入元數(shù)據(jù)管理,將會造成數(shù)據(jù)倉庫項目的建設周期過長。根據(jù)我們建設數(shù)據(jù)倉庫項目經驗,認為數(shù)據(jù)倉庫建設應該遵循“統(tǒng)一規(guī)劃,分步開展”的原則,建議經營分析系統(tǒng)的元數(shù)據(jù)管理應該先構造一個最小最實用集合的元數(shù)據(jù)。我們建議在以下過程中進行元數(shù)據(jù)管理:
1、業(yè)務數(shù)據(jù)源分析
分析業(yè)務系統(tǒng)數(shù)據(jù)來源、數(shù)據(jù)表、數(shù)據(jù)結構、數(shù)據(jù)類型;
制定數(shù)據(jù)接口策略;
制定數(shù)據(jù)接口格式。
2、目標數(shù)據(jù)倉庫設計(概念模型、邏輯模型、物理模型設計)
概念模型主題域及主題域之間的聯(lián)系,包括主題域屬性、數(shù)據(jù)結構、數(shù)據(jù)類型;
邏輯模型主題域及主題域之間的聯(lián)系,包括主題域屬性、數(shù)據(jù)結構、數(shù)據(jù)類型,以及數(shù)據(jù)表的劃分、數(shù)據(jù)粒度層次劃分并確定數(shù)據(jù)源;
物理模型表及關系、存儲結構、索引策略、數(shù)據(jù)存放位置以及存儲分配、與數(shù)據(jù)來源對應關系。
3、數(shù)據(jù)獲取調度及監(jiān)控設計
數(shù)據(jù)接口調度及執(zhí)行策略;
ETL調度及執(zhí)行策略。其中包括ETL執(zhí)行程序運行時間、周期、順序以及相互依賴關系;
ETL過程從數(shù)據(jù)源到目標數(shù)據(jù)的轉換關系;
ETL信息傳遞機制。
4、數(shù)據(jù)倉庫、數(shù)據(jù)集市存儲
數(shù)據(jù)倉庫中數(shù)據(jù)內容、結構、類型以及數(shù)據(jù)之間的關系;
數(shù)據(jù)倉庫中各數(shù)據(jù)指標的當前有效期限,即數(shù)據(jù)的最新更新或裝載日期、時間,以及數(shù)據(jù)倉庫中現(xiàn)存最早記錄的時間;
數(shù)據(jù)倉庫中各層次匯總的情況,數(shù)據(jù)量縮減比例,更新或同步的時間;
數(shù)據(jù)倉庫中數(shù)據(jù)質量監(jiān)控體系,哪些數(shù)據(jù)內容不詳?shù)谋壤撸男⿺?shù)據(jù)缺失等。
5、展示設計
多維模型的描述信息,其中包括:多維立方體的數(shù)目、每個立方體的維、維的各個層次、數(shù)據(jù)項的類型以及計算統(tǒng)計特征;
多維立方體與關系型數(shù)據(jù)倉庫的對應關系;
多維數(shù)據(jù)庫從關系數(shù)據(jù)倉庫的裝載調度、控制;
預定義的各種多維查詢模式、固定使用的條件對象;
6、記錄數(shù)據(jù)倉庫的使用情況
各個分析主題的訪問控制,分組授權管理;
對數(shù)據(jù)倉庫和數(shù)據(jù)集市的各個部分的訪問統(tǒng)計訪問的頻率;
用戶方的統(tǒng)計情況,作為數(shù)據(jù)倉庫性能優(yōu)化的主要依據(jù)。
對于元數(shù)據(jù)管理,當前市場上有許多這方面的工具;谝陨系脑獢(shù)據(jù)設計評估元數(shù)據(jù)管理工具,和以下元數(shù)據(jù)管理工具必須滿足的基本要求,我們建議選用IBM DB2 Warehouse Manager的元數(shù)據(jù)管理功能:
1、支持數(shù)據(jù)庫設計工具的邏輯數(shù)據(jù)模型加載
2、支持對應數(shù)據(jù)庫引擎的物理數(shù)據(jù)模型的加載
3、可以提供有效的方法加載ETL腳本及其商業(yè)規(guī)則
4、支持開放的標準:COM、XML、C++
5、為用戶提供了方便、易用、功能完備的瀏覽、查詢功能 6、不依賴于其他關系數(shù)據(jù)庫
7、提供了安全控制