快速了解數據倉庫及數據建模的常用新術語
數據倉庫
數據倉庫是一個支持管理決策的數據集合。數據是面向主題的、集成的、不易丟失的并且是時間變量。
數據倉庫是所有操作環境和外部數據源的快照集合。它并不需要非常精確,因為它必須在特定的時間基礎上從操作環境中提取出來。
數據集市
數據倉庫只限于單個主題的區域,例如顧客、部門、地點等。數據集市在從數據倉庫獲取數據時可以依賴于數據倉庫,或者當它們從操作系統中獲取數據時就不依賴于數據倉庫。
事實
事實是數據倉庫中的信息單元,也是多維空間中的一個單元,受分析單元的限制。
事實存儲于一張表中(當使用關系數據庫時)或者是多維數據庫中的一個單元。
每個事實包括關于事實(收入、價值、滿意記錄等)的基本信息,并且與維度相關。
在某些情況下,當所有的必要信息都存儲于維度中時,單純的事實出現就是對于數據倉庫足夠的信息。我們稍后討論有關缺無事實的情況。
維度
維度是綁定由坐標系定義的空間的坐標系的軸線。數據倉庫中的坐標系定義了數據單元,其中包含事實。
坐標系的一個例子就是帶有 x 維度和 y 維度的 Cartesian(笛卡爾)坐標系。
在數據倉庫中,時間總是維度之一。
數據挖掘
在數據倉庫的數據中發現新信息的過程被稱為數據挖掘,這些新信息不會從操作系統中獲得。
分析空間
分析空間是數據倉庫中一定量的數據,用于進行數據挖掘以發現新信息同時支持管理決策。
切片
一種用來在數據倉庫中將一個維度中的分析空間限制為數據子集的技術。
切塊
一種用來在數據倉庫中將多個維度中的分析空間限制為數據子集的技術。
星型模式
一種使用關系數據庫實現多維分析空間的模式,稱為星型模式。
星型模式將在本白皮書中稍后進行進一步討論。
雪花模式
不管什么原因,當星型模式的維度需要進行規范化時,星型模式就演進為雪花模式。
評論