柚子快報激活碼778899分享:數(shù)據(jù)倉庫總結
柚子快報激活碼778899分享:數(shù)據(jù)倉庫總結
1.為什么要做數(shù)倉建模
數(shù)據(jù)倉庫建模的目標是通過建模的方法更好的組織、存儲數(shù)據(jù),以便在性能、成本、效率和數(shù)據(jù)質量之間找到最佳平衡點。 當有了適合業(yè)務和基礎數(shù)據(jù)存儲環(huán)境的模型(良好的數(shù)據(jù)模型),那么大數(shù)據(jù)就能獲得以下好處:
當有了適合業(yè)務和基礎數(shù)據(jù)存儲環(huán)境的模型(良好的數(shù)據(jù)模型) 訪問性能:能夠快速查詢所需的數(shù)據(jù),減少數(shù)據(jù)I/O。 數(shù)據(jù)成本:減少不必要的數(shù)據(jù)冗余,實現(xiàn)計算結果數(shù)據(jù)復用,降低大數(shù)據(jù)系統(tǒng)中的存儲成本和計算成本。 使用效率:改善用戶應用體驗,提高使用數(shù)據(jù)的效率。 數(shù)據(jù)質量:改善數(shù)據(jù)統(tǒng)計口徑的不一致性,減少數(shù)據(jù)計算錯誤的可能性,提供高質量的、一致的數(shù)據(jù)訪問平臺
建模方式有哪些
er建模
在信息系統(tǒng)中,將事務抽象為“實體”(Entity)、“屬性”(Property)、“關系”(Relationship)來表示數(shù)據(jù)關聯(lián)和事物描述,這種對數(shù)據(jù)的抽象建模通常被稱為ER實體關系模型。 ER模型是數(shù)據(jù)庫設計的理論基礎,當前幾乎所有的OLTP系統(tǒng)設計都采用ER模型建模的方式 遵從三范式 1NF:原子性。 字段屬性不可再分 2NF:唯一性 。一個表只說明一個事物; 3NF:每列都與主鍵有直接關系,不存在傳遞依賴。
維度建模
關系模型雖然冗余少,但是在大規(guī)模數(shù)據(jù),跨表分析統(tǒng)計查詢過程中,會造成多表關聯(lián),這會大大降低執(zhí)行效率。所以一般都會采用維度模型建模,把相關各種表整理成兩種:事實表和維度表兩種。
在維度建模的基礎上又可分為三種模型:星型模型、雪花模型、星座模型。
維度建模是從分析決策的需求出發(fā)構建模型,為分析需求服務,因此它重點關注用戶如何更快速的完成需求分析,同事具有較好的大規(guī)模復雜查詢的相應能力。其典型的代表是星型模型,以及在一些特殊場景下使用的雪花模型。
維度建模設計分為以下步驟:
選擇需要進行分析決策的業(yè)務過程定義粒度識別維度確認事實
星型模型
星型模式是維度模型中最簡單的形式,也是數(shù)據(jù)倉庫以及數(shù)據(jù)集市開發(fā)中使用最廣泛的形式。星型模式由事實表和維度表組成,一個星型模式中可以有一個或多個事實表,每個事實表引用任意數(shù)量的維度表。
星型模型與雪花模型的區(qū)別主要在于維度的層級,標準的星型模型維度只有一層,而雪花模型可能會涉及多層。
雪花模型
雪花模式是一種多維模型中表的邏輯布局,與星型模式相同,雪花模式也是由事實表和維度表所組成。所謂的“雪花化”就是將星型模型中的維度表進行規(guī)范化處理。當所有的維度表完成規(guī)范化后,就形成了以事實表為中心的雪花型結構,即雪花模式。、
星座模型
數(shù)據(jù)倉庫由多個主題構成,包含多個事實表,而維表是公共的,可以共享(例如兩張事實表共用一些維度表時,就叫做星型模型),這種模式可以看做星型模式的匯集,因而稱作星系模式或者事實星座模式。
數(shù)據(jù)倉庫和數(shù)據(jù)庫的區(qū)別
數(shù)據(jù)庫和數(shù)據(jù)倉庫都是存儲數(shù)據(jù)的地方,關鍵是存儲數(shù)據(jù)的區(qū)別。數(shù)據(jù)倉庫準確而言是一個邏輯的概念,依托RDBMS作為數(shù)據(jù)倉庫平臺。數(shù)據(jù)庫存儲的是原始數(shù)據(jù),沒經(jīng)過任何加工;而數(shù)據(jù)倉庫是為了滿足數(shù)據(jù)分析需要設計的,對源數(shù)據(jù)進行了ETL(Extract,Transform,Load)過程,數(shù)據(jù)抽取工作分抽取、清洗、轉換、裝載。 數(shù)據(jù)倉庫中的數(shù)據(jù)主要是為了給企業(yè)做決策時分析使用,涉及的主要是對數(shù)據(jù)的查詢,一般情況下不會對數(shù)據(jù)進行修改,如果數(shù)據(jù)倉庫中的歷史數(shù)據(jù)超過存儲期限
為什么要數(shù)倉分層
我們先來看下數(shù)據(jù)倉庫為什么要分層,也就是分層的優(yōu)勢。
1)把復雜問題簡單化
將復雜的問題分解成多層來完成,每一次只處理簡單的任務,方便定位問題。
2)減少重復開發(fā)
規(guī)范數(shù)據(jù)分層,通過的中間層數(shù)據(jù),能夠減少極大的重復計算,增加一次計算結果的復用性。
3)隔離原始數(shù)據(jù)
不論是數(shù)據(jù)的異常還是數(shù)據(jù)敏感度,使真實數(shù)據(jù)與統(tǒng)計數(shù)據(jù)解耦開。
各個分層的作用
第一層:
ODS——原始數(shù)據(jù)層:存放原始數(shù)據(jù)
第二層:
DWD——數(shù)據(jù)明細層:對ODS層數(shù)據(jù)進行清洗、維度退化、脫敏等。
第三層:
DWS——數(shù)據(jù)匯總層: 對DWD層數(shù)據(jù)進行一個輕度的匯總。
第四層:
ADS——數(shù)據(jù)應用層:為各種統(tǒng)計報表提供數(shù)據(jù)
該層是基于DW層的數(shù)據(jù),整合匯總成主題域的服務數(shù)據(jù),用于提供后續(xù)的業(yè)務查詢等。
第五層:
DIM——維表層:基于維度建模理念思想,建立整個企業(yè)的一致性維度。
維表層主要包含兩部分數(shù)據(jù):
高基數(shù)維度數(shù)據(jù):一般是用戶資料表、商品資料表類似的資料表。數(shù)據(jù)量可能是千萬級或者上億級別。
低基數(shù)維度數(shù)據(jù):一般是配置表,比如枚舉值對應的中文含義,或者日期維表。數(shù)據(jù)量可能是個位數(shù)或者幾千幾萬
柚子快報激活碼778899分享:數(shù)據(jù)倉庫總結
文章鏈接
本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉載請注明,如有侵權,聯(lián)系刪除。