柚子快報(bào)激活碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉庫 基礎(chǔ)教程
柚子快報(bào)激活碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉庫 基礎(chǔ)教程
數(shù)據(jù)倉庫 基礎(chǔ)教程
1. 數(shù)據(jù)倉庫概述
數(shù)據(jù)倉庫(Data Warehouse,簡稱DW或者DWH)是通過集成來自多個(gè)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)來構(gòu)建的。它支持分析報(bào)告、結(jié)構(gòu)化和/或特別查詢和決策制定。本教程采用循序漸進(jìn)的方法來解釋數(shù)據(jù)倉庫的所有必要概念。
“數(shù)據(jù)倉庫”一詞最早是由Bill Inmon在1990年提出的。根據(jù)Inmon的說法,數(shù)據(jù)倉庫是面向主題的、集成的、時(shí)變的、非易失性的數(shù)據(jù)集合。這些數(shù)據(jù)有助于分析人員在組織中做出明智的決策。
由于事務(wù)的發(fā)生,操作數(shù)據(jù)庫每天都要經(jīng)歷頻繁的變化。假設(shè)業(yè)務(wù)主管想要分析任何數(shù)據(jù)(如產(chǎn)品、供應(yīng)商或任何消費(fèi)者數(shù)據(jù))的先前反饋,那么該主管將沒有可用的數(shù)據(jù)來分析,因?yàn)橄惹暗臄?shù)據(jù)已經(jīng)由于事務(wù)的變化而更新。
數(shù)據(jù)倉庫在多維視圖中為我們提供一般化和整合的數(shù)據(jù)。除了一般化和統(tǒng)一的數(shù)據(jù)視圖外,數(shù)據(jù)倉庫還為我們提供了在線分析處理(OLAP)工具。這些工具幫助我們?cè)诙嗑S空間中進(jìn)行交互式和有效的數(shù)據(jù)分析。這種分析的結(jié)果是數(shù)據(jù)泛化和數(shù)據(jù)挖掘。
將關(guān)聯(lián)、聚類、分類、預(yù)測等數(shù)據(jù)挖掘功能與OLAP操作集成在一起,增強(qiáng)了多層次抽象知識(shí)的交互式挖掘。這就是為什么數(shù)據(jù)倉庫現(xiàn)在已經(jīng)成為數(shù)據(jù)分析和在線分析處理的重要平臺(tái)。
理解數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是一個(gè)數(shù)據(jù)庫,它與組織的操作數(shù)據(jù)庫分開。數(shù)據(jù)倉庫中不需要進(jìn)行頻繁的更新。它擁有統(tǒng)一的歷史數(shù)據(jù),這有助于組織分析其業(yè)務(wù)。數(shù)據(jù)倉庫幫助管理人員組織、理解和使用他們的數(shù)據(jù)來制定戰(zhàn)略決策。數(shù)據(jù)倉庫系統(tǒng)有助于集成各種不同的應(yīng)用系統(tǒng)。數(shù)據(jù)倉庫系統(tǒng)有助于合并歷史數(shù)據(jù)分析。
為什么要將數(shù)據(jù)倉庫與操作數(shù)據(jù)庫分開?
數(shù)據(jù)倉庫與操作數(shù)據(jù)庫需要分開的原因如下:
操作數(shù)據(jù)庫是為眾所周知的任務(wù)和工作負(fù)載構(gòu)建的,例如搜索特定記錄、索引等。相較而言,數(shù)據(jù)倉庫查詢通常很復(fù)雜,它們呈現(xiàn)的是一種通用的數(shù)據(jù)形式。操作型數(shù)據(jù)庫支持并發(fā)處理多個(gè)事務(wù)。操作數(shù)據(jù)庫需要并發(fā)控制和恢復(fù)機(jī)制,以確保數(shù)據(jù)庫的健壯性和一致性。操作數(shù)據(jù)庫查詢?cè)试S讀取和修改操作,而OLAP查詢只需要對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行只讀訪問。操作數(shù)據(jù)庫維護(hù)當(dāng)前數(shù)據(jù),而數(shù)據(jù)倉庫維護(hù)歷史數(shù)據(jù)。
數(shù)據(jù)倉庫的特點(diǎn)
數(shù)據(jù)倉庫的主要特性如下所述:
面向主題—數(shù)據(jù)倉庫是面向主題的,因?yàn)樗峁﹪@主題的信息,而不是組織正在進(jìn)行的操作。這些主題可以是產(chǎn)品、客戶、供應(yīng)商、銷售、收入等。數(shù)據(jù)倉庫并不關(guān)注正在進(jìn)行的操作,而是關(guān)注用于決策制定的數(shù)據(jù)建模和分析。
集成式:通過集成關(guān)系數(shù)據(jù)庫、平面文件等異構(gòu)數(shù)據(jù)源的數(shù)據(jù)來構(gòu)建數(shù)據(jù)倉庫。這種集成增強(qiáng)了對(duì)數(shù)據(jù)的有效分析。
時(shí)變性?數(shù)據(jù)倉庫中收集的數(shù)據(jù)以特定的時(shí)間段標(biāo)識(shí)。數(shù)據(jù)倉庫中的數(shù)據(jù)從歷史角度提供信息。
非易失性?非易失性是指添加新數(shù)據(jù)時(shí)不擦除原有數(shù)據(jù)。數(shù)據(jù)倉庫與操作數(shù)據(jù)庫保持分離,因此操作數(shù)據(jù)庫的頻繁更改不會(huì)影響數(shù)據(jù)倉庫。
數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制,因?yàn)樗俏锢泶鎯?chǔ)的,與操作數(shù)據(jù)庫是分開的。
數(shù)據(jù)倉庫的應(yīng)用
如前所述,數(shù)據(jù)倉庫幫助業(yè)務(wù)主管去組織、分析和使用他們的數(shù)據(jù)進(jìn)行決策。數(shù)據(jù)倉庫是企業(yè)管理 計(jì)劃-執(zhí)行-評(píng)估“閉環(huán)”反饋系統(tǒng)的唯一組成部分。數(shù)據(jù)倉庫廣泛應(yīng)用于以下領(lǐng)域:?
金融服務(wù)
銀行服務(wù)
消費(fèi)品服務(wù)
零售部門
控制生產(chǎn)
數(shù)據(jù)倉庫的類型
信息處理、分析處理和數(shù)據(jù)挖掘是下面討論的三種類型的數(shù)據(jù)倉庫應(yīng)用
信息處理?數(shù)據(jù)倉庫可以對(duì)存儲(chǔ)在其中的數(shù)據(jù)進(jìn)行處理。數(shù)據(jù)可以通過查詢、基本統(tǒng)計(jì)分析、使用交叉表、表格、圖表或圖形進(jìn)行報(bào)告來處理。
分析處理?數(shù)據(jù)倉庫支持對(duì)存儲(chǔ)在其中的信息進(jìn)行分析處理??梢酝ㄟ^基本的OLAP操作來分析數(shù)據(jù),包括切片分析、向下鉆取(drill down)、向上鉆取(drill up,)和旋轉(zhuǎn)(pivoting)。
數(shù)據(jù)挖掘?數(shù)據(jù)挖掘通過發(fā)現(xiàn)隱藏的模式和關(guān)聯(lián)、構(gòu)建分析模型、執(zhí)行分類和預(yù)測來支持知識(shí)發(fā)現(xiàn)。這些挖掘結(jié)果可以通過可視化工具呈現(xiàn)出來。
OLAP VS OLTP
Sr.No.Data Warehouse (OLAP)Operational Database(OLTP)1它涉及信息的歷史處理。它涉及到日常的處理。2OLAP系統(tǒng)由知識(shí)工作者(如執(zhí)行人員、經(jīng)理和分析師)使用。OLTP系統(tǒng)由文員、dba或數(shù)據(jù)庫專業(yè)人員使用。3它被用來分析業(yè)務(wù)。它是用來經(jīng)營業(yè)務(wù)的4它關(guān)注的是信息輸出。它關(guān)注的是數(shù)據(jù)輸入。5它基于星型模式、雪花模式和事實(shí)星座模式。它基于實(shí)體關(guān)系模型。6它關(guān)注的是信息輸出。它是面向應(yīng)用的。7它包含歷史數(shù)據(jù)。它包含當(dāng)前數(shù)據(jù)。8它提供了匯總和合并的數(shù)據(jù)。它提供了原始的和非常詳細(xì)的數(shù)據(jù)。9它提供了數(shù)據(jù)的匯總和多維視圖。它提供了詳細(xì)而扁平的數(shù)據(jù)關(guān)系視圖。10用戶數(shù)量數(shù)以百計(jì)。用戶數(shù)量以千為單位。11訪問的記錄數(shù)以百萬計(jì)。訪問的記錄數(shù)以10計(jì)。12數(shù)據(jù)庫大小從100GB到100tb。數(shù)據(jù)庫大小為100mb ~ 100gb。13這些都是高度靈活的。它提供了高性能。
柚子快報(bào)激活碼778899分享:大數(shù)據(jù) 數(shù)據(jù)倉庫 基礎(chǔ)教程
推薦文章
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請(qǐng)注明,如有侵權(quán),聯(lián)系刪除。