欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報邀請碼778899分享:學(xué)習(xí) 數(shù)據(jù)倉庫ppt復(fù)習(xí)提綱

柚子快報邀請碼778899分享:學(xué)習(xí) 數(shù)據(jù)倉庫ppt復(fù)習(xí)提綱

http://yzkb.51969.com/

數(shù)據(jù)倉庫ppt復(fù)習(xí)提綱

第一章:數(shù)據(jù)倉庫的概念和體系結(jié)構(gòu)

概述 1

數(shù)據(jù)倉庫數(shù)據(jù)挖掘 數(shù)據(jù)庫的興起

人工管理文件系統(tǒng)數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)倉庫 3

聯(lián)機(jī)事務(wù)處理(針對事務(wù)A、B) -> 聯(lián)機(jī)分析處理(針對場景A+B)面向分析決策型應(yīng)用的數(shù)據(jù)倉庫數(shù)據(jù)倉庫和數(shù)據(jù)庫的區(qū)別和聯(lián)系 3 數(shù)據(jù)倉庫的基本概念

元數(shù)據(jù)

def:對數(shù)據(jù)進(jìn)行描述的數(shù)據(jù)按照應(yīng)用場合分類

數(shù)據(jù)元數(shù)據(jù)(數(shù)據(jù)源信息)過程元數(shù)據(jù)(軟件接口功能) 按照用途分類 4

技術(shù)元數(shù)據(jù)業(yè)務(wù)元數(shù)據(jù) 數(shù)據(jù)粒度

粒度越大,細(xì)節(jié)程度越低,綜合性越高四種粒度級別 1.2.2 數(shù)據(jù)模型

概念數(shù)據(jù)模型:現(xiàn)實(shí)-信息

星型模型

事實(shí)表維表 雪花模型星系模型 邏輯數(shù)據(jù)模型:信息-數(shù)據(jù)物理數(shù)據(jù)模型:數(shù)據(jù)-計算機(jī) ETL 5-1.2.4

ETL的定義:抽取、轉(zhuǎn)換、加載數(shù)據(jù)抽?。簲?shù)據(jù)提取、數(shù)據(jù)清潔、數(shù)據(jù)轉(zhuǎn)換、生成衍生數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換:字段級轉(zhuǎn)哈努、清潔和凈化、數(shù)據(jù)派生、數(shù)據(jù)聚合和匯總 數(shù)據(jù)集市

def:關(guān)于少數(shù)幾個主題的小型數(shù)據(jù)倉庫面向分析決策型應(yīng)用兩種構(gòu)建方式

自下而上自上而下 **5層模型 5-1.2.5 ** 書p16

數(shù)據(jù)源(最基本)數(shù)據(jù)預(yù)處理數(shù)據(jù)存儲于管理(最關(guān)鍵)OLAP服務(wù)器:從不同維度來分析數(shù)據(jù)數(shù)據(jù)處理 數(shù)據(jù)倉庫的特點(diǎn)和組成 6

四個基本特征:面向主題、數(shù)據(jù)集成、數(shù)據(jù)非易失、數(shù)據(jù)隨時間變化

基本原則:面向主題最重要特征:數(shù)據(jù)是集成的 組成:加載管理器、倉庫管理器、查詢管理器 數(shù)據(jù)倉庫體系結(jié)構(gòu) 9

大數(shù)據(jù)5V特征 p18各種挑戰(zhàn)大數(shù)據(jù)時代的數(shù)據(jù)倉庫 第二章:數(shù)據(jù) 11

數(shù)據(jù)的概念

數(shù)據(jù)是信息的表現(xiàn)形式和載體數(shù)據(jù)經(jīng)過加工后變?yōu)樾畔?數(shù)據(jù)分類數(shù)據(jù)屬性

標(biāo)稱序數(shù)區(qū)間比率 數(shù)據(jù)集的三個重要特性:維度、稀疏性、分辨率 12數(shù)據(jù)預(yù)處理

意義 13數(shù)據(jù)清洗

空缺值處理屬性選擇噪聲處理14

分箱;聚類;回歸均值;最近邊界;中值 數(shù)據(jù)集成 16

出現(xiàn)的問題:模式匹配、數(shù)據(jù)值沖突、數(shù)據(jù)冗余 數(shù)據(jù)變換 17

平滑、聚集、概化、規(guī)范化、屬性構(gòu)造 數(shù)據(jù)歸約

縮小數(shù)據(jù)范圍數(shù)據(jù)壓縮:哈弗曼編碼 23 總結(jié) 23

數(shù)據(jù)是信息的表現(xiàn)形式和載體,數(shù)據(jù)加工后成為信息按照數(shù)據(jù)內(nèi)容可以將數(shù)據(jù)分為:,,,,數(shù)據(jù)集的三個重要特性:維度、稀疏性、分辨率 12數(shù)據(jù)清洗填補(bǔ)空缺值、光滑噪聲和識別噪聲點(diǎn),并糾正數(shù)據(jù)的不一致性數(shù)據(jù)集成將來自多個數(shù)據(jù)源的數(shù)據(jù)整合成一致的數(shù)據(jù)存儲數(shù)據(jù)歸約使得信息內(nèi)容損失最小化數(shù)據(jù)變換將數(shù)據(jù)變換為適合于挖掘的形式 第三章:數(shù)據(jù)存儲 24

數(shù)據(jù)倉庫三層次數(shù)據(jù):源數(shù)據(jù)層,基礎(chǔ)數(shù)據(jù)層,數(shù)據(jù)集市層 數(shù)據(jù)倉庫的數(shù)據(jù)模型

現(xiàn)實(shí)世界 概念模型(ER圖、面向?qū)ο蠓治觯? 邏輯模型 26

星型模型

三種邏輯實(shí)體:事實(shí)表;維度表(用戶分析數(shù)據(jù)的窗口);對應(yīng)聯(lián)系 雪花模型 邏輯模型的四個基本結(jié)構(gòu) 粒度 & 數(shù)據(jù)分割 物理模型 28 元數(shù)據(jù)存儲 29

元數(shù)據(jù)定義分類作用 30-3.2.4 數(shù)據(jù)集市 大數(shù)據(jù)存儲技術(shù) 第四章:OLAP與數(shù)據(jù)立方體

OLAP含義 34-4.1.1 OLAP準(zhǔn)則 4.1.2 OLAP特征 36-4.1.3

線性的響應(yīng)時間和多維分析能力四個特征:快速性、可分析性、多維性、信息性 多維分析操作

切片切塊鉆取旋轉(zhuǎn) 數(shù)據(jù)模型 37-4.3

MOLAP:查詢效率高 39

基于多維數(shù)據(jù)庫響應(yīng)速度快數(shù)據(jù)膨脹,內(nèi)存占用大 ROLAP:存儲效率高

基于關(guān)系數(shù)據(jù)庫星型模型面對多層次的復(fù)雜維度,使用雪花模型:一個復(fù)雜的維度通過多張表來描述優(yōu)勢&劣勢 38-4.3.1

沒有大小限制但是響應(yīng)速度差。。 MOLAP和ROLAP的對比 40-4.3.3 數(shù)據(jù)立方體 40

數(shù)據(jù)倉庫針對數(shù)據(jù)立方體進(jìn)行查詢維度:觀測角度測度:觀察到的值 第五章:數(shù)據(jù)挖掘基礎(chǔ) 44

數(shù)據(jù)挖掘的定義數(shù)據(jù)庫中的知識發(fā)現(xiàn)KDD數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系

數(shù)據(jù)倉庫是一種解決方案,是對原始操作數(shù)據(jù)進(jìn)行各種處理并轉(zhuǎn)換為有用信息的處理過程數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的數(shù)據(jù)源;數(shù)據(jù)挖掘是數(shù)據(jù)倉庫的應(yīng)用 數(shù)據(jù)挖掘任務(wù) 45

關(guān)聯(lián)規(guī)則聚類分析

劃分聚類;層次聚類;基于密度的聚類通常作為數(shù)據(jù)挖掘的第一步 分類分析回歸分析相關(guān)分析異常檢測 數(shù)據(jù)挖掘流程 49

數(shù)據(jù)挖掘?qū)ο?/p>

結(jié)構(gòu)化數(shù)據(jù):關(guān)系數(shù)據(jù)庫;數(shù)據(jù)倉庫

數(shù)據(jù)庫中的數(shù)據(jù)需要先進(jìn)行預(yù)處理數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的最佳環(huán)境 非結(jié)構(gòu)化數(shù)據(jù) 數(shù)據(jù)挖掘分類知識發(fā)現(xiàn) 50

數(shù)據(jù)挖掘只是知識發(fā)現(xiàn)的一個步驟相關(guān)數(shù)據(jù)的收集和提取是知識發(fā)現(xiàn)的關(guān)鍵性工作 填空題

第一章

數(shù)據(jù)倉庫的特點(diǎn)分別是: 元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。根據(jù)元數(shù)據(jù)用途的不同可將元數(shù)據(jù)分為 技術(shù) 元數(shù)據(jù)和 業(yè)務(wù) 元數(shù)據(jù)兩類 OLAP技術(shù)多維分析過程中,多維分析操作包括 切片 、 切塊 、 鉆取 、 旋轉(zhuǎn) 等 數(shù)據(jù)庫中的知識挖掘(KDD)包括以下七個步驟:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)選擇,數(shù)據(jù)變換,數(shù)據(jù)挖掘,模式評估,知識表示 數(shù)據(jù)挖掘的性能問題主要包括:算法的效率、可擴(kuò)展性和并行處理 當(dāng)前的數(shù)據(jù)挖掘研究中,最主要的三個研究方向是:統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)和機(jī)器學(xué)習(xí) 在萬維網(wǎng)(WWW)上應(yīng)用的數(shù)據(jù)挖掘技術(shù)常被稱為:WEB挖掘 第二章

進(jìn)行數(shù)據(jù)預(yù)處理時所使用的主要方法包括:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約 處理噪聲數(shù)據(jù)的方法主要包括:分箱、聚類、計算機(jī)和人工檢查結(jié)合、回歸 模式集成的主要問題包括:整合不同數(shù)據(jù)源中的元數(shù)據(jù),實(shí)體識別問題 數(shù)據(jù)概化是指:沿概念分層向上概化 數(shù)據(jù)壓縮可分為:有損壓縮,無損壓縮 進(jìn)行數(shù)值歸約時,三種常用的有參方法是:線性回歸方法,多元回歸,對數(shù)線性模型 第三章

概念分層有四種類型,分別是:模式分層,集合分組分層,操作導(dǎo)出的分層,基于規(guī)則的分層同時滿足最小置信度臨界值、最小支持度臨界值的關(guān)聯(lián)規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則 第四章

關(guān)聯(lián)規(guī)則挖掘中,兩個主要的興趣度度量是:支持度和置信度Aprior算法包括和兩個基本步驟:連接和剪枝大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘包含兩個過程:找出所有頻繁項(xiàng)集、由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則 第五章

通過對數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類和預(yù)測過程的準(zhǔn)確性、有效性和可伸縮性 第六章

在數(shù)據(jù)挖掘中,常用的聚類算法包括:劃分方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法許多基于內(nèi)存的聚類算法所常用的兩種數(shù)據(jù)結(jié)構(gòu)是和數(shù)據(jù)矩陣、相異度矩陣

何謂數(shù)據(jù)挖掘它有哪些方面的功能

從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。

數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、趨勢分析、孤立點(diǎn)分析以及偏差分析等。

何謂數(shù)據(jù)倉庫為什么要建立數(shù)據(jù)倉庫

數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。

建立數(shù)據(jù)倉庫的目的有3個:

一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問題,數(shù)據(jù)倉庫能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫更快的大規(guī)模決策分析的響應(yīng)速度。

二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫不能直接提供的。

三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對分析結(jié)果還要以商業(yè)智能的方式進(jìn)行表現(xiàn),這是事務(wù)數(shù)據(jù)庫不能提供的。

何謂聚類它與分類有什么異同

聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。

聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規(guī)則進(jìn)行;聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實(shí)例,屬于觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí)。

結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的主要區(qū)別是什么?

雖然結(jié)構(gòu)化(定量)數(shù)據(jù)提供了客戶的“鳥瞰圖”,但非結(jié)構(gòu)化(定性)數(shù)據(jù)提供了對客戶行為和意圖的更深入了解。讓我們探討一些關(guān)鍵的差異領(lǐng)域及其影響:

**來源:**結(jié)構(gòu)化數(shù)據(jù)來源于 GPS 傳感器、在線表格、網(wǎng)絡(luò)日志、Web 服務(wù)器日志、OLTP 系統(tǒng)等,而非結(jié)構(gòu)化數(shù)據(jù)源包括電子郵件、文字處理文檔、PDF 文件等。**形式:**結(jié)構(gòu)化數(shù)據(jù)由數(shù)字和數(shù)值組成,而非結(jié)構(gòu)化數(shù)據(jù)由傳感器、文本文件、音頻和視頻文件等組成。**模型:**結(jié)構(gòu)化數(shù)據(jù)具有預(yù)定義的數(shù)據(jù)模型,并在放入數(shù)據(jù)存儲之前被格式化為一組數(shù)據(jù)結(jié)構(gòu)(例如,寫入時模式),而非結(jié)構(gòu)化數(shù)據(jù)以其本機(jī)格式存儲并且在使用之前不會被處理(例如,讀取模式)。**存儲:**結(jié)構(gòu)化數(shù)據(jù)以需要較少存儲空間的表格格式(例如,Excel 表或 SQL 數(shù)據(jù)庫)存儲。它可以存儲在數(shù)據(jù)倉庫中,這使其具有高度可擴(kuò)展性。另一方面,非結(jié)構(gòu)化數(shù)據(jù)存儲為需要更多空間的媒體文件或 NoSQL 數(shù)據(jù)庫。它可以存儲在數(shù)據(jù)湖中,這使得它難以擴(kuò)展。**用途:**結(jié)構(gòu)化數(shù)據(jù)用于機(jī)器學(xué)習(xí) (ML) 并驅(qū)動其算法,而非結(jié)構(gòu)化數(shù)據(jù)用于自然語言處理(NLP) 和文本挖掘。

相似點(diǎn)如下:

目標(biāo):結(jié)構(gòu)化數(shù)據(jù)挖掘和非結(jié)構(gòu)化數(shù)據(jù)挖掘都是通過分析數(shù)據(jù)來發(fā)現(xiàn)隱藏在數(shù)據(jù)中的有用信息和模式,以幫助人們做出更好的決策。技術(shù):結(jié)構(gòu)化數(shù)據(jù)挖掘和非結(jié)構(gòu)化數(shù)據(jù)挖掘都使用類似的數(shù)據(jù)挖掘技術(shù),例如聚類、分類、關(guān)聯(lián)規(guī)則挖掘等。數(shù)據(jù)預(yù)處理:結(jié)構(gòu)化數(shù)據(jù)挖掘和非結(jié)構(gòu)化數(shù)據(jù)挖掘都需要進(jìn)行數(shù)據(jù)清洗、特征選擇、數(shù)據(jù)轉(zhuǎn)換等預(yù)處理步驟,以提高數(shù)據(jù)的質(zhì)量和可挖掘性。數(shù)據(jù)可視化:結(jié)構(gòu)化數(shù)據(jù)挖掘和非結(jié)構(gòu)化數(shù)據(jù)挖掘都需要使用數(shù)據(jù)可視化技術(shù),以幫助人們更好地理解和解釋數(shù)據(jù)挖掘的結(jié)果。應(yīng)用場景:結(jié)構(gòu)化數(shù)據(jù)挖掘和非結(jié)構(gòu)化數(shù)據(jù)挖掘都可以應(yīng)用于各種領(lǐng)域,例如商業(yè)、金融、醫(yī)療、教育、社交媒體、搜索引擎等。

文本分類和文本聚類的異同

文本分類和文本聚類都是文本挖掘的主要技術(shù),它們之間有一些重要的異同點(diǎn)。

異同點(diǎn)如下:

目標(biāo):文本分類和文本聚類的目標(biāo)不同。文本分類的目標(biāo)是將文本分為不同的預(yù)定義類別,例如新聞分類、垃圾郵件過濾等。而文本聚類的目標(biāo)是將文本聚集成不同的組,每個組內(nèi)的文本具有相似的主題或內(nèi)容。數(shù)據(jù)處理:文本分類和文本聚類的數(shù)據(jù)處理方式也不同。在文本分類中,需要進(jìn)行特征提取和選擇,以提取最相關(guān)的特征并減少噪聲和冗余。在文本聚類中,需要進(jìn)行相似度計算和聚類算法,以確定文本之間的相似度和聚類的結(jié)果。算法:文本分類和文本聚類使用的算法也不同。文本分類常使用的算法包括樸素貝葉斯、支持向量機(jī)(SVM)和決策樹等。文本聚類常使用的算法包括K均值、層次聚類和密度聚類等。性能評估:文本分類和文本聚類的性能評估方式也不同。文本分類通常使用準(zhǔn)確率、召回率、F1得分等指標(biāo)來評估分類器的性能。文本聚類通常使用類內(nèi)相似度、類間距離等指標(biāo)來評估聚類的性能。應(yīng)用場景:文本分類和文本聚類都有廣泛的應(yīng)用場景。文本分類常用于新聞分類、情感分析、垃圾郵件過濾等領(lǐng)域。文本聚類常用于文本聚合、信息檢索、社交媒體分析等領(lǐng)域。

Web挖掘是指從Web中提取有用的信息和知識的過程,其中包括內(nèi)容挖掘、結(jié)構(gòu)挖掘和使用挖掘等三種方法。

這三種方法的特點(diǎn)如下:

內(nèi)容挖掘:內(nèi)容挖掘是指從Web頁面中提取文本、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)的過程。內(nèi)容挖掘的特點(diǎn)是需要使用自然語言處理和機(jī)器學(xué)習(xí)等技術(shù)來處理非結(jié)構(gòu)化數(shù)據(jù),例如文本分類、情感分析、實(shí)體識別等。內(nèi)容挖掘的應(yīng)用場景包括搜索引擎、新聞聚合、社交媒體分析等。結(jié)構(gòu)挖掘:結(jié)構(gòu)挖掘是指從Web頁面的結(jié)構(gòu)中提取信息的過程,例如HTML標(biāo)記、鏈接、網(wǎng)頁層次結(jié)構(gòu)等。結(jié)構(gòu)挖掘的特點(diǎn)是需要使用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等技術(shù)來識別和提取網(wǎng)頁的結(jié)構(gòu)信息,例如網(wǎng)頁聚類、網(wǎng)頁分類、網(wǎng)頁去重等。結(jié)構(gòu)挖掘的應(yīng)用場景包括信息檢索、網(wǎng)頁去重、網(wǎng)頁分類等。使用挖掘:使用挖掘是指從Web使用記錄中提取有用的信息和知識的過程,例如用戶行為、點(diǎn)擊率、購買記錄等。使用挖掘的特點(diǎn)是需要使用大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)等技術(shù)來分析和挖掘用戶行為數(shù)據(jù),例如推薦系統(tǒng)、廣告定向投放、用戶畫像等。使用挖掘的應(yīng)用場景包括電商平臺、社交媒體、在線廣告等。

柚子快報邀請碼778899分享:學(xué)習(xí) 數(shù)據(jù)倉庫ppt復(fù)習(xí)提綱

http://yzkb.51969.com/

推薦閱讀

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://m.gantiao.com.cn/post/19560262.html

發(fā)布評論

您暫未設(shè)置收款碼

請在主題配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄