欧美free性护士vide0shd,老熟女,一区二区三区,久久久久夜夜夜精品国产,久久久久久综合网天天,欧美成人护士h版

首頁綜合 正文
目錄

柚子快報激活碼778899分享:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘復(fù)習(xí)資料

柚子快報激活碼778899分享:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘復(fù)習(xí)資料

http://yzkb.51969.com/

一、題型與考點[第一種]

1、解釋基本概念(中英互譯+解釋簡單的含義); 2、簡答題(每個10分有兩個一定要記住):

① 考時間序列Time series(第六章)的基本概念含義+解釋+作用(序列模式挖掘的作用); ② 考聚類(第五章)重點考密度聚類的定義描述+DBSCAN算法的描述定義(+DBSCAN優(yōu)缺點)+應(yīng)用;

3、考綜合題:

① C4.5(ID3)考偽代碼; ② kNN考偽代碼; ③ Apriori考偽代碼; ④ k-Means考偽代碼; ⑤ PageRank考偽代碼+定義+應(yīng)用(這個題目占比很大好好復(fù)習(xí)); ⑥ EM算法應(yīng)該會考定義; ⑦ 閉合項目集會考; 考偽代碼的題目一定要去牢記,記住了應(yīng)該就差不多了(偽代碼應(yīng)該出的題目會比較簡單一些,不考選擇填空)

4、考點詳解章節(jié)?

第一章+第二章應(yīng)該只考名詞解釋、中英互譯(比如說數(shù)據(jù)挖掘、爬蟲、數(shù)據(jù)倉庫、信息熵、知識發(fā)現(xiàn)、數(shù)據(jù)分析、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、分類聚類等等); 第三章考Apriori算法+閉合項目集; 第四章考KNN算法+ID3算法+EM算法; 第五章非常重要考點多分?jǐn)?shù)很高(重點復(fù)習(xí))考聚類的技術(shù)方法+K中心點算法(定義簡答)+AGNES算法+DIANA算法考大題+密度聚類方法考DBSCAN(重點) 第六章考時間序列+序列模式挖掘的作用 第七章考web數(shù)據(jù)來源+PageRank算法+基于隨機沖浪的PageRank算法+權(quán)威中心頁面定義 第八章應(yīng)該不考;

二、題型與考點[第二種](ffjtql總結(jié))

第一章 緒論

一、[課后習(xí)題]中英互譯與解釋 1、Data Mining:數(shù)據(jù)挖掘

?(1)【簡單定義】從大型數(shù)據(jù)中挖掘所需要的知識(課后答案給的這個); ?(2)【KDD看作數(shù)據(jù)挖掘的特例】從數(shù)據(jù)庫、數(shù)據(jù)倉庫以及其他數(shù)據(jù)存儲方式中挖掘有用知識的過程(P11); ?(3)【作為KDD過程的一個步驟】KDD(知識發(fā)現(xiàn))中通過特定的算法在可接受的計算效率限制內(nèi)生成特定模式的一個步驟(P11); ?(4)【廣義】從大型數(shù)據(jù)集中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的完整過程(P11); ?(5)【狹義】從特定形式的數(shù)據(jù)集中提煉知識的過程(P11)。

2、Artificial Intelligence:人工智能 ????????研究如何應(yīng)用機器來模擬人類某些智能行為的基本理論、方法和技術(shù)的一門科學(xué)。 3、Machine Learning:機器學(xué)習(xí) ????????研究如何使用機器來模擬人類學(xué)習(xí)活動的一門學(xué)科。 4、Knowledge Engineering:知識工程 ????????研究知識信息處理并探討開發(fā)知識系統(tǒng)的技術(shù)。 5、Information Retrieval:信息檢索 ????????研究合適的信息組織并根據(jù)用戶需求快速而準(zhǔn)確地查找信息的技術(shù)。通常指的是計算機息檢索,它以計算機技術(shù)為手段,完成電子信息的匯集、存儲和查找等的相關(guān)技術(shù)。 6、Data Visualization:數(shù)據(jù)可視化 ????????運用計算機圖形學(xué)和圖像處理等技術(shù),將數(shù)據(jù)換為圖形或圖像在屏幕上顯示出來。它是進(jìn)行人機交互處理、數(shù)據(jù)解釋以及提高系統(tǒng)可用性的重要手段。 7、OLTP(On-Line Transaction Processing):聯(lián)機事務(wù)處理 ????????傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理(增刪改查),例如銀行交易(CSDN)。 8、OLAP(On-Line Analytic Processing):聯(lián)機分析處理 ????????數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果(CSDN)。 9、Decision Support:決策支持 ????????決策者通過數(shù)據(jù)、模型和知識,以人機交互方式進(jìn)行半結(jié)構(gòu)化或非結(jié)構(gòu)化決策。 10、KDD(Knowledge Discovery in Databases):知識發(fā)現(xiàn) ????????從數(shù)據(jù)中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程。 11、Transaction Database:事務(wù)數(shù)據(jù)庫 ????????一個事務(wù)數(shù)據(jù)庫是對事務(wù)型數(shù)據(jù)的收集。 12、Distributed Database:分布式數(shù)據(jù)庫 ????????物理上分散而邏輯上集中的數(shù)據(jù)庫系統(tǒng)【在邏輯上是一個統(tǒng)一的整體,在物理上則是分別存儲在不同的物理節(jié)點上】。

二、[補充]名詞解釋 1、大數(shù)據(jù):

????????指一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。 2、數(shù)據(jù)分析技術(shù)(必考):

????????是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學(xué)科,包括機器學(xué)習(xí)、數(shù)理統(tǒng)計、神級網(wǎng)絡(luò)、數(shù)據(jù)庫、模式識別、粗糙集等相關(guān)技術(shù)。 3、廣義知識(Generalization):

????????是指描述類別特征的概括性知識。這類數(shù)據(jù)挖掘系統(tǒng)是對細(xì)節(jié)數(shù)據(jù)所蘊含的概念特征信息的概括和抽象的過程。 4、關(guān)聯(lián)知識(Association):

????????反映一個事件和其他事件之間的依賴或關(guān)聯(lián)。關(guān)聯(lián)知識挖掘的目的就是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)信息。 5、傳統(tǒng)數(shù)據(jù)倉庫技術(shù):

????????使用ETL(Extract,Transform,Load)或ETCL(Extract,Transform,Clean,Load)工具實現(xiàn)數(shù)據(jù)的導(dǎo)出、轉(zhuǎn)換、清洗和裝入工具。使用操作型數(shù)據(jù)存儲(Operational Data Store.,oDS)存儲明細(xì)數(shù)據(jù),使用數(shù)據(jù)集市和數(shù)據(jù)倉庫計數(shù)實現(xiàn)面向主題的歷史數(shù)據(jù)存儲,使用多維分析工具進(jìn)行前端展現(xiàn),以及使用數(shù)據(jù)倉庫工具提供的挖掘引擎或基于單獨的數(shù)據(jù)挖掘工具進(jìn)行預(yù)測分析等。 6、數(shù)據(jù)倉庫(Data Warehouse):

????????一種新型的數(shù)據(jù)存儲和處理手段,被數(shù)據(jù)庫廠商普遍接受并且相關(guān)輔助建模和管理工具快速推向市場,成為多數(shù)據(jù)源集成的一種有效的技術(shù)支撐環(huán)境。

第二章 知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu) 一、知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD) ?【必考】一個系統(tǒng)化的工作,必須對可以利用的源數(shù)據(jù)進(jìn)行分析,確定合適的挖掘目標(biāo),然后才能著手系統(tǒng)的設(shè)計和開發(fā)。KDD是一個多步驟的處理過程,一般分為問題定義、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模式評估等基本階段。 ?過程可以簡單地概括為:首先從數(shù)據(jù)源中抽取感興趣的數(shù)據(jù),并把它組織成適合挖掘的數(shù)據(jù)組織形式;然后,調(diào)用相應(yīng)的算法生成所需的知識;最后對生成的知識模式進(jìn)行評估,并把有價值的知識集成到企業(yè)的智能系統(tǒng)中。

三、階梯處理過程模型

各階段的主要任務(wù)是:

1、數(shù)據(jù)準(zhǔn)備:了解相關(guān)領(lǐng)域的情況,弄清楚用戶的要求,確定挖掘的總體目標(biāo)和方法并對原數(shù)據(jù)結(jié)構(gòu)加以分析、確定數(shù)據(jù)選擇原則等工作。 2、數(shù)據(jù)選擇:從數(shù)據(jù)庫中提取與KDD目標(biāo)相關(guān)的數(shù)據(jù)。 3、數(shù)據(jù)預(yù)處理:主要是對上一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪聲數(shù)據(jù)進(jìn)行處理,對丟失的數(shù)據(jù)可以利用統(tǒng)計方法進(jìn)行填補。對一些不適合于操作的數(shù)據(jù)進(jìn)行必要的處理等。 4、數(shù)據(jù)縮減:對經(jīng)過預(yù)處理的數(shù)據(jù),根據(jù)知識發(fā)現(xiàn)的任務(wù)對數(shù)據(jù)進(jìn)行抽取處理,使數(shù)據(jù)再次精簡取其精華,更好地集中于用戶挖掘目標(biāo)上。 5、確定KDD的目標(biāo):根據(jù)挖掘的目標(biāo)和用戶的要求,確定KDD所發(fā)現(xiàn)的具體知識模式和類型(如分類、聚類、關(guān)聯(lián)規(guī)則等)。 6、確定數(shù)據(jù)挖掘算法:根據(jù)上一階段所確定的模式,選擇合適的數(shù)據(jù)挖掘算法(包括選取合適的參數(shù)、知識表示方式,并保證數(shù)據(jù)挖掘算法與整個KDD的評判標(biāo)準(zhǔn)相一致)。 7、數(shù)據(jù)挖掘:運用選定的算法,從數(shù)據(jù)中提取出用戶所需要的知識。 8、模式解釋:對發(fā)現(xiàn)的模式進(jìn)行解釋。在此過程中,為了取得更為有效的知識,可能會返回到前面的某些處理步驟中以改進(jìn)結(jié)果,保證提取出的知識是有效和可用的。 9、知識評價:將發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn)給用戶。這期間也包含對知識的一致性的檢查,以確信本次發(fā)現(xiàn)的知識不與以前發(fā)現(xiàn)的知識相抵觸。

第三章 關(guān)聯(lián)規(guī)則挖掘理論和算法

一、Apriori算法 1、概念與定理 2、偽代碼 (1)Apriori(發(fā)現(xiàn)頻繁項目集) (2)apriori-gen(Lk-1)(候選集產(chǎn)生) (3)has_infrequent_subset(c,Lk-1)(判斷候選集的元素) (4)從給定的頻繁項目集中生成強關(guān)聯(lián)規(guī)則 (5)遞歸測試一個頻繁項目集中的關(guān)聯(lián)規(guī)則 3、例題

二、Close算法 1、基本原理 ????????一個頻繁閉合項目集的所有閉合子集一定是頻繁的,一個非頻繁閉合項目集的所有閉合超集一定是非頻繁的。 2、閉合項集(P83例題) 例題勘誤: ? ????????由偽代碼可知,若p是其i項子集閉合的子集,則將其刪除。 ? ????????{BD}是子集{D}的閉合{BD}的子集,所以下文生成的FC2里面的BD應(yīng)該要刪掉,即FC2={AB,AC,BC}。

第四章 分類方法

一、k-Nearest Neighbors算法 1、相關(guān)概念

(1)距離度量:二維空間兩個點的歐幾里得距離(kNN算法常用距離,也被稱為L2規(guī)范)計算公式為:

(2)K值選擇:在許多實際應(yīng)用中數(shù)據(jù)是不充足的。為了選擇好的模型,可以采用交叉驗證方法。交叉驗證的基本想法是重復(fù)地使用數(shù)據(jù),把給定的數(shù)據(jù)進(jìn)行切分,將切分的數(shù)據(jù)組合為訓(xùn)練集與測試集,在此基礎(chǔ)上反復(fù)進(jìn)行訓(xùn)練測試以及模型的選擇。 (3)分類決策規(guī)則:kNN算法使用的分類決策規(guī)則是多數(shù)表決,如果損失函數(shù)為0-1損失函數(shù),那么要使誤分類率最小即使經(jīng)驗風(fēng)險最小,多數(shù)表決規(guī)則實際上就等同于經(jīng)驗風(fēng)險最小化。 (4)主要思想:計算每個訓(xùn)練數(shù)據(jù)到待分類元組的距離,取和待分類元組距離最近的k個訓(xùn)練數(shù)據(jù),k個數(shù)據(jù)中哪個類別的訓(xùn)練數(shù)據(jù)占多數(shù),則待分類元組就屬于哪個類別。

2、偽代碼 3、例題 例題勘誤: ????????本題的測試數(shù)據(jù)為<范可可,女,1.50>,并非<范可可,女,1.6>。

二、ID3算法 1、相關(guān)概念

?(1)期望信息:設(shè)S是s個數(shù)據(jù)樣本的集合。假定類標(biāo)號屬性具有m個不同值,定義m個不同類Ci (i = 1,2,......,m)。設(shè)Si是類Ci中的樣本數(shù)。對一個給定的樣本分類所需的期望信息由下式給出:

?(2)熵值:設(shè)屬性A具有v個不同值{a1,a2,...,av},可以用屬性A將S劃分為v個子集{S1,S2,...,Sv},其中Si包含S中這樣一些樣本,它們在A上具有值aj。如果A作為測試屬性(即最好的分裂屬性),則這些子集對應(yīng)于包含集合S的結(jié)點生長出來的分支。設(shè)Sij是子集Sj中類Cj的樣本數(shù)。根據(jù)由A劃分成子集的熵由下式給出:

?(3)信息增益:對于在A上分支將獲得的信息增益可以由下面的公式得到:

2、偽代碼 ? 3、例題

三、EM算法 1、定義 ????????最大期望算法(Expectation-Maximization Algorithm,又譯期望最大化算法)在統(tǒng)計中被用于尋找依賴于不可觀察的隱性變量的概率模型中參數(shù)的最大似然估計。 2、基本思想

第五章 聚類方法

一、聚類技術(shù)分類 1、劃分方法 (1)主要思想 ?????????給定一個有n個對象的數(shù)據(jù)集,劃分聚類技術(shù)將構(gòu)造數(shù)據(jù)k個劃分,每一個劃分就代表一個簇,k≤n。也就是說它將數(shù)據(jù)劃分為k個簇,而且這k個劃分滿足下列條件:

?① 每一個簇至少包含一個對象; ?② 每一個對象屬于且僅屬于一個簇。

?????????對于給定的k,算法首先給出一個初始的劃分方法,以后通過反復(fù)迭代的方法改變劃分,使得每一次改進(jìn)之后的劃分方案都較前一次更好。所謂好的標(biāo)準(zhǔn)就是:同一簇中的對象越近越好,而不同簇中的對象越遠(yuǎn)越好。目標(biāo)是最小化所有對象與其參照點之間的相異度之和。這里的遠(yuǎn)近或者相異度/相似度實際上是聚類的評價函數(shù)。 (2)代表算法 ?????????k-均值、k-中心點、k-模、k原型、PAM等。 2、層次方法 (1)凝聚層次聚類 ?????????凝聚的層次聚類是一種自底向上的策略,首先將每個對象作為一個簇,然后合并這些原子簇為越來越大的簇,直到所有的對象都在一個簇中,或者某 個終結(jié)條件被滿足,絕大多數(shù)層次聚類方法屬于這一類,它們只是在簇間相似度的定義上有所不同。代表是AGNES算法。 (2)分裂層次聚類 ?????????分裂的層次聚類與凝聚的層次聚類相反,采用自頂向下的策略,它首先將所有對象置于一個簇中,然后逐漸細(xì)分為越來越小的簇,直到每個對象自成一簇,或者達(dá)到了某個終結(jié)條件。代表是DIANA算法。 3、基于密度的方法 ?????????密度聚類方法的指導(dǎo)思想是,只要一個區(qū)域中的點的密度大于某個域值,就把它加到與之相近的聚類中去。這類算法能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”聚類的缺點,可發(fā)現(xiàn)任意形狀的聚類,且對噪聲數(shù)據(jù)不敏感。但計算密度單元的計算復(fù)雜度大,需要建立空間索引來降低計算量,且對數(shù)據(jù)維數(shù)的伸縮性較差。這類方法需要掃描整個數(shù)據(jù)庫,每個數(shù)據(jù)對象都可能引起一次查詢,因此當(dāng)數(shù)據(jù)量大時會造成頻繁的/O操作。代表算法有DBSCAN、OPTICS、DENCLUE算法等。 4、基于模型的方法 ?????????SOM(SOM神經(jīng)網(wǎng)絡(luò))和COBWEB(簡單增量概念聚類算法)。

二、k-Means算法 1、基本概念 ?????????k-平均(k-Means),也被稱為k-均值,是一種得到最廣泛使用的聚類算法。k-平均算法以k為參數(shù),把個對象分為k個簇,以使簇內(nèi)具有較高的相似度。相似度的計算根據(jù)一個簇中對象的平均值來進(jìn)行。 ????????算法首先隨機地選擇k個對象,每個對象初始地代表了一個簇的平均值或中心。對剩余的每個對象根據(jù)其與各個簇中心的距離,將它賦給最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。 ?????????k-Means算法的準(zhǔn)則函數(shù)定義為:

????????即E是數(shù)據(jù)庫所有對象的平方誤差的總和。其中x是空間中的點,表示給定的數(shù)據(jù)對象,ˉxi是簇Ci的平均值。這可以保證生成的結(jié)果簇盡可能的緊湊和獨立。 2、偽代碼 3、例題 ? 4、性能分析 (1)優(yōu)點

① 是解決聚類問題的一種經(jīng)典算法,簡單、快速; ② 對處理大數(shù)據(jù)集,該算法是相對可伸縮和高效率的; ③ 當(dāng)結(jié)果簇是密集的,它的效果較好。

(2)缺點

① 在簇的平均值被定義的情況下才能使用,可能不適用于某些應(yīng)用; ② 必須事先給出k(要生成的簇的數(shù)目),而且對初值敏感,對于不同的初始值,可能會導(dǎo)致不同結(jié)果; ③ 不適合于發(fā)現(xiàn)非凸面形狀的簇或者大小差別很大的簇。而且它對于噪聲和孤立點數(shù)據(jù)是敏感的。

三、k-中心點算法 1、基本思路 ????????首先為每個簇任意選擇一個代表對象;剩余的對象根據(jù)其與代表對象的距離分配給最近的一個簇。然后反復(fù)地用非代表對象來代替代表對象,以改進(jìn)聚類的質(zhì)量。這樣劃分方法仍然是基于最小化所有對象與其參照點之間的相異度之和的原則來執(zhí)行的。 2、PAM ????????PAM(Partitioning Around Medoid,圍繞中心點的劃分)是最早提出的k-中心點算法之一,它選用簇中位置最中心的對象作為代表對象,試圖對個對象給出個劃分。代表對象也被稱為是中心點,其他對象則被稱為非代表對象。最初隨機選擇k個對象作為中心點,該算法反復(fù)地用非代表對象來代替代表對象,試圖找出更好的中心點,以改進(jìn)聚類的質(zhì)量。在每次迭代中,所有可能的對象對被分析,每個對中的一個對象是中心點,而另一個是非代表對象。對可能的各種組合,估算聚類結(jié)果的質(zhì)量。一個對象O_i可以被使最大平方誤差值減少的對象代替。在一次迭代中產(chǎn)生的最佳對象集合成為下次迭代的中心點。 3、偽代碼 ? ? ? 四、AGNES算法 1、基本概念 ????????AGNES(AGglomerative NESting)算法是凝聚的層次聚類方法。AGNES算法最初將每個對象作為一個簇,然后這些簇根據(jù)某些準(zhǔn)則被一步步地合并。例如,如果簇C1中的一個對象和簇C2中的一個對象之間的距離是所有屬于不同簇的對象間歐氏距離中最小的,C1和C2可能被合并。這是一種單鏈接方法,其每個簇可以被簇中所有對象代表,兩個簇間的相似度由這兩個不同簇中距離最近的數(shù)據(jù)點對的相似度來確定。聚類的合并過程反復(fù)進(jìn)行直到所有的對象最終合并形成一個簇。在聚類中,用戶能定義希望得到的簇數(shù)目作為一個結(jié)束條件。 2、偽代碼 ? 3、例題 ? 五、DIANA算法 1、基本概念 ????????DIANA(Divisive ANAlysis)算法屬于分裂的層次聚類。與凝聚的層次聚類相反,它采用一種自頂向下的策略,它首先將所有對象置于一個簇中,然后逐漸細(xì)分為越來越小的簇,直到每個對象自成一簇,或者達(dá)到了某個終結(jié)條件,例如達(dá)到了某個希望的簇數(shù)目,或者兩個最近簇之間的距離超過了某個閾值。 ????????在DIANA方法的處理過程中,所有的對象初始都放在一個簇中。根據(jù)一些原則將該簇分裂。簇的分裂過程反復(fù)進(jìn)行,直到最終每個新的簇只包含一個對象。在聚類中,用戶能定義希望得到的簇數(shù)目作為一個結(jié)束條件并使用下面兩種測度方法:

① 簇的直徑:在一個簇中的任意兩個數(shù)據(jù)點都有一個歐氏距離,這些距離中的最大值是簇的直徑。 ② 平均相異度(平均距離):

2、偽代碼 ? 3、例題 ?

六、DBSCAN算法 1、基本概念 ????????DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基于密度的聚類算法。與劃分和層次聚類方法不同,它將簇定義為密度相連的點的最大集合,能夠把具有足夠高密度的區(qū)域劃分為簇,并可在有“噪聲”的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。 ????????DBSCAN的指導(dǎo)思想是,只要一個區(qū)域中,點的密度大于某個閾值,就把它加到與之相連的簇中去。

2、偽代碼 ? 3、例題

4、優(yōu)缺點 (1)優(yōu)點

?① 聚類速度快且能夠有效處理噪聲點和發(fā)現(xiàn)任意形狀的空間聚類: ?② 與k-Means比較起來,不需要輸入要劃分的聚類個數(shù): ?③ 聚類簇的形狀沒有偏倚: ?④ 對噪聲數(shù)據(jù)不敏感。

(2)缺點

?① 當(dāng)數(shù)據(jù)量增大時,要求較大的內(nèi)存支持I/O消耗也很大: ?② 當(dāng)空間聚類的密度不均勻、聚類間距差相差很大時,聚類質(zhì)量較差,因為這種情況下參數(shù)MinPts和Eps選取困難。 ?③ 算法聚類效果依賴與距離公式選取,實際應(yīng)用中常用歐式距離,對于高維數(shù)據(jù),存在“維數(shù)災(zāi)難”。

第六章 時間序列和序列模式挖掘

一、時間序列及其應(yīng)用 1、基本概念? ????????所謂時間序列就是將某一指標(biāo)在不同時間上的不同數(shù)值,按照時間的先后順序排列而成的數(shù)列。由于前后時刻的數(shù)值或數(shù)據(jù)點的相關(guān)性往往呈現(xiàn)某種趨勢性或周期性變化,因此時間序列里蘊藏著其他信息形式所不能代替的有用知識。 ????????所謂時間序列挖掘就是從時間序列數(shù)據(jù)中提取人們事先不知道的、但又是潛在有用的與時間屬性相關(guān)的信息和知識,并用于短期、中期或長期預(yù)測。指導(dǎo)人們的社會、經(jīng)濟(jì)、軍事和生活等行為。通過對過去歷史行為的客觀記錄分析,揭示其內(nèi)在規(guī)律,進(jìn)而完成預(yù)測未來行為等決策性工作。 2、應(yīng)用? ????????時間序列分析的一個重要應(yīng)用是預(yù)測,即根據(jù)已知時間序列中數(shù)據(jù)的變化特征和趨勢,預(yù)測未來屬性值。 ????????從經(jīng)濟(jì)到工程技術(shù),從天文到地理和氣象,幾乎在各種領(lǐng)域都會遇到時間序列,因此時間序列挖掘有著廣泛的數(shù)據(jù)基礎(chǔ)和廣闊的應(yīng)用前景。

二、時間序列預(yù)測的常用方法 1、確定性時間序列預(yù)測方法 ????????對于平穩(wěn)變化特征的時間序列,可以利用屬性現(xiàn)在的值預(yù)測將來的值。對于具有明顯的季節(jié)變動的時間序列來說,需要先將最近的觀察值去掉季節(jié)性因素的影響產(chǎn)生變化趨勢,然后結(jié)合季節(jié)性因素進(jìn)行預(yù)測。一種更科學(xué)的評價時間序列變動的方法是把數(shù)據(jù)的變動看成是長期趨勢、季節(jié)變動和隨機性變動共同作用的結(jié)果。時間序列分析就是設(shè)法消除隨機性波動、分解季節(jié)性變化、擬合確定性趨勢,因而形成對發(fā)展水平分析、趨勢變動分析、周期波動分析和長期趨勢加周期波動分析等一系列確定性時間序列預(yù)測方法。 ????????2、隨機性時間序列預(yù)測方法 通過建立隨機模型,對隨機時間序列進(jìn)行分析,可以預(yù)測未來值。 3、其他方法 ????????許多技術(shù),如神經(jīng)網(wǎng)絡(luò)、遺傳算法,都可用于時間序列的預(yù)測。由于大量的時間序列是非平穩(wěn)的,因此探討多種技術(shù)結(jié)合來實現(xiàn)時間序列挖掘是必要的。 ? 三、基于ARMA模型的序列匹配算法 ????????通過建立隨機模型,對隨機時間序列進(jìn)行分析,可以預(yù)測未來值。若時間序列是平穩(wěn)的,可以用自回歸(Auto Regressive model,AR)模型、移動回歸(Moving Average model,MA)模型或自回歸移動平均(Auto Regressive Moving? ????????Average model,ARMA)模型進(jìn)行分析預(yù)測。ARMA模型是時序方法中最基本的、實際應(yīng)用最廣的時序模型。此后,AR模型逐步發(fā)展為ARMA模型、多維ARMA模型。ARMA通常被廣泛用于預(yù)測。由于ARMA模型是一個信息的凝聚器,可將系統(tǒng)的特性與系統(tǒng)狀態(tài)的所有信息凝聚在其中,因而它也可以用于時間序列的匹配。

四、序列挖掘 1、基本概念 ????????序列挖掘或稱序列模式挖掘,是指從序列數(shù)據(jù)庫中發(fā)現(xiàn)蘊含的序列模式。時間序列分析和序列模式挖掘有許多相似之處,在應(yīng)用范疇、技術(shù)方法等方面也有很大的重合度。但序列挖掘一般是指相對時間或者其他順序出現(xiàn)的序列的高頻率子序列的發(fā)現(xiàn),典型的應(yīng)用還是限于離散型序列。 2、應(yīng)用 ????????近年來序列模式挖掘已經(jīng)成為數(shù)據(jù)挖掘的一個重要方面,其應(yīng)用范圍也不局限于交易數(shù)據(jù)庫,在DNA分析等尖端科學(xué)研究領(lǐng)域、Web訪問等新型應(yīng)用數(shù)據(jù)源等眾多方面得到針對性研究。 3、步驟

(1)排序階段:對數(shù)據(jù)庫進(jìn)行排序(Sort),排序的結(jié)果將原始的數(shù)據(jù)庫轉(zhuǎn)換成序列數(shù)據(jù)庫(比較實際可能需要其他的預(yù)處理手段來輔助進(jìn)行); (2)大項集階段:這個階段要找出所有頻繁的項集(即大項集)組成的集合L。實際上,也同步得到所有大1-序列組成的集合,即{ | l∈L}; (3)轉(zhuǎn)換階段:在尋找序列模式的過程中,我們要不斷地進(jìn)行檢測一個給定的大序列集合是否包含于一個客戶序列中; (4)序列階段:利用轉(zhuǎn)換后的數(shù)據(jù)庫尋找頻繁的序列,即大序列(Large Sequence); (5)選最大階段:在大序列集中找出最長序列(Maximal Sequences)。

? 五、AprioriAll & AprioriSome 1、AprioriAll算法 ????????AprioriAll算法源于頻繁集算法Apriori,它把Apriori的基本思想(如果某個項集是頻繁的,那么它的所有子集也是頻繁的)擴展到序列挖掘中,也是一個多遍掃描數(shù)據(jù)庫的算法。 在每一遍掃描中都利用前一遍的大序列來產(chǎn)生候選序列,然后在完成遍歷整個數(shù)據(jù)庫后測試它們的支持度。 ????????在第一遍掃描中,利用大項目集階段的輸出來初始化大1-序列的集合。 在每次遍歷中,從一個由大序列組成的種子集開始,利用這個種子集,可以產(chǎn)生新的潛在的大序列。 ????????在第一次遍歷前,所有在大項集階段得到的大1-序列組成了種子集。 2、AprioriSome算法 ????????AprioriSome算法可以看作是AprioriAll算法的改進(jìn),具體過程分為兩個階段:

(1)前推階段用于找出指定長度的所有大序列; (2)回溯階段用于查找其他長度的所有大序列。

第七章 Web挖掘技術(shù)

一、Web挖掘的數(shù)據(jù)來源 1、服務(wù)器日志數(shù)據(jù) ????????個人瀏覽Web服務(wù)器時,服務(wù)器方將會產(chǎn)生三種類型的日志文件:Server logs、Error logs和Cookie logs,這些日志用于記錄用戶訪間的基本情況,因此也是進(jìn)行Web訪問信息挖掘的主要數(shù)據(jù)源。 2、在線市場數(shù)據(jù) ????????在線市場數(shù)據(jù)是指和市場活動相關(guān)的信息。例如一個電子商務(wù)站點,存儲相關(guān)的電子商務(wù)信息。從內(nèi)容上說,不同目的的商務(wù)網(wǎng)站有不同的商務(wù)信息。但是,這類數(shù)據(jù)通常是用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫結(jié)構(gòu)來存儲數(shù)據(jù)。在線市場數(shù)據(jù)是業(yè)務(wù)數(shù)據(jù),是進(jìn)行業(yè)務(wù)相關(guān)分析的主體。用戶的挖掘目標(biāo)只有結(jié)合在線市場數(shù)據(jù)分析才能達(dá)到目的。 3、Web頁面 ????????現(xiàn)有的Web數(shù)據(jù)挖掘方法大都是針對Web頁面開展的。目前的Web頁面大多滿足HTML標(biāo)準(zhǔn)。由于HTML頁面包含文本和多媒體信息(包括圖片,語音,圖像),所以涉及數(shù)據(jù)挖掘領(lǐng)域中的文本挖掘和多媒體挖掘?,F(xiàn)有的HTML頁面內(nèi)容,缺乏標(biāo)準(zhǔn)的描述方式,難以挖掘。為了解決這個問題,1998年WWW社團(tuán)提出了XML語言標(biāo)準(zhǔn)(eXtensible Markup Language)。該標(biāo)準(zhǔn)通過把一些描述頁面內(nèi)容的標(biāo)記(tag)添加到HTML頁面中,用于對HTML頁面內(nèi)容進(jìn)行自描述,例如對一個內(nèi)容為科技論文的頁面添加相關(guān)標(biāo)記,描述其作者,關(guān)鍵詞等。XML的標(biāo)記并不是限制死的,是由頁面的創(chuàng)立者自己安排給出和定義的,但要遵循一定的規(guī)范。 4、Web頁面超鏈接關(guān)系 ????????Web頁面之間的超鏈接關(guān)系是一種重要的資源,頁面的設(shè)計者把它們認(rèn)為是重要的頁面地址添加到自己的頁面上。顯然,如果一個頁面被很多頁面引用,那么它一定是重要的。這就是從中需要挖掘的知識。 5、其他信息 ????????這些信息主要包括用戶注冊信息等一系列信息。為了更好地實現(xiàn)挖掘任務(wù),適當(dāng)?shù)馗郊有畔ⅲㄈ缑枋鲇脩舻幕厩闆r和特征的信息)是必要的。 ? 二、Web結(jié)構(gòu)挖掘方法 1、頁面等級(PageRank)方法 (1)頁面等級 ????????設(shè)u為一個Web頁,Bu為所有指向u的頁面的集合,F(xiàn)u為所有u指向的頁面的集合,c(<1)為一個歸一化的因子,那么u頁面的等級R(u)被定義為:

????????基本的頁面分級方法主要考慮一個頁面的入度,即通過進(jìn)入該頁面的頁面等級得到。同時在將一個頁面的等級值傳遞時,采用平均分配方法傳遞到所有它所指向的頁面,即每個從它鏈接處的頁面等分它的等級值。 (2)基于隨機沖浪模型的頁面等級值 ????????設(shè)u為一個Web頁,Bu為所有指向u的頁面的集合,F(xiàn)u為所有u指向的頁面的集合。假設(shè)用戶按著概率d隨機單擊一個超級鏈接來繼續(xù)瀏覽頁面,則基于隨機沖浪模型的頁面等級值可以通過下式計算:

????????d的經(jīng)驗值被很多文獻(xiàn)推薦為0.85或0.5,這樣能最大程度保證等級值的傳遞一直順利地進(jìn)行下去,避免出現(xiàn)中斷或者被無限放大。 2、PageRank算法 (1)基本概念 ????????PageRank算法的核心部分可以從一個有向圖開始。最典型的方法是根據(jù)有向圖構(gòu)造一個鄰接矩陣來進(jìn)行處理。鄰接矩陣A=(a(i,j))中的元素a(i,j) (∈[0,1])表示從頁面j指向頁面i的概率。 ????????基本的PageRank算法在計算等級值時,每個頁面都將自己的等級值平均地分配給其引用的頁面節(jié)點。假設(shè)一個頁面的等級值為1,該頁面上共有n個超鏈接,其分配給每個超鏈接頁面的等級值就是1/n,那么就可以理解為該頁面以1/n的概率跳轉(zhuǎn)到任意一個其所引用的頁面上。 ????????一般地,把鄰接矩陣A轉(zhuǎn)換成所謂的轉(zhuǎn)移概率矩陣M來實現(xiàn)PageRank算法:

????????其中,Q是一個常量矩陣,最常用的是Q=(q(i,j)),q(i,j)=1/n. ????????轉(zhuǎn)移概率矩陣M可以作為一個向量變換矩陣來幫助完成頁面等級值向量R的迭代計算:

(2)偽代碼 ? (3)例題

3、權(quán)威頁面和中心頁面 (1)基本概念

?① 權(quán)威頁面是指包含需求信息的最佳資源頁面; ?② 中心頁面是一個包含權(quán)威頁面鏈接的頁面。

(2)HITS技術(shù)組成

?① 基于一組給定的關(guān)鍵字,可以找到相關(guān)的頁面(有可能相當(dāng)多); ?② 權(quán)威頁面和中心頁面與上述頁面有關(guān),具有最高權(quán)重的頁面被返回。

(3)HITS偽代碼 ?

? ?

柚子快報激活碼778899分享:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘復(fù)習(xí)資料

http://yzkb.51969.com/

好文閱讀

評論可見,查看隱藏內(nèi)容

本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。

轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。

本文鏈接:http://m.gantiao.com.cn/post/18695083.html

發(fā)布評論

您暫未設(shè)置收款碼

請在主題配置——文章設(shè)置里上傳

掃描二維碼手機訪問

文章目錄