柚子快報邀請碼778899分享:大數(shù)據(jù)的概念和特征
柚子快報邀請碼778899分享:大數(shù)據(jù)的概念和特征
一、概念
大數(shù)據(jù)時常被人們提起,那到底什么是大數(shù)據(jù)呢?
大數(shù)據(jù)和數(shù)據(jù)庫領(lǐng)域的超大規(guī)模數(shù)據(jù)庫(VLDB)、==海量數(shù)據(jù)(massive data)==有什么不同呢?
“超大規(guī)模數(shù)據(jù)庫”這個詞是20世紀(jì)70年代中期出現(xiàn)的。在數(shù)據(jù)庫領(lǐng)域一直享有盛譽(yù)的VLDB國際會議就是1975年開始舉辦的,當(dāng)時數(shù)據(jù)庫中管理的數(shù)據(jù)集有數(shù)百萬條記錄,就是超大規(guī)模了。
“海量數(shù)據(jù)”則是21世紀(jì)初出現(xiàn)的新詞,用來描述更大的數(shù)據(jù)集以及更加豐富的數(shù)據(jù)類型。
2008年9月《自然》雜志出版??疊ig Data:science in the Petabyte Era,“大數(shù)據(jù)”這個詞開始被廣泛傳播。
上述這些詞都表示需要管理的數(shù)據(jù)規(guī)模很大,相對于當(dāng)時的計算機(jī)存儲和和處理技術(shù)水平而言遇到了技術(shù)挑戰(zhàn),需要研究和發(fā)展更加先進(jìn)的技術(shù)才能有效的存儲、管理和處理它們。
為了應(yīng)對“ 海量數(shù)據(jù) ”的挑戰(zhàn),人們研究了各種半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)模型,以及對它們的有效管理、多源數(shù)據(jù)的集成問題等。因此,大數(shù)據(jù)并不是當(dāng)前時代所獨(dú)有的特征,而是伴隨著社會發(fā)展和科技水平的提高而不斷發(fā)展演化的。當(dāng)前,人們從不同的角度在詮釋大數(shù)據(jù)的內(nèi)涵。關(guān)于大數(shù)據(jù)的一個定義是,一般意義上,大數(shù)據(jù)是指無法在可容忍的時間內(nèi)用現(xiàn)有的信息技術(shù)和軟硬件工具對其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。
還有一些專家給出的定義是,大數(shù)據(jù)通常被認(rèn)為是PB(1024TB)或EB(1024×1024TB)或更高數(shù)量級的數(shù)據(jù),包括結(jié)構(gòu)化的,半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù),其規(guī)模或復(fù)雜程度超出了傳統(tǒng)數(shù)據(jù)庫和軟件技術(shù)所能管理和處理的數(shù)據(jù)集范圍。
也有一些專家按大數(shù)據(jù)的應(yīng)用類型,將大數(shù)據(jù)分為海量事務(wù)處理數(shù)據(jù)(企業(yè)聯(lián)機(jī)事務(wù)處理應(yīng)用)、海量交互數(shù)據(jù)(社交網(wǎng)絡(luò)、傳感器、GPS 、web信息)和海量分析處理數(shù)據(jù)(企業(yè)連接分析處理應(yīng)用)。
海量事物處理數(shù)據(jù)的應(yīng)用特點(diǎn)是:
數(shù)據(jù)海量,讀寫操作比較簡單訪問和更新頻繁,一次處理的數(shù)據(jù)量不大,但要求支持事物的ACID特性對數(shù)據(jù)的完整性和安全性要求高,必須保證強(qiáng)一致性
海量交互數(shù)據(jù)的應(yīng)用特點(diǎn)是:
實(shí)時交互性強(qiáng),但不要求支持事物特性數(shù)據(jù)的典型特點(diǎn)是類型多樣異構(gòu)、不完備、噪聲大、數(shù)據(jù)增長快,不要求具有強(qiáng)一致性
海量分析處理數(shù)據(jù)的應(yīng)用特點(diǎn)是:
面向海量分?jǐn)?shù)據(jù)分析,計算復(fù)雜,往往涉及多次迭代才能完成追求數(shù)據(jù)分析的高效率,但不要求支持事物特性一般采用并行與分布式處理框架實(shí)現(xiàn)數(shù)據(jù)的特點(diǎn)是同構(gòu)性(如關(guān)系數(shù)據(jù)、文本數(shù)據(jù)或列模式數(shù)據(jù))和較好的穩(wěn)定性(不存在頻繁的更新操作)。
二、大數(shù)據(jù)的特征
1、數(shù)據(jù)量大
大數(shù)據(jù)的首要特征是數(shù)據(jù)量巨大,而且是持續(xù)、急劇地膨脹。很多研究機(jī)構(gòu)估算,2020年全球數(shù)據(jù)總量已經(jīng)超過了40ZB。
大規(guī)模數(shù)據(jù)的主要來源包括:科學(xué)研究、互聯(lián)網(wǎng)應(yīng)用、電子商務(wù)領(lǐng)域、自媒體網(wǎng)站、傳感器數(shù)據(jù)、網(wǎng)站點(diǎn)擊流數(shù)據(jù)、移動設(shè)備數(shù)據(jù)、射頻識別數(shù)據(jù)、傳統(tǒng)的數(shù)據(jù)庫和數(shù)據(jù)倉庫所管理的結(jié)構(gòu)化數(shù)據(jù)。
2、類型多樣性
越來越多的應(yīng)用使用和產(chǎn)生的數(shù)據(jù)類型不再是純粹的關(guān)系數(shù)據(jù),更多的是非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),如文本、網(wǎng)絡(luò)、圖像、音頻、視頻、網(wǎng)頁、推特和博客?,F(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)大幅增長的特點(diǎn)。
3、變化快
大數(shù)據(jù)的第三個特點(diǎn)是數(shù)據(jù)變化快,一方面指數(shù)據(jù)到達(dá)的速度很快,另一方面指有些場景需要數(shù)據(jù)進(jìn)行處理的時間很短,或者要求響應(yīng)速度很快,即實(shí)時響應(yīng)。
4、蘊(yùn)含價值
大數(shù)據(jù)的價值是潛在的、巨大的。大數(shù)據(jù)不僅具有經(jīng)濟(jì)價值和產(chǎn)業(yè)價值,而且具有科學(xué)價值。這是大數(shù)據(jù)最重要的特點(diǎn),也是大數(shù)據(jù)的魅力所在。
大數(shù)據(jù)價值的潛在性是指數(shù)據(jù)蘊(yùn)含的巨大價值只有通過對大數(shù)據(jù)以及數(shù)據(jù)之間蘊(yùn)含的聯(lián)系進(jìn)行復(fù)雜的分析、反復(fù)深入的挖掘才能獲得。而大數(shù)據(jù)自身存在的規(guī)模巨大、異構(gòu)多樣、快變復(fù)雜、安全隱私等問題,以及數(shù)據(jù)孤島、信息私有、缺乏共享的客觀現(xiàn)實(shí)都阻礙了數(shù)據(jù)價值的創(chuàng)造,其巨大潛力和目標(biāo)實(shí)現(xiàn)之間還存在著巨大的鴻溝。
柚子快報邀請碼778899分享:大數(shù)據(jù)的概念和特征
好文推薦
本文內(nèi)容根據(jù)網(wǎng)絡(luò)資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點(diǎn)和立場。
轉(zhuǎn)載請注明,如有侵權(quán),聯(lián)系刪除。