柚子快報激活碼778899分享:大數(shù)據(jù)的5個V
柚子快報激活碼778899分享:大數(shù)據(jù)的5個V
大數(shù)據(jù)的5V是什么?
大數(shù)據(jù)的5V——速度(velocity)、體積(volume)、價值(value)、多樣性(variety)和準確性(vaccuracy)——是大數(shù)據(jù)的五大固有特征。了解5V可以讓數(shù)據(jù)科學家從他們的數(shù)據(jù)中獲得更多價值,同時也可以讓他們的組織變得更加以客戶為中心。
本世紀初,大數(shù)據(jù)被稱為“3V”——體積(volume)、速度(velocity)和多樣性(variety)。隨著時間的推移,又增加了兩個V——價值(value)和準確性(veracity),以幫助數(shù)據(jù)科學家更有效地表達和傳達大數(shù)據(jù)的重要特征。在某些情況下,大數(shù)據(jù)甚至還有第六個V項——可變性。
什么是大數(shù)據(jù)?
大數(shù)據(jù)是組織收集的非結構化、半結構化或結構化數(shù)據(jù)的組合。這些數(shù)據(jù)集可以被挖掘以獲得洞察力,并用于機器學習項目、預測建模和其他高級分析應用程序。
大數(shù)據(jù)可以用來改善運營,提供更好的客戶服務,并創(chuàng)建個性化的營銷活動——所有這些都可以為組織增加價值。例如,大數(shù)據(jù)分析可以為公司提供有價值的客戶洞察,然后可以用來改進營銷技術,以提高客戶參與度和轉化率。
大數(shù)據(jù)可以用于醫(yī)療保健,以識別疾病風險因素,或者醫(yī)生可以使用大數(shù)據(jù)來幫助診斷患者的疾病。能源行業(yè)可以使用大數(shù)據(jù)來跟蹤電網(wǎng),制定風險管理或進行實時市場數(shù)據(jù)分析。
使用大數(shù)據(jù)的組織比那些不使用大數(shù)據(jù)的組織具有潛在的競爭優(yōu)勢,因為它們可以做出更快、更明智的商業(yè)決策——就像數(shù)據(jù)提供的那樣。
5個V是什么?
5V的定義如下:
速度是指數(shù)據(jù)產(chǎn)生的速度和移動的速度。體積是指符合大數(shù)據(jù)標準的數(shù)據(jù)量。價值是數(shù)據(jù)提供的值。多樣性是存在于數(shù)據(jù)類型中的多樣性。準確性是指數(shù)據(jù)的質(zhì)量和準確性。
速度
速度指的是數(shù)據(jù)產(chǎn)生的速度和移動的速度。對于需要數(shù)據(jù)快速流動的組織來說,這是一個重要的方面,因此可以在正確的時間使用它來做出最佳的業(yè)務決策。
使用大數(shù)據(jù)的組織將擁有大量連續(xù)的數(shù)據(jù)流,這些數(shù)據(jù)流正在被創(chuàng)建并發(fā)送到最終目的地。數(shù)據(jù)可能來自機器、網(wǎng)絡、智能手機或社交媒體等來源。Velocity指信息到達的速度——例如,每天有多少社交媒體帖子被吸收——以及信息需要消化和分析的速度——通常是快速的,有時是近乎實時的。
例如,在醫(yī)療保健領域,當今許多醫(yī)療設備的設計目的是監(jiān)測患者并收集數(shù)據(jù)。從醫(yī)院醫(yī)療設備到可穿戴設備,收集的數(shù)據(jù)需要發(fā)送到目的地并快速分析。
然而,在某些情況下,收集一組有限的數(shù)據(jù)可能比收集組織無法處理的數(shù)據(jù)要好,因為這可能導致數(shù)據(jù)速度變慢。
體積
Volume是指存在的數(shù)據(jù)量。體積就像大數(shù)據(jù)的基礎,因為它是收集數(shù)據(jù)的初始大小和數(shù)量。如果數(shù)據(jù)量足夠大,就可以認為是大數(shù)據(jù)。然而,所謂的大數(shù)據(jù)是相對的,它會隨著市場上可用的計算能力而變化。
例如,一家在幾個州經(jīng)營數(shù)百家商店的公司每天產(chǎn)生數(shù)百萬筆交易。這被稱為大數(shù)據(jù),而商店每天的平均總交易量代表了大數(shù)據(jù)量。
價值
價值是指大數(shù)據(jù)可以提供的好處,它直接關系到組織可以用收集到的數(shù)據(jù)做什么。能夠從大數(shù)據(jù)中獲取價值是一種需求,因為大數(shù)據(jù)的價值會根據(jù)從中獲得的洞察力而顯著增加。
組織可以使用大數(shù)據(jù)工具來收集和分析數(shù)據(jù),但如何從這些數(shù)據(jù)中獲取價值應該是他們獨有的。像Apache Hadoop這樣的工具可以幫助組織存儲、清理和快速處理大量數(shù)據(jù)。
大數(shù)據(jù)價值的一個很好的例子是收集個人客戶數(shù)據(jù)。當一個公司可以對其客戶進行分析時,它可以個性化他們在營銷和銷售方面的經(jīng)驗,提高溝通效率,并獲得更高的客戶滿意度。
多樣性
多樣性是指數(shù)據(jù)類型的多樣性。組織可能從多個數(shù)據(jù)源獲取數(shù)據(jù),這些數(shù)據(jù)源的值可能不同。數(shù)據(jù)也可以來自企業(yè)內(nèi)部和外部。多樣性的挑戰(zhàn)涉及到所收集的所有數(shù)據(jù)的標準化和分布。
如上所述,收集的數(shù)據(jù)可以是非結構化、半結構化或結構化。非結構化數(shù)據(jù)是沒有組織的數(shù)據(jù),以不同的文件或格式出現(xiàn)。通常,非結構化數(shù)據(jù)不適合主流關系數(shù)據(jù)庫,因為它不適合傳統(tǒng)的數(shù)據(jù)模型。半結構化數(shù)據(jù)是沒有組織到專門的存儲庫中,但具有關聯(lián)信息(如元數(shù)據(jù))的數(shù)據(jù)。這使得它比非結構化數(shù)據(jù)更容易處理。與此同時,結構化數(shù)據(jù)是組織到格式化存儲庫中的數(shù)據(jù)。這意味著數(shù)據(jù)可以更有效地處理和分析。
原始數(shù)據(jù)也可以作為數(shù)據(jù)類型。雖然原始數(shù)據(jù)可以屬于其他類別——結構化、半結構化或非結構化——但如果根本沒有接受任何處理,則認為它是原始的。raw(未經(jīng)處理的格式)通常適用于從其他組織導入或由用戶提交或輸入的數(shù)據(jù)。社交媒體數(shù)據(jù)通常屬于這一類。
一個更具體的例子是,一家公司收集了關于其客戶的各種數(shù)據(jù)。這可能包括從交易或非結構化社交媒體帖子中剔除的結構化數(shù)據(jù)。其中大部分可能以原始數(shù)據(jù)的形式出現(xiàn),需要在處理之前進行清理。
準確性
準確性是指數(shù)據(jù)的質(zhì)量、準確性、完整性和可信度。收集到的數(shù)據(jù)可能有缺失的部分,可能是不準確的,或者可能無法提供真實的、有價值的見解。總體而言,準確性指的是對所收集數(shù)據(jù)的信任程度。
數(shù)據(jù)有時會變得混亂,難以使用。如果數(shù)據(jù)不完整,那么大量的數(shù)據(jù)可能會導致更多的混亂。例如,在醫(yī)療領域,如果關于患者正在服用的藥物的數(shù)據(jù)不完整,則可能危及患者的生命。
價值和準確性都有助于定義從數(shù)據(jù)中收集的質(zhì)量和見解。數(shù)據(jù)準確性的閾值通常(也應該)存在于組織的執(zhí)行層,以確定數(shù)據(jù)是否適合高層決策。
第六個V:可變性
上面的5V涵蓋了很多方面,在闡明大數(shù)據(jù)的正確使用方面有很大的幫助。但還有另一個V值得認真考慮——可變性——它并不是大數(shù)據(jù)的定義,而是強調(diào)了對大數(shù)據(jù)進行良好管理的必要性。
可變性指的是大數(shù)據(jù)在使用或流動方面的不一致性。在前者的情況下,一個組織可能有多個特定數(shù)據(jù)的定義。例如,保險公司可能有一個部門使用一組風險閾值,而另一個部門使用另一組風險閾值。在第二種情況下,以分散的方式流入公司數(shù)據(jù)存儲的數(shù)據(jù)——沒有共同的入口點或預先驗證——可能會進入不同的系統(tǒng),這些系統(tǒng)會對其進行修改,從而導致報告方面的事實來源相互沖突。
最大限度地減少大數(shù)據(jù)的可變性需要在數(shù)據(jù)通過組織系統(tǒng)時仔細構建數(shù)據(jù)流,從交易到分析以及介于兩者之間的一切。最大的好處是大數(shù)據(jù)的準確性,因為數(shù)據(jù)使用的一致性可以產(chǎn)生更穩(wěn)定的報告和分析,從而提高可信度。
本文轉載自 雪獸軟件 更多精彩推薦請訪問 雪獸軟件官網(wǎng)
柚子快報激活碼778899分享:大數(shù)據(jù)的5個V
參考文章
本文內(nèi)容根據(jù)網(wǎng)絡資料整理,出于傳遞更多信息之目的,不代表金鑰匙跨境贊同其觀點和立場。
轉載請注明,如有侵權,聯(lián)系刪除。