午夜福利三级理论电影,试看60秒做受小视频,婷婷色爱区综合五月激情韩国,无码国产精品一区二区高潮,无码一区二区三区视频

域名綜合信息查詢...
  • 綜合
  • Whois
×
歷史記錄
首頁 > 常見問題 > 正文

什么是大數(shù)據(jù)?大數(shù)據(jù)定義和概念

發(fā)布時間:2022-11-25 15:25:27 來源:互聯(lián)網(wǎng) 作者:四月 點擊量:2799

大數(shù)據(jù)是收集,組織,處理和收集大型數(shù)據(jù)集洞察所需的非傳統(tǒng)策略和技術(shù)的總稱。雖然處理超過單個計算機的計算能力或存儲的數(shù)據(jù)的問題并不新鮮,但近年來這種類型的計算的普遍性,規(guī)模和價值已經(jīng)大大擴展。

什么是大數(shù)據(jù)?大數(shù)據(jù)定義和概念

什么是大數(shù)據(jù)?
“大數(shù)據(jù)”的確切定義很難確定,因為項目,供應(yīng)商,從業(yè)者和商業(yè)專業(yè)人士使用它的方式完全不同??紤]到這一點,一般來說,大數(shù)據(jù)是:

大數(shù)據(jù)集
用于處理大型數(shù)據(jù)集的計算策略和技術(shù)的類別
在此上下文中,“大數(shù)據(jù)集”表示數(shù)據(jù)集太大而無法使用傳統(tǒng)工具或在單個計算機上合理地處理或存儲。這意味著大數(shù)據(jù)集的共同規(guī)模不斷變化,并且可能因組織而異。

為什么大數(shù)據(jù)系統(tǒng)不同?
使用大數(shù)據(jù)的基本要求與使用任何大小的數(shù)據(jù)集的要求相同。然而,在設(shè)計解決方案時,大規(guī)模,攝取和處理的速度以及在過程的每個階段必須處理的數(shù)據(jù)的特征提出了重大的新挑戰(zhàn)。大多數(shù)大數(shù)據(jù)系統(tǒng)的目標是從大量異構(gòu)數(shù)據(jù)中獲得使用傳統(tǒng)方法無法實現(xiàn)的洞察力和連接。

2001 年,Gartner 的 Doug Laney 首次提出了所謂的“大數(shù)據(jù)的三個 V”來描述使大數(shù)據(jù)與其他數(shù)據(jù)處理不同的一些特征:

體積
處理的信息規(guī)模很大,有助于定義大數(shù)據(jù)系統(tǒng)。這些數(shù)據(jù)集可以比傳統(tǒng)數(shù)據(jù)集大幾個數(shù)量級,這需要在處理和存儲生命周期的每個階段進行更多思考。

通常,由于工作要求超出了單臺計算機的功能,因此這成為了從計算機組中匯集,分配和協(xié)調(diào)資源的挑戰(zhàn)。能夠?qū)⑷蝿?wù)分解成更小部分的集群管理和算法變得越來越重要。

速度
大數(shù)據(jù)與其他數(shù)據(jù)系統(tǒng)顯著不同的另一種方式是信息在系統(tǒng)中移動的速度。數(shù)據(jù)經(jīng)常從多個來源流入系統(tǒng),并且通常需要實時處理以獲得見解并更新當前對系統(tǒng)的理解。

這種對近乎即時反饋的關(guān)注促使許多大數(shù)據(jù)從業(yè)者遠離面向批處理的方法,更接近實時流媒體系統(tǒng)。數(shù)據(jù)不斷被添加,按摩,處理和分析,以便跟上新信息的涌入,并在最相關(guān)時及早發(fā)現(xiàn)有價值的信息。這些想法需要具有高可用組件的強大系統(tǒng),以防止數(shù)據(jù)管道中的故障。

品種
大數(shù)據(jù)問題通常是獨特的,因為處理的來源和它們的相對質(zhì)量都很廣泛。

數(shù)據(jù)可以從內(nèi)部系統(tǒng)(如應(yīng)用程序和服務(wù)器日志),社交媒體源和其他外部 API,物理設(shè)備傳感器以及其他提供商處獲取。大數(shù)據(jù)旨在通過將所有信息整合到單個系統(tǒng)中來處理潛在有用的數(shù)據(jù),而不管它來自何處。

媒體的格式和類型也可能有很大差異。圖像,視頻文件和錄音等富媒體與文本文件,結(jié)構(gòu)化日志等一起被攝取。雖然更傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)可能希望數(shù)據(jù)進入已標記,格式化和組織的管道,但大數(shù)據(jù)系統(tǒng)通常接受和存儲數(shù)據(jù)更接近其原始狀態(tài)。理想情況下,原始數(shù)據(jù)的任何轉(zhuǎn)換或更改都將在處理時在內(nèi)存中進行。

其他特點
不同的個人和組織建議擴大原有的三個 V,盡管這些提議傾向于描述挑戰(zhàn)而不是大數(shù)據(jù)的質(zhì)量。一些常見的補充是:

準確性:各種來源和處理的復(fù)雜性可能會導(dǎo)致評估數(shù)據(jù)質(zhì)量的挑戰(zhàn)(從而導(dǎo)致分析的質(zhì)量)
可變性:數(shù)據(jù)的變化導(dǎo)致質(zhì)量的廣泛變化。可能需要額外的資源來識別,處理或過濾低質(zhì)量數(shù)據(jù)以使其更有用。
價值:大數(shù)據(jù)的最終挑戰(zhàn)是提供價值。有時,現(xiàn)有的系統(tǒng)和流程足夠復(fù)雜,使用數(shù)據(jù)和提取實際值可能變得困難。
大數(shù)據(jù)生命周期是什么樣的?
那么在處理大數(shù)據(jù)系統(tǒng)時如何實際處理數(shù)據(jù)呢?雖然實施方法不同,但我們可以談?wù)摰牟呗院蛙浖幸恍┕残浴km然下面列出的步驟可能并非在所有情況下都適用,但它們被廣泛使用。

涉及大數(shù)據(jù)處理的一般活動類別是:

將數(shù)據(jù)提取到系統(tǒng)中
將數(shù)據(jù)保存在存儲中
計算和分析數(shù)據(jù)
可視化結(jié)果
在詳細介紹這四個工作流程類別之前,我們將花點時間討論集群計算,這是大多數(shù)大數(shù)據(jù)解決方案采用的重要策略。建立計算集群通常是每個生命周期階段使用的技術(shù)的基礎(chǔ)。

集群計算
由于大數(shù)據(jù)的質(zhì)量,個人計算機通常不足以在大多數(shù)階段處理數(shù)據(jù)。為了更好地滿足大數(shù)據(jù)的高存儲和計算需求,計算機集群更適合。

大數(shù)據(jù)集群軟件結(jié)合了許多小型機器的資源,力求提供許多好處:

資源池:結(jié)合可用的存儲空間來保存數(shù)據(jù)是一個明顯的好處,但 CPU 和內(nèi)存池也非常重要。處理大型數(shù)據(jù)集需要大量所有這三種資源。
高可用性:群集可以提供不同級別的容錯和可用性保證,以防止硬件或軟件故障影響對數(shù)據(jù)和處理的訪問。隨著我們繼續(xù)強調(diào)實時分析的重要性,這變得越來越重要。
易于擴展:通過向組中添加其他計算機,集群可以輕松地進行水平擴展。這意味著系統(tǒng)可以對資源需求的變化做出反應(yīng),而無需擴展計算機上的物理資源。
使用群集需要一個解決方案來管理群集成員資格,協(xié)調(diào)資源共享以及在各個節(jié)點上安排實際工作。集群成員資格和資源分配可以由 Hadoop 的 YARN(代表 Yet Another Resource Negotiator)或 Apache Mesos 等軟件處理。

組裝的計算集群通常充當其他軟件與處理數(shù)據(jù)接口的基礎(chǔ)。計算集群中涉及的機器通常也涉及分布式存儲系統(tǒng)的管理,我們將在討論數(shù)據(jù)持久性時討論這些問題。

將數(shù)據(jù)提取到系統(tǒng)中
數(shù)據(jù)攝取是獲取原始數(shù)據(jù)并將其添加到系統(tǒng)的過程。此操作的復(fù)雜性在很大程度上取決于數(shù)據(jù)源的格式和質(zhì)量以及數(shù)據(jù)在處理之前與期望狀態(tài)的距離。

可以將數(shù)據(jù)添加到大數(shù)據(jù)系統(tǒng)的一種方法是專用攝取工具。Apache Sqoop 等技術(shù)可以從關(guān)系數(shù)據(jù)庫中獲取現(xiàn)有數(shù)據(jù),并將其添加到大數(shù)據(jù)系統(tǒng)中。同樣,Apache Flume 和 Apache Chukwa 是旨在聚合和導(dǎo)入應(yīng)用程序和服務(wù)器日志的項目。像 Apache Kafka 這樣的排隊系統(tǒng)也可以用作各種數(shù)據(jù)生成器和大數(shù)據(jù)系統(tǒng)之間的接口。像 Gobblin 這樣的攝取框架可以幫助在攝取管道的末尾聚合和規(guī)范化這些工具的輸出。

在攝取過程中,通常會進行一定程度的分析,分類和標記。此過程有時稱為 ETL,表示提取,轉(zhuǎn)換和加載。雖然該術(shù)語通常是指遺留數(shù)據(jù)倉庫過程,但是一些相同的概念適用于進入大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)。典型的操作可能包括修改傳入數(shù)據(jù)以對其進行格式化,對數(shù)據(jù)進行分類和標記,過濾掉不需要的或不良的數(shù)據(jù),或者可能驗證它是否符合某些要求。

考慮到這些功能,理想情況下,捕獲的數(shù)據(jù)應(yīng)盡可能保持原始狀態(tài),以便在管道上進一步提高靈活性。

保持存儲中的數(shù)據(jù)
攝取過程通常將數(shù)據(jù)交給管理存儲的組件,以便可以可靠地持久保存到磁盤。雖然這似乎是一個簡單的操作,但是傳入數(shù)據(jù)量,可用性要求和分布式計算層使得更復(fù)雜的存儲系統(tǒng)成為必需。

這通常意味著利用分布式文件系統(tǒng)進行原始數(shù)據(jù)存儲。像 Apache Hadoop 的 HDFS 文件系統(tǒng)這樣的解決方案允許在群集中的多個節(jié)點上寫入大量數(shù)據(jù)。這確保了計算資源可以訪問數(shù)據(jù),可以將數(shù)據(jù)加載到集群的 RAM 中以進行內(nèi)存操作,并且可以優(yōu)雅地處理組件故障。可以使用其他分布式文件系統(tǒng)代替 HDFS,包括 Ceph 和 GlusterFS。

還可以將數(shù)據(jù)導(dǎo)入其他分布式系統(tǒng),以實現(xiàn)更加結(jié)構(gòu)化的訪問。分布式數(shù)據(jù)庫,尤其是 NoSQL 數(shù)據(jù)庫,非常適合此角色,因為它們通常設(shè)計有相同的容錯考慮因素,并且可以處理異構(gòu)數(shù)據(jù)。有許多不同類型的分布式數(shù)據(jù)庫可供選擇,具體取決于您希望如何組織和呈現(xiàn)數(shù)據(jù)。

計算和分析數(shù)據(jù)
一旦數(shù)據(jù)可用,系統(tǒng)就可以開始處理數(shù)據(jù)以顯示實際信息。計算層可能是系統(tǒng)中最多樣化的部分,因為需求和最佳方法可能會根據(jù)所需的洞察類型而有很大差異。數(shù)據(jù)通常由一個工具迭代地重復(fù)處理,或者通過使用許多工具來表示不同類型的見解。

批處理是一種計算大型數(shù)據(jù)集的方法。該過程包括將工作分成更小的部分,在單個機器上安排每個部件,根據(jù)中間結(jié)果重新調(diào)整數(shù)據(jù),然后計算和組裝最終結(jié)果。這些步驟通常分別稱為分裂,映射,改組,縮減和組裝,或統(tǒng)稱為分布式地圖縮減算法。這是 Apache Hadoop 的 MapReduce 使用的策略。在處理需要大量計算的非常大的數(shù)據(jù)集時,批處理最有用。

雖然批處理非常適合某些類型的數(shù)據(jù)和計算,但其他工作負載需要更多的實時處理。實時處理要求立即處理和準備信息,并要求系統(tǒng)在新信息可用時作出反應(yīng)。實現(xiàn)此目的的一種方式是流處理,其對由各個項組成的連續(xù)數(shù)據(jù)流進行操作。實時處理器的另一個共同特征是內(nèi)存計算,它與集群內(nèi)存中數(shù)據(jù)的表示一起使用,以避免必須寫回磁盤。

Apache Storm,Apache Flink 和 Apache Spark 提供了實現(xiàn)實時或近實時處理的不同方法。這些技術(shù)中的每一種都存在權(quán)衡,這可能會影響哪種方法最適合任何個別問題。通常,實時處理最適合分析正在快速更改或添加到系統(tǒng)的較小數(shù)據(jù)塊。

以上示例表示計算框架。但是,在大數(shù)據(jù)系統(tǒng)中還有許多其他計算或分析數(shù)據(jù)的方法。這些工具經(jīng)常插入上述框架,并提供額外的接口以與底層進行交互。例如,Apache Hive 為 Hadoop 提供了一個數(shù)據(jù)倉庫接口,Apache Pig 提供了一個高級查詢接口,而與數(shù)據(jù)類似的 SQL 交互可以通過 Apache Drill,Apache Impala,Apache Spark SQL 和 Presto 等項目實現(xiàn)。對于機器學(xué)習(xí),Apache SystemML,Apache Mahout 和 Apache Spark 的 MLlib 非常有用。對于在大數(shù)據(jù)生態(tài)系統(tǒng)中得到廣泛支持的直接分析編程,R 和 Python 都是受歡迎的選擇。

可視化結(jié)果
由于在大數(shù)據(jù)系統(tǒng)中處理的信息類型,隨著時間的推移識別數(shù)據(jù)的趨勢或變化通常比值本身更重要??梢暬瘮?shù)據(jù)是發(fā)現(xiàn)趨勢和理解大量數(shù)據(jù)點的最有用方法之一。

實時處理經(jīng)常用于可視化應(yīng)用程序和服務(wù)器度量標準。數(shù)據(jù)經(jīng)常變化,指標中的大量增量通常表明對系統(tǒng)或組織的健康狀況產(chǎn)生重大影響。在這些情況下,像 Prometheus 這樣的項目可用于將數(shù)據(jù)流作為時間序列數(shù)據(jù)庫處理并可視化該信息。

一種流行的數(shù)據(jù)可視化方法是使用 Elastic Stack,以前稱為 ELK 堆棧。由用于數(shù)據(jù)收集的 Logstash,用于索引數(shù)據(jù)的 Elasticsearch 和用于可視化的 Kibana 組成,Elastic 堆??梢耘c大數(shù)據(jù)系統(tǒng)一起使用,以便與計算結(jié)果或原始指標進行可視化交互。使用 Apache Solr 進行索引并使用名為 Banana 的 Kibana fork 進行可視化,可以實現(xiàn)類似的堆棧。由這些創(chuàng)建的堆棧稱為 Silk。

通常用于交互式數(shù)據(jù)科學(xué)工作的另一種可視化技術(shù)是數(shù)據(jù)“筆記本”。這些項目允許以有助于共享,呈現(xiàn)或協(xié)作的格式進行數(shù)據(jù)的交互式探索和可視化。這種可視化界面的流行示例是 Jupyter Notebook 和 Apache Zeppelin。

大數(shù)據(jù)詞匯表
雖然我們在整個指南中嘗試定義概念,但有時在一個地方提供專業(yè)術(shù)語是有幫助的:

大數(shù)據(jù):大數(shù)據(jù)是數(shù)據(jù)集的總稱,由于其數(shù)量,速度和種類,傳統(tǒng)計算機或工具無法合理處理這些數(shù)據(jù)集。該術(shù)語通常也適用于使用此類數(shù)據(jù)的技術(shù)和策略。
批處理:批處理是一種涉及處理大型數(shù)據(jù)集的計算策略。這通常適用于對非常大的數(shù)據(jù)集進行操作的非時間敏感型工作。該過程開始,稍后,系統(tǒng)返回結(jié)果。
集群計算:集群計算是匯集多臺計算機資源并管理其集合功能以完成任務(wù)的實踐。計算機集群需要一個集群管理層來處理各個節(jié)點之間的通信并協(xié)調(diào)工作分配。
數(shù)據(jù)湖:數(shù)據(jù)湖是一個相對原始狀態(tài)的大型收集數(shù)據(jù)存儲庫的術(shù)語。這通常用于指在大數(shù)據(jù)系統(tǒng)中收集的數(shù)據(jù),這些數(shù)據(jù)可能是非結(jié)構(gòu)化的并且經(jīng)常發(fā)生變化。這與數(shù)據(jù)倉庫(下面定義)的精神不同。
數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是嘗試在大型數(shù)據(jù)集中查找模式的實踐的一個廣義術(shù)語。這是一個嘗試將大量數(shù)據(jù)細化為更易理解和更有凝聚力的信息的過程。
數(shù)據(jù)倉庫:數(shù)據(jù)倉庫是大型有序的數(shù)據(jù)存儲庫,可用于分析和報告。與數(shù)據(jù)湖相比,數(shù)據(jù)倉庫由已清理,與其他來源集成的數(shù)據(jù)組成,并且通常是有序的。數(shù)據(jù)倉庫通常與大數(shù)據(jù)有關(guān),但通常是更傳統(tǒng)系統(tǒng)的組件。
ETL:ETL 代表提取,轉(zhuǎn)換和加載。它指的是獲取原始數(shù)據(jù)并為系統(tǒng)使用做好準備的過程。傳統(tǒng)上這是與數(shù)據(jù)倉庫相關(guān)的過程,但是這個過程的特征也可以在大數(shù)據(jù)系統(tǒng)的攝取管道中找到。
Hadoop:Hadoop 是一個 Apache 項目,是大數(shù)據(jù)的早期開源成功。它由一個名為 HDFS 的分布式文件系統(tǒng)組成,頂部有一個集群管理和資源調(diào)度程序,稱為 YARN(Yet Another Resource Negotiator)。批處理功能由 MapReduce 計算引擎提供。其他計算和分析系統(tǒng)可以與現(xiàn)代 Hadoop 部署中的 MapReduce 一起運行。
內(nèi)存計算:內(nèi)存計算是一種涉及將工作數(shù)據(jù)集完全移動到集群的集體內(nèi)存中的策略。中間計算不會寫入磁盤,而是保存在內(nèi)存中。這使像 Apache Spark 這樣的內(nèi)存計算系統(tǒng)在速度上超過了 I / O 綁定系統(tǒng)(如 Hadoop 的 MapReduce)的巨大優(yōu)勢。
機器學(xué)習(xí):機器學(xué)習(xí)是設(shè)計系統(tǒng)的研究和實踐,可以根據(jù)提供給他們的數(shù)據(jù)來學(xué)習(xí),調(diào)整和改進。這通常涉及預(yù)測和統(tǒng)計算法的實現(xiàn),當更多數(shù)據(jù)流過系統(tǒng)時,預(yù)測和統(tǒng)計算法可以不斷地將“正確”行為和見解歸為零。
Map reduce(大數(shù)據(jù)算法):Map reduce(大數(shù)據(jù)算法,而不是 Hadoop 的 MapReduce 計算引擎)是一種用于在計算集群上調(diào)度工作的算法。該過程涉及拆分問題設(shè)置(將其映射到不同的節(jié)點)并對它們進行計算以產(chǎn)生中間結(jié)果,將結(jié)果混洗以對齊類似的集合,然后通過為每個集合輸出單個值來減少結(jié)果。
NoSQL:NoSQL 是一個廣義術(shù)語,指的是在傳統(tǒng)關(guān)系模型之外設(shè)計的數(shù)據(jù)庫。與關(guān)系數(shù)據(jù)庫相比,NoSQL 數(shù)據(jù)庫具有不同的權(quán)衡,但由于其靈活性和頻繁的分布式優(yōu)先架構(gòu),它們通常非常適合大數(shù)據(jù)系統(tǒng)。
流處理:流處理是在單個數(shù)據(jù)項在系統(tǒng)中移動時計算的實踐。這允許對饋送到系統(tǒng)的數(shù)據(jù)進行實時分析,并且對于使用高速度量的時間敏感操作是有用的。
結(jié)論
大數(shù)據(jù)是一個廣泛,快速發(fā)展的主題。雖然它并不適合所有類型的計算,但許多組織正在轉(zhuǎn)向某些類型的工作負載的大數(shù)據(jù),并使用它來補充現(xiàn)有的分析和業(yè)務(wù)工具。大數(shù)據(jù)系統(tǒng)非常適合于表現(xiàn)難以檢測的模式,并提供對通過傳統(tǒng)方法無法找到的行為的洞察力。通過正確實施處理大數(shù)據(jù)的系統(tǒng),組織可以從已有的數(shù)據(jù)中獲得令人難以置信的價值。

域名注冊價格:http://m.y447.cn/regym.htm?t=seo_adzcw
域名一口價交易:http://m.y447.cn/ykj/?t=seo_admm
過期域名查詢:http://m.y447.cn/gq/?t=seo_adqz
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享網(wǎng)絡(luò)內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:400-997-2996;郵箱:service@Juming.com。本站原創(chuàng)內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明出處:聚名網(wǎng) 什么是大數(shù)據(jù)?大數(shù)據(jù)定義和概念
關(guān)鍵詞: 大數(shù)據(jù)
熱門競價 更多>
推薦一口價 更多>

登錄聚名,您可以享受以下權(quán)益:

立即登錄/注冊