三个老头换着躁我一晚,色综合久久中文字幕无码,少妇午夜啪爽嗷嗷叫视频

大數(shù)據(jù)是收集，組織，處理和收集大型數(shù)據(jù)集洞察所需的非傳統(tǒng)策略和技術(shù)的總稱。雖然處理超過(guò)單個(gè)計(jì)算機(jī)的計(jì)算能力或存儲(chǔ)的數(shù)據(jù)的問(wèn)題并不新鮮，但近年來(lái)這種類型的計(jì)算的普遍性，規(guī)模和價(jià)值已經(jīng)大大擴(kuò)展。

什么是大數(shù)據(jù)？大數(shù)據(jù)定義和概念

什么是大數(shù)據(jù)？
“大數(shù)據(jù)”的確切定義很難確定，因?yàn)轫?xiàng)目，供應(yīng)商，從業(yè)者和商業(yè)專業(yè)人士使用它的方式完全不同。考慮到這一點(diǎn)，一般來(lái)說(shuō)，大數(shù)據(jù)是：

大數(shù)據(jù)集
用于處理大型數(shù)據(jù)集的計(jì)算策略和技術(shù)的類別
在此上下文中，“大數(shù)據(jù)集”表示數(shù)據(jù)集太大而無(wú)法使用傳統(tǒng)工具或在單個(gè)計(jì)算機(jī)上合理地處理或存儲(chǔ)。這意味著大數(shù)據(jù)集的共同規(guī)模不斷變化，并且可能因組織而異。

為什么大數(shù)據(jù)系統(tǒng)不同？
使用大數(shù)據(jù)的基本要求與使用任何大小的數(shù)據(jù)集的要求相同。然而，在設(shè)計(jì)解決方案時(shí)，大規(guī)模，攝取和處理的速度以及在過(guò)程的每個(gè)階段必須處理的數(shù)據(jù)的特征提出了重大的新挑戰(zhàn)。大多數(shù)大數(shù)據(jù)系統(tǒng)的目標(biāo)是從大量異構(gòu)數(shù)據(jù)中獲得使用傳統(tǒng)方法無(wú)法實(shí)現(xiàn)的洞察力和連接。

2001 年，Gartner 的 Doug Laney 首次提出了所謂的“大數(shù)據(jù)的三個(gè) V”來(lái)描述使大數(shù)據(jù)與其他數(shù)據(jù)處理不同的一些特征：

體積
處理的信息規(guī)模很大，有助于定義大數(shù)據(jù)系統(tǒng)。這些數(shù)據(jù)集可以比傳統(tǒng)數(shù)據(jù)集大幾個(gè)數(shù)量級(jí)，這需要在處理和存儲(chǔ)生命周期的每個(gè)階段進(jìn)行更多思考。

通常，由于工作要求超出了單臺(tái)計(jì)算機(jī)的功能，因此這成為了從計(jì)算機(jī)組中匯集，分配和協(xié)調(diào)資源的挑戰(zhàn)。能夠?qū)⑷蝿?wù)分解成更小部分的集群管理和算法變得越來(lái)越重要。

速度
大數(shù)據(jù)與其他數(shù)據(jù)系統(tǒng)顯著不同的另一種方式是信息在系統(tǒng)中移動(dòng)的速度。數(shù)據(jù)經(jīng)常從多個(gè)來(lái)源流入系統(tǒng)，并且通常需要實(shí)時(shí)處理以獲得見(jiàn)解并更新當(dāng)前對(duì)系統(tǒng)的理解。

這種對(duì)近乎即時(shí)反饋的關(guān)注促使許多大數(shù)據(jù)從業(yè)者遠(yuǎn)離面向批處理的方法，更接近實(shí)時(shí)流媒體系統(tǒng)。數(shù)據(jù)不斷被添加，按摩，處理和分析，以便跟上新信息的涌入，并在最相關(guān)時(shí)及早發(fā)現(xiàn)有價(jià)值的信息。這些想法需要具有高可用組件的強(qiáng)大系統(tǒng)，以防止數(shù)據(jù)管道中的故障。

品種
大數(shù)據(jù)問(wèn)題通常是獨(dú)特的，因?yàn)樘幚淼膩?lái)源和它們的相對(duì)質(zhì)量都很廣泛。

數(shù)據(jù)可以從內(nèi)部系統(tǒng)（如應(yīng)用程序和服務(wù)器日志），社交媒體源和其他外部 API，物理設(shè)備傳感器以及其他提供商處獲取。大數(shù)據(jù)旨在通過(guò)將所有信息整合到單個(gè)系統(tǒng)中來(lái)處理潛在有用的數(shù)據(jù)，而不管它來(lái)自何處。

媒體的格式和類型也可能有很大差異。圖像，視頻文件和錄音等富媒體與文本文件，結(jié)構(gòu)化日志等一起被攝取。雖然更傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)可能希望數(shù)據(jù)進(jìn)入已標(biāo)記，格式化和組織的管道，但大數(shù)據(jù)系統(tǒng)通常接受和存儲(chǔ)數(shù)據(jù)更接近其原始狀態(tài)。理想情況下，原始數(shù)據(jù)的任何轉(zhuǎn)換或更改都將在處理時(shí)在內(nèi)存中進(jìn)行。

其他特點(diǎn)
不同的個(gè)人和組織建議擴(kuò)大原有的三個(gè) V，盡管這些提議傾向于描述挑戰(zhàn)而不是大數(shù)據(jù)的質(zhì)量。一些常見(jiàn)的補(bǔ)充是：

準(zhǔn)確性：各種來(lái)源和處理的復(fù)雜性可能會(huì)導(dǎo)致評(píng)估數(shù)據(jù)質(zhì)量的挑戰(zhàn)（從而導(dǎo)致分析的質(zhì)量）
可變性：數(shù)據(jù)的變化導(dǎo)致質(zhì)量的廣泛變化?？赡苄枰~外的資源來(lái)識(shí)別，處理或過(guò)濾低質(zhì)量數(shù)據(jù)以使其更有用。
價(jià)值：大數(shù)據(jù)的最終挑戰(zhàn)是提供價(jià)值。有時(shí)，現(xiàn)有的系統(tǒng)和流程足夠復(fù)雜，使用數(shù)據(jù)和提取實(shí)際值可能變得困難。
大數(shù)據(jù)生命周期是什么樣的？
那么在處理大數(shù)據(jù)系統(tǒng)時(shí)如何實(shí)際處理數(shù)據(jù)呢？雖然實(shí)施方法不同，但我們可以談?wù)摰牟呗院蛙浖幸恍┕残?。雖然下面列出的步驟可能并非在所有情況下都適用，但它們被廣泛使用。

涉及大數(shù)據(jù)處理的一般活動(dòng)類別是：

將數(shù)據(jù)提取到系統(tǒng)中
將數(shù)據(jù)保存在存儲(chǔ)中
計(jì)算和分析數(shù)據(jù)
可視化結(jié)果
在詳細(xì)介紹這四個(gè)工作流程類別之前，我們將花點(diǎn)時(shí)間討論集群計(jì)算，這是大多數(shù)大數(shù)據(jù)解決方案采用的重要策略。建立計(jì)算集群通常是每個(gè)生命周期階段使用的技術(shù)的基礎(chǔ)。

集群計(jì)算
由于大數(shù)據(jù)的質(zhì)量，個(gè)人計(jì)算機(jī)通常不足以在大多數(shù)階段處理數(shù)據(jù)。為了更好地滿足大數(shù)據(jù)的高存儲(chǔ)和計(jì)算需求，計(jì)算機(jī)集群更適合。

大數(shù)據(jù)集群軟件結(jié)合了許多小型機(jī)器的資源，力求提供許多好處：

資源池：結(jié)合可用的存儲(chǔ)空間來(lái)保存數(shù)據(jù)是一個(gè)明顯的好處，但 CPU 和內(nèi)存池也非常重要。處理大型數(shù)據(jù)集需要大量所有這三種資源。
高可用性：群集可以提供不同級(jí)別的容錯(cuò)和可用性保證，以防止硬件或軟件故障影響對(duì)數(shù)據(jù)和處理的訪問(wèn)。隨著我們繼續(xù)強(qiáng)調(diào)實(shí)時(shí)分析的重要性，這變得越來(lái)越重要。
易于擴(kuò)展：通過(guò)向組中添加其他計(jì)算機(jī)，集群可以輕松地進(jìn)行水平擴(kuò)展。這意味著系統(tǒng)可以對(duì)資源需求的變化做出反應(yīng)，而無(wú)需擴(kuò)展計(jì)算機(jī)上的物理資源。
使用群集需要一個(gè)解決方案來(lái)管理群集成員資格，協(xié)調(diào)資源共享以及在各個(gè)節(jié)點(diǎn)上安排實(shí)際工作。集群成員資格和資源分配可以由 Hadoop 的 YARN（代表 Yet Another Resource Negotiator）或 Apache Mesos 等軟件處理。

組裝的計(jì)算集群通常充當(dāng)其他軟件與處理數(shù)據(jù)接口的基礎(chǔ)。計(jì)算集群中涉及的機(jī)器通常也涉及分布式存儲(chǔ)系統(tǒng)的管理，我們將在討論數(shù)據(jù)持久性時(shí)討論這些問(wèn)題。

將數(shù)據(jù)提取到系統(tǒng)中
數(shù)據(jù)攝取是獲取原始數(shù)據(jù)并將其添加到系統(tǒng)的過(guò)程。此操作的復(fù)雜性在很大程度上取決于數(shù)據(jù)源的格式和質(zhì)量以及數(shù)據(jù)在處理之前與期望狀態(tài)的距離。

可以將數(shù)據(jù)添加到大數(shù)據(jù)系統(tǒng)的一種方法是專用攝取工具。Apache Sqoop 等技術(shù)可以從關(guān)系數(shù)據(jù)庫(kù)中獲取現(xiàn)有數(shù)據(jù)，并將其添加到大數(shù)據(jù)系統(tǒng)中。同樣，Apache Flume 和 Apache Chukwa 是旨在聚合和導(dǎo)入應(yīng)用程序和服務(wù)器日志的項(xiàng)目。像 Apache Kafka 這樣的排隊(duì)系統(tǒng)也可以用作各種數(shù)據(jù)生成器和大數(shù)據(jù)系統(tǒng)之間的接口。像 Gobblin 這樣的攝取框架可以幫助在攝取管道的末尾聚合和規(guī)范化這些工具的輸出。

在攝取過(guò)程中，通常會(huì)進(jìn)行一定程度的分析，分類和標(biāo)記。此過(guò)程有時(shí)稱為 ETL，表示提取，轉(zhuǎn)換和加載。雖然該術(shù)語(yǔ)通常是指遺留數(shù)據(jù)倉(cāng)庫(kù)過(guò)程，但是一些相同的概念適用于進(jìn)入大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)。典型的操作可能包括修改傳入數(shù)據(jù)以對(duì)其進(jìn)行格式化，對(duì)數(shù)據(jù)進(jìn)行分類和標(biāo)記，過(guò)濾掉不需要的或不良的數(shù)據(jù)，或者可能驗(yàn)證它是否符合某些要求。

考慮到這些功能，理想情況下，捕獲的數(shù)據(jù)應(yīng)盡可能保持原始狀態(tài)，以便在管道上進(jìn)一步提高靈活性。

保持存儲(chǔ)中的數(shù)據(jù)
攝取過(guò)程通常將數(shù)據(jù)交給管理存儲(chǔ)的組件，以便可以可靠地持久保存到磁盤。雖然這似乎是一個(gè)簡(jiǎn)單的操作，但是傳入數(shù)據(jù)量，可用性要求和分布式計(jì)算層使得更復(fù)雜的存儲(chǔ)系統(tǒng)成為必需。

這通常意味著利用分布式文件系統(tǒng)進(jìn)行原始數(shù)據(jù)存儲(chǔ)。像 Apache Hadoop 的 HDFS 文件系統(tǒng)這樣的解決方案允許在群集中的多個(gè)節(jié)點(diǎn)上寫入大量數(shù)據(jù)。這確保了計(jì)算資源可以訪問(wèn)數(shù)據(jù)，可以將數(shù)據(jù)加載到集群的 RAM 中以進(jìn)行內(nèi)存操作，并且可以優(yōu)雅地處理組件故障。可以使用其他分布式文件系統(tǒng)代替 HDFS，包括 Ceph 和 GlusterFS。

還可以將數(shù)據(jù)導(dǎo)入其他分布式系統(tǒng)，以實(shí)現(xiàn)更加結(jié)構(gòu)化的訪問(wèn)。分布式數(shù)據(jù)庫(kù)，尤其是 NoSQL 數(shù)據(jù)庫(kù)，非常適合此角色，因?yàn)樗鼈兺ǔＴO(shè)計(jì)有相同的容錯(cuò)考慮因素，并且可以處理異構(gòu)數(shù)據(jù)。有許多不同類型的分布式數(shù)據(jù)庫(kù)可供選擇，具體取決于您希望如何組織和呈現(xiàn)數(shù)據(jù)。

計(jì)算和分析數(shù)據(jù)
一旦數(shù)據(jù)可用，系統(tǒng)就可以開(kāi)始處理數(shù)據(jù)以顯示實(shí)際信息。計(jì)算層可能是系統(tǒng)中最多樣化的部分，因?yàn)樾枨蠛妥罴逊椒赡軙?huì)根據(jù)所需的洞察類型而有很大差異。數(shù)據(jù)通常由一個(gè)工具迭代地重復(fù)處理，或者通過(guò)使用許多工具來(lái)表示不同類型的見(jiàn)解。

批處理是一種計(jì)算大型數(shù)據(jù)集的方法。該過(guò)程包括將工作分成更小的部分，在單個(gè)機(jī)器上安排每個(gè)部件，根據(jù)中間結(jié)果重新調(diào)整數(shù)據(jù)，然后計(jì)算和組裝最終結(jié)果。這些步驟通常分別稱為分裂，映射，改組，縮減和組裝，或統(tǒng)稱為分布式地圖縮減算法。這是 Apache Hadoop 的 MapReduce 使用的策略。在處理需要大量計(jì)算的非常大的數(shù)據(jù)集時(shí)，批處理最有用。

雖然批處理非常適合某些類型的數(shù)據(jù)和計(jì)算，但其他工作負(fù)載需要更多的實(shí)時(shí)處理。實(shí)時(shí)處理要求立即處理和準(zhǔn)備信息，并要求系統(tǒng)在新信息可用時(shí)作出反應(yīng)。實(shí)現(xiàn)此目的的一種方式是流處理，其對(duì)由各個(gè)項(xiàng)組成的連續(xù)數(shù)據(jù)流進(jìn)行操作。實(shí)時(shí)處理器的另一個(gè)共同特征是內(nèi)存計(jì)算，它與集群內(nèi)存中數(shù)據(jù)的表示一起使用，以避免必須寫回磁盤。

Apache Storm，Apache Flink 和 Apache Spark 提供了實(shí)現(xiàn)實(shí)時(shí)或近實(shí)時(shí)處理的不同方法。這些技術(shù)中的每一種都存在權(quán)衡，這可能會(huì)影響哪種方法最適合任何個(gè)別問(wèn)題。通常，實(shí)時(shí)處理最適合分析正在快速更改或添加到系統(tǒng)的較小數(shù)據(jù)塊。

以上示例表示計(jì)算框架。但是，在大數(shù)據(jù)系統(tǒng)中還有許多其他計(jì)算或分析數(shù)據(jù)的方法。這些工具經(jīng)常插入上述框架，并提供額外的接口以與底層進(jìn)行交互。例如，Apache Hive 為 Hadoop 提供了一個(gè)數(shù)據(jù)倉(cāng)庫(kù)接口，Apache Pig 提供了一個(gè)高級(jí)查詢接口，而與數(shù)據(jù)類似的 SQL 交互可以通過(guò) Apache Drill，Apache Impala，Apache Spark SQL 和 Presto 等項(xiàng)目實(shí)現(xiàn)。對(duì)于機(jī)器學(xué)習(xí)，Apache SystemML，Apache Mahout 和 Apache Spark 的 MLlib 非常有用。對(duì)于在大數(shù)據(jù)生態(tài)系統(tǒng)中得到廣泛支持的直接分析編程，R 和 Python 都是受歡迎的選擇。

可視化結(jié)果
由于在大數(shù)據(jù)系統(tǒng)中處理的信息類型，隨著時(shí)間的推移識(shí)別數(shù)據(jù)的趨勢(shì)或變化通常比值本身更重要?？梢暬瘮?shù)據(jù)是發(fā)現(xiàn)趨勢(shì)和理解大量數(shù)據(jù)點(diǎn)的最有用方法之一。

實(shí)時(shí)處理經(jīng)常用于可視化應(yīng)用程序和服務(wù)器度量標(biāo)準(zhǔn)。數(shù)據(jù)經(jīng)常變化，指標(biāo)中的大量增量通常表明對(duì)系統(tǒng)或組織的健康狀況產(chǎn)生重大影響。在這些情況下，像 Prometheus 這樣的項(xiàng)目可用于將數(shù)據(jù)流作為時(shí)間序列數(shù)據(jù)庫(kù)處理并可視化該信息。

一種流行的數(shù)據(jù)可視化方法是使用 Elastic Stack，以前稱為 ELK 堆棧。由用于數(shù)據(jù)收集的 Logstash，用于索引數(shù)據(jù)的 Elasticsearch 和用于可視化的 Kibana 組成，Elastic 堆?？梢耘c大數(shù)據(jù)系統(tǒng)一起使用，以便與計(jì)算結(jié)果或原始指標(biāo)進(jìn)行可視化交互。使用 Apache Solr 進(jìn)行索引并使用名為 Banana 的 Kibana fork 進(jìn)行可視化，可以實(shí)現(xiàn)類似的堆棧。由這些創(chuàng)建的堆棧稱為 Silk。

通常用于交互式數(shù)據(jù)科學(xué)工作的另一種可視化技術(shù)是數(shù)據(jù)“筆記本”。這些項(xiàng)目允許以有助于共享，呈現(xiàn)或協(xié)作的格式進(jìn)行數(shù)據(jù)的交互式探索和可視化。這種可視化界面的流行示例是 Jupyter Notebook 和 Apache Zeppelin。

大數(shù)據(jù)詞匯表
雖然我們?cè)谡麄€(gè)指南中嘗試定義概念，但有時(shí)在一個(gè)地方提供專業(yè)術(shù)語(yǔ)是有幫助的：

大數(shù)據(jù)：大數(shù)據(jù)是數(shù)據(jù)集的總稱，由于其數(shù)量，速度和種類，傳統(tǒng)計(jì)算機(jī)或工具無(wú)法合理處理這些數(shù)據(jù)集。該術(shù)語(yǔ)通常也適用于使用此類數(shù)據(jù)的技術(shù)和策略。
批處理：批處理是一種涉及處理大型數(shù)據(jù)集的計(jì)算策略。這通常適用于對(duì)非常大的數(shù)據(jù)集進(jìn)行操作的非時(shí)間敏感型工作。該過(guò)程開(kāi)始，稍后，系統(tǒng)返回結(jié)果。
集群計(jì)算：集群計(jì)算是匯集多臺(tái)計(jì)算機(jī)資源并管理其集合功能以完成任務(wù)的實(shí)踐。計(jì)算機(jī)集群需要一個(gè)集群管理層來(lái)處理各個(gè)節(jié)點(diǎn)之間的通信并協(xié)調(diào)工作分配。
數(shù)據(jù)湖：數(shù)據(jù)湖是一個(gè)相對(duì)原始狀態(tài)的大型收集數(shù)據(jù)存儲(chǔ)庫(kù)的術(shù)語(yǔ)。這通常用于指在大數(shù)據(jù)系統(tǒng)中收集的數(shù)據(jù)，這些數(shù)據(jù)可能是非結(jié)構(gòu)化的并且經(jīng)常發(fā)生變化。這與數(shù)據(jù)倉(cāng)庫(kù)（下面定義）的精神不同。
數(shù)據(jù)挖掘：數(shù)據(jù)挖掘是嘗試在大型數(shù)據(jù)集中查找模式的實(shí)踐的一個(gè)廣義術(shù)語(yǔ)。這是一個(gè)嘗試將大量數(shù)據(jù)細(xì)化為更易理解和更有凝聚力的信息的過(guò)程。
數(shù)據(jù)倉(cāng)庫(kù)：數(shù)據(jù)倉(cāng)庫(kù)是大型有序的數(shù)據(jù)存儲(chǔ)庫(kù)，可用于分析和報(bào)告。與數(shù)據(jù)湖相比，數(shù)據(jù)倉(cāng)庫(kù)由已清理，與其他來(lái)源集成的數(shù)據(jù)組成，并且通常是有序的。數(shù)據(jù)倉(cāng)庫(kù)通常與大數(shù)據(jù)有關(guān)，但通常是更傳統(tǒng)系統(tǒng)的組件。
ETL：ETL 代表提取，轉(zhuǎn)換和加載。它指的是獲取原始數(shù)據(jù)并為系統(tǒng)使用做好準(zhǔn)備的過(guò)程。傳統(tǒng)上這是與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)的過(guò)程，但是這個(gè)過(guò)程的特征也可以在大數(shù)據(jù)系統(tǒng)的攝取管道中找到。
Hadoop：Hadoop 是一個(gè) Apache 項(xiàng)目，是大數(shù)據(jù)的早期開(kāi)源成功。它由一個(gè)名為 HDFS 的分布式文件系統(tǒng)組成，頂部有一個(gè)集群管理和資源調(diào)度程序，稱為 YARN（Yet Another Resource Negotiator）。批處理功能由 MapReduce 計(jì)算引擎提供。其他計(jì)算和分析系統(tǒng)可以與現(xiàn)代 Hadoop 部署中的 MapReduce 一起運(yùn)行。
內(nèi)存計(jì)算：內(nèi)存計(jì)算是一種涉及將工作數(shù)據(jù)集完全移動(dòng)到集群的集體內(nèi)存中的策略。中間計(jì)算不會(huì)寫入磁盤，而是保存在內(nèi)存中。這使像 Apache Spark 這樣的內(nèi)存計(jì)算系統(tǒng)在速度上超過(guò)了 I / O 綁定系統(tǒng)（如 Hadoop 的 MapReduce）的巨大優(yōu)勢(shì)。
機(jī)器學(xué)習(xí)：機(jī)器學(xué)習(xí)是設(shè)計(jì)系統(tǒng)的研究和實(shí)踐，可以根據(jù)提供給他們的數(shù)據(jù)來(lái)學(xué)習(xí)，調(diào)整和改進(jìn)。這通常涉及預(yù)測(cè)和統(tǒng)計(jì)算法的實(shí)現(xiàn)，當(dāng)更多數(shù)據(jù)流過(guò)系統(tǒng)時(shí)，預(yù)測(cè)和統(tǒng)計(jì)算法可以不斷地將“正確”行為和見(jiàn)解歸為零。
Map reduce（大數(shù)據(jù)算法）：Map reduce（大數(shù)據(jù)算法，而不是 Hadoop 的 MapReduce 計(jì)算引擎）是一種用于在計(jì)算集群上調(diào)度工作的算法。該過(guò)程涉及拆分問(wèn)題設(shè)置（將其映射到不同的節(jié)點(diǎn)）并對(duì)它們進(jìn)行計(jì)算以產(chǎn)生中間結(jié)果，將結(jié)果混洗以對(duì)齊類似的集合，然后通過(guò)為每個(gè)集合輸出單個(gè)值來(lái)減少結(jié)果。
NoSQL：NoSQL 是一個(gè)廣義術(shù)語(yǔ)，指的是在傳統(tǒng)關(guān)系模型之外設(shè)計(jì)的數(shù)據(jù)庫(kù)。與關(guān)系數(shù)據(jù)庫(kù)相比，NoSQL 數(shù)據(jù)庫(kù)具有不同的權(quán)衡，但由于其靈活性和頻繁的分布式優(yōu)先架構(gòu)，它們通常非常適合大數(shù)據(jù)系統(tǒng)。
流處理：流處理是在單個(gè)數(shù)據(jù)項(xiàng)在系統(tǒng)中移動(dòng)時(shí)計(jì)算的實(shí)踐。這允許對(duì)饋送到系統(tǒng)的數(shù)據(jù)進(jìn)行實(shí)時(shí)分析，并且對(duì)于使用高速度量的時(shí)間敏感操作是有用的。
結(jié)論
大數(shù)據(jù)是一個(gè)廣泛，快速發(fā)展的主題。雖然它并不適合所有類型的計(jì)算，但許多組織正在轉(zhuǎn)向某些類型的工作負(fù)載的大數(shù)據(jù)，并使用它來(lái)補(bǔ)充現(xiàn)有的分析和業(yè)務(wù)工具。大數(shù)據(jù)系統(tǒng)非常適合于表現(xiàn)難以檢測(cè)的模式，并提供對(duì)通過(guò)傳統(tǒng)方法無(wú)法找到的行為的洞察力。通過(guò)正確實(shí)施處理大數(shù)據(jù)的系統(tǒng)，組織可以從已有的數(shù)據(jù)中獲得令人難以置信的價(jià)值。