什么是hadoop?

發(fā)布時(shí)間：2023-06-08 14:43:49 來(lái)源：互聯(lián)網(wǎng) 作者：h 點(diǎn)擊量：1865

　　所謂Hadoop其實(shí)就是Apache開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)，主要解決海量數(shù)據(jù)存儲(chǔ)與計(jì)算的問(wèn)題，是大數(shù)據(jù)技術(shù)中的基石。Hadoop以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理，主要特點(diǎn)如下：

　　1、海量數(shù)據(jù)存儲(chǔ)

　　HDFS有高容錯(cuò)性的特點(diǎn)，并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(High throughput)來(lái)訪問(wèn)數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序,它由n臺(tái)運(yùn)行著DataNode的機(jī)器組成和1臺(tái)(另外一個(gè)standby)運(yùn)行NameNode進(jìn)程一起構(gòu)成。每個(gè)DataNode 管理一部分?jǐn)?shù)據(jù)，然后NameNode負(fù)責(zé)管理整個(gè)HDFS 集群的信息(存儲(chǔ)元數(shù)據(jù))。

　　2、資源管理，調(diào)度和分配

　　Apache Hadoop YARN(Yet Another Resource Negotiator，另一種資源協(xié)調(diào)者)是一種新的 Hadoop 資源管理器，它是一個(gè)通用資源管理系統(tǒng)和調(diào)度平臺(tái)，可為上層應(yīng)用提供統(tǒng) 一的資源管理和調(diào)度，它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來(lái)了巨大好處。

　　3、并行數(shù)據(jù)處理

　　MapReduce算法要求你可以并行化你的數(shù)據(jù)處理。MapReduce在變量逐個(gè)處理的情況下工作得很好(例如，計(jì)數(shù)或聚合);但是，當(dāng)您需要共同處理變量(例如，變量之間有許多相關(guān)性)時(shí)，此模型不起作用。

　　任何基于圖形的數(shù)據(jù)處理(意味著依賴于其他數(shù)據(jù)的復(fù)雜數(shù)據(jù)網(wǎng)絡(luò))都不適合Hadoop的標(biāo)準(zhǔn)方法。話雖如此，相關(guān)的Apache Tez框架確實(shí)允許使用基于圖形的方法來(lái)處理數(shù)據(jù)，而不是更線性的MapReduce工作流程。

　　以上就是什么是hadoop?的內(nèi)容。

域名注冊(cè)價(jià)格：http://m.y447.cn/regym.htm?t=seo_adzcw
域名一口價(jià)交易：http://m.y447.cn/ykj/?t=seo_admm
過(guò)期域名查詢：http://m.y447.cn/gq/?t=seo_adqz

聲明：本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享網(wǎng)絡(luò)內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：400-997-2996;郵箱：service@Juming.com。本站原創(chuàng)內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明出處：聚名網(wǎng) 什么是hadoop?

關(guān)鍵詞： hadoop

上一篇：API、SDK有什么不同?

下一篇：數(shù)據(jù)庫(kù)空間是什么？

熱門搶注更多>

熱門競(jìng)價(jià) 更多>