<span id="mktg5"></span>

<i id="mktg5"><meter id="mktg5"></meter></i>

        <label id="mktg5"><meter id="mktg5"></meter></label>
        最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
        問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
        當前位置: 首頁 - 科技 - 知識百科 - 正文

        Hadoop版本說明以及Hadoop2中的幾個重要概念

        來源:懂視網 責編:小采 時間:2020-11-09 15:56:51
        文檔

        Hadoop版本說明以及Hadoop2中的幾個重要概念

        Hadoop版本說明以及Hadoop2中的幾個重要概念:當我們現在(2014年7月)訪問Apache的Hadoop官方網站,可以看到目前官網提供了三個推薦版本。像我一樣的初學者必然感到困惑: 1.2.X - current stable version, 1.2 release 2.4.X - current stable 2.x version 0.23.X -
        推薦度:
        導讀Hadoop版本說明以及Hadoop2中的幾個重要概念:當我們現在(2014年7月)訪問Apache的Hadoop官方網站,可以看到目前官網提供了三個推薦版本。像我一樣的初學者必然感到困惑: 1.2.X - current stable version, 1.2 release 2.4.X - current stable 2.x version 0.23.X -

        當我們現在(2014年7月)訪問Apache的Hadoop官方網站,可以看到目前官網提供了三個推薦版本。像我一樣的初學者必然感到困惑: 1.2.X - current stable version, 1.2 release 2.4.X - current stable 2.x version 0.23.X - similar to 2.X.X but missing NN H

        當我們現在(2014年7月)訪問Apache的Hadoop官方網站,可以看到目前官網提供了三個推薦版本。像我一樣的初學者必然感到困惑:
        1.2.X - current stable version, 1.2 release
        2.4.X - current stable 2.x version
        0.23.X - similar to 2.X.X but missing NN HA.


        1、為什么會提供這么奇怪的版本,我做了一些了解
        Hadoop一代:原來Hadoop最初的開發時候出現了0.20,0.21,0.22,0.23這樣的版本,后來0.20.x版本最后演化成了現在的1.0.x版本,也就是Hadoop第一代的穩定版本。也就是說第一代Hadoop包含三個大版本,分別是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,變成了穩定版,也就是現在官網推薦的一代穩定產品1.2.x。 0.21.x和0.22.x是下一代Hadoop中的MapReduce實現,只不過資源管理系統還是用的JobTracker,沒有使用YARN。

        Hadoop二代:而最初的0.23版本,完全不同于第一代Hadoop,是一套全新的架構,包含HDFS Federation和YARN兩個系統,后來也由0.23演化出了2.0.x系列的二代版本。 至于0.23和2.0.x系列的不同,那就是相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility兩個重大特性。

        那么,我們就可以非常清楚的明白,Hadoop官網給出的三個下載鏈接:
        1.2.x代表第一代的Hadoop框架; 2.4.x代表第二代的Hadoop框架;0.23.x也是第二代框架,只是缺少了NN HA特性。


        什么是NN HA? 答:Namenode High Available,即Namenode高可用性。這里有一篇關于HA解決方案的介紹:
        http://wenku.baidu.com/link?url=aPnXLQjY3rXyxSwgn_9u4-7fuvmuW6WNmLDLr3YFQ7_RZjFR7YODjPK-pSbgyHBX2AZ9bzB5EYeiR09LO_ecSa6KmDNJn4R-3ImzUVGWjL_
        http://www.infoq.com/cn/articles/hadoop-2-0-namenode-ha-federation-practice-zh
        http://blog.csdn.net/wf1982/article/details/7793166


        2、我們應該下載哪個版本?

        由于我本次實驗室所工作的事情初次接觸該框架,而且需要用到較多的特性,故果斷選擇第二代框架。而且,作為使用者,我們必然要選擇Stable版本,我們看到官網提供的2.4.x確實是Stable版本,而且當我進入下載,找到華科大的鏡像服務器時,其Stable目錄下,正是2.4.1,因此本次項目我們使用2.4.1的版本。

        想看最全的Hadoop版本,就去這里:http://svn.apache.org/repos/asf/hadoop/common/branches/


        實際上,當前Hadoop只有兩個版本:Hadoop 1.0(我覺得應該叫他一代)和Hadoop 2.0(我覺得應該叫他二代,中文免得混亂),其中,Hadoop 1.0由一個分布式文件系統HDFS和一個離線計算框架MapReduce組成,而Hadoop 2.0則包含一個支持NameNode橫向擴展的HDFS,一個資源管理系統YARN和一個運行在YARN上的離線計算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加強大,且具有更好的擴展性、性能,并支持多種計算框架。

        當我們決定是否采用某個軟件用于開源環境時,通常需要考慮以下幾個因素:
        (1)是否為開源軟件,即是否免費。
        (2) 是否有穩定版,這個一般軟件官方網站會給出說明。
        (3) 是否經實踐驗證,這個可通過檢查是否有一些大點的公司已經在生產環境中使用知道。
        (4) 是否有強大的社區支持,當出現一個問題時,能夠通過社區、論壇等網絡資源快速獲取解決方法。


        3、CHD基于開源Hadoop的另一個分發版本------
        我們在關注Hadoop時可能會經常看到CDH3或CDH4之類的Hadoop版本,那么他們就是由一家叫做Cloudera的公司發行的,就像Linux操作系統領域有Redhat一樣,Hadoop是Apache的開源項目,然后有一家公司Cloudera就利用Hadoop改造成另一個發行版。CDH是在Apache的基礎上進行優化的版本。這家云計算公司發展非常強勁,大有成為下一個Redhat之勢。
        可以在官網了解到相關知識:http://www.cloudera.com/content/support/en/downloads.html


        4、Hadoop2代中的相關概念
        (1) Hadoop 1.0
        第一代Hadoop,由分布式存儲系統HDFS和分布式計算框架MapReduce組成,其中,HDFS由一個NameNode和多個DataNode組成,MapReduce由一個JobTracker和多個TaskTracker組成,對應Hadoop版本為Hadoop 1.x和0.21.X,0.22.x。
        (2) Hadoop 2.0
        第二代Hadoop,為克服Hadoop 1.0中HDFS和MapReduce存在的各種問題而提出的。針對Hadoop 1.0中的單NameNode制約HDFS的擴展性問題,提出了HDFS Federation,它讓多個NameNode分管不同的目錄進而實現訪問隔離和橫向擴展;針對Hadoop 1.0中的MapReduce在擴展性和多框架支持方面的不足,提出了全新的資源管理框架YARN(Yet Another Resource Negotiator),它將JobTracker中的資源管理和作業控制功能分開,分別由組件ResourceManager和ApplicationMaster實現,其中,ResourceManager負責所有應用程序的資源分配,而ApplicationMaster僅負責管理一個應用程序。對應Hadoop版本為Hadoop 0.23.x和2.x。
        (3) MapReduce 1.0或者MRv1(MapReduce version 1)
        第一代MapReduce計算框架,它由兩部分組成:編程模型(programming model)和運行時環境(runtime environment)。它的基本編程模型是將問題抽象成Map和Reduce兩個階段,其中Map階段將輸入數據解析成key/value,迭代調用map()函數處理后,再以key/value的形式輸出到本地目錄,而Reduce階段則將key相同的value進行規約處理,并將最終結果寫到HDFS上。它的運行時環境由兩類服務組成:JobTracker和TaskTracker,其中,JobTracker負責資源管理和所有作業的控制,而TaskTracker負責接收來自JobTracker的命令并執行它。
        (4)MapReduce 2.0或者MRv2(MapReduce version 2)或者NextGen MapReduc
        MapReduce 2.0或者MRv2具有與MRv1相同的編程模型,唯一不同的是運行時環境。MRv2是在MRv1基礎上經加工之后,運行于資源管理框架YARN之上的MRv1,它不再由JobTracker和TaskTracker組成,而是變為一個作業控制進程ApplicationMaster,且ApplicationMaster僅負責一個作業的管理,至于資源的管理,則由YARN完成。
        簡而言之,MRv1是一個獨立的離線計算框架,而MRv2則是運行于YARN之上的MRv1。
        (5) YARN
        Hadoop 2.0中的資源管理框架,它是一個框架管理器,為各種框架進行資源分配和提供運行時環境。而MRv2則是運行在YARN之上的第一個計算框架,其他計算框架,比如Spark、Storm等,都正在往YARN上移植。YARN類似于幾年前的資源管理系統mesos和更早的Torque。Yarn的官方介紹http://hadoop.apache.org/docs/r2.2.0/hadoop-yarn/hadoop-yarn-site/YARN.html
        (6) HDFS Federation
        Hadoop 2.0中對HDFS進行了改進,使NameNode可以橫向擴展成多個,其中,每個NameNode分管一部分目錄,這不僅增強了HDFS的擴展性,也使HDFS具備了隔離性。


        5、分布式計算相關的其他概念
        Spark:Spark是一個高效的分布式計算系統,發源于美國加州大學伯克利分校AMPLab的集群計算平臺。 Spark被稱為“Hadoop的瑞士軍刀”,擁有非凡的速度和易用性。Spark立足于內存計算,相比Hadoop MapReduce,Spark在性能上要高100倍,而且Spark提供了比Hadoop更上層的API,同樣的算法在Spark中實現往往只有Hadoop的1/10或者1/100的長度。 Apache Spark? is a fast and general engine for large-scale data processing.
        Storm:分布式實時計算系統。按照storm作者的說法,storm對于實時計算的意義類似于hadoop對于批處理的意義。我們都知道,根據google mapreduce來實現的hadoop為我們提供了map, reduce原語,使我們的批處理程序變得非常地簡單和優美。同樣,storm也為實時計算提供了一些簡單優美的原語。 有一篇介紹Strom的博客:http://www.searchtb.com/2012/09/introduction-to-storm.html


        ------------本文引用出處-----------
        http://dongxicheng.org/mapreduce-nextgen/how-to-select-hadoop-versions/
        http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-terms-explained/
        http://dongxicheng.org/mapreduce-nextgen/hadoop-2-2-0/

        聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

        文檔

        Hadoop版本說明以及Hadoop2中的幾個重要概念

        Hadoop版本說明以及Hadoop2中的幾個重要概念:當我們現在(2014年7月)訪問Apache的Hadoop官方網站,可以看到目前官網提供了三個推薦版本。像我一樣的初學者必然感到困惑: 1.2.X - current stable version, 1.2 release 2.4.X - current stable 2.x version 0.23.X -
        推薦度:
        標簽: 幾個 中的 版本
        • 熱門焦點

        最新推薦

        猜你喜歡

        熱門推薦

        專題
        Top
        主站蜘蛛池模板: 亚洲国产成人五月综合网| 最近免费mv在线电影| 最近中文字幕免费mv视频7| 亚洲人成网站在线播放vr| 免费国产高清毛不卡片基地| 最近最新MV在线观看免费高清| 久久夜色精品国产噜噜噜亚洲AV | 久久精品国产亚洲AV大全| 抽搐一进一出gif免费视频| 国产啪亚洲国产精品无码 | 免费无毒a网站在线观看| 日本免费人成黄页在线观看视频| 亚洲精品综合在线影院| 国产精品无码免费播放| 亚洲中文字幕久久无码| 日本不卡在线观看免费v| 亚洲精品无码高潮喷水A片软| 成人免费视频小说| 亚洲精品无码你懂的| 日日操夜夜操免费视频| 无码的免费不卡毛片视频| 亚洲AV无码成H人在线观看| 人与动性xxxxx免费| 亚洲欧洲日产国码无码久久99| 中文字幕av无码不卡免费| 国产亚洲成AV人片在线观黄桃| 国产情侣久久久久aⅴ免费| 久久精品亚洲综合专区| 95免费观看体验区视频| 亚洲人6666成人观看| 四虎影视www四虎免费| 日日躁狠狠躁狠狠爱免费视频 | 91麻豆精品国产自产在线观看亚洲 | 亚洲性无码AV中文字幕| 拔擦拔擦8x华人免费久久| 阿v免费在线观看| 国产AV无码专区亚洲AV男同| 最近免费中文字幕大全高清大全1| 亚洲啪啪免费视频| 免费在线精品视频| 无码av免费一区二区三区|