精品乱码一区内射人妻无码-亚洲中文AⅤ中文字幕在线-免费不卡国产福利在线观看-国产综合无码一区二区色蜜蜜

          正在閱讀:大數(shù)據(jù)存儲孤島亟需打破 要點(diǎn)搶先看

          大數(shù)據(jù)存儲孤島亟需打破 要點(diǎn)搶先看

          2016-12-28 17:13:44來源:51CTO 編輯:沐子飛 關(guān)鍵詞:大數(shù)據(jù)存儲數(shù)據(jù)挖掘閱讀量:34951

          導(dǎo)讀:20世紀(jì)90年代,每臺應(yīng)用服務(wù)器往往都擁有直接連接存儲(DAS)。創(chuàng)建存儲區(qū)域網(wǎng)絡(luò)(SAN),是為了提供共享的存儲池,以獲得更大的規(guī)模和更高的效率。
            【中國智能制造網(wǎng) 智造快訊】20世紀(jì)90年代,每臺應(yīng)用服務(wù)器往往都擁有直接連接存儲(DAS)。創(chuàng)建存儲區(qū)域網(wǎng)絡(luò)(SAN),是為了提供共享的存儲池,以獲得更大的規(guī)模和更高的效率。Hadoop逆轉(zhuǎn)了這股潮流,讓DAS重新流行起來。每個Hadoop集群都有自己的、橫向擴(kuò)展直接連接存儲。它有助于Hadoop管理數(shù)據(jù)局部性,但是犧牲了共享存儲的規(guī)模和效率。因此,如果你有Hadoop發(fā)行版的多個實(shí)例,就會有多個這種橫向擴(kuò)展的存儲孤島。

          大數(shù)據(jù)存儲孤島亟需打破 要點(diǎn)搶先看
           
            Hedvig公司的執(zhí)行官兼創(chuàng)始人阿維納什·拉克希曼(Avinash Lakshman)說:“我們遇到的大挑戰(zhàn)就是,兼顧數(shù)據(jù)局部性與規(guī)模和效率。”
           
            數(shù)據(jù)局部性是指確保大數(shù)據(jù)集存儲在執(zhí)行分析任務(wù)的計算資源附近。對于Hadoop來說,這就意味著管理數(shù)據(jù)節(jié)點(diǎn)(DataNode),而數(shù)據(jù)節(jié)點(diǎn)為MapReduce擁有足夠好的性能提供了存儲資源。它可以地工作,但是導(dǎo)致了另一個操作問題:大數(shù)據(jù)存儲孤島。本文介紹的這些要點(diǎn)有助于管理Hadoop環(huán)境中的大數(shù)據(jù)存儲。
           
            1. 分散式存儲
           
            集中式存儲作為傳統(tǒng)架構(gòu)已有一段時間。但是大數(shù)據(jù)其實(shí)并不適合集中存儲架構(gòu)。Infogix的金融服務(wù)行業(yè)(FSI)戰(zhàn)略和運(yùn)營經(jīng)理森希爾·拉賈曼尼坎(Senthil Rajamanickam)表示,Hadoop旨在讓計算資源更接近數(shù)據(jù),同時充分利用HDFS文件系統(tǒng)的大規(guī)模橫向擴(kuò)展功能。
           
            然而,解決Hadoop管理自有數(shù)據(jù)的低效問題的常見方法,一向是將Hadoop數(shù)據(jù)存儲在SAN上。而這帶來了性能和規(guī)模方面的一系列瓶頸?,F(xiàn)在,你的所有數(shù)據(jù)都通過集中式SAN控制器來處理,而控制器破壞了Hadoop的分布式、并行化的特性。你需要為多個數(shù)據(jù)節(jié)點(diǎn)管理多個SAN,或者將所有數(shù)據(jù)節(jié)點(diǎn)保存到一個SAN上。
           
            拉克希曼說:“由于Hadoop是一種分布式應(yīng)用系統(tǒng),它應(yīng)該可以在分布式存儲上運(yùn)行,那樣你的存儲保持與Hadoop本身一樣的彈性。這需要你積極采用軟件定義存儲方法,在商用服務(wù)器上運(yùn)行,但是它比把Hadoop放在傳統(tǒng)SAN或NAS技術(shù)上得多,因?yàn)楹笳呓oHadoop造成了瓶頸。
           
            2. 超融合vs分布式
           
            不過要小心,別將超融合與分布式混為一談。某些超融合方法是分布式的,但這個術(shù)語通常意味著你的應(yīng)用程序和存儲可以共同駐留在同一個計算節(jié)點(diǎn)上。解決數(shù)據(jù)局部性問題很誘人,但是這會造成嚴(yán)重的資源爭奪現(xiàn)象。 Hadoop應(yīng)用和存儲平臺將爭奪同樣的內(nèi)存和處理器資源。拉克希曼表示,好在專用的應(yīng)用層上運(yùn)行Hadoop,在專用的存儲層中運(yùn)行分布式存儲,從而充分利用緩存和分層技術(shù),以解決數(shù)據(jù)局部性和網(wǎng)絡(luò)性能開銷。
           
            3. 避免控制器阻塞點(diǎn)
           
            他強(qiáng)調(diào)了做到這一點(diǎn)的一個重要方面――避免通過單一(或可能兩個)點(diǎn)(比如傳統(tǒng)控制器)來處理數(shù)據(jù)。通過改而確保存儲平臺并行化,就能顯著提高性能。
           
            此外,這種方法提供了增量可擴(kuò)展性。為數(shù)據(jù)湖添加容量就跟添加幾臺內(nèi)置閃存或旋轉(zhuǎn)磁盤的x86服務(wù)器一樣簡單。分布式存儲平臺可在必要時自動添加容量、重新均衡數(shù)據(jù)。
           
            4. 重復(fù)數(shù)據(jù)刪除和壓縮
           
            駕馭大數(shù)據(jù)的一個關(guān)鍵部分是重復(fù)數(shù)據(jù)刪除和壓縮。Hedvig看到常見的大數(shù)據(jù)集可以縮減70%-90%。在PB級規(guī)模下,這意味著可節(jié)省數(shù)萬美元的磁盤成本。
           
            拉克希曼說:“現(xiàn)代平臺提供了內(nèi)聯(lián)式(而不是處理后)重復(fù)數(shù)據(jù)刪除和壓縮。這意味著,如果不先以某種方式來縮減數(shù)據(jù),數(shù)據(jù)永遠(yuǎn)不會進(jìn)入到磁盤,這大大減少了存儲數(shù)據(jù)所需的容量。”
           
            5. 整合Hadoop發(fā)行版
           
            許多大組織都有多個Hadoop發(fā)行版??赡苁怯捎陂_發(fā)人員需要訪問多個“版本”,或者業(yè)務(wù)部門久而久之采用了不同的版本。不管怎樣,IT總部常常終負(fù)責(zé)這些集群的日常維護(hù)和操作。大數(shù)據(jù)數(shù)量真正開始影響業(yè)務(wù)時,存在多個Hadoop發(fā)行版會導(dǎo)致效率低下。
           
            拉克希曼說:“你可以創(chuàng)建一個單一、經(jīng)過重復(fù)數(shù)據(jù)刪除的壓縮數(shù)據(jù)湖,然后它可以為Hadoop的多個實(shí)例提供數(shù)據(jù),從而獲得數(shù)據(jù)效率。”
           
            6. 對Hadoop虛擬化處理
           
            虛擬化技術(shù)在企業(yè)界刮起了一場風(fēng)暴。在許多地方,如今超過80%的物理服務(wù)器已虛擬化。不過由于性能和數(shù)據(jù)局部性問題,許多人避免了對Hadoop進(jìn)行虛擬化處理。
           
            拉克希曼說:“你可以對Hadoop或Spark進(jìn)行虛擬化處理。”
           
            7. 構(gòu)建彈性數(shù)據(jù)湖
           
            構(gòu)建數(shù)據(jù)湖并非易事,但大數(shù)據(jù)存儲的需求可能需要數(shù)據(jù)湖。有許多方法可以著手構(gòu)建,可是哪一種才是合適的方法?合適的架構(gòu)有望構(gòu)建一個活躍、彈性的數(shù)據(jù)湖,可以存儲來自所有數(shù)據(jù)源、采用多種格式的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。更重要的是,它必須支持就在數(shù)據(jù)源處執(zhí)行應(yīng)用程序,而不是從遠(yuǎn)程源處執(zhí)行,那樣需要移動數(shù)據(jù)。
           
            遺憾的是,傳統(tǒng)的架構(gòu)和應(yīng)用程序(即非分布式)并不令人滿意。由于數(shù)據(jù)集變得更龐大,必須將應(yīng)用程序移到數(shù)據(jù),而不是將數(shù)據(jù)移到應(yīng)用程序,因?yàn)槟菢友舆t太長。而有了Hadoop/Spark,分析工作流變得更具破壞性了,因?yàn)閿?shù)據(jù)和應(yīng)用程序從不同的孤島來執(zhí)行,迫使數(shù)據(jù)移動并存儲到多個平臺上。
           
            日立公司大數(shù)據(jù)分析產(chǎn)品營銷經(jīng)理弗雷德·歐(Fred Oh)說:“理想的數(shù)據(jù)湖基礎(chǔ)設(shè)施能夠存儲單一數(shù)據(jù)副本,并且讓應(yīng)用程序針對單一數(shù)據(jù)源執(zhí)行,沒必要移動數(shù)據(jù)或制作副本(比如在Linux、虛擬機(jī)和Hadoop之間)。”
           
            8. 集成分析
           
            分析不是一種新的功能,多年來它就存在于傳統(tǒng)的RDBMS環(huán)境中。不同之處在于,出現(xiàn)了基于開源的應(yīng)用程序,以及能夠?qū)?shù)據(jù)庫表與社交媒體和非結(jié)構(gòu)化數(shù)據(jù)源(比如維基百科)集成起來。關(guān)鍵在于,能夠把多種類型和格式的數(shù)據(jù)集成為一種標(biāo)準(zhǔn)的數(shù)據(jù),那樣就能更輕松、更一致地完成可視化和報告。擁有完成這項(xiàng)工作的合適工具集是確保任何分析/商業(yè)智能項(xiàng)目成功的關(guān)鍵。
           
            歐說:“說到分析,重要的是要明白真正的挑戰(zhàn)不在可視化,而在數(shù)據(jù)集成,尤其是集成來自多個數(shù)據(jù)源、采用多種格式的數(shù)據(jù)。一套全面的數(shù)據(jù)集成工具和基于GUI的集成控制臺可以克服企業(yè)在大數(shù)據(jù)方面的挑戰(zhàn)。”
           
            9. 大數(shù)據(jù)遇上大視頻
           
            大數(shù)據(jù)夠糟糕,大視頻更是為這個現(xiàn)象添加了壓力。比如說,企業(yè)日益使用視頻監(jiān)控,不僅僅出于安全性,還為了提高運(yùn)營和工業(yè)效率,簡化流量管理,支持監(jiān)管合規(guī)及另外幾種使用場合。很快,這些數(shù)據(jù)源會生成大量內(nèi)容。那些要處理大視頻的企業(yè)好確保為此建立了合適類別的數(shù)據(jù)存儲系統(tǒng),無論是不是基于Hadoop。
           
            歐說:“這些應(yīng)用程序正在帶來大量的視頻數(shù)據(jù),要是沒有合適的專用存儲解決方案,這些數(shù)據(jù)會帶來諸多問題,比如數(shù)據(jù)丟失和視頻質(zhì)量下降。”
           
            10. 沒有贏家
           
            近Hadoop無疑攻下了許多地盤。所以,隨著數(shù)據(jù)存儲量急劇增長,它會是終贏家,擊敗其他所有方法嗎?不太可能。
           
            比如說,由于OLTP方面的固有優(yōu)點(diǎn)以及要求100%的可用性,基于SAN的傳統(tǒng)架構(gòu)不會在近期被取代。但是如果需要分析以及與非結(jié)構(gòu)化數(shù)據(jù)(比如社交媒體)集成,那么評估超融合平臺就有引人入勝的理由,因?yàn)槌诤掀脚_將服務(wù)器計算、分布式文件系統(tǒng)、Hadoop/Spark和更新穎的數(shù)據(jù)庫應(yīng)用軟件與基于開源的分析工具整合起來。
           
            因此,佳方法將超融合平臺與分布式文件系統(tǒng)整合起來,并集成了分析軟件?;贚inux的傳統(tǒng)RDBMS應(yīng)用(DWO和數(shù)據(jù)市場等)可滿足這個用途,Hadoop/Spark/MapReduce則應(yīng)對新的社交媒體挑戰(zhàn),使用服務(wù)器虛擬化提供了靈活性和效率。但是這每種環(huán)境都可能形成不同的數(shù)據(jù)孤島。理想的方法就是同時支持這三種環(huán)境,并增添這種功能:可在數(shù)據(jù)源處執(zhí)行應(yīng)用程序,并減少分析工作流中的數(shù)據(jù)移動。
           
            歐說:“成功的關(guān)鍵在于實(shí)施的系統(tǒng)考慮到了可擴(kuò)展性、分析集成和專業(yè)知識。終,存儲專業(yè)人員需要預(yù)料未來的要求,而不僅僅著眼于存儲。”
           
            (原標(biāo)題:大數(shù)據(jù)存儲:擴(kuò)展Hadoop的要點(diǎn))
          我要評論
          • 物流智能轉(zhuǎn)型新引擎:DeepSeek+物流

            DeepSeek 物流不僅是技術(shù)的革新,更是城市發(fā)展的重要推動力。它通過智能化手段提升物流效率、優(yōu)化資源利用、減少環(huán)境影響,并為智慧城市建設(shè)提供支撐。未來,隨著AI技術(shù)的不斷進(jìn)步,物流行業(yè)將迎來更深刻的變革。
            物流大數(shù)據(jù)服務(wù)平臺
            2025-04-30 10:11:15
          • 2025年4月1日開始施行的重要新規(guī)一覽

            四月,一系列新規(guī)定即將實(shí)施,包括《公共安全視頻圖像信息系統(tǒng)管理?xiàng)l例》、《車聯(lián)網(wǎng)網(wǎng)絡(luò)安全異常行為檢測機(jī)制》等。
            大數(shù)據(jù)服務(wù)平臺
            2025-04-02 09:31:36
          • 江波龍2024年營收175億大增72%,凈利潤翻倍

            江波龍發(fā)布2024年年報,全年營收174.64億元,同比增長72.48%;凈利潤4.99億元,同比大增160.24%。公司高端存儲產(chǎn)品占比提升帶動毛利率顯著改善,企業(yè)級存儲和Lexar品牌業(yè)務(wù)成為增長新引擎。2025年將重點(diǎn)布局AI服務(wù)器存儲、UFS高端產(chǎn)品及海外市場拓展。
            2024年業(yè)績報告存儲
            2025-04-01 10:35:36
          • 鐵塔大數(shù)據(jù)災(zāi)害分析平臺:提升自然災(zāi)害智能化預(yù)警水平

            目前,我國災(zāi)害預(yù)防面臨著監(jiān)測預(yù)警網(wǎng)絡(luò)不健全、實(shí)效性不高、精準(zhǔn)性不強(qiáng),“三斷”(斷路、斷網(wǎng)、斷電)無法及時發(fā)現(xiàn)等問題,亟需建立防災(zāi)減災(zāi)預(yù)警網(wǎng)絡(luò),實(shí)現(xiàn)“災(zāi)后救助”向“災(zāi)前預(yù)防”轉(zhuǎn)變的目標(biāo)。
            大數(shù)據(jù)災(zāi)害分析平臺
            2025-03-19 10:47:45
          • 淄博市召開大數(shù)據(jù)系統(tǒng)工作會議暨“三拼三比”動員部署會

            會議指出,2024年是新一輪機(jī)構(gòu)改革后全市大數(shù)據(jù)系統(tǒng)全面履職的第一年,全市大數(shù)據(jù)系統(tǒng)在市委市政府的堅強(qiáng)領(lǐng)導(dǎo)和省大數(shù)據(jù)局的有力指導(dǎo)下,數(shù)據(jù)要素價值加速釋放、數(shù)字經(jīng)濟(jì)發(fā)展步伐加快、數(shù)字政府建設(shè)深入推進(jìn)、數(shù)字支撐底座更為夯實(shí),數(shù)字淄博建設(shè)取得明顯成效。
            大數(shù)據(jù)服務(wù)平臺
            2025-03-18 10:07:30
          • 公司重要動態(tài)速覽|??低?、新華三、宇樹科技......

            近期,智慧城市領(lǐng)域的企業(yè)有哪些動態(tài)呢?小編整理了一下,一起來回顧。??低暟l(fā)布視覺大模型周界攝像機(jī);宇樹科技入駐阿里速賣通AliExpress出海......
            大數(shù)據(jù)服務(wù)平臺
            2025-03-16 14:10:47
          版權(quán)與免責(zé)聲明:

          凡本站注明“來源:智能制造網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:智能制造網(wǎng)”。違反上述聲明者,本站將追究其相關(guān)法律責(zé)任。

          本站轉(zhuǎn)載并注明自其它來源(非智能制造網(wǎng))的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn)或和對其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺或個人從本站轉(zhuǎn)載時,必須保留本站注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來源:智能制造網(wǎng)”,本站將依法追究責(zé)任。

          鑒于本站稿件來源廣泛、數(shù)量較多,如涉及作品內(nèi)容、版權(quán)等問題,請與本站聯(lián)系并提供相關(guān)證明材料:聯(lián)系電話:0571-89719789;郵箱:1271141964@qq.com。

          不想錯過行業(yè)資訊?

          訂閱 智能制造網(wǎng)APP

          一鍵篩選來訂閱

          信息更豐富

          推薦產(chǎn)品/PRODUCT 更多
          智造商城:

          PLC工控機(jī)嵌入式系統(tǒng)工業(yè)以太網(wǎng)工業(yè)軟件金屬加工機(jī)械包裝機(jī)械工程機(jī)械倉儲物流環(huán)保設(shè)備化工設(shè)備分析儀器工業(yè)機(jī)器人3D打印設(shè)備生物識別傳感器電機(jī)電線電纜輸配電設(shè)備電子元器件更多

          我要投稿
          • 投稿請發(fā)送郵件至:(郵件標(biāo)題請備注“投稿”)1271141964.qq.com
          • 聯(lián)系電話0571-89719789
          工業(yè)4.0時代智能制造領(lǐng)域“互聯(lián)網(wǎng)+”服務(wù)平臺
          智能制造網(wǎng)APP

          功能豐富 實(shí)時交流

          智能制造網(wǎng)小程序

          訂閱獲取更多服務(wù)

          微信公眾號

          關(guān)注我們

          抖音

          智能制造網(wǎng)

          抖音號:gkzhan

          打開抖音 搜索頁掃一掃

          視頻號

          智能制造網(wǎng)

          公眾號:智能制造網(wǎng)

          打開微信掃碼關(guān)注視頻號

          快手

          智能制造網(wǎng)

          快手ID:gkzhan2006

          打開快手 掃一掃關(guān)注
          意見反饋
          我要投稿
          我知道了