發(fā)布源:深圳維創(chuàng)信息技術(shù)發(fā)布時(shí)間:2020-11-05 瀏覽次數(shù): 次
云服務(wù)已經(jīng)成為企業(yè)加快數(shù)字化活動(dòng)的重要地點(diǎn),以下便是評(píng)估HaaS提供商需要考慮的事項(xiàng):
Haadoop是一個(gè)基于開放源代碼的軟件框架,能夠跨分布式集群高吞吐量處理大數(shù)據(jù)量。
利基市場(chǎng)幾年前就開始進(jìn)入主流市場(chǎng)。
隨著數(shù)字化運(yùn)動(dòng)的快速擴(kuò)展,Hadoop提供了充足的使用案例,允許使用普通商品硬件進(jìn)行大數(shù)據(jù)處理。
從單一服務(wù)器到多個(gè)服務(wù)器群也是高度可擴(kuò)展的,每個(gè)集群都能夠自我運(yùn)行計(jì)算和存儲(chǔ)。
Hadoop在應(yīng)用程序?qū)泳湍芴峁└呖煽啃裕虼思河布乾F(xiàn)成的,能夠使得節(jié)點(diǎn)輕松互換,節(jié)約成本。
云化趨勢(shì)
盡管早期采用者通常能夠使用內(nèi)部部署,利用多個(gè)Apache發(fā)行版中的一個(gè)進(jìn)行設(shè)置,無可否認(rèn)的是,企業(yè)正在越來越多的利用云服務(wù)。
相比之下,自己DIY的方法便是乏味和耗時(shí)的。
由于市場(chǎng)需大于供,擁有資深Hadoop經(jīng)驗(yàn)的技術(shù)嫻熟的工程師便是非常罕見且昂貴的。
購買硬件是一回事,但是在嘗試錯(cuò)誤的猜想中構(gòu)建分析平臺(tái)也是一段漫長(zhǎng)而昂貴的過程。
由于數(shù)字化時(shí)代的上市時(shí)間分秒必爭(zhēng),因此越來越多的公司正在利用Hadoop即服務(wù)(HaaS)產(chǎn)品,這些產(chǎn)品正在迅速出現(xiàn),并且享有較高的采用率。
從用戶角度將云作為首選目標(biāo)看待時(shí)間有意義的事情,由于規(guī)模經(jīng)濟(jì)化,單位成本變得更加低廉,企業(yè)獲得高效率的同時(shí)減少了成本支出,并且獲得了更大的靈活性。
除了商業(yè)利益之外,云最重要的是開辟了一系列全新的數(shù)字用例,特別是在物聯(lián)網(wǎng)和其他需要實(shí)時(shí)數(shù)據(jù)處理的場(chǎng)景中。
其中,AWS的Elastic Map Reduce(EMR)便是這個(gè)領(lǐng)域的開拓性產(chǎn)品之一。
雖然,基本上所有的大型服務(wù)提供商都在他們的產(chǎn)品組合中增加了一個(gè)基于云的Hadoop托管服務(wù),但是發(fā)行商本身卻在努力“框化”他們的框架,而Cloudera的Altus就是最近的例子之一。
Altus允許用戶使用MapReduce上的Hive或者Spark上的Spark按需運(yùn)行數(shù)據(jù)處理作業(yè)。
Cloudera already基本上宣布他們打算將服務(wù)擴(kuò)展到其他領(lǐng)先的公有云(例如微軟Azure),而其他供應(yīng)商可能會(huì)遵循這項(xiàng)規(guī)則。
市場(chǎng)發(fā)展
在強(qiáng)大的云需求面前,越來越多的企業(yè)開始接納Hadoop即服務(wù)。
HaaS本質(zhì)上是PaaS服務(wù)的一項(xiàng)子集,包括虛擬存儲(chǔ)和計(jì)算資源,以及基于Hadoop的處理和分析框架。
服務(wù)提供商通常運(yùn)行多租戶HaaS環(huán)境,允許在共享基礎(chǔ)設(shè)施上托管多個(gè)客戶。
聯(lián)合市場(chǎng)研究公司(Alped market Reserch)研究發(fā)現(xiàn),隨著各組織越來越多采用“Cloud First”的戰(zhàn)略模式,預(yù)計(jì)到2020年哈斯商學(xué)院將獲得169億美元的收入。
從2014年到2020年,該公司的年度復(fù)合增長(zhǎng)了(CAGR)將達(dá)到70.8%。
從收入角度來看,北美仍然位居首位,其次便是歐洲和亞太地區(qū)。
哈斯商學(xué)院的爆發(fā)預(yù)計(jì)將會(huì)在2020年使其在Hadoop市場(chǎng)上的增長(zhǎng)相形見絀。
根據(jù)IDC的研究,公共云部署已經(jīng)占到全球商業(yè)分析軟件市場(chǎng)的12%,預(yù)計(jì)到2020年將達(dá)到25%的CAGR。
除了大型企業(yè),中小型企業(yè)也越來越多地選擇HaaS,以獲得可操作的見解,并創(chuàng)建以數(shù)據(jù)為中心的業(yè)務(wù)模型。
哈斯商學(xué)院預(yù)計(jì)會(huì)在2020中集中爆發(fā),而此時(shí)Hadoop市場(chǎng)將會(huì)出現(xiàn)狀況。
根據(jù)IDC的研究表明,公有云部署已經(jīng)達(dá)到商業(yè)分析軟件市場(chǎng)的12%。
預(yù)計(jì)到2020年將會(huì)達(dá)到25%的CAGR.
考慮HaaS時(shí)需要考慮的事情
雖然利用HaaS無疑有大量的用例,但也有一些缺點(diǎn)。
將數(shù)據(jù)載入云中可能會(huì)產(chǎn)生延遲并需要額外的帶寬。
雖然高度標(biāo)準(zhǔn)化的HaaS環(huán)境只需要點(diǎn)擊幾下便可以方便部署,但涉及權(quán)限將有服務(wù)提供商自行決定。
此外,云中的數(shù)據(jù)將會(huì)展現(xiàn)重力并導(dǎo)致鎖定效應(yīng)。
以下便是評(píng)估HaaS提供商時(shí)需要考慮的一些示例:
1. 彈性
Hadoop支持針對(duì)各種工作負(fù)載的彈性集群,在考慮基于云的部署的時(shí)候?qū)?huì)更加重要。
什么是可用的計(jì)算和存儲(chǔ)選項(xiàng)來支持不同的用例?例如,哪些額外的計(jì)算刀片可用于高I/O工作負(fù)載?環(huán)境的可擴(kuò)展性如何,以及額外資源(計(jì)算,存儲(chǔ))的調(diào)試容易度如何?
2. HDFS的持續(xù)使用 雖然不需要HDFS作為持久的數(shù)據(jù)存儲(chǔ),但使用HDFS的時(shí)候發(fā)現(xiàn)了明顯的優(yōu)化。
HDFS使用商品直接附加存儲(chǔ)(DAS)并共享底層基礎(chǔ)設(shè)施的成本。
此外,HDFS無縫的支持YARN和MapReduce,使其能夠本地處理查詢并充當(dāng)數(shù)據(jù)倉庫。
3. 開票
服務(wù)提供商的底層價(jià)格指標(biāo)是什么(按照訂單,消費(fèi)等計(jì)費(fèi))?如果能力未能得到充分使用,服務(wù)如何能夠靈活退役?最重要的是,要記住數(shù)據(jù)湖的快速擴(kuò)張,價(jià)格將如何隨著時(shí)間而快速擴(kuò)大規(guī)模?
4. 高可用性
實(shí)現(xiàn)“零中斷”是一個(gè)微妙但是非常重要的問題。
什么是提供商的SLA和故障轉(zhuǎn)移概念,冗余是如何完成的?例如,供應(yīng)商能夠在不中斷整個(gè)作業(yè)的情況下隔離和重新啟動(dòng)一臺(tái)機(jī)器(又稱“不間斷操作”)?
5. 互通性
由于隨著時(shí)間的推移使用案例將會(huì)變得越來越復(fù)雜,整合可能已經(jīng)使用或計(jì)劃使用的其他服務(wù)是多么容易?支持哪些數(shù)據(jù)流和API,以及他們記錄的程度如何?
6. 需要人才
雖然建立HaaS環(huán)境所需的人力比DIY方法要少的多,但Hadoop并不是完全開箱急用,只需點(diǎn)擊幾下,節(jié)點(diǎn)就會(huì)運(yùn)行,但這是實(shí)際工作開始的時(shí)間。定制仍然需要時(shí)間和精力。
Copyright © 2021 深圳市維創(chuàng)信息技術(shù)有限公司 版權(quán)所有