發(fā)布源:深圳維創(chuàng)信息技術(shù)發(fā)布時(shí)間:2020-09-16 瀏覽次數(shù): 次
可以說(shuō),誰(shuí)想搶得大數(shù)據(jù)的一手可靠資料,誰(shuí)就在未來(lái)的業(yè)務(wù)發(fā)展和拓寬中占據(jù)優(yōu)勢(shì),誰(shuí)就會(huì)在相關(guān)領(lǐng)域首先拔得頭籌。
但是,大數(shù)據(jù)發(fā)展前景現(xiàn)在到底如何,大數(shù)據(jù)的可靠性由誰(shuí)說(shuō)了算,大數(shù)據(jù)的真實(shí)性有誰(shuí)可以保證?我想,應(yīng)該很少人能夠清楚地知道這一點(diǎn)吧!畢竟在大數(shù)據(jù)分析與應(yīng)用火爆的年代,一般人都只是了解大數(shù)據(jù)的皮毛和表面,而對(duì)于大數(shù)據(jù)發(fā)展前景、大數(shù)據(jù)背后的來(lái)源及處理分析等等精密的工作程序,肯定不了解,也不會(huì)感興趣。
而且對(duì)于一般人,也不可能會(huì)去真正弄明白大數(shù)據(jù)分析與應(yīng)用背后蘊(yùn)藏的種種可靠性、客觀性、真實(shí)性的來(lái)源支撐與科學(xué)手段處理。
我們的 “大數(shù)據(jù)版圖” 已經(jīng)進(jìn)入第 4 個(gè)年頭了,趁這個(gè)時(shí)候退一步來(lái)反思一下去年發(fā)生了什么,思考一下這個(gè)行業(yè)的未來(lái)會(huì)怎樣是很有意義的,看看如今的大數(shù)據(jù)到底發(fā)展到了什么階段。
那么 2019年大數(shù)據(jù)到底還有多大的發(fā)展和進(jìn)步空間呢?我們不妨探討一下。
企業(yè)技術(shù)=艱苦工作 大數(shù)據(jù)有趣的一點(diǎn)在于,它不再像當(dāng)初經(jīng)歷過(guò)那樣有可能成為炒作的題材了。
經(jīng)過(guò)炒作周期后仍能引起廣泛興趣的產(chǎn)品和服務(wù)往往那些大家能夠接觸、可以感知,或者與大眾相關(guān)聯(lián)的:比如移動(dòng)應(yīng)用、社交網(wǎng)絡(luò)、可穿戴、虛擬現(xiàn)實(shí)等。
但大數(shù)據(jù)基本上就是管道設(shè)施的一種。
當(dāng)然,大數(shù)據(jù)為許多消費(fèi)者或商業(yè)用戶(hù)體驗(yàn)提供了動(dòng)力,但它的核心是企業(yè)技術(shù):數(shù)據(jù)庫(kù)、分析等,這些東西都是在后端運(yùn)行的,沒(méi)幾個(gè)人能看得見(jiàn)。
就像在那個(gè)世界工作的任何人都知道那樣,用一個(gè)晚上的時(shí)間就想適應(yīng)企業(yè)端的新技術(shù)是不可能的。
大數(shù)據(jù)現(xiàn)象在早期主要是受到了與一批骨干互聯(lián)網(wǎng)公司(尤其是 Google、Facebook、Twitter 等)的共生關(guān)系的推動(dòng),這些公司既是核心大數(shù)據(jù)技術(shù)的重度用戶(hù),同時(shí)也是這些技術(shù)的創(chuàng)造者。
這些公司突然間面對(duì)著規(guī)模前所未有的龐大數(shù)據(jù)時(shí),由于本身缺乏傳統(tǒng)的(昂貴的)基礎(chǔ)設(shè)施,也沒(méi)有辦法招募到一些最好的工程師,所以只好自己動(dòng)手來(lái)開(kāi)發(fā)所需的技術(shù)。
后來(lái)隨著開(kāi)源運(yùn)動(dòng)的迅速發(fā)展,一大批此類(lèi)新技術(shù)開(kāi)始共享到更廣的范圍。
然后,一些互聯(lián)網(wǎng)大公司的工程師離職去創(chuàng)辦自己的大數(shù)據(jù)初創(chuàng)企業(yè)。
其他的一些 “數(shù)字原生” 公司,包括嶄露頭角的獨(dú)角獸公司,也開(kāi)始面臨著互聯(lián)網(wǎng)大公司的類(lèi)似需求,由于它們自身也沒(méi)有傳統(tǒng)的基礎(chǔ)設(shè)施,所以自然就成為了那些大數(shù)據(jù)技術(shù)的早期采用者。
而早期的成功又導(dǎo)致了更多的創(chuàng)業(yè)活動(dòng)發(fā)生,并獲得了更多的 VC 資助,從而帶動(dòng)了大數(shù)據(jù)的起勢(shì)。
快速發(fā)展了幾年之后,現(xiàn)在我們面臨的是更加廣闊、但也更加棘手的機(jī)遇:讓中等規(guī)模到跨國(guó)公司級(jí)別的更大一批企業(yè)采用大數(shù)據(jù)技術(shù)。
這些公司跟 “數(shù)字原生” 公司不一樣的是,他們沒(méi)有從零開(kāi)始的有利條件。
而且他們失去的會(huì)更多:這些公司絕大部分的現(xiàn)有技術(shù)基礎(chǔ)設(shè)施都是成功的。
那些基礎(chǔ)設(shè)施當(dāng)然未必是功能完備的,組織內(nèi)部許多人也意識(shí)到對(duì)自己的遺留基礎(chǔ)設(shè)施進(jìn)行現(xiàn)代化應(yīng)該是早點(diǎn)好過(guò)晚點(diǎn),但他們不會(huì)一夜間就把自己的關(guān)鍵業(yè)務(wù)取代掉。
任何革命都需要過(guò)程、預(yù)算、項(xiàng)目管理、試點(diǎn)、局部部署以及完備的安全審計(jì)等。
大企業(yè)對(duì)由年輕的初創(chuàng)企業(yè)來(lái)處理自己基礎(chǔ)設(shè)施的關(guān)鍵部分的謹(jǐn)慎是可以理解的。
還有,令創(chuàng)業(yè)者感到絕望的是,許多(還是大多數(shù)?)企業(yè)仍頑固地拒絕把數(shù)據(jù)遷移到云端(至少不愿遷移到公有云)。
還需要理解的另一個(gè)關(guān)鍵是:大數(shù)據(jù)的成功不在于實(shí)現(xiàn)技術(shù)的某一方面(像 Hadoop 什么的),而是需要把一連串的技術(shù)、人和流程糅合到一起。
你得捕捉數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)、清洗數(shù)據(jù)、查詢(xún)數(shù)據(jù)、分析數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行可視化。
這些工作一部分可以由產(chǎn)品來(lái)完成,而有的則需要人來(lái)做。
一切都需要無(wú)縫集成起來(lái)。
最后,要想讓所有這一切發(fā)揮作用,整個(gè)公司從上到下都需要樹(shù)立以數(shù)據(jù)驅(qū)動(dòng)的文化,這樣大數(shù)據(jù)才不僅僅是個(gè) “東西”,而且就是那個(gè)(關(guān)鍵的)“東西”。
換句話(huà)說(shuō):有一堆艱苦的工作要做。
部署階段 所以,這就是在經(jīng)過(guò)幾年引人矚目的初創(chuàng)企業(yè)如雨后春筍冒頭,VC 投資頻等頭條后,我們開(kāi)始步入大數(shù)據(jù)的部署期和早期成熟期的原因。
更有前瞻性的大公司(姑且稱(chēng)之為傳統(tǒng)技術(shù)采用周期的 “早期采用者”)在 2011 到 2013年 間開(kāi)始實(shí)驗(yàn)大數(shù)據(jù)技術(shù),推出了若干的 Hadoop 試點(diǎn)計(jì)劃(往往是因?yàn)橼s時(shí)髦)或者嘗試一些點(diǎn)方案。
他們招募了各種各樣此前并不存在的崗位(如 “數(shù)據(jù)科學(xué)家” 或 “首席數(shù)據(jù)官”)。
他們進(jìn)行了各種努力,包括吧全部數(shù)據(jù)都堆到一個(gè)數(shù)據(jù)容器(“data lake”),然后希望緊跟著就會(huì)發(fā)生奇跡(往往不會(huì))。
他們逐步建設(shè)自己的內(nèi)部能力,試驗(yàn)了各種供應(yīng)商,從試點(diǎn)計(jì)劃到生產(chǎn)中的局部部署,然后到現(xiàn)在爭(zhēng)論要不要全企業(yè)鋪開(kāi)(全范圍鋪開(kāi)實(shí)施的情況還很罕見(jiàn))。
許多情況下,他們正處在這樣一個(gè)重要的拐點(diǎn)上,即經(jīng)過(guò)大數(shù)據(jù)基礎(chǔ)設(shè)施的數(shù)年建設(shè)后,能夠展示的成果還不多,至少在公司內(nèi)部的商業(yè)用戶(hù)看來(lái)是這樣的。
但是大量吃力不討好的工作已經(jīng)做完了,現(xiàn)在開(kāi)始進(jìn)入到有影響力的應(yīng)用部署階段了。
只是從目前來(lái)看,這種建構(gòu)在核心架構(gòu)之上的應(yīng)用數(shù)量還不成比例。
接下來(lái)的一波大公司(稱(chēng)之為傳統(tǒng)技術(shù)采用周期的 “早期多數(shù)使用者”)大多數(shù)時(shí)候?qū)Υ髷?shù)據(jù)技術(shù)是持觀望態(tài)度的,對(duì)于整個(gè)大數(shù)據(jù)方面的東西,他們還在心存一定程度困惑中觀望。
直到最近,他們還在指望某個(gè)大型供應(yīng)商(比如 IBM)會(huì)提供一個(gè)一站式的解決方案,不過(guò)現(xiàn)在看來(lái)這種情況近期內(nèi)并不會(huì)出現(xiàn)。
他們看待這個(gè)大數(shù)據(jù)版圖的態(tài)度是心懷恐懼,在想自己是不是真的需要跟這一堆看起來(lái)并沒(méi)有什么不同的初創(chuàng)企業(yè)合作,然后修補(bǔ)出各種解決方案。
生態(tài)體系正在成熟 與此同時(shí),在初創(chuàng)企業(yè) / 供應(yīng)商這一塊,整個(gè)第一波的大數(shù)據(jù)公司(2009 至 2013年間成立的那批)現(xiàn)在已經(jīng)融了數(shù)輪的資金,企業(yè)規(guī)模已經(jīng)得到了擴(kuò)大,并且從早期部署的成功或失敗中學(xué)到了東西,現(xiàn)在他們已經(jīng)能夠提供更成熟的、經(jīng)受過(guò)考驗(yàn)的產(chǎn)品了。
少數(shù)一些已經(jīng)成為了上市公司(包括 2015年上市的 HortonWorks 和 New Repc),而有的(比如 Cloudera、MongoDB 等)融資已經(jīng)達(dá)上億美元了。
這個(gè)領(lǐng)域的 VC 融資活動(dòng)仍然很有生氣,2016年 的前幾周我們見(jiàn)證好幾輪相當(dāng)可觀的后期階段大數(shù)據(jù)融資事件:DataDog(9400 萬(wàn)美元),BloomReach(5600 萬(wàn)美元),Qubole(3000 萬(wàn)美元),PlaceIQ(2500 萬(wàn)美元)等。
2015年 大數(shù)據(jù)初創(chuàng)企業(yè)拿到的融資額達(dá)到了 66.4 億美元,占整個(gè)技術(shù) VC 總?cè)谫Y額額 11%。
并購(gòu)活動(dòng)則開(kāi)展得中規(guī)中矩(自從上一版大數(shù)據(jù)版圖發(fā)布以來(lái)完成了 34 項(xiàng)并購(gòu),具體可參見(jiàn)附注) 隨著該領(lǐng)域的創(chuàng)業(yè)活動(dòng)持續(xù)進(jìn)行以及資金的不斷流入,加上適度的少量退出,以及越來(lái)越活躍的技術(shù)巨頭(尤其是 Amazon、Google、IBM),使得這個(gè)領(lǐng)域的公司日益增多,最后匯成了這幅 2018版的大數(shù)據(jù)版圖。
顯然這張圖已經(jīng)很擠了,而且還有很多都沒(méi)辦法列進(jìn)去(關(guān)于我們的方法論可以參見(jiàn)附注) 在基本趨勢(shì)方面,行動(dòng)開(kāi)始慢慢從左轉(zhuǎn)到右(即創(chuàng)新、推出新產(chǎn)品和新公司),從基礎(chǔ)設(shè)施層(開(kāi)發(fā)者 / 工程師的世界)轉(zhuǎn)移到分析層(數(shù)據(jù)科學(xué)家和分析師的世界)乃至應(yīng)用層(商業(yè)用戶(hù)和消費(fèi)者的世界),“大數(shù)據(jù)原生應(yīng)用” 已經(jīng)在迅速冒頭—這多少符合了我們?cè)鹊囊恍╊A(yù)期。
大數(shù)據(jù)基礎(chǔ)設(shè)施:仍有大量創(chuàng)新 Google 關(guān)于 MapReduce 和 BigTable 的論文(Cutting 和 MikeCafarella 因?yàn)檫@個(gè)而做出了 Hadoop)的誕生問(wèn)世已有 10年 了,在這段時(shí)間里,大數(shù)據(jù)的基礎(chǔ)設(shè)施層已經(jīng)逐漸成熟,一些關(guān)鍵問(wèn)題也得到了解決。
但是,基礎(chǔ)設(shè)施領(lǐng)域的創(chuàng)新仍然富有活力,這很大程度上是得益于可觀的開(kāi)源活動(dòng)規(guī)模。
2016年無(wú)疑是 Apache Spark 之年。
自我們發(fā)布上一版大數(shù)據(jù)版圖以來(lái),這個(gè)利用了內(nèi)存處理的開(kāi)源框架就開(kāi)始引發(fā)眾多討論。
自那以后,Spark 受到了從 IBM 到 Cloudera 的各式玩家的擁護(hù),讓它獲得了可觀的信任度。
Spark 的出現(xiàn)是很有意義的,因?yàn)樗鉀Q了一些導(dǎo)致 Hadoop 采用放緩的關(guān)鍵問(wèn)題:Spark 速度變快了很多(基準(zhǔn)測(cè)試表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100 倍),更容易編程,并且跟機(jī)器學(xué)習(xí)能夠很好地搭配。
除了 Spark 以外,還出現(xiàn)了其他的一些令人興奮的框架,比如 Fpnk、Ignite、Samza、Kudu 等,這些框架的發(fā)展勢(shì)頭也很好。
一些思想領(lǐng)袖認(rèn)為,Mesos(數(shù)據(jù)中心資源管理系統(tǒng),把數(shù)據(jù)中心當(dāng)作一臺(tái)大計(jì)算資源池進(jìn)行編程)的出現(xiàn)也刺激了對(duì) Hadoop 的需求。
即便在數(shù)據(jù)庫(kù)的世界里,新興的玩家似乎也越來(lái)越多。
多到市場(chǎng)已經(jīng)難以承受的地步,這里發(fā)生了很多令人興奮的事情,從圖形數(shù)據(jù)庫(kù)(如 Neo4j )的成熟,到專(zhuān)門(mén)數(shù)據(jù)庫(kù)的推出(如統(tǒng)計(jì)時(shí)序數(shù)據(jù)庫(kù) InfluxDB),乃至于 CockroachDB 的出現(xiàn)(受 Google Spanner 靈感啟發(fā)誕生的融合了 SQL 與 NoSQL 長(zhǎng)處的新型數(shù)據(jù)庫(kù))。
數(shù)據(jù)倉(cāng)庫(kù)也在演變(如云數(shù)據(jù)倉(cāng)庫(kù) Snowflake)。
大數(shù)據(jù)分析:現(xiàn)在跟 AI 結(jié)合了 大數(shù)據(jù)分析過(guò)去幾個(gè)月出現(xiàn)的一股趨勢(shì)是,越來(lái)越關(guān)注利用人工智能(形式和風(fēng)格各異)來(lái)幫助分析大規(guī)模的數(shù)據(jù),從而獲得預(yù)測(cè)性的洞察。
其實(shí)最近出現(xiàn)復(fù)興的 AI 很大程度上算是大數(shù)據(jù)的產(chǎn)物。
深度學(xué)習(xí)(最近受到關(guān)注最多的 AI 領(lǐng)域)背后的算法基本上是幾十年前就誕生了的,但直到最近能夠以足夠便宜、足夠快速地應(yīng)用到大規(guī)模數(shù)據(jù)之后才發(fā)揮出了它的最大潛能。
AI 與大數(shù)據(jù)之間的關(guān)系如此緊密,以至于業(yè)界專(zhuān)家現(xiàn)在認(rèn)為 AI 已經(jīng)令人懊惱地 “與大數(shù)據(jù)陷入了熱戀當(dāng)中”。
不過(guò)反過(guò)來(lái),AI 現(xiàn)在也在幫助大數(shù)據(jù)實(shí)現(xiàn)后者的承諾。
分析對(duì) AI/ 機(jī)器學(xué)習(xí)越來(lái)越多的關(guān)注也符合大數(shù)據(jù)下一步演進(jìn)的趨勢(shì):現(xiàn)在數(shù)據(jù)我都有了,但究竟從中能得到什么樣的洞察呢?當(dāng)然,這件事情可以讓數(shù)據(jù)科學(xué)家來(lái)解決,從一開(kāi)始他們的角色就是實(shí)現(xiàn)機(jī)器學(xué)習(xí),否則的話(huà)就得想出模型來(lái)發(fā)現(xiàn)數(shù)據(jù)的意義。
但是機(jī)器智能現(xiàn)在正在逐漸發(fā)揮輔助數(shù)據(jù)科學(xué)家的作用—只需要倒騰數(shù)據(jù),新興的產(chǎn)品就能從中提煉出數(shù)學(xué)公式(如 Context Relevant)或者自動(dòng)建立和推薦最有可能返回最佳結(jié)果的數(shù)據(jù)科學(xué)模型(如 DataRobot)。
一批新的 AI 公司提供的產(chǎn)品能夠自動(dòng)識(shí)別像圖像這樣的復(fù)雜實(shí)體(如 Clarifai、Dextro),或者提供強(qiáng)大的預(yù)測(cè)性分析(如 HyperScience)。
同時(shí),隨著基于無(wú)監(jiān)督學(xué)習(xí)的產(chǎn)品的傳播和改善,看看它們與數(shù)據(jù)科學(xué)家之間的關(guān)系如何演變將非常有趣—將來(lái)這兩者是敵還是友呢?AI 當(dāng)然不會(huì)很快取代數(shù)據(jù)科學(xué)家的位置,但預(yù)計(jì)會(huì)看到數(shù)據(jù)科學(xué)家通常執(zhí)行的更簡(jiǎn)單一點(diǎn)的工作越來(lái)越多的自動(dòng)化,從而可以極大提高生產(chǎn)力。
但不管怎樣,AI/ 機(jī)器學(xué)習(xí)絕不是大數(shù)據(jù)分析唯一值得關(guān)注的趨勢(shì)。
大數(shù)據(jù) BI 平臺(tái)的普遍成熟及其日益增強(qiáng)的實(shí)時(shí)能力也是一個(gè)令人興奮的趨勢(shì)(如 SiSense、Arcadia Data 等)。
大數(shù)據(jù)應(yīng)用:真正的加速 隨著一些核心基礎(chǔ)設(shè)施的挑戰(zhàn)得到解決,大數(shù)據(jù)應(yīng)用層正在快速構(gòu)建。
在企業(yè)內(nèi)部,已經(jīng)出現(xiàn)了各種工具來(lái)幫助跨多個(gè)核心職能的企業(yè)用戶(hù)。
比方說(shuō),銷(xiāo)售和營(yíng)銷(xiāo)的大數(shù)據(jù)應(yīng)用通過(guò)處理大規(guī)模的內(nèi)外部數(shù)據(jù)來(lái)幫助找出哪位客戶(hù)可能會(huì)購(gòu)買(mǎi)、續(xù)約或者流失,且速度越來(lái)越實(shí)時(shí)化。
客服應(yīng)用幫助個(gè)性化服務(wù)。
人力應(yīng)用幫助找出如何吸引和挽留最好的員工等。
專(zhuān)門(mén)的大數(shù)據(jù)應(yīng)用幾乎在任何一個(gè)垂直行業(yè)都有出現(xiàn),從醫(yī)療保健(尤其是基因組學(xué)和藥物研究)到金融、時(shí)尚乃至于執(zhí)法(如 Mark43)。
有兩個(gè)趨勢(shì)值得強(qiáng)調(diào)一下。
首先,這些應(yīng)用很多都是 “大數(shù)據(jù)原生” 的,本身都是依托在最新的大數(shù)據(jù)技術(shù)基礎(chǔ)上開(kāi)發(fā)的,代表了一種客戶(hù)無(wú)須部署底層大數(shù)據(jù)技術(shù)即可利用大數(shù)據(jù)的有趣方式—因?yàn)槟切┑讓蛹夹g(shù)已經(jīng)是打包的,至少對(duì)于特定功能來(lái)說(shuō)是這樣的。
比方說(shuō),ActionIQ 就是在 Spark 基礎(chǔ)上開(kāi)發(fā)的(或者說(shuō)是 Spark 的一個(gè)派生),所以它的客戶(hù)能夠在營(yíng)銷(xiāo)部門(mén)利用 Spark 的威力而不需要自己部署 Spark,這種情況下是沒(méi)有 “裝配線(xiàn)” 的。
其次,AI 在應(yīng)用層也有很強(qiáng)大的存在。
比方說(shuō),在貓捉老鼠的安全領(lǐng)域中,AI 被廣泛用來(lái)對(duì)付黑客,實(shí)時(shí)識(shí)別和對(duì)抗網(wǎng)絡(luò)攻擊。
去年已經(jīng)出現(xiàn)了一個(gè) AI 驅(qū)動(dòng)的數(shù)字助手行業(yè),支持從任務(wù)自動(dòng)化到會(huì)議安排(如 x.ai)以及購(gòu)物等幾乎一切事情。
這些解決方案對(duì) AI 的依賴(lài)程度不一,從幾乎 100%自動(dòng)化到 “有人參與” 等情況各不相同,但是可以明確的是,人的能力在 AI 幫助下得到了增強(qiáng)。
結(jié)論 從很多方面來(lái)看,我們?nèi)匀惶幵诖髷?shù)據(jù)現(xiàn)象的早期發(fā)展階段。
盡管已經(jīng)花費(fèi)了數(shù)年時(shí)間,但減少基礎(chǔ)設(shè)施來(lái)存儲(chǔ)和處理大規(guī)模數(shù)據(jù)還只是第一階段。
AI/ 機(jī)器學(xué)習(xí)已經(jīng)成為大數(shù)據(jù)應(yīng)用層的一股迅猛趨勢(shì)。
大數(shù)據(jù)與 AI 的結(jié)合將會(huì)推動(dòng)很多行業(yè)的驚人創(chuàng)新。
從這個(gè)角度來(lái)說(shuō),大數(shù)據(jù)的機(jī)會(huì)也許要比大家想象的還要大。
Copyright © 2021 深圳市維創(chuàng)信息技術(shù)有限公司 版權(quán)所有