發(fā)布源:深圳維創(chuàng)信息技術(shù)發(fā)布時間:2020-09-16 瀏覽次數(shù): 次
騰訊云副總裁黎?。喝绾翁幚砭畤姷臄?shù)據(jù)并維護信息安全?金秋九月,2017國際大數(shù)據(jù)產(chǎn)業(yè)技術(shù)創(chuàng)新高峰論壇暨大數(shù)據(jù)系統(tǒng)軟件國家工程實驗室第一次會議盛大開幕,大數(shù)據(jù)系統(tǒng)軟件國家工程實驗室作為大數(shù)據(jù)系統(tǒng)軟件技術(shù)研發(fā)與工程化的國家級創(chuàng)新平臺,將通過大數(shù)據(jù)系統(tǒng)軟件技術(shù)的跨界合作與國際交流,建立和完善大數(shù)據(jù)領(lǐng)域的技術(shù)創(chuàng)新平臺,集聚整合創(chuàng)新資源,加強產(chǎn)學(xué)研用結(jié)合,突破一批關(guān)鍵共性技術(shù)并實現(xiàn)產(chǎn)業(yè)化,促進大數(shù)據(jù)產(chǎn)業(yè)的快速發(fā)展,為培育和發(fā)展戰(zhàn)略性新興產(chǎn)業(yè)提供驅(qū)動力。
本屆論壇特別邀請到騰訊云副總裁黎巍帶來《社交網(wǎng)絡(luò)大數(shù)據(jù)——從建設(shè)到賦能》的主題報告。
演講精華內(nèi)容經(jīng)數(shù)據(jù)派整理如下:
15年前,當(dāng)QQ還在為用戶人數(shù)過百萬而慶賀時,誰也想不到只用了十幾年的時間,騰訊的用戶數(shù)量呈指數(shù)型增長,同時在線人數(shù)達到了2億。
整個產(chǎn)業(yè)的演變,很快顛覆了傳統(tǒng)的認知。
據(jù)相關(guān)媒體報道,2021年,全球IoT(物聯(lián)網(wǎng))數(shù)據(jù)總量將超過280億。
并且隨著全球物聯(lián)網(wǎng)的發(fā)展,冰箱、電視機等家用設(shè)備都將具備攝像頭和互聯(lián)網(wǎng)功能,就如同傳統(tǒng)意義上的一臺臺電腦,但不是傳統(tǒng)的一臺臺顯示終端,而是都要進入到網(wǎng)絡(luò),產(chǎn)生數(shù)據(jù),這就是“大數(shù)據(jù)井噴”的時代。
談到騰訊和大數(shù)據(jù),就不能不談社交網(wǎng)絡(luò)。
騰訊產(chǎn)品業(yè)務(wù)中有三款作為騰訊所有業(yè)務(wù)發(fā)展的平臺級產(chǎn)品,即:QQ、QQ空間和微信。
截至目前,QQ每月的活躍用戶是8.5億,同時在線最高突破2.68億。
僅QQ這款軟件,每天在群、C2C個人聊天產(chǎn)生的消息超過了2000億。
如此龐大的數(shù)量級,相當(dāng)于在這個平臺上每天生產(chǎn)出2000萬冊圖書;QQ空間里有6億多的活躍用戶,每天上傳的圖片、照片數(shù)量也已經(jīng)超過6億;微信作為騰訊的后起之秀,目前的月活數(shù)量已經(jīng)達到9.63億,遠遠趕超了QQ。
這三個社交軟件匯總到整個騰訊基礎(chǔ)存儲計算的平臺上,公司內(nèi)存儲的數(shù)據(jù)量超過了200PB,日計算量超過15PB,每天騰訊公司接入數(shù)據(jù)超過3萬億,每天實時計算超過1萬億。
從下圖可以看出,騰訊社交網(wǎng)絡(luò)平臺的數(shù)據(jù)量之大。
整個IT服務(wù)設(shè)施自適應(yīng)能力,是未來承載大數(shù)據(jù)非常重要的基礎(chǔ)。
這里的數(shù)據(jù),尤其是核心、敏感的數(shù)據(jù),不允許出現(xiàn)任何問題。
因為一旦出問題,影響的是千家萬戶,影響的是整個社會的方方面面。
我在騰訊這十幾年來,見證了公司業(yè)務(wù)的高速成長,每天也都在迎接著一些挑戰(zhàn)。
最近幾年,我主要負責(zé)社交網(wǎng)絡(luò)安全,包括云計算安全。
因此,巨大的安全挑戰(zhàn)就是我們每天必須要面對的。
在生產(chǎn)環(huán)節(jié),產(chǎn)生這些數(shù)據(jù)以后,公司內(nèi)部存儲、使用是否安全,會不會導(dǎo)致一些數(shù)據(jù)的泄露;當(dāng)真正利用這些數(shù)據(jù)用在產(chǎn)品業(yè)務(wù)里時,這些數(shù)據(jù)在傳輸、調(diào)用過程中,會不會有問題;甚至一些歷史上已經(jīng)過了很長時間不用的數(shù)據(jù),是否就可以隨意丟棄;整個數(shù)據(jù)的銷毀一旦出現(xiàn)泄露,會產(chǎn)生怎樣的后果等等。
爆炸現(xiàn)場分分秒秒都面臨著挑戰(zhàn),隨時有可能停電、停水,數(shù)據(jù)中心也會隨時停止運轉(zhuǎn)。
當(dāng)時公司做了一次史無前例的壯舉,30分鐘之內(nèi),在深圳、上海進行大量的服務(wù)器擴容上線,把天津的在線QQ用戶以1000萬顆粒度調(diào)度到了上海和深圳的災(zāi)備機房。
不過設(shè)想一下,如果天津港爆炸事件波及到了騰訊在天津的數(shù)據(jù)中心,用戶在線使用會受到怎樣的影響呢?騰訊內(nèi)部的可伸縮的服務(wù)架構(gòu)可以保障QQ的使用,在出現(xiàn)極端情況自動調(diào)度時,會自動把內(nèi)部服務(wù)按照顆粒度進行降維,比如一些不那么重要的視頻、語音服務(wù),可以同時擠到上海和深圳,這時候帶寬等出現(xiàn)一些擁擠時,這些重的服務(wù)會降維,但基礎(chǔ)的登錄、發(fā)文本消息仍然可以運行。
所以整個柔性可用(是服務(wù)存在除了正常服務(wù),和掛掉之外的第三種狀態(tài),這就是“服務(wù)降級”的另一種說法)是根據(jù)外部變化,快速去適應(yīng)。
從天津大爆炸來看QQ用戶遷徙,這里承載了騰訊多年來在海量服務(wù)上的實戰(zhàn)經(jīng)驗累積。
天津大遷徙能夠做到用戶無感知,主要仰仗內(nèi)部的SET模型,是彈性伸縮的高效服務(wù)模型。
這套模型架構(gòu),在十年前創(chuàng)立時,它的基礎(chǔ)架構(gòu)參照的是集裝箱原理。
海量服務(wù)后臺各種服務(wù)、各種同步的邏輯非常復(fù)雜。
以集裝箱原理,把所有的服務(wù)模糊掉耦合,變成一個個可以度量,甚至每一個SET模型都可以獨立運轉(zhuǎn),都可以獨立異地部署。
所以,當(dāng)QQ在線用戶數(shù)量無論是2億、10億或是100億,在內(nèi)部后臺服務(wù)看到的只是擴充一個個集裝箱,整個后臺監(jiān)控大屏可以看出哪里出問題,看到每一個集裝箱的問題。
在這個模型里,每一個SET內(nèi)部可以擴展,可以承載幾萬客戶,也可以擴展承載上千萬客戶,同時每個SET擴展幾百萬客戶,很多SET平行運轉(zhuǎn)。
這樣使得可管理性、可度量性大大增強,自動化部署和自動化運維會非常快。
這是整個騰訊后臺服務(wù)彈性伸縮模型中非常重要的基礎(chǔ)的構(gòu)造,也是天津大遷徙最終能夠?qū)崿F(xiàn)無感知基礎(chǔ)的架構(gòu)。
這方面,騰訊為什么能做到無感知延遲?其原因是騰訊在全中國是以深圳、上海、天津三地骨干網(wǎng)進行連接,三地大數(shù)據(jù)中心全部都是有儲備的,這個意思就是QQ、微信,最核心用戶的一些信息數(shù)據(jù)在三地是完整的。
這里不是簡單磁盤數(shù)據(jù),而是在天津、上海、深圳三地都保持著100多T的內(nèi)存數(shù)據(jù)。
在切換時,不需要從另外一個地方同步數(shù)據(jù)、導(dǎo)數(shù)據(jù),可以做到快速切換。
例如,對于不是那么敏感的資料和信息數(shù)據(jù),音樂之類的數(shù)據(jù),一般主要是在深圳和上海兩地進行備份容災(zāi)。
所以,整個分布式容災(zāi)能力,日常容災(zāi)、備份能力,也是保證整個服務(wù)遇到危機時,不會因為移地而受到影響。
所以整個柔性可用(是服務(wù)存在除了正常服務(wù),和掛掉之外的第三種狀態(tài),這就是“服務(wù)降級”的另一種說法)是根據(jù)外部變化,快速去適應(yīng)。
從天津大爆炸來看QQ用戶遷徙,這里承載了騰訊多年來在海量服務(wù)上的實戰(zhàn)經(jīng)驗累積。
經(jīng)過十八年的發(fā)展,騰訊作為一家互聯(lián)網(wǎng)公司,在海量的服務(wù)、容災(zāi)容錯,各種異地分布式積累方面儲備了大量的經(jīng)驗和教訓(xùn),所以著重考慮把這些能力、資源、經(jīng)驗貢獻到社會和企業(yè)。
最近幾年,因為云計算的興起,我們開始通過“云”這個平臺和管道賦能到企業(yè)和社會,實現(xiàn)資源的整合再平衡,以及社會潛能的釋放。
目前,包括整個處理平臺的開放和騰訊大數(shù)據(jù)的開放。
騰訊的業(yè)務(wù)數(shù)據(jù)量非常龐大,每天面臨的國內(nèi)外黑產(chǎn)、黑客的攻擊層出不窮。
這么多年來,給我們積累了大量的經(jīng)驗和數(shù)據(jù),在整個騰訊平臺上,現(xiàn)在具備100億惡意網(wǎng)址檢測的存儲數(shù)據(jù),APK樣本過億級。
整個中國從事非法獲益的手機庫有過億黑手機,超過百萬黑銀行卡信息數(shù)據(jù)。
這些數(shù)據(jù)經(jīng)過我們最近幾年深度學(xué)習(xí)的算法挖掘,數(shù)據(jù)價值越來越大。
現(xiàn)在這個平臺開放以后,除了騰訊,包括幫助國內(nèi)很多公司和網(wǎng)站,每天識別惡意網(wǎng)址超過百萬,每天識別惡意詐騙電話超過百萬,每天檢測出在網(wǎng)上傳播的各種惡意樣本超過千萬級。
我們把這些能力最后匯集成一些產(chǎn)品和服務(wù)系統(tǒng)(基本上都是公益的),開放給社會。
另外,這幾年國內(nèi)電話詐騙,釣魚、仿冒銀行短信,甚至基站都是偽造的,普通網(wǎng)民很難識別,一年多前,騰訊把反偽基站系統(tǒng)、反釣魚網(wǎng)站系統(tǒng)提供給包括運營商、各地公安部門,在一些地方部署以后,偽基站的部署量有了70%的下降。
計算結(jié)果令我們非常震驚,基本看到了整個社交網(wǎng)絡(luò)星云圖,在邊緣有非常多的毛刺,這些毛刺就是異常、有問題的網(wǎng)絡(luò),通過這樣的星云圖,進一步從里面深入挖掘分析,再進一步把在網(wǎng)上利用QQ平臺從事各種非法獲益的社團挖掘出來,甚至通過社團的邊緣連接點,已經(jīng)能夠比較好的將其上下游繪制出來。
這些年,應(yīng)用在整個社交網(wǎng)絡(luò)里面一些詐騙、有害信息的處理,這方面對團伙的挖掘和打擊非常有效。
這是社交網(wǎng)絡(luò)大數(shù)據(jù)重要的研究應(yīng)用。
通過這些畫像可以有力地打擊網(wǎng)上非法獲益產(chǎn)業(yè)。
在國內(nèi),現(xiàn)在非常典型的非法獲益產(chǎn)業(yè),行業(yè)稱之為“羊毛黨”。
銀行或電商做一個活動,有很多獎品,發(fā)現(xiàn)很多獎品都被專門的“羊毛黨”騙走了,單一中小企業(yè)應(yīng)對這些“羊毛黨”是非常難的。
因為他們非常聰明,有大量資源和信息可以繞過。
把大量用戶IP、設(shè)備各種行為進行畫像,身份屬性畫像以后,對用戶做了畫像、DNA建模以后,通過單點繞過我們監(jiān)測也很難。
這個平臺開放到了云上,給到一些電商互聯(lián)網(wǎng)金融企業(yè)進行反欺詐、防“羊毛黨”的打擊工作也是卓有成效的。
經(jīng)過十幾年的摸爬滾打,騰訊從整個數(shù)據(jù)的創(chuàng)建、存儲、傳輸、訪問、使用,包括到最后的銷毀,已經(jīng)具備了一個全流程的數(shù)據(jù)安全的防控體系。
作為內(nèi)部來說,包括用戶在使用時,最基本身份的管理、授權(quán)的管理、認證的管理,一定要非常清楚是誰在用這個數(shù)據(jù),而在十年前,這些卻都是安全漏洞。
另外,騰訊海量的數(shù)據(jù),在這些海量數(shù)據(jù)里要尋找惡意數(shù)據(jù),如果用傳統(tǒng)規(guī)則的一些算法和方法,是很難發(fā)現(xiàn)這些惡意的。
所以最近一兩年,我們利用機器學(xué)習(xí)、深度學(xué)習(xí)一些引擎應(yīng)用在大數(shù)據(jù)上,發(fā)現(xiàn)了一些惡意數(shù)據(jù)爬取、訪問,在云平臺上給用戶提供了全生命周期的安全防護。
數(shù)據(jù)是企業(yè)和社會發(fā)展的重要動力,也是我們未來生產(chǎn)和生活的動力源泉。
隨著近些年人工智能、大數(shù)據(jù)、云計算等方面的突破,相信未來數(shù)據(jù)利用的效能一定會越來越高,對整個社會、對企業(yè)的生態(tài)都會產(chǎn)生非常積極有價值的影響。
Copyright © 2021 深圳市維創(chuàng)信息技術(shù)有限公司 版權(quán)所有