發(fā)布源:深圳維創(chuàng)信息技術(shù)發(fā)布時(shí)間:2020-09-16 瀏覽次數(shù): 次
斷電是數(shù)據(jù)中心中斷的常見原因,但它們不是唯一的罪魁禍?zhǔn)住?/p>
隨著企業(yè)計(jì)算環(huán)境變得越來越復(fù)雜,IT系統(tǒng)和網(wǎng)絡(luò)故障導(dǎo)致大量數(shù)據(jù)中心宕機(jī)。
Uptime Institute一直在研究公開報(bào)道停機(jī)情況,以追蹤導(dǎo)致意外停機(jī)的原因。
在過去三年中,該公司從傳統(tǒng)媒體或社交媒體上報(bào)道的162起中斷中篩選了部分信息。
在此期間,可用數(shù)據(jù)量穩(wěn)步攀升;研究人員收集了2016年27次停電,2017年57次停電以及78次停電的數(shù)據(jù)。
Uptime Institute的研究執(zhí)行董事Andy Lawrence表示,“公共服務(wù)中斷越來越頻繁地成為新聞。
” Lawrence表示,“幾乎每天都在世界各地發(fā)生大規(guī)模停機(jī),這并不一定意味著中斷的數(shù)量在急劇增加,但停機(jī)時(shí)間正在獲得更多的關(guān)注。
”他說。
來自Uptime Institute的研究的一個(gè)重要發(fā)現(xiàn):電源在整體故障中的影響較小,而網(wǎng)絡(luò)和IT系統(tǒng)則更為牽連。
這種轉(zhuǎn)變的一個(gè)原因是,電力系統(tǒng)的運(yùn)行比過去更加可靠,這減少了本地?cái)?shù)據(jù)中心內(nèi)部的電力故障數(shù)量。
在過去二十年中,科技行業(yè)一直專注于設(shè)計(jì)電力系統(tǒng),使IT資產(chǎn)能夠在電力系統(tǒng)出現(xiàn)故障或故障的情況下繼續(xù)運(yùn)行。
Uptime Institute首席技術(shù)官Chris Brown表示,“供應(yīng)雙線IT設(shè)備的2N配電系統(tǒng)的出現(xiàn),使得IT系統(tǒng)能夠通過一系列單一事件繼續(xù)運(yùn)行。
” 與此同時(shí),日益復(fù)雜的IT環(huán)境導(dǎo)致更多的IT和網(wǎng)絡(luò)相關(guān)問題。
“現(xiàn)在數(shù)據(jù)分布在多個(gè)地方,其中一些關(guān)鍵依賴與網(wǎng)絡(luò)、應(yīng)用程序(架構(gòu))的方式以及數(shù)據(jù)庫復(fù)制的方式。
這是一個(gè)非常復(fù)雜的系統(tǒng),今天擾亂該系統(tǒng)的可能性比過去幾年要少。
”Uptime Institute負(fù)責(zé)IT優(yōu)化和戰(zhàn)略的副總裁Todd Traver說。
評(píng)估數(shù)據(jù)中心中斷的嚴(yán)重程度 為了區(qū)分可能導(dǎo)致業(yè)務(wù)癱瘓的停機(jī)和僅僅造成不便的中斷,Uptime Institute已經(jīng)提出了規(guī)模。
Lawrence說,評(píng)級(jí)系統(tǒng)允許研究人員了解模式如何隨時(shí)間變化。
Uptime Institute的規(guī)模有五個(gè)層次: ●1級(jí)是可以忽略不計(jì)的停機(jī)。
中斷是可記錄的,但對(duì)服務(wù)的影響很小或沒有明顯影響,也沒有服務(wù)中斷。
●2級(jí)的特點(diǎn)是最小的服務(wù)中斷。
服務(wù)中斷,但對(duì)用戶、客戶或聲譽(yù)的影響微乎其微。
●3級(jí)是業(yè)務(wù)重要的服務(wù)中斷。
它涉及客戶或用戶服務(wù)中斷,大多數(shù)是有限的范圍、持續(xù)時(shí)間或影響。
對(duì)經(jīng)濟(jì)的影響很小,甚至沒有。
會(huì)產(chǎn)生一些聲譽(yù)或合規(guī)方面的影響。
●4級(jí)是嚴(yán)重的業(yè)務(wù)或服務(wù)中斷。
涉及服務(wù)或操作的中斷。
其中包括一些財(cái)務(wù)損失、違規(guī)行為,聲譽(yù)損害和可能的安全問題,客戶損失是可能的。
●5級(jí)是關(guān)鍵業(yè)務(wù)或任務(wù)停機(jī),涉及服務(wù)或運(yùn)營的重大破壞。
可能存在巨大的財(cái)務(wù)損失、安全問題、合規(guī)性違規(guī)、客戶損失和聲譽(yù)受損。
當(dāng)Uptime Institute在三年期間檢查所有公開報(bào)告的數(shù)據(jù)中心中斷(級(jí)別1到5)時(shí),IT系統(tǒng)和網(wǎng)絡(luò)問題超出了電源作為主要原因。
當(dāng)比較逐年的原因時(shí),這種趨勢尤其明顯。
2017年,28%的停電事故的罪魁禍?zhǔn)资请娏Α?/p>
在接下來的一年中,僅有11%的斷電被列為主要原因。
與IT系統(tǒng)相關(guān)的故障保持相當(dāng)一致; 在2017年和分別有32%和35%的故障是由它們引起的。
網(wǎng)絡(luò)中斷的主要原因顯著增加:2017年19%的網(wǎng)絡(luò)中斷歸咎于網(wǎng)絡(luò),而這一比例為32%。
“這是事物之間的相互聯(lián)系。
這就是為什么網(wǎng)絡(luò)中斷的大幅增加會(huì)導(dǎo)致中斷。
”“這些東西不是通過一個(gè)或兩個(gè)站點(diǎn)連接的,而是通過三個(gè)或四個(gè)或更多站點(diǎn)連接的。
網(wǎng)絡(luò)在“IT彈性”中扮演著越來越重要的角色。
此外,隨著更多IT資源被移交給服務(wù)提供商,并且不再受使用它們的企業(yè)直接控制,IT將增加管理和操作復(fù)雜性。
深入研究數(shù)據(jù)中心停機(jī)時(shí)間 Uptime Institute深入研究了數(shù)據(jù)中心中斷的具體原因。
在網(wǎng)絡(luò)方面,中斷的常見原因包括: ●光纖在數(shù)據(jù)中心外部切斷,路由選擇不足。
●主交換機(jī)間歇性故障,未部署輔助路由器。
●主交換機(jī)故障,沒有備份。
●維護(hù)期間的流量配置不正確。
●路由器和軟件定義的網(wǎng)絡(luò)配置錯(cuò)誤。
●對(duì)非備份單個(gè)組件(如交換機(jī)和路由器)斷電。
錯(cuò)誤配置的路由器和軟件定義的網(wǎng)絡(luò)是“常見的網(wǎng)絡(luò)問題。
他們應(yīng)該通過測試檢測到。
”Traver說。
Traver說,當(dāng)談到光纖切割時(shí),公司往往不知道他們有單點(diǎn)故障。
他們可能有兩個(gè)獨(dú)立的供應(yīng)商,但他們不知道,光纖在同一個(gè)溝渠中運(yùn)行。
他們沒有做出適當(dāng)?shù)谋M職調(diào)查來確定這一點(diǎn)。
當(dāng)IT是罪魁禍?zhǔn)讜r(shí),列舉的一些原因包括: ●管理不善的升級(jí),缺乏軟件級(jí)別的測試。
●大型磁盤驅(qū)動(dòng)器或存儲(chǔ)區(qū)域網(wǎng)絡(luò)的故障和后續(xù)數(shù)據(jù)損壞。
這可能是由硬件故障引起的,由于配置或編程錯(cuò)誤而加劇。
●負(fù)載平衡或流量管理系統(tǒng)中的同步或編程錯(cuò)誤失敗。
●錯(cuò)誤編程的故障/同步或?yàn)?zāi)難恢復(fù)系統(tǒng)。
●對(duì)沒有備份的單個(gè)組件(例如服務(wù)器或大型磁盤驅(qū)動(dòng)器)斷電。
談到負(fù)載均衡/流量管理問題,Lawrence表示,當(dāng)公司嘗試更廣泛地分發(fā)IT資源時(shí),可能會(huì)出現(xiàn)編程錯(cuò)誤和同步問題。
“減少對(duì)單一網(wǎng)站的依賴通常是更廣泛戰(zhàn)略的一部分; 就像你擠壓氣球一樣,問題突然出現(xiàn)在其他地方。
” Traver補(bǔ)充說,當(dāng)公司“沒有真正規(guī)劃所有平臺(tái)的應(yīng)用程序和數(shù)據(jù),或者他們沒有經(jīng)常測試它們時(shí),就會(huì)出現(xiàn)問題”。
當(dāng)電源成為主要問題時(shí),一些主要的停電原因包括: ●雷擊,導(dǎo)致斷電。
備份軟件/配置失敗。
●轉(zhuǎn)換開關(guān)出現(xiàn)間歇性故障,導(dǎo)致無法啟動(dòng)發(fā)電機(jī),或轉(zhuǎn)移到第二個(gè)數(shù)據(jù)中心。
●UPS故障和無法轉(zhuǎn)移到二級(jí)系統(tǒng)。
●操作錯(cuò)誤,關(guān)閉或配置錯(cuò)誤。
●公用電力損失以及發(fā)電機(jī)或UPS的后續(xù)故障。
●電涌引起的IT設(shè)備損壞。
這些都是數(shù)據(jù)中心的工程師們幾十年來一直在努力解決的問題——如何圍繞這些問題進(jìn)行設(shè)計(jì),如何用他們的設(shè)計(jì)減輕壓力。
Traver說,總的來說,公司需要更加關(guān)注數(shù)據(jù)中心的彈性。
“了解您的系統(tǒng)是如何設(shè)計(jì)的。
完全理解 - 所有相互依賴。
并且也知道它是如何失敗的,并為失敗做好計(jì)劃。
這是我認(rèn)為缺少的那塊。
”他說。
設(shè)備越來越好,管理越來越好,經(jīng)驗(yàn)越來越豐富。
它正在成為一個(gè)更成熟的行業(yè)。
Lawrence總結(jié)道,“但即便如此,斷電仍然是一個(gè)非常重要和昂貴的問題。
Copyright © 2021 深圳市維創(chuàng)信息技術(shù)有限公司 版權(quán)所有