【中國傳動網(wǎng) 企業(yè)動態(tài)】 無人期盼災(zāi)難的來臨,但是災(zāi)難如守信的信使一般總是遵守墨菲定律,他偏愛在你最不愿意他光臨的雨夜敲門。
因此我們有必要為時(shí)間還來得及的時(shí)候,安排好一切。災(zāi)難恢復(fù)計(jì)劃Disasterrecoveryplan以簡單描述成DRP就是幫助一個(gè)數(shù)據(jù)中心領(lǐng)導(dǎo)人或組織,在運(yùn)營之初就為災(zāi)難做好準(zhǔn)備計(jì)劃,這種計(jì)劃不能避免災(zāi)難的發(fā)生,但是極為有助于大幅減少災(zāi)難發(fā)生后的產(chǎn)生的影響和提高在災(zāi)難發(fā)生過程中,數(shù)據(jù)中心業(yè)務(wù)持續(xù)運(yùn)行不受影響。
DRP之緣起
自2017年以來,我國陸續(xù)建成了一批超大型數(shù)據(jù)中心,面積在一萬平米以上或者機(jī)柜數(shù)量在2000機(jī)柜以上。這些數(shù)據(jù)中心陸續(xù)投入運(yùn)行以后,可以說是新聞迭出,被光纜施工、水患災(zāi)難甚至是市政電力系統(tǒng)的升級所影響甚至停業(yè)的數(shù)據(jù)中心案例層出不窮,我們數(shù)據(jù)中心運(yùn)營的從業(yè)者需要對災(zāi)難加以評估、準(zhǔn)備和計(jì)劃,一切尚不晚,而縱觀我們多數(shù)的數(shù)據(jù)中心運(yùn)營者甚至連DRP的概念都還沒有形成,因此本文力圖在這方面給出一定的提醒和參考。
可能會有人對DRP與EOP兩個(gè)計(jì)劃的概念混淆不清EOP(EmergencyOperatingProcedure)應(yīng)急運(yùn)行計(jì)劃,是對已知的、已經(jīng)驗(yàn)證的災(zāi)難加以演練并制定已經(jīng)計(jì)劃,而DRP則更多關(guān)注災(zāi)難已經(jīng)發(fā)生,我們應(yīng)該如何組織自救、恢復(fù)生產(chǎn),確保在在災(zāi)難發(fā)生過程中生產(chǎn)如何安全、持續(xù)的運(yùn)行。
那么我們將在多大的范圍或多高的位置討論這個(gè)計(jì)劃呢?一個(gè)具體的數(shù)據(jù)中心場地,而不是多個(gè),因?yàn)槊恳粋€(gè)數(shù)據(jù)中心場地都是不一樣的,恢復(fù)計(jì)劃不能簡單套用。災(zāi)難恢復(fù)計(jì)劃的最高負(fù)責(zé)人又是誰呢?災(zāi)難恢復(fù)小組組長,請不要誤會這個(gè)組長是一個(gè)常設(shè)的小職務(wù),他通常應(yīng)該是這個(gè)場站的運(yùn)維經(jīng)理,在國內(nèi)可能是一個(gè)企業(yè)的運(yùn)維總監(jiān)或者基礎(chǔ)設(shè)施總監(jiān),他日常的職務(wù)可能主管多個(gè)支持部門,包括物理設(shè)施運(yùn)維部、IT設(shè)施運(yùn)營部、工程建設(shè)部等。
災(zāi)難恢復(fù)小組組長責(zé)任重大(出于某種考慮,可以再設(shè)置副組長一名),他決定是否啟動或結(jié)束災(zāi)難恢復(fù)計(jì)劃。
一個(gè)災(zāi)難恢復(fù)計(jì)劃的模板應(yīng)該包括如下信息:
災(zāi)難恢復(fù)計(jì)劃本身的信息必須由DRP恢復(fù)小組組長任命的現(xiàn)場經(jīng)理及時(shí)更新,當(dāng)現(xiàn)場經(jīng)理發(fā)現(xiàn)任何不正確、丟失應(yīng)立即通知現(xiàn)場相關(guān)的管理人員加以糾正直至信息完全準(zhǔn)備并記錄在案。
我們還需要對災(zāi)難這個(gè)詞本身進(jìn)行一個(gè)定義,這里的災(zāi)難指的是導(dǎo)致數(shù)據(jù)中心的服務(wù)遭受損失,災(zāi)難的程度可以分級,是數(shù)據(jù)中心服務(wù)減少了?還是根本停止了?以及這個(gè)災(zāi)難可能導(dǎo)致的后果是什么?比如火災(zāi)、水患、恐怖襲擊、人為錯(cuò)誤還是軟硬件故障等等。
一個(gè)災(zāi)難恢復(fù)計(jì)劃的成功實(shí)施,是需要一個(gè)數(shù)據(jù)中心站場內(nèi)的各個(gè)部門相互協(xié)同的,一個(gè)災(zāi)難恢復(fù)小組都有哪些人員或組織組成呢?小組成員通常包含以下幾個(gè)部門:首先是災(zāi)難恢復(fù)小組組長,通常由場地的運(yùn)維經(jīng)理(總監(jiān)級)擔(dān)任,在國內(nèi)也許是這個(gè)數(shù)據(jù)中心的總經(jīng)理;其次是現(xiàn)場運(yùn)維組長,國內(nèi)應(yīng)該是運(yùn)維經(jīng)理,網(wǎng)絡(luò)小組組長(國內(nèi)為IT運(yùn)維經(jīng)理);物理設(shè)施運(yùn)維組長(國內(nèi)是主管機(jī)電系統(tǒng)的運(yùn)維經(jīng)理);總監(jiān)(國內(nèi)則應(yīng)該是集團(tuán)公司的COO或者IDC公司的COO);異地備份人員(同樣包括基礎(chǔ)設(shè)施和IT)。
從上面的組織配置我們應(yīng)該看出,DRP計(jì)劃從組織結(jié)構(gòu)的建立上就是一個(gè)不依賴任何單人或單體組織的計(jì)劃,那從組織結(jié)構(gòu)上強(qiáng)調(diào)雙冗余或雙活的機(jī)制,強(qiáng)調(diào)異地備份和組織鏡像。
DRP大軍的組建
現(xiàn)在我們有了一個(gè)災(zāi)難管理團(tuán)隊(duì)的成員,下面一步則是根據(jù)不同的工作任務(wù),分成若干的團(tuán)隊(duì)并定義每個(gè)小組成員的工作職責(zé)。
01
災(zāi)難管理團(tuán)隊(duì)
DisasterManagementTeam
(工作地點(diǎn)應(yīng)設(shè)置在數(shù)據(jù)中心的指揮中心或ECC)
災(zāi)難管理團(tuán)隊(duì)的主要職責(zé):
1)災(zāi)難管理團(tuán)隊(duì)負(fù)責(zé)提供數(shù)據(jù)中心恢復(fù)操作的總體方向;
2)負(fù)責(zé)確立損壞程度和激活恢復(fù)組織,負(fù)責(zé)通知各團(tuán)隊(duì)領(lǐng)導(dǎo)人;
3)監(jiān)測和指導(dǎo)恢復(fù)工作;
4)負(fù)責(zé)決定是否需要引入災(zāi)難恢復(fù)程序。如果決定這么做,那么在程序所定義的實(shí)施過程中,災(zāi)難管理小組所作出的決定將取代任何現(xiàn)有的行政管理機(jī)構(gòu)。
這里面引用一個(gè)香港著名電影《寒戰(zhàn)》里面的案例,在電影中香港可能受到了恐怖襲擊的潛在威脅,災(zāi)難恢復(fù)計(jì)劃由管理小組的幾位成員投票決定啟動,災(zāi)難管理小組有權(quán)在程序運(yùn)行期間,任免警員、調(diào)用特警、動用后備資源、管理公共信息發(fā)布等等。
災(zāi)難管理團(tuán)隊(duì)的職責(zé)分解如下:
1)為最終用戶提供可以量化、可以識別的業(yè)務(wù)服務(wù)水平說明文件,并在文件中說明災(zāi)難管理計(jì)劃中管理團(tuán)隊(duì)所肩負(fù)的啟動災(zāi)難恢復(fù)計(jì)劃的職責(zé)和可能的處理;
2)管理所有救援團(tuán)隊(duì)、聯(lián)系公司總部、聯(lián)系用戶;
3)在災(zāi)難恢復(fù)計(jì)劃執(zhí)行過程中保持隨時(shí)審計(jì)、安全控制;
4)控制和記錄緊急費(fèi)用和開支。
災(zāi)難管理團(tuán)隊(duì)的具體責(zé)任如下:
1)評估問題的程度和潛在的后果;
2)通知高級管理人員的災(zāi)難、恢復(fù)進(jìn)展和問題;
3)啟動災(zāi)難恢復(fù)程序;
4)協(xié)調(diào)恢復(fù)操作;
5)監(jiān)控恢復(fù)操作,并確保計(jì)劃的進(jìn)度;
6)記錄恢復(fù)操作;
7)用戶管理;
8)監(jiān)督授權(quán)支出的其它團(tuán)隊(duì);
9)記錄緊急非凡的成本和支出;
10)對保險(xiǎn)索賠的損害進(jìn)行了詳細(xì)會計(jì)處理:
①確保在數(shù)據(jù)中心恢復(fù)運(yùn)營是根據(jù)充分的審計(jì)控制,記錄提供可靠性和一致性;
②監(jiān)控?cái)?shù)據(jù)中心的安全標(biāo)準(zhǔn);
③確保適當(dāng)?shù)陌才牛曰謴?fù)網(wǎng)站,并恢復(fù)在緊急模式處理允許的時(shí)間范圍內(nèi)的現(xiàn)狀;
④宣布數(shù)據(jù)中心恢復(fù)時(shí),災(zāi)難恢復(fù)計(jì)劃不再生效。
02
運(yùn)營團(tuán)隊(duì)
OperationsTeam
運(yùn)營團(tuán)隊(duì)的主要職責(zé):
1)負(fù)責(zé)數(shù)據(jù)中心環(huán)境和IT設(shè)施日常運(yùn)營工作;
2)在災(zāi)難恢復(fù)計(jì)劃中承擔(dān)具體操作任務(wù)。
運(yùn)營團(tuán)隊(duì)的職責(zé)分解如下:
1)負(fù)責(zé)所有歷史的和當(dāng)前的數(shù)據(jù)中心環(huán)境所產(chǎn)生的數(shù)據(jù)和系統(tǒng),并對系統(tǒng)進(jìn)行更新,以保持其是最新的版本;
2)按照滿足最終客戶定義要求,為數(shù)據(jù)中心的恢復(fù)、數(shù)據(jù)控制、安全防范、磁帶或介質(zhì)存放提供管理和配置人員;
3)支持所有環(huán)境關(guān)鍵應(yīng)用所需的可操作版本,以滿足最低運(yùn)行要求。
運(yùn)營團(tuán)隊(duì)的具體職責(zé)如下:
1)為數(shù)據(jù)中心關(guān)鍵機(jī)電系統(tǒng)提供持續(xù)技術(shù)支持;
2)與IT網(wǎng)絡(luò)團(tuán)隊(duì)合作,恢復(fù)本地和廣域數(shù)據(jù)通信服務(wù),以滿足最低的處理要求;
3)為異地存儲獲得所有必要的備份;
4)機(jī)電系統(tǒng)重啟動服務(wù);
5)重新建立軟件庫和數(shù)據(jù)庫,及時(shí)備份最后版本;
6)為機(jī)電系統(tǒng)提供足夠的日常操作人員;
7)建立安全防范平臺和數(shù)據(jù)中心控制設(shè)施;
8)對設(shè)施進(jìn)行日常管理,以達(dá)到客戶的要求;
9)安排采購和提供IT設(shè)備必要的日常耗材;
10)確保所有文件的標(biāo)準(zhǔn)化、操作記錄、維護(hù)記錄、應(yīng)用程序都存放在一個(gè)安全的環(huán)境區(qū)域,并配備必要的重建設(shè)施。
03
網(wǎng)絡(luò)團(tuán)隊(duì)
NetworksTeam
網(wǎng)絡(luò)團(tuán)隊(duì)的主要任務(wù):
負(fù)責(zé)所有數(shù)據(jù)中心的網(wǎng)絡(luò)系統(tǒng)和通訊。
網(wǎng)絡(luò)團(tuán)隊(duì)的職責(zé)分解:
1)為關(guān)鍵客戶安排所有新的本地或廣域網(wǎng)的通信設(shè)施和網(wǎng)絡(luò)搭建;
2)如果需要的話,為客戶提供基于網(wǎng)絡(luò)的語音通訊服務(wù)或其他語音通信服務(wù)。
網(wǎng)絡(luò)團(tuán)隊(duì)的具體職責(zé):
1)評估語音和網(wǎng)絡(luò)通訊服務(wù),并負(fù)責(zé)與電信運(yùn)營商協(xié)調(diào)備用通信措施;
2)負(fù)責(zé)重建網(wǎng)絡(luò)設(shè)施所需的一切操作;
3)與用戶定義在網(wǎng)絡(luò)恢復(fù)中的優(yōu)先事項(xiàng);
4)與要求訂購語音和網(wǎng)絡(luò)通信設(shè)備;
5)提供必要的網(wǎng)絡(luò)文檔;
6)提供持續(xù)支持業(yè)務(wù)的網(wǎng)絡(luò)設(shè)備;
7)災(zāi)難恢復(fù)后,重新建立網(wǎng)站的網(wǎng)絡(luò)。
04
設(shè)施團(tuán)隊(duì)
FacilitiesTeam
設(shè)施團(tuán)隊(duì)的主要職責(zé):
負(fù)責(zé)所有IT房外環(huán)境區(qū)域,包括建筑本身環(huán)境服務(wù),該團(tuán)隊(duì)負(fù)責(zé)安全、健康和建筑設(shè)施的更換。
設(shè)施團(tuán)隊(duì)的職責(zé)分解:
1)管理重建現(xiàn)場的環(huán)境和運(yùn)營;
2)管理現(xiàn)場的物流和運(yùn)輸;
3)負(fù)責(zé)設(shè)施所在場地的安全(根據(jù)需要,增加物理安全措施)。
設(shè)施團(tuán)隊(duì)的具體職責(zé):
1)與災(zāi)害管理團(tuán)隊(duì)一起,進(jìn)行損害的評估和確定可回收設(shè)備;
2)與網(wǎng)絡(luò)團(tuán)隊(duì)合作,準(zhǔn)備好快速激活的線路;
3)清理災(zāi)難現(xiàn)場,確保該網(wǎng)站,以防止進(jìn)一步的損害;
4)提供發(fā)起保險(xiǎn)索賠的信息;
5)確保保險(xiǎn)賠償安排及時(shí)滿足災(zāi)難發(fā)生時(shí)的情況(即任何可更換設(shè)備立即得到更新等);
6)準(zhǔn)備重新使用數(shù)據(jù)中心的網(wǎng)絡(luò);
7)保證配置的數(shù)據(jù)中心符合使用的需要,包括但不限于下面的設(shè)施:
空調(diào)系統(tǒng),配電系統(tǒng),市電供應(yīng)及連接的有效,隔斷和地板,災(zāi)難區(qū)域的安全控制,各支持辦公環(huán)境,工作員工的安全和福利、勞保。
05
通信團(tuán)隊(duì)
CommunicationsTeam
通信團(tuán)隊(duì)的主要職責(zé):
負(fù)責(zé)對內(nèi)外的通訊。
通信團(tuán)隊(duì)的職責(zé)分解:
通信團(tuán)隊(duì)負(fù)責(zé)從災(zāi)難管理團(tuán)隊(duì)獲取通信指令,并在災(zāi)難和恢復(fù)階段向員工、供應(yīng)商、客戶和媒體(包括:新聞、電視、廣播)傳遞信息。
通信團(tuán)隊(duì)的具體職責(zé)如下:
1)從災(zāi)難管理團(tuán)隊(duì)獲得指令,并保持通訊的持續(xù)和對外溝通的暢通;
2)適當(dāng)?shù)南虍?dāng)?shù)亍鴥?nèi)、國際披露信息;
3)通知供應(yīng)商和客戶潛在的延誤;
4)通知員工恢復(fù)進(jìn)度的時(shí)間表;
5)確保沒有誤解,可能傷害公司形象;
6)其他的公共關(guān)系。
06
其他恢復(fù)團(tuán)隊(duì)
OtherRecoveryTeam
其他恢復(fù)團(tuán)隊(duì)的職責(zé):
包括在災(zāi)難恢復(fù)計(jì)劃中被認(rèn)為是必要的其他團(tuán)隊(duì)的一部分。確保你描述每個(gè)團(tuán)隊(duì)的職責(zé)和活動。
具體團(tuán)隊(duì)描述:
1)人力和采購團(tuán)隊(duì);
2)業(yè)務(wù)團(tuán)隊(duì);
3)損傷評估小組。