摘要:傳統的IDC主要是基于物理設備的租用和托管。隨著云計算的逐步推廣,運營商也在IDC和自身網絡中引入了云計算技術,使得業界對數據中心的定義已越來越廣泛,逐步傾向于面向下一代虛擬主機和應用或開發的虛擬數據中心VDC,并將IDC、VDC等統稱為云架構的數據中心。本文將對于如何設計一個完善的數據中心做全方位的介紹,包含機房、網絡、設備、空調、供電、運維等各部分。
關鍵詞:IDC、VDC、虛擬化、分布式
1云數據中心的定義
數據中心,過去統稱為IDC,即 Data ,主要指運營商向客戶出租的各類資源、機房和服務的總稱。然而新一代的基于云計算的云數據中心CDC(Cloud Data )已不僅僅限于向客戶提供物理資源和服務,還可以利用虛擬化和分布式等新技術來提供以虛擬機、虛擬存儲為代表的新業務。同時這些新業務和新技術也促使運營商開始建立自有的數據中心。因此,現階段定義云數據中心這個詞,從服務對象的角度上看,應廣泛的包含出租業務和自有業務兩類。尤其是基于虛擬化構建的數據中心,即統稱為虛擬數據中心VDC,更是云數據中心中的佼佼者。
另一方面,整個移動互聯網流量的爆炸式提升,對數據中心的密度有了極高的要求。過去一個數據中心容納200~300個機架,整體機房功耗不超過1K千瓦。現階段的新一代云數據中心,單機架功耗標配為4.5千瓦,高配可以到8~12千瓦,機房內的機架數目往往接近800~1000架。因此現在數據中心對機房配套的定義,也與過去有極大的差別。從基礎資源角度上,如何解決高密高耗的設備需求,同時達到節能綠色的目標,是新一代云數據中心要解決的問題。
最后,新的云數據中心的含義中,必須包含可預測、可分析、可自定義的智能化要素。過去的數據中心一般是死板和機械的,有固定的建設模式、固定的運營模式和固定的管理模式,各種維護也往往基于人工操作,雖然可以借助一些后期添加的平臺來增加功能,但整體仍然缺乏一個端對端的自動化能力。而云數據中心中,無論是設備的調配維護,對流量的分析溯源,還是對后端客戶的管理計費,乃至最后對后期的二次開發,都有一個智能的云數據中心平臺來統一運營、管理、分析和維護,使得整個數據中心的智能化運營成為可能。
由此可見,虛擬化、分布式、綠色、可定義將成為云數據中心的最大特點。
2云數據中心的選址
云數據中心的選址一直是一個比較矛盾的話題,過去出于客戶業務引入的考慮,數據中心往往優選經濟發達地區,但是隨著高功耗的云數據中心帶來的供電需求緊張和地價的上漲,目前業界整體趨勢是選址更為偏向自然資源豐富的二三線地區,利用低廉的電價、地價和氣候來節省數據中心的建設成本。國外成功運營的數據中心也是如此,以谷歌和為例,均在人跡較少的北歐高緯度寒冷地區建設云數據中心,充分利用自然冷源來降低PUE值。近期國內的三大運營商也紛紛效仿,在內蒙、貴州等地建設了云數據中心基地。
一般考慮數據中心選址的條件不外乎以下幾項:
a、社會經濟環境(客戶來源);
b、自然地理條件(自然災害發生概率);
c、交通便利性(設備安裝、運維方便性);
d、周邊環境要求(規范要求的一些粉塵、氣體、有毒有害工廠隔離);
e、配套基礎設施資源(地/電價、各類優惠政策、電力/水引入難度)。
結合國內的實際情況,對此五項進行重要性排序,優選順序為baecd。有人會對a點排列過前和d點排列過后有所疑惑,事實上,目前國內的數據中心驅動動力仍然主要是客戶因素,除個別大互聯網客戶有較強的規劃和調控力,多數中小企業的數據中心需求仍舊局限在本地,運營商本身的客戶引導往往并不成功。
3云數據中心的建設標準
數據中心的建設標準較多,業界比較公認的是國標《-電子信息系統機房設計規范》和美國通信行業協會的《-數據中心通信設施標準》。還有一個較為冷門的《-數據中心設計與實施的最佳實踐》,三個標準的覆蓋完整性從、到越來越完整,尤其是的適用性最為廣泛,它除了涵蓋數據中心的機房建議還包括了IT信息技術和項目管理的內容。
一般來說,無論是還是,最有價值的部分是把數據中心的可靠性進行了分級,尤其是根據分級把電源和空調設備的配置進行了硬性規范。
詳細要求見下表:
表1 數據中心分級標準及設備配置
標準規范
等級
電源配置
空調配置
市電引入
變壓器
發電機組
UPS
冷凍機組、冷凍和冷卻水泵
機房專用空調
T1
單線100%
相應配置
N或取消
N
N
N
T2
雙線100%
N+1
N+1
N+1
N+1
T3
N+1
N+1
N+X或2N
N+X或2N
T4
2(N+1)
2(N+1)
2N容錯
2N容錯
A
兩回獨立線路
1+1
N或N+1
2N
N+X
N+X
B
N
N+1
N+1
N+1
C
兩回
N
不間斷時間滿足可取消
N
N
N
另外如果數據中心需要達到綠色數據中心的標準,還需符合等各類基礎設施的綠色認證標準,值得一提的是,的認證分為設計、施工、運營等多級認證,一個真正的所謂TIER4的認證是指三證齊全,而不是只拿到其中單證就宣稱自己達到了TIER4的標準。另外,國內外一般以PUE(Power Usage )值作為衡量數據中心綠色效率的直觀標準,最近又新增了WUE(Water Usage )的指標,不過需要指出的是,作為云數據中心的衡量標準,PUE、WUE值僅僅能夠給出電源空調等的有效運行效率,卻并未給出云數據中心中最重要的高密度云化特點。舉例來說,一個機房面積很大的數據中心,僅安裝少量設備和集中式空調制冷設備,可以保證PUE值接近1,但是這樣的數據中心能力太低,毫無云化意義。因此在PUE之外,我們認為有必要提出一個新的參考指標,ITUE(IT Usage ),ITUE是指在單位面積和功耗下IT設備的平均運行能力最大化,如果一個云數據中心同時達到PUE和ITUE這兩個指標的最佳值,則意味著既能提供強大的云能力,又能保證綠色環保的特征,這個數據中心才能稱之為優秀的云數據中心。
4云數據中心的基礎設施
云數據中心的基礎設施是指為云數據中心提供運行支撐的基礎機房平臺,包括機房布局、電力、制冷、裝修等。
1、機房布局
目前流行的云數據中心分局一般分為兩類,傳統機房式和倉儲式。
先談談傳統機房式的云數據中心,它主要依托于運營商現有的機樓,一般在機樓中布署有兩種方案:
表2 數據中心機樓布置方案
機樓層級
方案一
方案二
四層
辦公室
辦公室
三層
設備機房
設備機房、電力電池室
二層
電力電池室
設備機房、電力電池室
一層
變配電、油機、冷凍機房
變配電、油機、光纜進線、冷凍機房
地下一層
車庫、光纜進線
車庫
無論采用何種方案,與傳統的核心通信機房建設相比,差距不是非常大,一般建議設備機房梁下凈高高于4米,地板承重10KN/m2,電力電池機房層高高于4.5米,地板承重高于16KN/m2。對于常規功耗設備,機房內建議采取靜電地板+下送風的制冷方式,機柜以“面對面,背靠背”方式排列。對于高功耗的設備,可結合冷/熱通道封閉的方式,加強機柜的散熱能力。
隨著谷歌和微軟的推廣,國內也有運營商在仿效建設倉儲式數據中心,框架以“輕質鋼結構+高壓直流+高功耗模組機柜+新型空調”為建設主體,特點是建設速度快,造價便宜,能夠迅速形成生產力,應該說思路方向是正確的。但倉儲式的缺點也十分明顯,如保溫效果差,容積率較低,而且無法利舊現有的機樓機房,對建筑形式也有特殊的要求。
倉儲式中的還有一種特例,又稱為集裝箱式,集裝箱式雖然部署快速靈活,但由于體積限制,無法形成規模能力,而且仍舊需要外接的帶寬、電力等,在抗震方面也有先天缺陷,在國內預計短期內不會有大的發展。
2、電力
云數據中心的建設,電源系統的建設無疑是重中之重。數據中心中各項業務的開展和設備的運行,都離不開穩定可靠、不間斷的電力供給。隨著全球能源價格的上漲以及低碳節能的要求,除了市電引入容量以外,市電引入距離、政府能耗指標、電價政策等電力因素也是一個云數據中心需要重點考慮的內容。
目前云數據中心的電力引入等級一般分為10KV、35KV和110KV三個等級:
1)如引入10KV,電力部門一般對1個建筑區塊最多引入6路10KV的高壓電,按1主1備測算,其引入1個區域容量一般最大在以下。
2)如引入35KV,變電站其提供容量為左右。
3)如引入110KV,變電站其提供容量為左右。
根據經驗,一般一路10KV電力可供單個1萬平方米左右的機樓,所以在機房規劃階段需要控制單個機樓規模。
高低壓配電方面,難點在于主要一方面高壓母聯和低壓母聯的適用場景,此處受限于當地供電局的相關規定。另一方面的關鍵是低壓側的互鎖設計,一般需要控制者有非常明確的邏輯設計。
發電機方面,隨著獨立的動力中心的出現,高壓柴發開始越來越多的出現在大型數據中心建設中,對大動力需求時采用并機方式,低壓并機不常見。新的規范要求柴發自帶的燃油量限制在1立方米,其余均從燃油室和地下油庫取用。
從目前國外的發展看,未來UPS將逐步從單獨的設備變成機柜的一部分嵌入到機柜內部,形成以機柜為基本單位的分布式UPS,這樣不僅進一步靠近負荷中心減少損耗,也使得以模塊化搭建數據中心的范圍覆蓋越來越廣。
在末端配電,國外較為常見的小母線方式由于價格問題在國內依然較少采用,客戶依然傾向于使用電纜方式,但隨著電網可靠性的提高和對于電源利用率的追求,過去的雙路UPS正在逐步被“一路市電+一路高壓直流”所取代,由于目前的服務器終端基本都已支持240V的高壓直流,替換基本不是問題,倒是現在336V的高壓直流支持情況太低,仍然需要定制。
3、暖通
多種多樣的制冷方式是綠色數據中心的最大特點,選擇的基本原則都是降低數據中心的PUE值,常見的制冷方式包括:風冷精密空調、冷水機組空調、行間空調、熱管空調、蒸發冷卻空調(事實上冷水機組、行間也可以分為風冷和水冷等兩種,此處主要以常見稱謂代替)等多種,無論最終采用哪一種,均需要考慮對自然冷源的利用。
國外大型互聯網運營商,如谷歌、雅虎、等在利用自然冷源方式走得比較靠前,如谷歌的比利時數據中心建設在靠近水源的地方,利用過濾后的工業運河用水作為冷源,通過冷卻塔換熱。目前國內的阿里巴巴也在浙江的千島湖附近建設了一個利用湖水自然冷源的數據中心,利用深層湖水作為空調冷源,年PUE值可達1.3。
雅虎的雞舍數據中心采用空氣自由冷卻方式實現制冷,中國電信在內蒙和貴州的數據中心園區采用了類似技術,但是要么采用了間接換熱方式,要么進行了前端過濾。國內某大型互聯網公司曾經在天津的數據中心部分嘗試過空氣直接自然冷卻,但是國內空氣中的含硫量過高,腐蝕了許多硬盤的電路板,導致硬盤故障率上升很快,脫硫方案成本又非常高,后來只能關閉自然冷卻,改回內部循環。
蓄冷這方面常見的蓄冷方式為水蓄冷和冰蓄冷,一方面保證斷電情況下的IT系統散熱,另一方面可充分利用峰谷電價。由于物理場地條件限制,目前業界也有通過擴大管徑方式的管道蓄冷方式實施。
其他設計方面,過去常見的雙管路設計已逐步被環形管路所替代,除此之外,為了配合暖通的效率提升,需要進行機柜的定制,包括下送風機柜、前進風機柜、冷/熱通道封閉、冷水背板等。
新技術同樣適用于對于老數據中心的制冷改造,由于建筑和運營條件所限,一般常用的方法包括加裝冷通道封閉、延長風管、改造地板風口。
5云數據中心的IT架構
云數據中心的IT設施是指云數據中心中直接提供服務的設備,包括服務器、存儲、網絡、傳輸、布線等設備。
1、服務器
云數據中心的服務器從邏輯上看可以分為物理機和虛擬機兩大類,其中物理機又可分為小型機、機架式服務器和刀片機三種。
過去人們常常以RISC和CISC區別小型機和X86服務器,但是有意思的是,隨著HP全面采用安騰系列處理器之后,小型機和X86服務器的區別已經越來越模糊。雖然EPIC架構和傳統CISC架構仍有很大差別,但是必須承認的是,隨著至強處理器的能力越來越提升,X86這些年的RAS特性得到了較大的進展。同時考慮到X86虛擬化目前已非常成熟,常見的各類X86服務器都已支持、XEN、Hyper-V、KVM等多種虛擬化軟件,而小型機虛擬化依然依賴于廠商的私有技術,云數據中心中的X86至強正在越來越威脅到RISC的地位。
另外還有較為特殊的一種服務器是定制化的X86服務器,類似我們平時自己的電腦DIY。這方面主要的推動者是一些自有研發實力很強的互聯網CP,例如國內的淘寶與騰訊,國外的谷歌和等,源動力在于INTEL/AMD等廠商會定期發布不同CPU服務器主板的公版規格,用戶可以根據自己的要求在公版基礎上進行各類修改或配件定制,以滿足自己對服務器的特殊要求,如低功耗、高存儲等。
對于本身無設備,需求不明確或者不苛刻的客戶,運營商可提前布置云環境,引導客戶采用云數據中心中的虛擬機,適當結合物理機的配置。客戶如果自有開發能力比較強,一般會自帶服務器進場,此時云數據中心只需要提供裸機架即可。如果云數據中心中既有出租業務,又有運營商的自有/合作業務,往往會出現小型機、機架式和刀片混合使用的情況。
業界一般認為刀片服務器會大大提高機房的面積利用率,但是刀片服務器的功耗非常高,滿框刀片需要足夠的空間做特殊制冷,反而增大了面積和維護復雜性。因此出于實際情況考慮,往往運營商和客戶更傾向于做機架式服務器。
2、網絡與傳輸
云數據中心中的網絡虛擬化速度要比服務器虛擬化進展慢很多,一方面網絡設備的更換速度要比服務器慢很多,另一方面受限于網絡虛擬化的標準化程度。目前看,采用堆疊的方式實現網絡虛擬化已經漸成主流,過去底層所謂的TRILL和SPB之爭越來越淡出視線,如果一定要從業務端就區分虛擬機流量,目前比較一致的觀點是采用VXLAN。
另一個值得關注的要點是數據中心的DCI遠程互聯,過去所謂的大二層互聯也隨著VXLAN而開始淡化,但由于DCI的流量相對固定,方向也較為集中,正好是SDN可以發揮優勢的地方,事實上谷歌目前比較成功的B4就是基于此實現的。
近期還有一個有意思的趨勢,大型互聯網運營商如騰訊、淘寶等已開始為云數據中心自建傳輸網,從租用運營商帶寬轉向租用運營商光纖,這樣可以大大縮減云數據中心的重復建設投資。舉例來說,運營商A中云數據中心A1只能為A的用戶服務,而運營商B內的用戶要想獲得同樣的訪問體驗,就必須在B中同樣建設一個相同內容的云數據中心B1,否則就只能寄希望于A和B的網間互通是否給力。而如果在云數據中心之間實現自建傳輸,那么B內的用戶流量可以被B1通過A1和B1之間的自有傳輸引導至A1,避開A和B的網間互聯,而且此時這兩個云數據中心A1和B1不需要做重復內容建設,可以分別只承載一部分內容,僅僅依靠自有傳輸來實現內容互相共享。我們稱這種組網方式為“黑匣直通”,多個云數據中心可以視之為一個黑匣子,用戶無需再關心所在的運營商和數據中心位置,由云數據中心內部的傳輸互聯直通解決用戶的訪問問題。
3、存儲
數據中心中的存儲過去常見為FC-SAN或者NAS,以集中式存儲為主,對于大容量的存儲需求,需要SAN導向器和多控制器的SAN/NAS融合型存儲設備。初期在網絡融合大趨勢下,融合存儲組網出現了兩個分支,一個是分布式存儲,一個是FCOE。后期由于FCOE并未從本質上解決SCALE OUT的問題,間接促成了分布式存儲成為未來的主要方向。
近期較熱門的“超融合架構”其實就是分布式存儲與分布式計算的一體機架構,以為例,通過在虛擬化平臺上部署單獨的一臺虛擬機實現各種存儲控制功能,然后以集群的方式復用所有一體機上的存儲資源。
常見的備份設備如磁帶庫已逐步退出歷史舞臺,現階段主要以磁盤陣列實現虛擬帶庫的作用,一些備份軟件廠商的新策略是以一體機實現備份功能,對于采用了分布式存儲的系統,由于本質上具備多副本功能,理論上可以不需要備份。
數據中心去IOE化相對企業內網去IOE要快速很多,可能主要和在數據中心部署的應用系統以Web類應用為主有關,目前看去I最簡單通達oa辦公系統--數據備份與恢復指南,一般X86靠機器集群硬扛都可以滿足原有的小型機處理能力需求。去E隨著分布式存儲能力的提升,IOPS也可以達到相關要求。主要難度在于去O,需要對傳統應用的數據庫部署形式進行修改,非結構化的轉移到NOSQL數據庫中,結構化的轉移到MPP數據庫中。
4、綜合布線
在常規認識中,數據中心綜合布線屬于基礎設施部分,但實際上綜合布線與IT架構是緊耦合架構,一般只有在確定IT架構后才能做出詳細的綜合布線設計,因此在本文中依然將綜合布線劃歸在IT架構部分中。
傳統綜合布線由維護工位的信息點綜合布線和機房內的設備IT綜合布線兩部分組成,前者以完成用戶的語音電話、數據上網接入為目標,內容相對簡單而且獨立,在弱電間實現雙網分離,語音側以PBX接入較為常見,數據側以獨立的專線。后者主要以完成數據中心內部組網為目標。我們此處主要討論后者。
按照標準的綜合布線架構,一個大型數據中心內部應分為“運營商接入區—MDA(主配線區)—HDA(水平配線區)—EDA(區域配線區)”四級架構,對于此處的各種XDA而言,不包含各種網絡設備,以線纜匯聚的配線模塊為主。
有一些觀點是認為隨著設備處理能力越來越強,網線接口和線槽可以少配或者不配,但目前看,近端LCT維護依然是必須的,因此一般建議保留。同時雖然在運營商里設備到設備之間以直接跳線為主,但是對于大型企業數據中心,由于部門職責維護和后期調整方便,一般建議設立多級跳接,尤其在大型商業或金融機構中,一般會建議設立三級以上的跳接層級。數據中心中由于設備相對距離較近,設備單模模塊使用量較少,以多模模塊為主。
MPO(Multi-fiber Push On,多芯插拔式光纖連接器)是最近這幾年流行的預端接形式,幾乎占據了多數企業數據中心布線的大部分份額,布線廠家宣傳可以無縫升級到100G。但從我們看來通達oa辦公系統--數據備份與恢復指南,升級主要還是依賴于設備廠家的模塊升級,MPO最大的優勢依然在于高密度和靈活的可插拔性。
6云數據中心的管理運營
1、安全域劃分
對于云數據中心而言,多數情況下在非涉密情況下,一般以滿足國家等保保護要求三級為主要目標,個別如果涉及政務內網或者金融系統等特殊要求涉密的,同時也要參照分級保護的相關規定進行屏蔽。對于不同類型的業務,必要時可以在邏輯和物理上進行相應隔離。
除了在傳統上需要配置大量的專用安全設備(如DDOS、IPS等)外,重要的是需要在數據中心內部梳理一套完整的安全制度,并在后期進行安全加固服務。
2、運維管理平臺
數據中心的運維管理平臺目前分為兩類,一類是ITSM,即IT設備的監控管理系統,過去該功能主要由廠家的網絡管理軟件實現。現在隨著IPMI和各類中間件的逐步推廣,單純的第三方廠商同樣可以利用該接口增加了KVM Over IP功能,實現對硬件乃至應用的監控管理,使得遠程操作成為可能。另外一類是DCIM,是對數據中心整體基礎設施系統的管理和監控,和動環監控的功能稍有類似。
同時,目前業界的ITSM和DCIM都在各自增加各類事務性處理模塊,如計費、OA、工單、客戶管理、服務臺、租戶遠程登錄等功能,以期實現一套系統管理全數據中心的概念。
3、大數據分析
數據中心的大數據分析有多個層面,常見的包括:
a、在數據中心出口流量的做分光或鏡像監測的同時,對出入的流量包進行大數據分析,以便對數據中心外部用戶訪問的流量流向做預判;
b、在用戶使用的數據中心內部系統數據中做大數據分析,以便對系統中的用戶行為進行針對性的用戶畫像;
c、在數據中心內部各關鍵節點做基于流量的大數據分析,找出系統架構內部瓶頸和異常流量處理,指導下一步數據中心架構擴容的方向;
d、對數據中心各級設備的日志報表進行大數據分析,從網管的角度上優化設備的運行效率,提前做好排障預案。
目前來看,基于架構的大數據平臺更適合于b、d這兩類相對長期而又穩定的數據積累分析,作為a、c兩類可以基于流形式進行快速反饋的大數據分析。
4、云管理平臺
一般來說對于數據中心底層IAAS的管理而言,是比較好的選擇,可以實現對底層物理機和多廠家虛擬機、網絡、安全、存儲的統一調度。
由于的普及,從應用角度,越來越多的系統開始將SOA和ESB總線架構方式搭建的系統轉向基于全網狀互聯和REST等輕量接口的微服務架構,對于數據中心中較為常見的WEB系統更是如此,在此基礎上,基于傳統虛擬機架構的VM也開始逐步被輕量級的所替代,的出現雖然對于應用開發者實現了有效的資源復用,但是卻加深了與傳統IAAS之間的壁壘,使得資源層和應用層出現了較大的壕溝。
因此從理論上來說,如果要實現從應用層到資源層的完全調度,原有的靠包打天下的IAAS層云管理平臺已無法實現,應建議搭建基于DCOS操作系統的云管理平臺,具體可見下圖。
圖1 數據中心云管理平臺視圖
7結束語
云數據中心是一個復雜而立體的全方位系統工程,與傳統的通信網有本質區別,甚至可以獨立于大網外自成體系,這也使得它在設計、建設時充滿了許許多多的特點,本文僅從大的方面對云數據中心的設計建設給出了一些建議,并提供了一些現網情況參考,以供各位設計者們借鑒。