服務(wù)器大批量交付速度太慢?提升8倍夠不夠,在國內(nèi),BAT的年服務(wù)器需求量都接近20萬臺,并且每年都以較高的比例進行增長,以20萬臺每年的需求量來算,按照標準服務(wù)器每天550臺的平均交付速度,那么至少364天來進行交付,也就是說,如果采用標準服務(wù)器進行交付,那么意味著全年都要在機房進行交付!
目前,業(yè)界主流的標準機架式服務(wù)器單日單機房交付速度在1000臺左以下,并且在大型數(shù)據(jù)中心的交付過程中,由于需要考慮數(shù)據(jù)中心整體可靠性和便于管理,往往需要更多的測試和部署時間,一般來說單日500-600臺的交付速度已經(jīng)是平均速度。
在國內(nèi),BAT的年服務(wù)器需求量都接近20萬臺,并且每年都以較高的比例進行增長,以20萬臺每年的需求量來算,按照標準服務(wù)器每天550臺的平均交付速度,那么至少364天來進行交付,也就是說,如果采用標準服務(wù)器進行交付,那么意味著全年都要在機房進行交付!
面對日益增長的服務(wù)器需求,服務(wù)器的交付速度已經(jīng)不能適應(yīng)業(yè)務(wù)應(yīng)用的高速發(fā)展。如何提升大批量服務(wù)器的交付速度?目前來看最好的形式就是提升交付顆粒度,將原有以服務(wù)器作為交付最小顆粒度,提升為以整機柜甚至模塊化數(shù)據(jù)中心。浪潮聯(lián)合百度實現(xiàn)單日單機房5000節(jié)點的SmartRack交付就是最典型的案例之一,那么讓我們看看究竟是如何將大批量服務(wù)器交付從單日500提升至5000節(jié)點的。
交付是一項系統(tǒng)工程
先簡單介紹下一般的服務(wù)器交付流程(詳見下圖)。在服務(wù)器生產(chǎn)完成后,通過物流運輸?shù)娇蛻魯?shù)據(jù)中心所在地,由售后服務(wù)人員在現(xiàn)場進行包裝拆除,并通過小型拉車運輸?shù)綌?shù)據(jù)中心內(nèi)。再通過簡單的上電測試無問題后,工程師將服務(wù)器上架到數(shù)據(jù)中心內(nèi)的機架上,連通電源、網(wǎng)絡(luò),并將各種線纜按照客戶要求進行整理。最后會將服務(wù)器上電,通過測試腳本進行交付完成前最后的系統(tǒng)性測試。
接下來我們將交付各流程拆解,剖析下SmartRack為何能夠8倍于標準服務(wù)器的交付速度。
我們不是服務(wù)器的搬運工!
標準機架服務(wù)器(1U、2U、4U或者更高)交付前是獨立包裝的,為的是保護服務(wù)器免受運輸顛簸和沖擊威脅,但是這也造成現(xiàn)場拆箱將會花費更多時間。并且在服務(wù)器從數(shù)據(jù)中心外部運輸?shù)絻?nèi)部,需要用到小車,每臺小車承重有限,且服務(wù)器最高堆疊8臺,運輸效率大打折扣。在后續(xù)的工作,包括上架、接線和測試環(huán)節(jié),都需要逐臺進行。
而SmartRack是以整機柜作為最小交付顆粒度,每臺SmartRack的節(jié)點是安裝在機柜內(nèi)統(tǒng)一出貨的,也就是在交付現(xiàn)場,售后服務(wù)工程師可以將一臺SmartRack作為一臺服務(wù)器來看待,但是其中卻包含了至少32個節(jié)點。并且自帶滾輪的SmartRack可以直接推送至機架位,運輸密度遠大于標準服務(wù)器的6-8臺。
理線難!剪不斷,理還亂
在整個交付過程中,理線是最費時間的工序之一,每臺服務(wù)器的電源線和網(wǎng)線都要和數(shù)據(jù)中心預(yù)設(shè)線路匹配,然而確保連接正確只是第一個步驟和最簡單的要求。由于數(shù)據(jù)中心的服務(wù)器數(shù)量極多,相應(yīng)的電源線和網(wǎng)線也縱橫交錯,如果每臺服務(wù)器的線纜沒有進行整理,就會增大后續(xù)運維的難度。因此,交付人員會將每個機架所有的線纜進行綁定,并按照既定的線路進行固定,工序繁瑣卻需要極為細致,平均每機柜的理線就需要1.5小時左右。
而在這一環(huán)節(jié),SmartRack的優(yōu)勢更為明顯。在出廠前,浪潮就會在工廠內(nèi)將SmartRack節(jié)點間互聯(lián)的線纜部署整理完畢,在客戶機房上架部署時僅需要將線纜與數(shù)據(jù)中心的交換機相連。并且,SmartRack采用集中供電,每個節(jié)點通過內(nèi)部銅排取電,因此滿柜僅有兩條冗余電源線,與之對比,標準服務(wù)器則需要32條。
上電測試,能不能批量操作?
一般情況下,為了保障數(shù)據(jù)中心的穩(wěn)定性和交付的效率,需要兩道測試流程。第一次測試是在數(shù)據(jù)中心外,主要是驗證服務(wù)器是否有短路或者不能開機現(xiàn)象,防止部署完成后引起整個數(shù)據(jù)中心的電力故障。標準服務(wù)器需要逐臺進行測試,而SmartRack滿柜僅需要加電一次。另外,在冬天或者天氣較冷的季節(jié),為防止凝露,服務(wù)器需要靜置半小時以上,這將會大大影響交付速度。
第二道測試是在上架完成后,主要是測試服務(wù)器系統(tǒng)、軟件以及固件等信息是否正常。傳統(tǒng)服務(wù)器間的互聯(lián)管理采用網(wǎng)絡(luò)設(shè)備進行連接,擴展性受到網(wǎng)絡(luò)設(shè)備和網(wǎng)絡(luò)性能的限制,并且網(wǎng)絡(luò)協(xié)議復(fù)雜,層次眾多,使得集群模式下的傳統(tǒng)服務(wù)器管理受到嚴重限制。而SmartRack突破了傳統(tǒng)服務(wù)器的運維管理架構(gòu)方案,以整機柜作為整體管理解決方案,通過RMC(Rack Management Controller)集中管理單元實現(xiàn)整個系統(tǒng)資源的實施監(jiān)控,RMC是SmartRack的信息查詢和狀態(tài)監(jiān)控的平臺,具有節(jié)點資產(chǎn)定位,功耗監(jiān)控,散熱調(diào)控三大基本功能。
與相同數(shù)量的通用服務(wù)器相比,SmartRack到貨檢驗時間由原來的1~2小時,減少到5分鐘內(nèi)完成。并且后期,通過RMC設(shè)置管理策略,自動監(jiān)控各模塊運行狀態(tài)。節(jié)點單元、網(wǎng)絡(luò)單元、供電單元全部前端維護,散熱單元后維護,能夠極大方便運維。
數(shù)據(jù)說話,交付時間到底省在哪?
我們通過兩組交付數(shù)據(jù)來看下,標準服務(wù)器的與SmartRack的差距到底在哪。以上數(shù)據(jù)是以交付5000臺/節(jié)點服務(wù)器為目標,20人交付團隊在同一交付地點下的數(shù)據(jù)。
通過這組數(shù)據(jù),我們可以直觀的看到SmartRack通過在拆包裝、搬運、上架、監(jiān)測四個環(huán)節(jié)的出色表現(xiàn),交付5000節(jié)點僅需7.6個小時。
因此,在相同機房環(huán)境、交付規(guī)模的前提下,SmartRack交付速度能達到標準服務(wù)器的7.6倍。而從單日交付量來看,標準服務(wù)器不足1000臺,而整機柜將超過5000臺!
整機柜,未來海量數(shù)據(jù)中心的主流交付形態(tài)
未來幾年,將有數(shù)以千億的手機、平板、可穿戴設(shè)備等各種智能終端,乃至各種感知設(shè)備接入到互聯(lián)網(wǎng)上,數(shù)據(jù)的總量將超過過去200年的總和,信息需求的巨大變化,會讓數(shù)據(jù)中心的集中化、規(guī)模化趨勢更加明顯。
有數(shù)據(jù)顯示,到2020年,70%的服務(wù)器將集中部署在5000臺以上規(guī)模的數(shù)據(jù)中心,將會有更多的超過50萬臺規(guī)模的超大型數(shù)據(jù)中心出現(xiàn),服務(wù)器需求量的快速增長與交付速度體術(shù)的停滯的差距,成為影響數(shù)據(jù)中心發(fā)展的重要瓶頸。因此更大交付顆粒的整機柜服務(wù)器,是未來數(shù)據(jù)中心主流服務(wù)器形態(tài)演變的趨勢。采用SmartRack能夠?qū)⒔桓缎侍嵘吮叮⑶覒{借集中供電、集中散熱和集中管理,降低至少15%的功耗和12%的TCO。
上一篇:對大型機的七大誤解
免責聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻自行上傳,本網(wǎng)站不擁有所有權(quán),也不承認相關(guān)法律責任。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,請發(fā)送郵件至:operations@xinnet.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,本站將立刻刪除涉嫌侵權(quán)內(nèi)容。