摘要:在2022年阿里云峰會(huì)上,阿里云正式發(fā)布了CIPU(Cloud infrastructure Processing Units)。這是一套阿里云歷時(shí)7年所打造的云數(shù)據(jù)中心專用處理器,未來(lái)將替代CPU成為云計(jì)算的管控和加速中心。...
在2022年阿里云峰會(huì)上,阿里云正式發(fā)布了CIPU(Cloud infrastructure Processing Units)。這是一套阿里云歷時(shí)7年所打造的云數(shù)據(jù)中心專用處理器,未來(lái)將替代CPU成為云計(jì)算的管控和加速中心。
「CIPU」雖然是個(gè)新名詞,但「云計(jì)算管控加速處理器」卻是近年間云計(jì)算產(chǎn)業(yè)大火的概念。
隨著云計(jì)算技術(shù)的不斷普及,產(chǎn)業(yè)誕生了越來(lái)越多超大規(guī)模的云計(jì)算服務(wù)器陣列,如何將這遍布全球的百萬(wàn)計(jì)算節(jié)點(diǎn)調(diào)度統(tǒng)一,成為了困擾云廠商的一大難題。
與此同時(shí),近年大火的人工智能、自動(dòng)駕駛等技術(shù),更是催生了低延遲、高算力的數(shù)據(jù)密集型應(yīng)用爆發(fā)式增長(zhǎng),傳統(tǒng)的云計(jì)算發(fā)展路徑越來(lái)越難以滿足需求。
CIPU應(yīng)運(yùn)而生。
「云計(jì)算管控加速處理器」是目前云計(jì)算產(chǎn)業(yè)最火的技術(shù)之一。
三年前,英偉達(dá)就曾超70億美元收購(gòu)以色列芯片制造商Mellanox,以BlueField系列產(chǎn)品切入這一賽道;英特爾、Marvell、博通等廠商也紛紛發(fā)力,不斷推出DPU、IPU等相關(guān)產(chǎn)品。
與此同時(shí),創(chuàng)業(yè)賽道也是風(fēng)起云涌。僅就國(guó)內(nèi)而言,芯啟源、大禹智芯、中科馭數(shù)、星云智聯(lián)、云豹智能等DPU創(chuàng)業(yè)公司也在近年間紛紛斬獲融資、發(fā)布新品,市場(chǎng)好不熱鬧。
作為云計(jì)算服務(wù)的提供者,也是芯片的最大用戶之一,阿里云則在更早之前就在察覺(jué)到了這一技術(shù)的重要性。
在過(guò)去十多年的發(fā)展中,云計(jì)算技術(shù)先是完成了以分布式和虛擬化技術(shù)對(duì)大型機(jī)的替代,又以資源池化技術(shù)突破了規(guī)模和穩(wěn)定性的瓶頸,為用戶提供了超大規(guī)模的云計(jì)算服務(wù)。
不過(guò),虛擬化與資源池化的技術(shù)遇上以CPU為中心的數(shù)據(jù)中心架構(gòu),又帶來(lái)了新的問(wèn)題。
舉個(gè)例子,虛擬化能夠?qū)⒂?jì)算資源進(jìn)行重新定義與劃分,極大提高了信息資源的利用率,但與此同時(shí),這項(xiàng)技術(shù)也會(huì)帶來(lái)難以忽視的性能損耗。
為了解決服務(wù)器長(zhǎng)久以來(lái)的虛擬化性能損耗的問(wèn)題,阿里云的相關(guān)研發(fā)團(tuán)隊(duì)從2015年就開(kāi)始技術(shù)攻關(guān),并于2017年推出業(yè)內(nèi)首款虛擬化損耗為零的神龍?jiān)品?wù)器。
此后,經(jīng)過(guò)多年自研迭代,阿里云又對(duì)神龍、彈性RDMA等核心技術(shù)不斷深入整合,并逐漸演進(jìn)出以「CIPU」為中心的全新架構(gòu)形態(tài)。
在這個(gè)全新體系架構(gòu)下,CIPU向上接入飛天云操作系統(tǒng),向下對(duì)數(shù)據(jù)中心的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源快速云化并進(jìn)行硬件加速。
從部分功能上看,CIPU與英偉達(dá)、英特爾等產(chǎn)業(yè)巨頭近年來(lái)陸續(xù)推出的DPU、IPU芯片新品相近。
不過(guò),供應(yīng)商的產(chǎn)品難以針對(duì)每一朵云進(jìn)行深度定制,其產(chǎn)品更多還是以「協(xié)助」為主。
與它們不同的是,阿里云的CIPU在虛擬化、網(wǎng)絡(luò)、分布式存儲(chǔ)、本地存儲(chǔ)、安全、運(yùn)維、池化等多個(gè)方面,與阿里飛天云操作系統(tǒng)進(jìn)行了深度融合,通過(guò)“軟件定義、硬件加速”,不僅能夠協(xié)助計(jì)算資源調(diào)度,更能夠「管控」全局,將百萬(wàn)臺(tái)服務(wù)器,變成一臺(tái)「超級(jí)計(jì)算機(jī)」,全面放大技術(shù)優(yōu)勢(shì)。
“CIPU是云計(jì)算發(fā)展的一個(gè)必然?!卑⒗镌萍夹g(shù)產(chǎn)品負(fù)責(zé)人蔣江偉在采訪中這樣說(shuō)道。
對(duì)于用戶來(lái)說(shuō),CIPU的優(yōu)勢(shì)可以體現(xiàn)為:
1、性能更強(qiáng)
這是最直觀的一項(xiàng)參數(shù)。蔣江偉表示,在CIPU的加持之下,原來(lái)需要3.5臺(tái)服務(wù)器的計(jì)算資源才能完成的計(jì)算任務(wù),如今只需要2.5臺(tái)。
2、計(jì)算效率更高
通過(guò)CIPU對(duì)于計(jì)算資源的調(diào)度、協(xié)同、管控,讓同樣數(shù)量的計(jì)算資源發(fā)揮出更高的計(jì)算效率。
舉個(gè)例子,一直以來(lái),RDMA都是一個(gè)比較「貴族化」的技術(shù),性能強(qiáng)大,但是技術(shù)門檻很高。想要用好它,對(duì)工程師、代碼、硬件投入都提出了非常高的要求。
基于CIPU,阿里云推出了eRDMA(彈性RDMA)技術(shù),通過(guò)它,阿里云能夠?qū)DMA技術(shù)快速普惠化,讓用戶能夠在云上大規(guī)模應(yīng)用高性能網(wǎng)絡(luò)加速服務(wù),用同樣的計(jì)算資源與人力投入,獲得別人投入幾百甚至上千人的研發(fā)效果。
3、系統(tǒng)更穩(wěn)定
作為百萬(wàn)臺(tái)服務(wù)器的「管控中心」,CIPU上還沉淀了大量的控制、調(diào)度數(shù)據(jù),讓阿里云能夠根據(jù)這些數(shù)據(jù)提前預(yù)測(cè)單個(gè)節(jié)點(diǎn)產(chǎn)生故障的可能性,提前排查,保障數(shù)據(jù)中心的安全穩(wěn)定運(yùn)行。
基于CIPU和飛天的新一代云計(jì)算架構(gòu)體系,阿里云在這次的2022年阿里云峰會(huì)上,又刷新了自己的數(shù)據(jù)記錄。
CIPU加持之下,阿里云在通用分布式計(jì)算領(lǐng)域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%;在大數(shù)據(jù)和AI等計(jì)算與數(shù)據(jù)雙密集場(chǎng)景下,相比傳統(tǒng)的TCP網(wǎng)絡(luò),彈性RDMA高性能網(wǎng)絡(luò)的吞吐能力提升30%以上。
CIPU與存儲(chǔ)、網(wǎng)絡(luò)的結(jié)合,則能夠使阿里云云盤存儲(chǔ)IOPS最高可達(dá)300萬(wàn),長(zhǎng)尾時(shí)延降低50%,網(wǎng)絡(luò)時(shí)延最低達(dá)到5us,“訪問(wèn)云端比訪問(wèn)本地硬盤更快“。
“新一代云計(jì)算體系不僅會(huì)對(duì)云、對(duì)數(shù)據(jù)中心內(nèi)部產(chǎn)生影響。這也會(huì)改變傳統(tǒng)計(jì)算機(jī)終端形態(tài)、以及軟件應(yīng)用和開(kāi)發(fā)界面?!卑⒗镌浦悄芸偛脧埥ㄤh說(shuō)。
改變以硬件為主導(dǎo)的傳統(tǒng)IT體系,建立以云為主導(dǎo)的新體系,是每一個(gè)云廠商的技術(shù)理想。
而在數(shù)據(jù)密集型計(jì)算需求爆發(fā)式增長(zhǎng)的當(dāng)下,這一理想不僅僅停留在技術(shù)愿景與發(fā)展方向,而是成為了實(shí)實(shí)在在的迫切需求。
一方面,以AI為代表的新興計(jì)算場(chǎng)景所需算力爆增。
根據(jù)OpenAI數(shù)據(jù),自2012年以來(lái),AI訓(xùn)練任務(wù)所需要的計(jì)算力每3.43個(gè)月就會(huì)翻一倍,六年以來(lái)累計(jì)暴漲超過(guò)30萬(wàn)倍,遠(yuǎn)遠(yuǎn)超過(guò)了摩爾定律的極限。以CPU為中心的傳統(tǒng)IT體系已經(jīng)無(wú)法滿足日益增長(zhǎng)的算力需求。
另一方面,隨著自動(dòng)駕駛、虛擬人等對(duì)低延遲、高帶寬需求敏感的應(yīng)用場(chǎng)景增多,用戶對(duì)于云服務(wù)的速度、效率、穩(wěn)定性都提出了更為極致的要求。
以特斯拉為例,其百萬(wàn)級(jí)的汽車保有量每日行進(jìn)在路面上,其采集、分析、存儲(chǔ)的數(shù)據(jù)量接近天文數(shù)字,無(wú)法全部靠終端進(jìn)行處理。可汽車又是一款需要配備極高安全冗余的特殊終端,一旦需要接入云端服務(wù),現(xiàn)有的IT體系幾乎無(wú)法滿足其需求。
此外,隨著云計(jì)算應(yīng)用的快速普及,越來(lái)越多應(yīng)用場(chǎng)景開(kāi)始從「南北向流量」演進(jìn)為「東西向流量」,數(shù)據(jù)中心內(nèi)部傳輸?shù)臄?shù)據(jù)量激增,大規(guī)模數(shù)據(jù)的傳輸與搬遷成為了限制云計(jì)算發(fā)展的又一難題。
以阿里云為例。阿里云在全球布置了上百萬(wàn)臺(tái)服務(wù)器,屬于超大規(guī)模的云計(jì)算陣列。倘若僅靠以CPU為中心的傳統(tǒng)IT體系,幾乎無(wú)法對(duì)這上百萬(wàn)臺(tái)服務(wù)器進(jìn)行計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源進(jìn)行統(tǒng)一的管理、調(diào)度、編排,讓資源能夠合理、高效利用。
CPU成為數(shù)據(jù)高速傳輸?shù)钠款i,云計(jì)算體系迫切地需要重構(gòu),需要新架構(gòu)、新設(shè)計(jì)、新方案。全球頂級(jí)的IT巨頭,都在尋找解決辦法。
而在阿里云關(guān)于建立「新一代云計(jì)算體系」的答卷中,CIPU是關(guān)鍵一環(huán)。
在阿里云的這套新一代云計(jì)算體系中,話語(yǔ)權(quán)從「服務(wù)器里的CPU」移至「服務(wù)器外的CIPU」,CIPU相當(dāng)于一個(gè)統(tǒng)領(lǐng)全局的云控制器,將集成、調(diào)度功能從不堪重負(fù)的CPU中抽離出來(lái),承擔(dān)著協(xié)調(diào)控制大量需要跨網(wǎng)絡(luò)進(jìn)行計(jì)算、存儲(chǔ)、數(shù)據(jù)交互的過(guò)程。
有了這樣一個(gè)更高層級(jí)的控制器,阿里云就能夠突破超大規(guī)模資源池化的調(diào)度瓶頸,讓陷入百萬(wàn)節(jié)點(diǎn)調(diào)度「泥潭」的數(shù)據(jù)中心能夠輕裝簡(jiǎn)行,更快、更敏捷、更靈活。
得到減負(fù)的CPU,則可以繼續(xù)發(fā)揮其核心算力提供者的地位,成為阿里云「一云多芯」體系的重要組成部分。
CIPU雖然是阿里云新系統(tǒng)的關(guān)鍵一環(huán),不過(guò)阿里云對(duì)新一代云計(jì)算體系的布局,卻并非是從CIPU才開(kāi)始的。
早在去年,阿里云就宣布了其「一云多芯」的核心戰(zhàn)略——以飛天操作系統(tǒng)為核心,全面向下兼容x86、ARM、RISC-V等多種芯片架構(gòu),以及飛騰、鯤鵬、AMD、Ampere等多種CPU,并將其封裝成直接面向用戶的標(biāo)準(zhǔn)算力,既解決了CPU不兼容導(dǎo)致的云和軟件開(kāi)發(fā)問(wèn)題,又讓更多種類的芯片進(jìn)入云計(jì)算生態(tài)。
作為這套戰(zhàn)略的一部分,阿里云還在去年推出了自研CPU「倚天710」,這是一款集成了600億顆晶體管的5nm數(shù)據(jù)中心CPU,采用ARMv9架構(gòu),主頻最高達(dá)到3.2GHz。這款CPU不僅為阿里云量身定制,更是阿里云「一云多芯」戰(zhàn)略的延伸,加深了阿里云對(duì)底層硬件產(chǎn)業(yè)鏈更為深入、全面的理解。
目前,倚天710已在阿里云數(shù)據(jù)中心內(nèi)部規(guī)?;渴穑㈨樌瓿闪?021年「雙11」等多個(gè)核心業(yè)務(wù)。今年4月,基于倚天710的公共云 ECS實(shí)例也已上線邀測(cè)。
如今,阿里云「CIPU」的推出,則又更進(jìn)一步地與一云多芯戰(zhàn)略呼應(yīng),更進(jìn)一步將以CPU為中心的傳統(tǒng)云計(jì)算體系推向下一個(gè)時(shí)代,掀開(kāi)了阿里云新體系的一角,從云效率最大化出發(fā),重構(gòu)數(shù)據(jù)中心,構(gòu)建一個(gè)軟硬一體的「新一代云計(jì)算體系」。
當(dāng)前,海外IT巨頭如AWS、谷歌、微軟都在爭(zhēng)奪下一代云計(jì)算標(biāo)準(zhǔn)的定義權(quán),英特爾、英偉達(dá)等芯片巨頭也都紛紛將業(yè)務(wù)發(fā)展重心瞄準(zhǔn)了數(shù)據(jù)中心,阿里云此時(shí)攜CIPU入局,云計(jì)算的戰(zhàn)場(chǎng)無(wú)疑將變得更加有趣。
但這絕不是一場(chǎng)一勞永逸的戰(zhàn)斗——這是一場(chǎng)長(zhǎng)征,一場(chǎng)技術(shù)長(zhǎng)征。
自「云計(jì)算」這一概念誕生以來(lái),圍繞著云計(jì)算技術(shù)標(biāo)準(zhǔn)定義權(quán)的爭(zhēng)奪就從未停歇,幾十年間,多少玩家浮浮沉沉。因?yàn)檫x錯(cuò)了技術(shù)路徑、貽誤了入場(chǎng)時(shí)機(jī)、放緩了前進(jìn)腳步,導(dǎo)致最終總是落后市場(chǎng)半拍,跟著別人的研究亦步亦趨的故事,在IT產(chǎn)業(yè)里有很多。
舉個(gè)例子,早在1965年——互聯(lián)網(wǎng)誕生之前——IBM就開(kāi)始研發(fā)虛擬機(jī)技術(shù),并在此后推出了人類歷史上第一個(gè)虛擬機(jī)系統(tǒng)CP-40/CMS。
然而,IBM高層錯(cuò)誤地判斷了云計(jì)算的市場(chǎng)發(fā)展,導(dǎo)致公司作為底層技術(shù)的先發(fā)者,卻并未吃到云計(jì)算的第一口紅利,而是在亞馬遜2002年切入AWS的五年之后,才終于推出Blue Cloud計(jì)劃,貽誤了最好的戰(zhàn)機(jī)。
國(guó)內(nèi)云計(jì)算產(chǎn)業(yè)的發(fā)展也經(jīng)歷了類似的戰(zhàn)局。
2007年,阿里率先入主云計(jì)算產(chǎn)業(yè),啟動(dòng)飛天云操作系統(tǒng)的自研,開(kāi)始不聲不響地推行「去IOE」化。
阿里的新動(dòng)作,行業(yè)并不是不知道,可互聯(lián)網(wǎng)泡沫的教訓(xùn)仍舊歷歷在目,國(guó)內(nèi)IT產(chǎn)業(yè)對(duì)此仍然存疑。在三年后那場(chǎng)知名的2010中國(guó)(深圳)IT領(lǐng)袖峰會(huì)上,兩位技術(shù)出身的CEO——李彥宏與馬化騰分別將云計(jì)算稱為「新瓶裝舊酒」與「可能要過(guò)幾百年、一千年后才能實(shí)現(xiàn)」。
唯一一個(gè)非技術(shù)出身的CEO馬云的觀點(diǎn)則是「可能是因?yàn)椴欢夹g(shù)的緣故……我最怕就是老酒裝新瓶的東西,你看不清他在玩什么,突然爆發(fā)出來(lái)最可怕。」
此后的十年間,阿里云以驚人的速度騰飛爆炸,帶領(lǐng)了整個(gè)中國(guó)云計(jì)算產(chǎn)業(yè)邁向了一個(gè)新臺(tái)階?!革w天」成為我國(guó)唯一一個(gè)自研云操作系統(tǒng),并陸續(xù)向下生長(zhǎng)出芯片、服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫(kù)、AI平臺(tái)等以云為基礎(chǔ)的軟硬件技術(shù)體系。
在每一個(gè)新時(shí)代的清晨,選擇正確的路徑,擁有先發(fā)的優(yōu)勢(shì),將意味著企業(yè)擁有對(duì)行業(yè)未來(lái)發(fā)展路徑的定義權(quán)——這是每一個(gè)技術(shù)廠商的理想。
“這幾年,我們看到云計(jì)算進(jìn)入了一個(gè)新的發(fā)展階段,我們?cè)絹?lái)越接近于下一個(gè)時(shí)代。”在2022年阿里云峰會(huì)上,阿里CTO張建鋒這樣說(shuō)。
下一代的云——全新的架構(gòu)定義,全新的軟件界面,全新的硬件加速。
路徑的選擇源于對(duì)技術(shù)的深入理解,技術(shù)的理解源于扎實(shí)的基礎(chǔ)研究。
阿里云今年最重要的策略是「B2B」——Back to Basic,回到云計(jì)算的本質(zhì),做深基礎(chǔ)研究,堅(jiān)持在技術(shù)的長(zhǎng)征路上不斷取得新的突破。
阿里云張建鋒:BACK TO BASIC 定義下一代的云
在這場(chǎng)新一代云計(jì)算路線之爭(zhēng)上,阿里云打響了第一槍。
“我們錯(cuò)過(guò)了PC時(shí)代,但云這個(gè)時(shí)代大家起步是一樣的?,F(xiàn)在是重新定義云的窗口期,如果我們定義好了,中國(guó)就可以在下一個(gè)技術(shù)時(shí)代有自己的一席之地?!睆埥ㄤh說(shuō)。