摘要:文 | 阿里云 楊航寫在前面近日,阿里云智能總裁張建鋒在2022阿里云峰會(huì)發(fā)布云基礎(chǔ)設(shè)施處理器CIPU(Cloud Infrastructure Processing Unit),將其定義為替代CPU成為云計(jì)算的管控和加速中心。在這個(gè)全新體...
文 | 阿里云 楊航
寫在前面
近日,阿里云智能總裁張建鋒在2022阿里云峰會(huì)發(fā)布云基礎(chǔ)設(shè)施處理器CIPU(Cloud Infrastructure Processing Unit),將其定義為替代CPU成為云計(jì)算的管控和加速中心。在這個(gè)全新體系架構(gòu)下,CIPU向下對數(shù)據(jù)中心的計(jì)算、存儲、網(wǎng)絡(luò)資源快速云化并進(jìn)行硬件加速,向上接入飛天云操作系統(tǒng),將全球數(shù)百萬臺服務(wù)器構(gòu)建為一臺超級計(jì)算機(jī)。
眾所周知,傳統(tǒng)IT時(shí)代,微軟Windows+Intel聯(lián)盟取代了IBM PC霸主地位;移動(dòng)計(jì)算時(shí)代,谷歌Android/蘋果iOS+ARM共同主導(dǎo)了移動(dòng)終端的技術(shù)架構(gòu);那么云計(jì)算時(shí)代,阿里云飛天操作系統(tǒng)+CIPU組合能發(fā)揮什么樣的價(jià)值?
本文希望通過對CIPU的深入技術(shù)解讀,回答讀者普遍關(guān)心的關(guān)鍵問題:CIPU到底是什么?CIPU主要解決哪些問題?CIPU從何而來,未來又將往何處去?
云計(jì)算現(xiàn)狀
在距離2006年云計(jì)算鼻祖AWS先后發(fā)布S3和EC2有16年之余,距離2010年BAT針對云計(jì)算是否“新瓶裝舊酒”之爭已有12年歷史之時(shí),同時(shí)Gartner 2021全球IaaS 收入已達(dá)900億美元的當(dāng)下,市面上依然存在著一些偽云計(jì)算概念,比如,轉(zhuǎn)售IDC硬件、轉(zhuǎn)售CDN等。
云計(jì)算行業(yè)再次站在了分水嶺上,有必要看清楚云的未來到底是什么?什么才是我們需要的云計(jì)算?
作為和水、電一樣的公共資源和社會(huì)基礎(chǔ)設(shè)施,云的核心特征是“彈性”和“多租 ”。
何謂彈性?
彈性,從廣義上講,是讓IT能力輕松跟上用戶的業(yè)務(wù)發(fā)展;從狹義上講,則帶給用戶無與倫比的靈活性。
先來看廣義彈性的價(jià)值,簡單講就是充裕的供給能力,“無限索取”。IT計(jì)算力已經(jīng)成為很多業(yè)務(wù)的支撐性能力。當(dāng)業(yè)務(wù)迅猛發(fā)展時(shí),如果計(jì)算力跟不上,那么業(yè)務(wù)必然會(huì)受到嚴(yán)重的制約。
但是計(jì)算力的建設(shè)并不是一蹴而就的,從地、電、水到機(jī)房建造,從數(shù)據(jù)中心網(wǎng)絡(luò)鋪設(shè)到Internet接入,從服務(wù)器選型、定制、采購到部署、上線和運(yùn)維,從單機(jī)房、多機(jī)房到跨地域甚至跨大洲,然后是安全、穩(wěn)定性、容災(zāi)、備份……最后是最難的,優(yōu)秀人才的招聘、培訓(xùn)和保有,這些無一不是耗時(shí)、耗力、耗財(cái)?shù)氖马?xiàng),談何容易。而彈性計(jì)算的出現(xiàn),則讓計(jì)算力的獲得變得簡單而從容。
下圖展示了一個(gè)公有云用戶隨著業(yè)務(wù)的極速擴(kuò)張所購買的計(jì)算力的增長曲線,短短15個(gè)月,計(jì)算力需求從零爆發(fā)式增長到了數(shù)百萬核。彈性計(jì)算充裕的計(jì)算力供給,讓用戶業(yè)務(wù)的發(fā)展如虎添翼。
何謂多租?
邏輯清晰的讀者可能已經(jīng)隱約感覺到“彈性”和“多租”并非嚴(yán)格的正交和并列關(guān)系,那么為什么筆者特意把“多租”上升到“彈性”并列的高度來進(jìn)行討論?
嚴(yán)格來說,多租是實(shí)現(xiàn)極致彈性和極致社會(huì)IT資源效率的必要條件之一。不可否認(rèn),私有云確實(shí)在一定程度上解決了企業(yè)IT資源靈活高效使用的問題,但是私有云和公有云在“多租”這個(gè)核心業(yè)務(wù)特性差異,導(dǎo)致二者之間的天壤之別。
準(zhǔn)確完成對云計(jì)算的“彈性”和“多租”業(yè)務(wù)特性的定義,則可以進(jìn)一步討論技術(shù)實(shí)現(xiàn)層面,如何實(shí)現(xiàn)“彈性”和“多租 ”功能,如何在極致安全、極致穩(wěn)定、極致性能、極致成本等四個(gè)維度討論云計(jì)算技術(shù)實(shí)現(xiàn)層面的演進(jìn)。
IaaS的阿克琉斯之踵
眾所周知,IaaS是計(jì)算、存儲、網(wǎng)絡(luò)等三大件的IT資源公共服務(wù)化;PaaS主要指數(shù)據(jù)庫、大數(shù)據(jù)、AI等數(shù)據(jù)管理平臺服務(wù)化以及K8s云原生和中間件;SaaS則是以微軟Office 365、Salesforce等為代表的軟件服務(wù)化。傳統(tǒng)意義上,云計(jì)算主要是指IaaS云服務(wù),PaaS和SaaS則是IaaS云平臺之上的云原生產(chǎn)品和服務(wù);同時(shí)由于本文主題CIPU主要位于IaaS層,因此PaaS和SaaS對CIPU的需求不會(huì)在本文重點(diǎn)展開。
為了實(shí)現(xiàn)IaaS計(jì)算、存儲、網(wǎng)絡(luò)等IT資源靈活按需供給,其核心特點(diǎn)是資源池化、服務(wù)多租、彈性供給以及管理運(yùn)維自動(dòng)化等。其背后的核心技術(shù)則是虛擬化技術(shù)。
我們簡要回顧一下虛擬化技術(shù)和公有云服務(wù)的歷史:
2003年,XenSource在SOSP發(fā)表《Xen and the Art of Virtualization》,拉開x86平臺虛擬化技術(shù)的大幕。
2006年,AWS發(fā)布EC2和S3,拉開了公有云服務(wù)的大幕。EC2的核心正是基于Xen虛擬化技術(shù)。
可以看出,虛擬化技術(shù)和IaaS云計(jì)算服務(wù)相互成就:IaaS云服務(wù)“發(fā)現(xiàn)和發(fā)掘”了虛擬化技術(shù)的業(yè)務(wù)價(jià)值,使得虛擬化技術(shù)成為了IaaS云服務(wù)的基石;與此同時(shí),虛擬化技術(shù)紅利讓IaaS云服務(wù)成為了可能。
從2003年Xen虛擬化技術(shù)發(fā)軔,到2005年英特爾開始在至強(qiáng)處理器引入虛擬化支持,加入新指令集并改變x86體系架構(gòu),使得虛擬化技術(shù)大規(guī)模部署成為可能,然后2007年KVM虛擬化技術(shù)誕生,持續(xù)近20年的IaaS虛擬化技術(shù)演進(jìn),無不是圍繞上述更安全、更穩(wěn)定、更高性能、更低成本等四大業(yè)務(wù)目標(biāo)進(jìn)行演進(jìn)。
簡單回顧歷史,我們就可以清晰看到IaaS的阿克琉斯之踵 —— 虛擬化技術(shù)之痛。
其一,成本。Xen時(shí)代,Xen Hypervisor DOM0消耗XEON一半的CPU資源,也就是只有一半的CPU資源可以對外售賣,可以看到虛擬化云計(jì)算稅極其沉重。
其二,性能。Xen時(shí)代,內(nèi)核網(wǎng)絡(luò)虛擬化時(shí)延達(dá)到150us之巨,網(wǎng)絡(luò)時(shí)延抖動(dòng)極大,網(wǎng)絡(luò)轉(zhuǎn)發(fā)pps成為企業(yè)核心業(yè)務(wù)的關(guān)鍵瓶頸,Xen虛擬化架構(gòu)在存儲和網(wǎng)絡(luò)IO虛擬化方面有不可克服的性能瓶頸。
其三,安全。QEMU大量設(shè)備仿真代碼,對于IaaS云計(jì)算毫無意義,而這些冗余代碼不僅僅會(huì)導(dǎo)致額外資源開銷,更進(jìn)一步導(dǎo)致安全攻擊敞口(attack surface)無法根本收斂。
眾所周知,公有云成立的基礎(chǔ)之一是多租環(huán)境下的數(shù)據(jù)安全。而持續(xù)提升硬件的可信能力,數(shù)據(jù)在計(jì)算、存儲、網(wǎng)絡(luò)等子系統(tǒng)流動(dòng)過程中的安全加密能力,在Xen/KVM虛擬化下技術(shù)挑戰(zhàn)極大。
其四,穩(wěn)定性。云計(jì)算穩(wěn)定性提升,依賴兩大核心技術(shù):底層芯片白盒,以此輸出更多RAS數(shù)據(jù);以及基于這些穩(wěn)定性數(shù)據(jù)的大數(shù)據(jù)運(yùn)維。虛擬化系統(tǒng)要進(jìn)一步提升穩(wěn)定性,則需要進(jìn)一步深入計(jì)算、網(wǎng)絡(luò)和存儲芯片的實(shí)現(xiàn)細(xì)節(jié),以此獲得更多影響系統(tǒng)穩(wěn)定性數(shù)據(jù)。
其五,彈性裸金屬支持。諸如Kata、Firecracker等安全容器,多卡GPU服務(wù)器在PCIe switch P2P虛擬化開銷,頭部大用戶追求降低極致計(jì)算和內(nèi)存虛擬化的開銷,以及VMware/OpenStack支持等需求方面,需要彈性裸金屬來支撐這類需求,而基于Xen/KVM虛擬化架構(gòu)無法實(shí)現(xiàn)彈性裸金屬。
其六,IO和算力之間的鴻溝持續(xù)擴(kuò)大。我們以Intel XEON 2 Socket服務(wù)器為例,分析存儲和網(wǎng)絡(luò)IO以及XEON CPU PCIe帶寬擴(kuò)展能力,與CPU算力的發(fā)展做一個(gè)簡單對比分析:
進(jìn)一步以2018年SkyLake 2S服務(wù)器的各個(gè)指標(biāo)(CPU HT數(shù)量、DDR整機(jī)理論帶寬等)為基準(zhǔn),橫向?qū)Ρ雀鱾€(gè)技術(shù)指標(biāo)的發(fā)展趨勢。以CPU HT數(shù)量為例,96HT SkyLake設(shè)定為基線1,IceLake 128HT/96HT = 1.3,Sapphire Rapids 192HT/96HT = 2.0,我們可以得到如下Intel 2S XEON服務(wù)器 CPU vs. MEM vs. PCIe/存儲/網(wǎng)絡(luò)IO發(fā)展趨勢:
從上圖2018年到2022年四年數(shù)據(jù)對比,我們可以得到如下結(jié)論:
1、Intel CPU提升了2倍(未考慮IPC提升因素),DDR帶寬提升了2.4倍,因此CPU和DDR帶寬是匹配的;
2、單網(wǎng)卡(包含網(wǎng)卡連接的以太交換網(wǎng)絡(luò))帶寬提升了4倍,單NVMe帶寬提升了3.7倍,整機(jī)PCIe帶寬提升6.7倍,可以看出網(wǎng)絡(luò)/存儲/PCIe等IO能力和Intel XEON CPU的算力之間gap在持續(xù)拉大;
3、上圖未分析的時(shí)延維度數(shù)據(jù),由于Intel CPU頻率基本保持不變,IPC未有顯著提升,因此CPU處理數(shù)據(jù)的時(shí)延會(huì)有小幅改進(jìn),PCIe和網(wǎng)卡/網(wǎng)絡(luò)的時(shí)延也僅有小幅改進(jìn),而存儲NVMe和AEP等新一代存儲介質(zhì),相對于HDD等老一代介質(zhì),在時(shí)延方面出現(xiàn)了數(shù)量級的下降;
4、上述計(jì)算、網(wǎng)絡(luò)、存儲等基礎(chǔ)設(shè)施層面發(fā)展的不同步,將對數(shù)據(jù)庫和大數(shù)據(jù)等PaaS層的系統(tǒng)架構(gòu)產(chǎn)生關(guān)鍵影響,但這非本文討論重點(diǎn)。
作為有虛擬化技術(shù)背景的人士,看到上述分析,內(nèi)心一定是沉重的。
因?yàn)樵贗ntel VT等計(jì)算和內(nèi)存硬件虛擬化技術(shù)普遍部署后,計(jì)算和內(nèi)存虛擬化的開銷(包含隔離性、抖動(dòng)等)已經(jīng)得到了相當(dāng)程度的解決。而上述PCIe/NIC/NVMe/AEP等 IO技術(shù)突飛猛進(jìn)發(fā)展的同時(shí),如果繼續(xù)沿用PV半虛擬化技術(shù),在內(nèi)存拷貝、VM Exit、時(shí)延等方面的技術(shù)挑戰(zhàn)將愈發(fā)凸顯。
CIPU從何處來?
通過上面的內(nèi)容,我們基本闡述清楚了IaaS云計(jì)算在技術(shù)層面面臨的問題和挑戰(zhàn),本章節(jié)我們將對CIPU技術(shù)發(fā)展史做一個(gè)綜述,目的是回答一個(gè)問題:CIPU從何而來?畢竟“不了解歷史,則無法看清未來”。
細(xì)心的讀者如果對上文的“六大虛擬化技術(shù)之痛”有進(jìn)一步思考和分析,應(yīng)該可以看出6個(gè)痛點(diǎn)有一個(gè)方面的共性:都在或多或少地討論IO虛擬化子系統(tǒng)的成本、安全和性能。因此符合邏輯的技術(shù)解決思路應(yīng)該是從IO虛擬化子系統(tǒng)入手。而回望過去20年的技術(shù)發(fā)展史,也確實(shí)印證了上述推導(dǎo)邏輯。
本文僅選取兩個(gè)關(guān)鍵技術(shù),來闡述CIPU從何處來:
其一,IO硬件虛擬化–Intel VT-d
IO虛擬化子系統(tǒng)存在巨大的需求和技術(shù)鴻溝,Intel自然會(huì)重點(diǎn)解決。DMA直接內(nèi)存存取,以及IRQ中斷請求在虛擬化條件下的改進(jìn),以及對應(yīng)PCIe標(biāo)準(zhǔn)化組織的跟進(jìn),肯定會(huì)成為必然。
從IOMMU地址翻譯到中斷remapping和posted interrupt,從PCIe SR-IOV/MR-IOV到Scalable IOV,其具體技術(shù)實(shí)現(xiàn)細(xì)節(jié)不在本文討論之列,網(wǎng)上相關(guān)資料可謂汗牛充棟,感興趣的可自行搜索研讀。
而筆者在此羅列Intel VT-d IO硬件虛擬化技術(shù)的唯一目的是想說:CPU IO硬件虛擬化技術(shù)的成熟,是CIPU技術(shù)發(fā)展的前置關(guān)鍵技術(shù)依賴。
其二,網(wǎng)絡(luò)處理器(NPU)和智能網(wǎng)卡
CIPU另一個(gè)設(shè)計(jì)思路來自通信領(lǐng)域(特別是數(shù)通技術(shù))。數(shù)通出身的人士,肯定對以太網(wǎng)交換芯片、路由芯片、fabric芯片等特別熟悉,而這其中網(wǎng)絡(luò)處理器(Network Processor Unit,NPU。特別指出本文網(wǎng)絡(luò)NPU,非AI Neural Processing Unit)是數(shù)通領(lǐng)域的一個(gè)關(guān)鍵支撐技術(shù)。
2012年前后,由于受運(yùn)營商諸多美好愿望驅(qū)動(dòng)(是否能夠大規(guī)模落地按下不表,但是人總是要有希望,否則“和咸魚有何差別”),無論是在通信領(lǐng)域的無線核心網(wǎng)還是寬帶接入服務(wù)器(BRAS)中(如下圖),NFV(網(wǎng)絡(luò)功能虛擬化)都成為重點(diǎn)研發(fā)方向。
一言以蔽之,NFV就是通過標(biāo)準(zhǔn)x86服務(wù)器,標(biāo)準(zhǔn)以太交換網(wǎng)、標(biāo)準(zhǔn)IT存儲等IT標(biāo)準(zhǔn)化和虛擬化的基礎(chǔ)設(shè)施,來實(shí)現(xiàn)通信領(lǐng)域的網(wǎng)元功能,以此擺脫傳統(tǒng)通信煙囪式和垂直化的非標(biāo)緊耦合軟硬件系統(tǒng),從而達(dá)到運(yùn)營商降本增效和提升業(yè)務(wù)敏捷度。
(圖片來源:ETSI NFV Problem Statement and Solution Vision)
而NFV運(yùn)行在IT標(biāo)準(zhǔn)化和虛擬化的基礎(chǔ)設(shè)施之上,肯定會(huì)遇到相當(dāng)多技術(shù)難題。而這些技術(shù)難題之一就是:NFV作為網(wǎng)絡(luò)業(yè)務(wù),相對于IT領(lǐng)域典型的在線交易/離線大數(shù)據(jù)等業(yè)務(wù),對于網(wǎng)絡(luò)虛擬化技術(shù)要求有很大差別。NFV天然對高帶寬吞吐(默認(rèn)線速帶寬處理)、高pps 處理能力以及時(shí)延和抖動(dòng)等都有更為嚴(yán)格的要求。
此時(shí),傳統(tǒng)NPU進(jìn)入了SDN/NFV的技術(shù)需求視野,不過這一次是把NPU放置到網(wǎng)卡之上而已,而配置NPU的網(wǎng)卡則被稱為智能網(wǎng)卡(Smart NIC)。
可以看到,通信NFV等業(yè)務(wù)希望部署到標(biāo)準(zhǔn)化和虛擬化的IT通用基礎(chǔ)設(shè)施之上,然后遇到網(wǎng)絡(luò)虛擬化性能瓶頸。同時(shí)期,IT domain公有云虛擬化技術(shù)遭遇了IO虛擬化技術(shù)瓶頸。它們在2012年前后,不期而遇。至此,網(wǎng)絡(luò)NPU、智能網(wǎng)卡等傳統(tǒng)通信技術(shù)開始進(jìn)入IT domain的視野。
時(shí)至今日,在解決云計(jì)算IO虛擬化這個(gè)問題上,可以看到智能網(wǎng)卡、DPU、IPU等仍然被大家混用。原因之一,確實(shí)它們有深刻的血脈聯(lián)系;同時(shí)如此之多和如此混亂的名稱,也源自于通信領(lǐng)域跨界到IT領(lǐng)域的工程師以及美國多家芯片大廠對云業(yè)務(wù)需求和場景的不熟悉。
CIPU定位
在相關(guān)前置技術(shù)儲備的基礎(chǔ)之上,這里我們給出CIPU的定義及定位。
CIPU(Cloud Infrastructure Processing Unit,云基礎(chǔ)設(shè)施處理器),顧名思義,就是把IDC計(jì)算、存儲、網(wǎng)絡(luò)基礎(chǔ)設(shè)施云化并且硬件加速的專用業(yè)務(wù)處理器。
計(jì)算器件、存儲資源、網(wǎng)絡(luò)資源一旦接入CIPU, 就云化為虛擬算力,被云平臺調(diào)度編排,給用戶提供高質(zhì)量彈性云計(jì)算算力集群。
CIPU架構(gòu)由以下部分組成:
1、IO硬件設(shè)備虛擬化
通過VT-d的前置支撐技術(shù),實(shí)現(xiàn)高性能的IO硬件設(shè)備虛擬化。同時(shí)考慮公有云OS生態(tài)兼容,設(shè)備模型應(yīng)該盡最大努力做到兼容。因此實(shí)現(xiàn)基于virtio-net、virtio-blk、NVMe等業(yè)界標(biāo)準(zhǔn)IO設(shè)備模型,成為了必須。
同時(shí)注意到IO設(shè)備的高性能,那么在PCIe協(xié)議層面的優(yōu)化則至關(guān)重要。如何減少PCIe TLP通信量、降低guest OS中斷數(shù)量(同時(shí)平衡時(shí)延需求),實(shí)現(xiàn)靈活的硬件隊(duì)列資源池化,新IO業(yè)務(wù)的可編程和可配置的靈活性等方面,是決定IO硬件設(shè)備虛擬化實(shí)現(xiàn)優(yōu)劣的關(guān)鍵。
2、VPC overlay網(wǎng)絡(luò)硬件加速
上文已對網(wǎng)絡(luò)虛擬化的業(yè)務(wù)痛點(diǎn)做了簡要分析,在這里我們進(jìn)一步對業(yè)務(wù)需求進(jìn)行展開:
需求1:帶寬線速處理能力
需求2:極致E2E低時(shí)延和低時(shí)延抖動(dòng)
需求3:不丟包條件下的高pps轉(zhuǎn)發(fā)能力
而實(shí)現(xiàn)層面,Xen時(shí)代內(nèi)核網(wǎng)絡(luò)虛擬化,到KVM架構(gòu)下基于DPDK vSwitch用戶態(tài)網(wǎng)絡(luò)虛擬化,面臨如下問題:
1、網(wǎng)絡(luò)帶寬和CPU處理能力的差距日漸拉大
(數(shù)據(jù)來源:xilinx)
2、DPDK純軟件網(wǎng)絡(luò)轉(zhuǎn)發(fā)性能優(yōu)化瓶頸凸顯
對上述兩個(gè)問題做進(jìn)一步分析,可以看出如下三個(gè)根本困難:
100Gbps+大帶寬數(shù)據(jù)移動(dòng),導(dǎo)致“馮諾依曼內(nèi)存墻”問題突出;
CPU標(biāo)量處理網(wǎng)絡(luò)虛擬化業(yè)務(wù),并行性瓶頸明顯;
基于軟件的數(shù)據(jù)路徑處理,時(shí)延抖動(dòng)難以克服。
此時(shí),基于硬件轉(zhuǎn)發(fā)加速的業(yè)務(wù)需求誕生,技術(shù)實(shí)現(xiàn)層面可以分為:
類似于MNLX ASAP、Intel FXP、Broadcom trueflow等基于可配置的ASIC轉(zhuǎn)發(fā)技術(shù)
基于many core的NPU技術(shù)
FPGA可重配置邏輯實(shí)現(xiàn)轉(zhuǎn)發(fā)技術(shù)
Intel FXP等基于可配置的ASIC轉(zhuǎn)發(fā)技術(shù),具備最高的性瓦比和最低的轉(zhuǎn)發(fā)時(shí)延,但是業(yè)務(wù)靈活性就比較捉襟見肘;基于many core的NPU技術(shù),具備一定的轉(zhuǎn)發(fā)業(yè)務(wù)靈活性,但是PPA(power-performance-area)效率和轉(zhuǎn)發(fā)時(shí)延無法和可配置ASIC競爭。FPGA可重配置邏輯實(shí)現(xiàn)轉(zhuǎn)發(fā)技術(shù),time to market能力有很大優(yōu)勢,但是對于400Gbps/800Gbps轉(zhuǎn)發(fā)業(yè)務(wù),挑戰(zhàn)很大。
此時(shí)技術(shù)實(shí)現(xiàn)層面的tradeoff原則:商用IPU/DPU芯片由于需要覆蓋更多目標(biāo)客戶,會(huì)趨向于犧牲一定PPA效率和轉(zhuǎn)發(fā)時(shí)延,來獲得一定的通用性;而云廠商CIPU會(huì)基于自身轉(zhuǎn)發(fā)業(yè)務(wù)進(jìn)行更多的深度垂直定制,從而獲得更極致PPA效率和更極致轉(zhuǎn)發(fā)時(shí)延。
3、EBS分布式存儲接入硬件加速
公有云存儲要實(shí)現(xiàn)9個(gè)9的數(shù)據(jù)持久性,且計(jì)算和存儲要滿足彈性業(yè)務(wù)需求,必然導(dǎo)致存算分離,EBS(阿里云塊存儲)必須在計(jì)算機(jī)頭高性能、低時(shí)延地接入機(jī)尾的分布式存儲集群。
具體需求層面:
EBS作為實(shí)時(shí)存儲,必須實(shí)現(xiàn)E2E極致低時(shí)延和極致P9999時(shí)延抖動(dòng);
實(shí)現(xiàn)線速存儲IO轉(zhuǎn)發(fā),諸如200Gbps網(wǎng)絡(luò)環(huán)境下實(shí)現(xiàn)6M IOPS;
新一代NVMe硬件IO虛擬化,滿足共享盤業(yè)務(wù)需求的同時(shí),解決PV NVMe半虛擬化IO性能瓶頸。
計(jì)算initiator和分布式存儲target之間的存儲協(xié)議,一般云廠商均會(huì)高度垂直優(yōu)化定制;而CIPU對EBS分布式存儲接入硬件加速的核心點(diǎn)就在于此。
4、本地存儲虛擬化硬件加速
本地存儲,雖然不具備諸如EBS 9個(gè)9的數(shù)據(jù)持久性和可靠性,但是在低成本、高性能、低時(shí)延等方面仍然具備優(yōu)勢,對計(jì)算cache、大數(shù)據(jù)等業(yè)務(wù)場景而言是剛需。
如果做到本地盤虛擬化之后,帶寬、IOPS、時(shí)延的零衰減,同時(shí)兼具一虛多、QoS隔離能力、可運(yùn)維能力,是本地存儲虛擬化硬件加速的核心競爭力。
5、彈性RDMA
RDMA網(wǎng)絡(luò)在HPC、AI、大數(shù)據(jù)、數(shù)據(jù)庫、存儲等data centric業(yè)務(wù)中,扮演愈來愈重要的技術(shù)角色??梢哉f,RDMA網(wǎng)絡(luò)已經(jīng)成為了data centric業(yè)務(wù)差異化能力的關(guān)鍵。而公有云上如何實(shí)現(xiàn)普惠化的RDMA能力,則是CIPU的關(guān)鍵業(yè)務(wù)能力。
具體需求:
基于云上overlay網(wǎng)絡(luò)大規(guī)模部署,overlay網(wǎng)絡(luò)可達(dá)的地方,RDMA網(wǎng)絡(luò)可達(dá);
RDMA verbs生態(tài)100%兼容,IaaS零代碼修改是業(yè)務(wù)成敗的關(guān)鍵;
超大規(guī)模部署,傳統(tǒng)ROCE技術(shù)基于PFC等data center bridging技術(shù),在網(wǎng)絡(luò)規(guī)模和交換網(wǎng)絡(luò)運(yùn)維等諸多方面,已經(jīng)難以為繼。云上彈性RDMA技術(shù)需要擺脫P(yáng)FC和無損網(wǎng)絡(luò)依賴。
彈性RDMA在實(shí)現(xiàn)層面,首先要邁過VPC低時(shí)延硬件轉(zhuǎn)發(fā)這一關(guān);然后在PFC和無損網(wǎng)絡(luò)被拋棄的當(dāng)下,傳輸協(xié)議和擁塞控制算法的深度垂直定制優(yōu)化就成為了CIPU必然之選。
6、安全硬件加速
用戶視角看云計(jì)算,“安全是1”——沒有安全這個(gè)“1”,其他業(yè)務(wù)能力均是“0”。
因此,持續(xù)加強(qiáng)硬件可信技術(shù)、VPC 東西向流量全加密、EBS和本地盤虛擬化數(shù)據(jù)全量加密,基于硬件的enclave技術(shù)等,是云廠商持續(xù)提升云業(yè)務(wù)競爭力的關(guān)鍵。
7、云可運(yùn)維能力支撐
云計(jì)算的核心是service(服務(wù)化),從而實(shí)現(xiàn)用戶對IT資源的免運(yùn)維。而IaaS彈性計(jì)算可運(yùn)維能力的核心是全業(yè)務(wù)組件的無損熱升級能力和虛擬機(jī)的無損熱遷移能力。
此時(shí)涉及到CIPU和云平臺底座之間的大量軟硬件協(xié)同設(shè)計(jì)。
8、彈性裸金屬支持
彈性裸金屬在具體定義層面必須實(shí)現(xiàn)如下八項(xiàng)關(guān)鍵業(yè)務(wù)特征:
同時(shí),云計(jì)算彈性業(yè)務(wù)必然要求彈性裸金屬、虛擬機(jī)、安全容器等計(jì)算資源的并池生產(chǎn)和調(diào)度。
9、CIPU池化能力
考慮到通用計(jì)算和AI計(jì)算在網(wǎng)絡(luò)、存儲和算力等方面的需求差異巨大,CIPU必須具備池化能力。通用計(jì)算通過CIPU池化技術(shù),顯著提升CIPU資源利用率,從而提升成本層面的核心競爭力;同時(shí)又能夠在一套CIPU技術(shù)架構(gòu)體系下,滿足AI等高帶寬業(yè)務(wù)需求。
10、計(jì)算虛擬化支撐
計(jì)算虛擬化和內(nèi)存虛擬化的業(yè)務(wù)特性增強(qiáng),云廠商均會(huì)對CIPU有不少核心需求定義。
CIPU體系架構(gòu)溯源
經(jīng)過第五章對CIPU業(yè)務(wù)的完整定義,我們需要對CIPU的計(jì)算體系架構(gòu)進(jìn)一步理論溯源。只有計(jì)算機(jī)工程實(shí)踐上升到計(jì)算機(jī)科學(xué)視角,才能更為清晰地洞察CIPU的實(shí)質(zhì),并為下一步的工程實(shí)踐指明技術(shù)方向。這必然是一條從自發(fā)到自覺的提升之路。
第三小節(jié)我們得出一個(gè)結(jié)論:“單網(wǎng)卡(包含網(wǎng)卡連接的以太交換網(wǎng)絡(luò))帶寬提升了4倍,單NVMe帶寬提升了3.7倍,整機(jī)PCIe帶寬提升6.7倍,可以看出網(wǎng)絡(luò)/存儲/PCIe等IO能力和Intel XEON CPU的算力之間gap在持續(xù)拉大?!?/p>
如果僅根據(jù)上述結(jié)論進(jìn)行判斷,必然會(huì)認(rèn)為CIPU硬件加速是算力offloading(卸載)。但是事情顯然并沒有如此簡單。
XEON算力可以簡化為:ALU等計(jì)算處理能力 + 數(shù)據(jù)層級化cache和內(nèi)存訪問能力。對于普遍的通用計(jì)算(標(biāo)量計(jì)算),XEON的超標(biāo)量計(jì)算能力,可謂十分完美。而矢量計(jì)算,XEON的AVX512和SPR AMX,定向優(yōu)化的軟件性能會(huì)大超預(yù)期,同時(shí)GPU和AI TPU等異構(gòu)計(jì)算對于矢量計(jì)算實(shí)現(xiàn)了計(jì)算的高度優(yōu)化。
因此,CIPU要在通用標(biāo)量計(jì)算和AI矢量計(jì)算等業(yè)務(wù)領(lǐng)域,去完成XEON ALU算力和GPU stream processor的offloading顯然不現(xiàn)實(shí)。
如下圖,Intel精確定義workload算力特征,以及最佳匹配算力芯片:
(圖片來源:Intel)
那么問題來了,CIPU這個(gè)socket,最適合的業(yè)務(wù)workload有什么共同特征?
深入分析第五小節(jié)的10個(gè)業(yè)務(wù),可以看出它們的共同業(yè)務(wù)特征:在數(shù)據(jù)流動(dòng)(移動(dòng))過程中,通過深度垂直軟硬件協(xié)同設(shè)計(jì),盡最大可能減少數(shù)據(jù)移動(dòng),以此提升計(jì)算效率。因此,CIPU在計(jì)算機(jī)體系架構(gòu)視角的主要工作是:優(yōu)化云計(jì)算服務(wù)器之間和服務(wù)器內(nèi)部的數(shù)據(jù)層級化cache、內(nèi)存和存儲的訪問效率(如下圖所示)。
行文至此,謹(jǐn)以Nvidia首席計(jì)算機(jī)科學(xué)家Bill Dally的精辟闡述“Locality is efficiency, Efficiency is power, Power is performance, Performance is king.”作為小結(jié)。
那既然CIPU硬件加速不單單是算力卸載,那它是什么?先擺出答案:CIPU是隨路異構(gòu)計(jì)算。
Nvidia/Mellanox已經(jīng)持續(xù)倡導(dǎo)in networking computing(近網(wǎng)絡(luò)計(jì)算)多年,CIPU隨路異構(gòu)計(jì)算和它是什么關(guān)系?存儲領(lǐng)域,也存在多年的computational storage、in storage computing以及near data computing(近數(shù)據(jù)計(jì)算)等概念,CIPU隨路異構(gòu)計(jì)算和它們又是什么關(guān)系?
答案很簡單:CIPU 隨路異構(gòu)計(jì)算 = 近網(wǎng)絡(luò)計(jì)算 + 近存儲計(jì)算
進(jìn)一步對比分析,可以加深對隨路異構(gòu)計(jì)算的理解:GPU、Google TPU、Intel QAT等,均可以總結(jié)分類為: 旁路異構(gòu)計(jì)算;CIPU位于網(wǎng)絡(luò)和存儲必經(jīng)之路,因此它的分類為:隨路異構(gòu)計(jì)算。
CIPU&IPU&DPU
DPU:Data Processing Unit,從業(yè)內(nèi)信息來看,應(yīng)該源自Fungible;而這個(gè)名字真正發(fā)揚(yáng)光大和名噪一時(shí),則要?dú)w功于Nvidia的大力宣傳推廣。在Nvidia收購Mellanox之后,NVidia CEO 黃仁勛對行業(yè)趨勢的核心判斷:數(shù)據(jù)中心的未來將是CPU、GPU和DPU三足鼎立,并以此為Nvidia Bluefield DPU造勢。
從上圖可見,中美兩國掀起了一輪DPU/IPU技術(shù)投資熱潮,但是筆者的判斷是:這個(gè)socket必須基于云平臺軟件底座(CloudOS)的業(yè)務(wù)需求,完成CloudOS + CIPU深度軟硬件協(xié)同設(shè)計(jì)。只有云廠商才能發(fā)揮出這個(gè)socket的最大價(jià)值。
在IaaS領(lǐng)域,云廠商追求“北向接口標(biāo)準(zhǔn)化,IaaS零代碼修改,兼容OS和應(yīng)用生態(tài);同時(shí)往下做深基礎(chǔ),進(jìn)一步追求軟硬件深度垂直整合”,這背后的技術(shù)邏輯是“軟件定義,硬件加速”。
阿里云自研了飛天云操作系統(tǒng)及多款數(shù)據(jù)中心核心部件,技術(shù)家底深厚?;谠破脚_底座軟件,進(jìn)行深度軟硬件垂直整合,推出CIPU,是阿里云的必由之路。
還值得一提的是,云平臺操作系統(tǒng)在長期和大規(guī)模的研發(fā)和運(yùn)營中沉淀出來的業(yè)務(wù)理解和知識積累,以及這個(gè)過程中構(gòu)建的垂直完備研發(fā)技術(shù)團(tuán)隊(duì),才是CIPU的題中之義。芯片和軟件不過是這些知識固化的一種實(shí)現(xiàn)形式。