摘要:“每個人做云計算的出發(fā)點都不一樣。AWS一開始是S3,是一個存儲,嚴(yán)格意義上講是個網(wǎng)盤,有個API接口。但阿里云做云第一個推出的既不是存儲,也不是計算,是ODPS(現(xiàn)MaxCompute),大數(shù)據(jù)計算。”...
“每個人做云計算的出發(fā)點都不一樣。AWS一開始是S3,是一個存儲,嚴(yán)格意義上講是個網(wǎng)盤,有個API接口。但阿里云做云第一個推出的既不是存儲,也不是計算,是ODPS(現(xiàn)MaxCompute),大數(shù)據(jù)計算?!卑⒗镌浦悄芸偛脧埥ㄤh在接受鈦媒體采訪時如此表示。
這不禁讓人想到一個云計算悖論:如今的云計算巨頭最早做的都不是真正的“云”,而只是云計算范疇的一個產(chǎn)品,而真正意義上的“云”,其概念早已經(jīng)被模糊。
2002年,Amazon上線AWS(Amazon Web Service),本意是把自己的商品目錄以SOAP接口的方式開放給開發(fā)者,AWS的名字里沒有Cloud。
后來AWS于2006年推出S3和EC2的時候,也是提都沒提Cloud Computing,EC2底層的虛擬化技術(shù)采用了開源的Xen技術(shù),但AWS提煉通用計算平臺的思路,促成了云計算的發(fā)展,云計算從一種理念落實到一個產(chǎn)品,由此開始萌芽。
真正的“云”應(yīng)該是什么?阿里云提出了Back to Basic,似乎正在努力回到云計算的本質(zhì)。
阿里云智能總裁張建鋒
1961年,John McCarthy在MIT的百周年紀(jì)念上第一次提出了公共計算服務(wù)的概念:“如果我設(shè)想的那種計算機(jī)能夠成真,那么計算或許某天會像電話一樣被組織成公共服務(wù)…… 公共計算服務(wù)(Utility Computing)將是一種全新的重要工業(yè)的基礎(chǔ)?!?/p>
不論是公共計算服務(wù)(Utility Computing),還是1990年代的網(wǎng)格計算(Grid Computing),其實都是如今云計算的雛形,這也啟示我們,一個時代有一個時代的“云計算”。
回到云計算發(fā)展相對快速的當(dāng)下,張建鋒表示,云計算主要經(jīng)歷了兩個階段,第一階段是分布式架構(gòu),互聯(lián)網(wǎng)企業(yè)高速成長,單一業(yè)務(wù)的算力要求就能超過萬臺規(guī)模的服務(wù)器,由此催生了一些分布式和虛擬化代表的云計算技術(shù),特別是分布式和虛擬化技術(shù),在互聯(lián)網(wǎng)企業(yè)的推動下,快速地完成了從傳統(tǒng)的大機(jī)向分布式系統(tǒng)的遷移。
第二階段誕生了資源池化的技術(shù),企業(yè)不斷提高著對算力可用性和可靠性的要求,在以CPU為中心的分布式架構(gòu)下,云計算公司通過軟件定義的方法,將計算、存儲資源池化,構(gòu)建計算存儲分離的架構(gòu),對資源統(tǒng)一調(diào)度編排,提供給行業(yè)客戶,以云原生方式重新設(shè)計的整個架構(gòu)跟軟件。
“(云計算)兩個階段有共同的特點,都是都是通過軟件定義的方法,基于傳統(tǒng)的、以CPU為中心的計算體系架構(gòu)去做優(yōu)化,已經(jīng)觸及瓶頸。”張建鋒表示。
云上客戶的需求發(fā)生了很大變化,數(shù)據(jù)密集型的計算越來越多,不斷地提高了對云計算提供的低時延、高帶寬的需求,這些需求很難通過傳統(tǒng)體系結(jié)構(gòu)的優(yōu)化去滿足。
第一是計算和網(wǎng)絡(luò)傳輸?shù)臅r延大。隨著體系結(jié)構(gòu)越來越走向分布式,一個大型的應(yīng)用會分散在多個子系統(tǒng)去部署,這些系統(tǒng)之間需要高速地去互聯(lián)、需要非常低的時延;
第二,隨著大數(shù)據(jù)應(yīng)用的不斷的增長,使得IDC內(nèi)部的東西向流量(數(shù)據(jù)中心內(nèi)部交互流量)帶來越來越大,所以需要來滿足流量增大之后網(wǎng)絡(luò)的一些新的要求;
第三,系統(tǒng)規(guī)模越來越大、越來越復(fù)雜,需要解決超大規(guī)模基礎(chǔ)設(shè)施的復(fù)雜管理問題,也需要解決云內(nèi)部的超大應(yīng)用的管理問題。
云計算公司接下來應(yīng)該怎么辦?
張建鋒表示,“我們越來越接近于下一個時代,需要定義一個全新的技術(shù)體系?!痹诎⒗镌瓶磥?,CIPU(Cloud infrastructure Processing Units)肯定是下一個時代云計算的象征之一,這是為新型云數(shù)據(jù)中心設(shè)計的專用處理器,未來將替代CPU成為云計算的管控和加速中心。
商業(yè)與技術(shù)是云計算上升的雙螺旋,波動則是行業(yè)向前發(fā)展的常態(tài),當(dāng)云計算產(chǎn)業(yè)商業(yè)增長慢下來的時候,天平的重心來到了另一側(cè)。
CIPU代表云計算從過去側(cè)重軟件創(chuàng)新,邁入到軟硬融合的范疇。云計算最大的特點是軟件定義,靈活性突出但犧牲了部分硬件性能,越來越嚴(yán)苛的業(yè)務(wù)需求,要求云計算既要滿足軟件定義的靈活性,又要有原來硬件原生的性能,自然需要體系性變化。
阿里云技術(shù)產(chǎn)品負(fù)責(zé)人蔣江偉表示,CPU扮演兩個角色:一個是計算,一個是控制,協(xié)調(diào)整個服務(wù)器上的各種組件,包括網(wǎng)絡(luò)、硬盤等,在單一服務(wù)器的維度來說,這個邏輯是非常正確的。
對于云計算來說,它需要管理的服務(wù)器規(guī)模非常大,以阿里云為例,有上百萬臺服務(wù)器的量,在這個體量下,飛天云操作系統(tǒng)需要把它的控制和計算的邏輯進(jìn)行重新定義,數(shù)以百萬節(jié)點的計算、存儲和網(wǎng)絡(luò)資源,單一CPU的控制能力是做不到的。
而從算力層面,CPU只是算力的其中一個單元,其他GPU的算力、網(wǎng)絡(luò)的算力、存儲相關(guān)的算力。此外針對一些標(biāo)準(zhǔn)的軟件,比如開源軟件、商業(yè)軟件,運行在x86芯片、ARM芯片上,需要一些額外的效率。云計算發(fā)揮時分復(fù)用的彈性調(diào)度能力,大量的計算需要跨網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)交互的,需要通過CIPU來進(jìn)行加速。
“CIPU結(jié)合飛天操作系統(tǒng),對比原來我們說的操作系統(tǒng)+CPU的概念,其實非常類似。CPU解決控制和計算,CIPU也解決了絕大部分的控制和少部分的計算加速?!笔Y江偉提到。
在這個全新體系架構(gòu)下,CIPU向下對數(shù)據(jù)中心的計算、存儲、網(wǎng)絡(luò)資源快速云化并進(jìn)行硬件加速,向上接入飛天云操作系統(tǒng),將全球數(shù)百萬臺服務(wù)器連成一臺超級計算機(jī)。
計算、存儲、網(wǎng)絡(luò)和安全,云計算最為基礎(chǔ)的四大件,基于CIPU和飛天的新一代云計算架構(gòu)體系,在通用計算、大數(shù)據(jù)、人工智能等核心場景的計算測試中表現(xiàn)出優(yōu)越的性能。
在通用分布式計算領(lǐng)域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%;高吞吐類的互聯(lián)網(wǎng)業(yè)務(wù)上云之后,比自建物理機(jī)的集群吞吐量提升了30%,業(yè)務(wù)高峰期延遲下降了90%;在大數(shù)據(jù)和AI等計算與數(shù)據(jù)雙密集場景下,相比傳統(tǒng)的TCP網(wǎng)絡(luò),彈性RDMA高性能網(wǎng)絡(luò)的吞吐能力提升30%以上;云原生方面,容器啟動速度快了350%,在Serverless 場景下6秒可拉起3000個彈性容器實例。
中國云計算市場和成熟市場仍有相對大的差異,是等待客戶認(rèn)知發(fā)展,還是云計算廠商做更多的工作,以AWS為代表的美國市場是前者,阿里云更接近于后者。
或者說由于中國云服務(wù)客戶所處的早期階段,其數(shù)字化進(jìn)程往往依賴于此前的技術(shù)和認(rèn)知慣性,而非做更大規(guī)模的改動,讓阿里云不得不選擇后者。
“我總覺得這幾年應(yīng)該是云計算最關(guān)鍵的時候。以前是分布的系統(tǒng),慢慢構(gòu)建一個可彈性售賣的系統(tǒng)。本質(zhì)上它的核心是分布式系統(tǒng),有能力做分布式系統(tǒng)的,號稱自然都能做云。今天云是一個新的結(jié)構(gòu)的引進(jìn),這個時代不知道是VMware+英偉達(dá),還是微軟自己的一套體系,還是AWS一套體系?!睆埥ㄤh對于云計算的演進(jìn)有著自己的看法。
“云計算里面不可能像以前Windows+英特爾,有這么一個大一統(tǒng)的生態(tài)。但這幾家的競爭還是很白熱化的。但中國今天真正在做這方面的工作,我認(rèn)為是沒有的,人家做的云計算跟我們做的云計算,不是一回事情?!?/p>
從阿里云內(nèi)部視角來看,阿里云和AWS都邁入到了類似的階段,區(qū)別是因為在不同的市場里,看到的風(fēng)景不太一樣,進(jìn)而導(dǎo)致技術(shù)路線有所區(qū)別。尤其是海量規(guī)模的中小客戶,不同業(yè)務(wù)系統(tǒng)的差異很大,強(qiáng)行要求客戶做大量改動匹配云服務(wù)的技術(shù),顯然并不現(xiàn)實。
而阿里云CIPU是跑在云操作系統(tǒng)之下,支撐云操作系統(tǒng)更高效地做云資源的管理和加速,從客戶視角來講,能夠管理的是虛擬計算集群、存儲集群、網(wǎng)絡(luò)集群,拿到的是被CIPU管理數(shù)據(jù)中心提供的云算力。
在客戶無感知的情況下,云計算調(diào)度效率以及算力性能,明顯要好于不用CIPU加速的云算力,客戶的應(yīng)用不需要更改任何代碼,相應(yīng)的工作前置到阿里云底層基礎(chǔ)設(shè)施,從而加速云計算行業(yè)的成熟。
Back to Basic,云計算行業(yè)都在為客戶能夠更好地上云用云,在云計算之上做了大量業(yè)務(wù)層的工作、各種數(shù)字化的項目,這種思路并不能說錯,對于云計算的應(yīng)用和普及有很大的促進(jìn)作用,但是當(dāng)上層越來越復(fù)雜和厚重的時候,是時候回歸到云計算的底層邏輯,重新審視云計算的技術(shù)基底,蓄力下一個云計算時代。
(本文首發(fā)鈦媒體APP 作者|張帥,編輯|蓋虹達(dá))