摘要:亞馬遜云科技可以說是云計算創(chuàng)新風(fēng)向的探路者。今年,恰逢亞馬遜云科技re:Invent大會十周年,從本次大會上,可以提煉出云計算發(fā)展的五個風(fēng)向標(biāo),以窺得云計算下一步的創(chuàng)新和探索方向。風(fēng)向標(biāo)1:重構(gòu)云計算底座,自研芯片出擊當(dāng)“上云”成為數(shù)字化...
亞馬遜云科技可以說是云計算創(chuàng)新風(fēng)向的探路者。今年,恰逢亞馬遜云科技re:Invent 大會十周年,從本次大會上,可以提煉出云計算發(fā)展的五個風(fēng)向標(biāo),以窺得云計算下一步的創(chuàng)新和探索方向。
當(dāng)“上云”成為數(shù)字化轉(zhuǎn)型下的必然需求,追求云上的性價比和計算創(chuàng)新就成為無止境的發(fā)展需求。而發(fā)生在底層的創(chuàng)新,往往是最具備顛覆性的。從半導(dǎo)體和芯片層面來看,自研芯片的創(chuàng)新,會是改變未來云計算游戲規(guī)則一個非常重要的能力。
亞馬遜云科技最早投入自研芯片的云廠商,迄今為止已經(jīng)擁有Nitro、Graviton、人工智能機器學(xué)習(xí)自研芯片三條產(chǎn)品線。
在今年的re:Invent全球大會上,亞馬遜云科技宣布推出三款由自研芯片支持的Amazon Elastic Compute Cloud (Amazon EC2)實例,能夠進(jìn)一步提升在Amazon EC2上運行的工作負(fù)載的性能、成本和能源效率。新C7g 實例由Amazon Graviton3 處理器支持,與Graviton2 處理器支持的C6g 實例相比,性能提高25%;由Amazon Trainium芯片支持的新Trn1實例為在Amazon EC2中訓(xùn)練絕大多數(shù)機器學(xué)習(xí)模型提供更好的性價比,和更快的訓(xùn)練速度;基于自研Amazon Nitro SSDs(固態(tài)驅(qū)動器)的新存儲優(yōu)化型Im4gn/Is4gen/I4i實例為在Amazon EC2上運行的I/O密集型工作負(fù)載提供更好的存儲性能。這些基于亞馬遜云科技自研芯片的新Amazon EC2實例的發(fā)布,能夠幫助客戶支持其關(guān)鍵業(yè)務(wù)應(yīng)用程序。
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理顧凡強調(diào),自研芯片需要一定的經(jīng)驗積累,亞馬遜云科技基于對云上客戶工作負(fù)載的深刻理解,逆向工作,去設(shè)計自己的芯片,是重構(gòu)云計算底座自研芯片這一環(huán)節(jié)中的最大優(yōu)勢。
亞馬遜云科技大中華區(qū)產(chǎn)品部計算與存儲總監(jiān)周舸介紹,該公司從自研芯片出發(fā)進(jìn)行云計算的進(jìn)一步創(chuàng)新,可以追溯至2006年,當(dāng)時發(fā)布第一個Amazon EC2 Instance,團隊規(guī)模僅有十人。隨著更多用戶不停對Amazon EC2提出更多要求,亞馬遜云科技持續(xù)增加了很多機型,包括給SAP的超過24TB內(nèi)存的實例,包括給轉(zhuǎn)碼業(yè)務(wù)專門提供的vt1,以及今年蘋果最新的基于Arm架構(gòu)的M1芯片提供的新實例。隨著實例多樣化創(chuàng)新的不斷深入,亞馬遜云科技意識到必須專注于芯片研發(fā)的本身,從芯片開始創(chuàng)新。
從2013年到現(xiàn)在,亞馬遜云科技的幾條芯片產(chǎn)品線同時在展開,包括:已經(jīng)發(fā)展到第四代的Nitro,專門進(jìn)行訓(xùn)練和推理;Graviton家族,從最初的Cache到Web一直延伸到數(shù)據(jù)分析,甚至機器學(xué)習(xí)和高性能計算的工作負(fù)載,現(xiàn)在第三代Graviton已發(fā)布,性能超過上一代的25%,且在特定的工作負(fù)載上,還會有更大提升,應(yīng)用已經(jīng)衍生到更多工作負(fù)載中。
在機器學(xué)習(xí)芯片方面,Inf1已經(jīng)發(fā)布了一段時間了,中國市場很多用戶在用Inf1做推理。預(yù)測未來,訓(xùn)練和推理兩個工作負(fù)載會分開,從實例的角度,也會有不同的實例面向訓(xùn)練和推理,且通用CPU的推理使用會越來越多。
周舸還談到了C6i和C6g,在訓(xùn)練部分,P4d和Intel Habana配合的DL1,也是今年很重要的發(fā)布。此外還有Trn1,是用Trainium訓(xùn)練芯片做成的實例。他表示,“機器學(xué)習(xí)發(fā)展非???,機器學(xué)習(xí)配套的各種加速芯片的發(fā)展速度也非??斓?,從P3、P3dn再到P4d、Trn1發(fā)展速度,每年的機器學(xué)習(xí)專用芯片的演進(jìn)提升速度都是超過翻倍的速度在提升,比通用CPU快得多?!?/p>
隨著機器學(xué)習(xí)模型復(fù)雜度的提升,并行訓(xùn)練隨之而來的挑戰(zhàn)就是內(nèi)存和網(wǎng)絡(luò),從P3dn開始,亞馬遜云科技不斷提升內(nèi)存,今年的Trn1內(nèi)存已經(jīng)達(dá)到512G;網(wǎng)絡(luò)方面,Trn1達(dá)到800G,Trn1n可以達(dá)到1600G。
周舸強調(diào),“在專用芯片方面,我們不光是在提升這些芯片本身的能力,我們也在構(gòu)建更適合這些專用芯片發(fā)揮作用的網(wǎng)絡(luò)環(huán)境和配套的所有服務(wù),真正讓機器學(xué)習(xí)的訓(xùn)練能力大幅提升?!?/p>
此外還有Nitro,到現(xiàn)在已經(jīng)是第四代。Nitro提供了統(tǒng)一的安全性平臺,無論使用什么樣的CPU計算平臺,都可以獲得一致的安全性、VPC接入能力以及API的統(tǒng)一性等,同時,Nitro也可以幫助提高存儲性能。
存儲方面,亞馬遜云科技今年推了兩個新的存儲層,一是及時索引分層,可以幫助用戶在歸檔數(shù)據(jù)中需要取用時,能夠像熱數(shù)據(jù)一樣馬上就能索引到。同時,智能分層也覆蓋到了新的存儲層,迄今共有8個存儲層可提供給用戶。
“The Everywhere Cloud”就是對“大云無疆,無限拓展”最貼切的詮釋。用戶需要的是沒有邊界的云,比如拓展到5G網(wǎng)絡(luò)的邊緣,或是靠近人口中心的城市,或是用戶自己的數(shù)據(jù)中心,甚至擴展到萬物互聯(lián)的物聯(lián)網(wǎng)設(shè)備……時至今日,像Ground Station這樣的托管衛(wèi)星地面站服務(wù),甚至可以將亞馬遜云科技的云邊界拓展到太空。
顧凡表示,亞馬遜云科技致力于把數(shù)據(jù)庫、數(shù)據(jù)湖、數(shù)據(jù)分析、人工智能和機器學(xué)習(xí)更緊密地集成起來,讓客戶的整個數(shù)據(jù)旅程中使用其全棧服務(wù)。同時,降低門檻至關(guān)重要,因為只有降低門檻、民主化,才能讓更多人不害怕技術(shù)的復(fù)雜度,真正用技術(shù)來找到洞察和指導(dǎo)行動。
當(dāng)未來的計算、存儲、數(shù)據(jù)相關(guān)的服務(wù)打破各種創(chuàng)新邊界的時候,還有哪些邊界需要去突破?其實是存在于很多的物理地域中,比如由于數(shù)據(jù)存在本地的法規(guī)要求,各種距離產(chǎn)生的延時問題、網(wǎng)絡(luò)帶寬問題、連接穩(wěn)定性等問題等,亞馬遜云科技如今有25個區(qū)域,覆蓋全球六大洲,提供了81個可用區(qū)。據(jù)了解,下一步還會再提供9個新的服務(wù)區(qū),30個本地區(qū)域,進(jìn)一步接近用戶。持續(xù)的拓展能力,也是對“大云無疆”的進(jìn)一步踐行。
風(fēng)向標(biāo)3:代碼即云,萬物皆API
代碼即云該如何理解?回看云計算這些年的發(fā)展,不難發(fā)現(xiàn),它深刻改變了一個事實,就是應(yīng)用開發(fā)者如何看待底層的基礎(chǔ)設(shè)施和各種平臺資源。
今天,在應(yīng)用開發(fā)者眼中,一切云計算資源都可以代碼化,都可以被編程。而這一切的基礎(chǔ),源于亞馬遜云科技從第一天就堅持的API文化,即萬物皆API。從2006年的Amazon EC2僅幾個API就可以創(chuàng)建、注銷計算資源,到15年后的今天,有超過200大類亞馬遜云科技的服務(wù),有上千種API服務(wù)于數(shù)百萬級的客戶。
無處不在的云是一個非常復(fù)雜的分布式的系統(tǒng),但是其背后應(yīng)該建構(gòu)在非常簡單的原則之上。亞馬遜云科技的API驅(qū)動服務(wù),就像是打造一套超級簡單的機械系統(tǒng)的基礎(chǔ),便于用戶、開發(fā)者最大化其創(chuàng)新能力。那么,亞馬遜云科技構(gòu)建API的心得有哪些?
亞馬遜云科技大中華區(qū)產(chǎn)品部數(shù)據(jù)類產(chǎn)品高級經(jīng)理王曉野談到:第一,API一旦被發(fā)布成為一個公共可用的服務(wù),會有成千上萬的客戶不斷去調(diào)用它,因此任何改動都是不明智甚至危險的;第二,API最大的挑戰(zhàn)其實是向后兼容,老版本的API不可以觸碰和開發(fā)者的協(xié)定;第三,應(yīng)該真正從客戶場景出發(fā),找到客戶最希望實現(xiàn)的功能;第四,讓API的故障模式有據(jù)可查,然后持續(xù)進(jìn)行改進(jìn);第五,創(chuàng)建具有明確、特定目的、自描述的API;第六,對于API和云服務(wù),要隱藏背后的技術(shù)實現(xiàn),真正關(guān)注于客戶需求。
當(dāng)然,API僅是一個基礎(chǔ),為了便于大多數(shù)開發(fā)者使用SDK來調(diào)用云服務(wù)、API,亞馬遜云科技推出了支持各種語言的SDK,幫助各種類型的用戶降低門檻,賦能其業(yè)務(wù)創(chuàng)新。
風(fēng)向標(biāo)4:降低門檻,把云計算交到更多人手里
降低門檻本身就是云計算的非常重要的核心價值,讓不同類型的公司、不同職位的員工,都能降低對新技術(shù)的恐懼,從而讓更多人參與進(jìn)來,利用工具去獲取對數(shù)據(jù)的洞察、指導(dǎo)自身的行動,這就是云計算要降低門檻。
如何降低門檻?亞馬遜云科技針對數(shù)據(jù)科學(xué)家提供了Amplify Studio、CDK等;針對運營人員提供DevOps Guru,以及四個無服務(wù)器的分析服務(wù);針對業(yè)務(wù)人員Redshift ML、有Canvas、有QuickSight Q;針對行業(yè)客戶,今年re:Invent一個很重要的風(fēng)向標(biāo),就是面向特定行業(yè),例如制造業(yè)、汽車行業(yè)分別推出了數(shù)字孿生、Amazon IoT TwinMaker以及Amazon IoT FleetWise。
亞馬遜云科技大中華區(qū)機器學(xué)習(xí)產(chǎn)品高級經(jīng)理張洋表示,為了降低機器學(xué)習(xí)門檻,亞馬遜云科技為數(shù)據(jù)科學(xué)家和工程師提供了深入的人工智能與機器學(xué)習(xí)的服務(wù),通過三層服務(wù)來賦能不同具有AI/ML機器學(xué)習(xí)相關(guān)能力的人。
在基礎(chǔ)層,為機器學(xué)習(xí)專家提供了豐富的算力和經(jīng)過優(yōu)化的深度學(xué)習(xí)的框架。在深度學(xué)習(xí)框架層面,優(yōu)化了主流框架,例如Tensorflow、MXNet,便于用戶快速構(gòu)建環(huán)境,避免搭建環(huán)境時框架兼容性和依賴性問題,提升了訓(xùn)練的速度,降低了推理的延遲。中間層致力于降低創(chuàng)建機器學(xué)習(xí)平臺的門檻,提供了Amazon SageMaker端到端機器學(xué)習(xí)平臺,跨越了整個機器學(xué)習(xí)全流程,方便用戶在Amazon SageMaker環(huán)境中處理數(shù)據(jù)標(biāo)記、數(shù)據(jù)處理、特征存儲、算法探索、模型推理到上線再到邊緣端設(shè)備管理的整個過程。
而從機器學(xué)習(xí)全流程的數(shù)據(jù)準(zhǔn)備、模型構(gòu)建等方面,亞馬遜云科技提供端到端的由平臺統(tǒng)一完成的工作,從而加快了機器學(xué)習(xí)的整個流程。
風(fēng)向標(biāo)5:可持續(xù)發(fā)展
可持續(xù)發(fā)展是亞馬遜云科技非常重要的一環(huán),re:Invent多次涉及這個話題,從可持續(xù)發(fā)展的責(zé)任共擔(dān)模型,再到碳排放的跟蹤工具,以及若干個新的可再生能源的項目,這一系列的舉措都是為了可持續(xù)發(fā)展。
顧凡表示,云廠商要去考慮如何達(dá)到自身的可持續(xù)發(fā)展目標(biāo),其中兩個重要的舉措包括:一是如何提升云基礎(chǔ)設(shè)施的利用效率,二是如何更多地采用可再生能源支持業(yè)務(wù)和運營。亞馬遜云科技既要完成自身的可持續(xù)性發(fā)展目標(biāo),同時,還將在整個亞馬遜云科技的平臺上,幫助更多客戶完成企業(yè)的可持續(xù)發(fā)展目標(biāo)。