阿里云 CIPU,是一場(chǎng)「原生」的冒險(xiǎn)
誰(shuí)能重新定義計(jì)算,誰(shuí)就能重新定義商業(yè)的未來。
文 | 張鵬
過去幾十年來,很多商業(yè)變革的背后,如果去追溯的話,都可以在計(jì)算的變化上找到起點(diǎn)。從計(jì)算能力遵循摩爾定律不斷攀升,最終解鎖了智能手機(jī),帶來了移動(dòng)互聯(lián)網(wǎng);到云計(jì)算的出現(xiàn)解決了超高并發(fā)和大算力的經(jīng)濟(jì)性問題;再到現(xiàn)在追求計(jì)算的可信與安全,而不是計(jì)算效率和計(jì)算經(jīng)濟(jì)性的區(qū)塊鏈… 可以說「計(jì)算」這個(gè)核心點(diǎn),就是數(shù)字經(jīng)濟(jì)永恒的發(fā)展基礎(chǔ)。技術(shù)能力的變化,以及它要解決問題的目標(biāo)的變化,每跳動(dòng)一次就意味著一次商業(yè)變革。
當(dāng)然,不論到什么時(shí)候,計(jì)算效率的提升都是重要的問題,而效率提升最終還要回到芯片和系統(tǒng)的底層去尋找空間。
最近,我看到阿里云做了一件事,發(fā)布了一款自主研發(fā)的云數(shù)據(jù)中心專用處理器 CIPU(Cloud infrastructure Processing Units),并表示,CIPU 是一款為「飛天」操作系統(tǒng)設(shè)計(jì)的專用處理器,它將取代 CPU 成為新一代云計(jì)算架構(gòu)體系的處理中心。
這里讓我疑惑的是:新概念在云計(jì)算產(chǎn)業(yè)中并不稀缺,單是包括 IPU、TPU、DPU 和各種 AI 芯片已經(jīng)讓人應(yīng)接不暇了。而阿里云推出的 CIPU 究竟是什么?它和之前的概念有什么區(qū)別?它會(huì)給我們帶來什么?
CPU 的困境,
CIPU 的緣起
我覺得阿里云推出 CIPU 其實(shí)是「蓄謀已久」:
他們之前推出的「飛天」,據(jù)說是中國(guó)唯一的自研云操作系統(tǒng),這些年更是一直都在持續(xù)地投入自研云技術(shù);去年的云棲大會(huì),又一口氣發(fā)布了磐久、倚天、神龍 4.0 和靈杰幾個(gè)重磅產(chǎn)品,一步步地在「做深基礎(chǔ)」「向下生長(zhǎng)」。
圖|阿里云 CIPU 發(fā)布
這次專門面向云數(shù)據(jù)中心設(shè)計(jì) CIPU,依舊可以看作是阿里云「向下生長(zhǎng)」邏輯的延續(xù)。
但想更好地理解 CIPU 的出現(xiàn),還是有必要先說說數(shù)據(jù)中心的這些年的變化。
數(shù)據(jù)中心有個(gè)古早詞匯叫「機(jī)房」,一聽就有點(diǎn)舊工業(yè)氣息,在互聯(lián)網(wǎng)發(fā)展的早期階段,它確實(shí)也技術(shù)含量不高,更多的就是用來堆放計(jì)算機(jī)。但隨著互聯(lián)網(wǎng)的發(fā)展成熟,數(shù)據(jù)中心越來越成為「業(yè)務(wù)和流量復(fù)雜性的聚集地」,涌現(xiàn)了一系列的技術(shù)創(chuàng)新。
一眾科技巨頭比如亞馬遜、微軟和谷歌等也嗅到了數(shù)據(jù)中心領(lǐng)域的機(jī)會(huì),紛紛重金投入,進(jìn)行自研自建。阿里云這邊,2020 年 4 月就宣布了未來 3 年要再投 2000 億,用于云操作系統(tǒng)、服務(wù)器、芯片、網(wǎng)絡(luò)等重大核心技術(shù)研發(fā)攻堅(jiān)和面向未來的數(shù)據(jù)中心建設(shè)。
除了看到機(jī)會(huì),巨頭們花這么大力氣自研數(shù)據(jù)中心,也是因?yàn)閭鹘y(tǒng)數(shù)據(jù)中心的軟硬件從性能、成本角度還是落后,云數(shù)據(jù)中心才能解決大規(guī)模的計(jì)算問題。既然現(xiàn)有設(shè)施不能滿足,就干脆重新面向云環(huán)境去做更加原生的設(shè)計(jì),甚至可能還要體系化地重構(gòu)。比如,CPU 芯片,其實(shí)并不是為了面向搭載云操作系統(tǒng)而設(shè)計(jì)。
阿里云的同學(xué)和我說,在過去十多年,云計(jì)算技術(shù)發(fā)展經(jīng)歷了兩個(gè)階段:第一階段是分布式技術(shù),推動(dòng)互聯(lián)網(wǎng)企業(yè)從大機(jī)向分布式系統(tǒng)整個(gè)遷移;第二階段誕生了資源池化技術(shù),進(jìn)一步提高了云計(jì)算的可靠性和可用性。在這兩個(gè)階段中,都是基于傳統(tǒng)的、以 CPU 為中心的計(jì)算體系架構(gòu)去做優(yōu)化。很顯然,當(dāng)阿里云自研了云操作系統(tǒng)飛天之后,對(duì)于 CPU 的優(yōu)化只是時(shí)間和具體路徑的問題。
國(guó)際數(shù)據(jù)公司 (IDC) 一項(xiàng)數(shù)據(jù)顯示,全球數(shù)據(jù)量在過去 10 年年均復(fù)合增長(zhǎng)率接近 50%,并進(jìn)一步預(yù)測(cè)每四個(gè)月對(duì)于算力的需求就會(huì)翻一倍。這就意味著,隨著摩爾定律的失效,CPU 的性能會(huì)到達(dá)天花板,數(shù)據(jù)量增長(zhǎng)后的處理需求可能難以為繼。
此外,企業(yè)在大數(shù)據(jù)、 AI 等數(shù)據(jù)密集型計(jì)算的應(yīng)用場(chǎng)景下越來越多。阿里云基礎(chǔ)產(chǎn)品首席架構(gòu)師黃瑞瑞也強(qiáng)調(diào):「我們發(fā)現(xiàn)現(xiàn)在云上有很多的核心應(yīng)用,實(shí)際上是數(shù)據(jù)密集型的應(yīng)用。在服務(wù)這么多客戶以后,我們發(fā)現(xiàn)客戶對(duì)我們的訴求是逐步從業(yè)務(wù)邏輯為中心,轉(zhuǎn)向了以數(shù)據(jù)處理為中心。」
這其實(shí)都在不斷地提高了對(duì)云計(jì)算提供的低時(shí)延、高帶寬的要求。在阿里云看來,以 CPU 為中心的計(jì)算體系架構(gòu)已經(jīng)很難適應(yīng),面臨著很大的挑戰(zhàn):以 CPU 為中心的架構(gòu)數(shù)據(jù)吞吐小,計(jì)算和網(wǎng)絡(luò)傳輸?shù)臅r(shí)延大,也無法解決超大規(guī)模的復(fù)雜管理問題;大數(shù)據(jù)應(yīng)用增多,導(dǎo)致數(shù)據(jù)中心內(nèi)部數(shù)據(jù)遷移量增多,以 CPU 為中心的架構(gòu)無法提供高帶寬。
是時(shí)候需要去改變了。
阿里云的思路,其實(shí)就是從數(shù)據(jù)中心的內(nèi)部體系結(jié)構(gòu)里做了體系化創(chuàng)新,將過去以 CPU 為中心的體系架構(gòu),變成了以云操作系統(tǒng)+CIPU 為中心的體系架構(gòu)。
圖|阿里云 CIPU 架構(gòu)示意圖
在這里面,飛天云操作系統(tǒng)是跑在 CIPU 上,從而可以獲得更好的管理能力。黃瑞瑞進(jìn)一步補(bǔ)充:「我們希望上百萬臺(tái)服務(wù)器整體納管、整體編排、整體調(diào)度起來,變成一臺(tái)超級(jí)計(jì)算機(jī)。這個(gè)本身也是『飛天+CIPU』想要達(dá)到的目標(biāo)」。
換句話來說,「飛天+CIPU」其實(shí)是云計(jì)算數(shù)據(jù)中心體系架構(gòu)的變革,而 CIPU 更像是一個(gè)大數(shù)據(jù)中心、大云計(jì)算的控制器,支撐云操作系統(tǒng)更高效地做云資源的管理和加速。
CIPU 當(dāng)然不是唯一。圍繞數(shù)據(jù)中心的計(jì)算,在芯片和軟件上已經(jīng)出現(xiàn)了一系列的創(chuàng)新,甚至還產(chǎn)生了不同技術(shù)的演進(jìn)方向。
比如 NVIDIA 公司 2020 年發(fā)布的 DPU(Data Processing Unit),它定位在數(shù)據(jù)中心里繼 CPU 和 GPU 之后的「第三顆主力芯片」。在功能上,DPU 作為計(jì)算卸載的引擎,直接效果是給 CPU「減負(fù)」。之后在 DPU 方向,涌現(xiàn)了一批的創(chuàng)業(yè)公司。而英特爾依據(jù)數(shù)據(jù)吞吐類應(yīng)用快速增長(zhǎng)的趨勢(shì),在 2021 年推出了 IPU(Infrastructure Processing Units),融合了與云廠商合作的經(jīng)驗(yàn),試圖去 CPU 提高數(shù)據(jù)密集型場(chǎng)景的能力。
在阿里云看來,IPU 代表的虛擬化云化能力,和 DPU 代表的數(shù)據(jù)搬遷帶寬能力,很難融合,只有云廠商能真正做到,并且規(guī)模落地,而 CIPU 能夠突破以上兩者瓶頸。
在和阿里云內(nèi)部的交流中,我感受到他們的很強(qiáng)的自信,因?yàn)橐坏┱莆樟水a(chǎn)業(yè) Know-How,就有機(jī)會(huì)去定義未來。阿里云基礎(chǔ)產(chǎn)品負(fù)責(zé)人蔣江偉也強(qiáng)調(diào),「我們 CIPU 最大的不一樣,其實(shí)是用我們頂層定義的飛天云操作系統(tǒng),垂直根據(jù)業(yè)務(wù)驅(qū)動(dòng)往下定義了芯片。」
應(yīng)用設(shè)計(jì)領(lǐng)域,最近流行著一種云原生 (CloudNative) 理念,其目標(biāo)是探尋云應(yīng)用設(shè)計(jì)的最佳實(shí)踐路徑,以充分發(fā)揮云的效能。在云原生浪潮之下,以往的關(guān)注視角,都是從基礎(chǔ)設(shè)施向上看,聚焦在 PaaS、SaaS 以及應(yīng)用側(cè)。但應(yīng)該還有一種視角,是往下看,比如數(shù)據(jù)密集型計(jì)算的上層需求,也在推動(dòng)硬件側(cè)「原生化」。云原生應(yīng)該同時(shí)包含軟件和硬件的概念。
實(shí)際上,在「CIPU+飛天」的組合中,阿里云是先把云操作系統(tǒng)做得非常成熟。通過對(duì)于飛天的定義和迭代,實(shí)現(xiàn)了對(duì)于客戶需求的清晰化的感知。在此之后,才去做 CIPU。為云而生的 CIPU,與底層基礎(chǔ)設(shè)施進(jìn)行深度定制,可以更精準(zhǔn)垂直去解決云操作系統(tǒng)的管理問題。在某種程度上來講,在這個(gè)過程中,其實(shí)是完成了對(duì)于 CPU 的云原生化。
原生的最大意義是什么?也許就是實(shí)現(xiàn)極致性能和體驗(yàn)。喬布斯在第一次 iPhone 發(fā)布會(huì)上引用了圖靈獎(jiǎng)獲得者 Alan Kay 的名言:「對(duì)軟件極度較真的人,應(yīng)該生產(chǎn)自己的硬件」。
圖|喬布斯在發(fā)布會(huì)上引用了 Alan Kay 的名言
如果去追溯蘋果的發(fā)展,會(huì)發(fā)現(xiàn)阿里云「云操作系統(tǒng)+CIPU」的路徑選擇與蘋果有著有趣的相似。蘋果手機(jī)先有 iOS 操作系統(tǒng),一開始用的其實(shí)是三星的 CPU,后來用了自己 A 系列的 CPU;Mac 最初用了英特爾的 CPU,最后變成自研的 CPU,比如 MI 和 M2 芯片,性能驚人。通過自研的軟硬件一體,蘋果創(chuàng)造了極富競(jìng)爭(zhēng)優(yōu)勢(shì)的用戶體驗(yàn)。兩個(gè)不同領(lǐng)域的公司,都在通過類似的方式去定義各自行業(yè)的未來。
當(dāng)然兩者有著表面上的相似,更有著不同。
蘋果作為終端產(chǎn)品需要考慮復(fù)雜生態(tài)的互聯(lián)互通的問題,使用的場(chǎng)景是人機(jī)交互,這其實(shí)意味著可能因?yàn)槁窂揭蕾嚨膯栴},產(chǎn)品并不是遵循效率第一的原則,甚至效率的提升要伴隨著巨大的阻礙,從而并不能實(shí)現(xiàn)原生意義上的「極致」。
比如,「QWERTY」鍵盤發(fā)明的初衷,是為了解決早期的機(jī)械打字機(jī)鍵盤的工藝發(fā)展不成熟,當(dāng)打字速度太快時(shí),很容易發(fā)生「卡殼」的問題。作為發(fā)明人美國(guó)人克里斯托夫·肖爾斯選擇了「反人類設(shè)計(jì)」,把常用字母安排在不順手的地方,從而降低打字員的速度,來解決這個(gè)問題。盡管后來隨著加工技術(shù)的進(jìn)步,出現(xiàn)了更高效率的字母排列組合的鍵盤,但是卻沒有成為主流。
而「CIPU+飛天云操作系統(tǒng)」不同:首先它是面向數(shù)據(jù)中心的,是系統(tǒng)級(jí)別的,而不是像蘋果產(chǎn)品是單機(jī)的。其次它更多的是滿足了機(jī)器與機(jī)器的交互。相比于終端,阿里云通過 CIPU+飛天操作,更容易實(shí)現(xiàn)原生。
CIPU+飛天操作系統(tǒng)在調(diào)度效率及運(yùn)行算力方面,為性能和體驗(yàn)帶來了極大提升,而客戶端并不需要做任何代碼的修改,就能無感的享有這種云算力帶來的加速。
此外,從阿里云的產(chǎn)品布局來看,「CIPU+飛天」可以與其他自研產(chǎn)品,比如神龍計(jì)算平臺(tái)、盤古存儲(chǔ)平臺(tái)和洛神網(wǎng)絡(luò)平臺(tái)等進(jìn)行深度的適配。從而實(shí)現(xiàn)在總體上帶來更好的性能乃至于更優(yōu)的性價(jià)比。
換個(gè)視角來看,阿里云推出以 CIPU 為中心的云計(jì)算架構(gòu)體系,其實(shí)意味著這家公司在嘗試去定義新一代云計(jì)算的標(biāo)準(zhǔn)。這里面未來的進(jìn)展以及可能的變化,還都挺值得關(guān)注的。
很多人認(rèn)為,阿里做電商、支付以及物流都對(duì)中國(guó)意義重大,我覺得這其實(shí)只是阿里對(duì)于中國(guó)商業(yè)影響的一部分。
在數(shù)字化和智能化轉(zhuǎn)型席卷各行各業(yè)的今天,阿里云的新計(jì)算,帶來新的商業(yè)變革,也許更是阿里對(duì)中國(guó)商業(yè)產(chǎn)生影響的另一個(gè)重要的維度。
云計(jì)算似乎又進(jìn)入了一個(gè)關(guān)鍵的突破期。阿里云智能總裁張建鋒說:「我們看到云計(jì)算進(jìn)入了一個(gè)新的發(fā)展階段,我們?cè)絹碓浇咏谙乱粋€(gè)時(shí)代,需要定義一個(gè)全新的技術(shù)體系。所以,今年我們最重要的策略是 B2B,就是 Back to Basic,回到云計(jì)算的本質(zhì)。」
我覺得,很多時(shí)候想真正去定義云計(jì)算產(chǎn)業(yè)發(fā)展的未來,這首先比拼的是獨(dú)立思考的能力,特別是對(duì)未來計(jì)算問題的定義。而阿里云在做的努力,值得密切關(guān)注。
*頭圖來源:視覺中國(guó)
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO
本文來自微信公眾號(hào) “極客公園”(ID:geekpark),作者:張鵬,36氪經(jīng)授權(quán)發(fā)布。
