ChatGPT4的超高“智力”，依靠什么來養(yǎng)成？

青椒云桌面

+ 關(guān)注

2023-04-27 11:18

1939次閱讀

在ChatGPT的GPT-3.5推出的第105天之后，它的新“大腦”GPT-4已經(jīng)把美國的模擬律師資格考試考到前10%了，并且順利的在美國高考題（SAT考試）中，拿到了進入哈佛大學(xué)的成績。

ChatGPT怎么變聰明了？依靠的是什么？

GPT-4的成績單（圖來源于網(wǎng)絡(luò)）

今天A君想要和大家簡單聊聊，關(guān)于ChatGPT的“大腦”運作的關(guān)鍵。

01、ChatGPT的“大腦”容量

ChatGPT中被大家關(guān)注最多的語言能力，其實就是GPT的語言模型。最近新推出的GPT-4，就相當(dāng)于這個AI的“大腦”。

而這個新的大腦要比GPT-3.5的更加“大”，單詞輸出限制提高到了25000個單詞。“神經(jīng)元”（計算系統(tǒng)）更多，能計算識別更多的文字內(nèi)容，甚至是圖片內(nèi)容，所以“智力”也就更高。

當(dāng)ChatGPT的“大腦”工作時，大腦中的“神經(jīng)元”就會運作，也就會產(chǎn)生數(shù)據(jù)參數(shù)，而更多的參數(shù)產(chǎn)生，往往就會帶來更精細(xì)的結(jié)果。

普通計算機處理數(shù)據(jù)的CPU（圖片來源網(wǎng)絡(luò)）

2018年的GPT，參數(shù)量是1.17億。

2019年的GPT-2，參數(shù)量是15億。

2020年的GPT-3，乃至后來基于GPT-3.5的ChatGPT，參數(shù)量是1750億。

2023年最近發(fā)布的GPT-4，雖然官方?jīng)]有公布具體參數(shù)量，但一定是千億級別的參數(shù)量。

02、ChatGPT的“大腦”運作邏輯

當(dāng)我們在和AI進行互動且拋出問題的時候，屏幕那邊的ChatGPT，是怎么做這道題的？

比如我們在對話框里問AI：“AI的智力是什么水平？”

作為一個人工智能，ChatGPT從一開始答題的思路，會和我們一樣：先看問題。

但是看完后，它會把這個問題分解、排列。再去網(wǎng)上抓數(shù)據(jù)對比，看看都有哪些地方出現(xiàn)了“AI的智力”相關(guān)的內(nèi)容。

同時再用它那上億個參數(shù)的“腦子”分析計算，正確內(nèi)容的可能性。把所有搜集到的數(shù)據(jù)，根據(jù)上下文，進行新的排列、組合，最后把概率最高的答案選出來，在對話框里回復(fù)你。

所以你以為人工智能在利用它的智慧回答你，其實它在用它的“體力”來回答你。

在一個足夠大的數(shù)據(jù)庫中，它會用最快速的方式，把可能性最高的答案找出來。

所以一個聰明的AI，一定是能在單位時間內(nèi)，做足夠多的事情。（AI比人卷太多了）

03、ChatGPT的“智力”消耗

而人干一天活，消耗三頓飯，AI干一天的活，要消耗多少的算力？

簡單來說，當(dāng)AI的那顆上千億級別參數(shù)“大腦”運轉(zhuǎn)起來的時候，可能要花掉北上廣深的幾套房子。（全是鈔能力）

一些服務(wù)器的樣貌（圖片來源網(wǎng)絡(luò)）

比如Open AI，微軟專門為其打造了一臺超級計算機，用來在公有云上訓(xùn)練超大規(guī)模的人工智能模型。其中這臺超級計算機擁有28.5萬個CPU核心，超過1萬顆GPU。

以目前比較主流的英偉達A100芯片為例，一顆價格約8萬元。每顆8萬元，一共要1萬顆，光是芯片的花費，就在8億元以上。

圖片來源網(wǎng)絡(luò)

所以初步估算，要達到相應(yīng)的算力，訓(xùn)練一次的成本：以GPT-3.5為模型的ChatGPT模型，都要460萬到500萬美元。

在國內(nèi)，云計算技術(shù)人士公認(rèn)的一個說法是，1萬枚英偉達A100芯片是做好AI大模型的算力門檻。

據(jù)OpenAI測算，自2012年以來，全球頭部AI模型訓(xùn)練算力需求3-4個月翻一番，每年頭部訓(xùn)練模型所需算力增長幅度高達10倍。

但，與此同時，這種算力快速的增長的需求也必將對傳統(tǒng)的摩爾定律形成沖擊：

摩爾定律認(rèn)為：芯片計算性能大約每18-24個月翻一番，因此兩者間的不匹配勢必將帶來對算力基礎(chǔ)設(shè)施需求的快速增長。

相比之下，AI算力需求主要拆落到訓(xùn)練和推理兩個主要方面：

1、訓(xùn)練方面：根據(jù)OpenAI訓(xùn)練集群模型估算結(jié)果作為參考，1746億參數(shù)的GPT-3模型大約需要375-625臺8卡DGX A100服務(wù)器（對應(yīng)訓(xùn)練時間10天左右），對應(yīng)A100 GPU數(shù)量約3000-5000張。

2、推理方面：以A100 GPU單卡單字輸出需要350ms為基準(zhǔn)計算，假設(shè)每日訪問客戶數(shù)量為2,000萬人，單客戶每日發(fā)問ChatGPT應(yīng)用10次，單次需要50字回答，則每日消耗GPU的計算時間為972,222個運行小時，對應(yīng)的GPU需求數(shù)量為40,509個。

而這一切，還沒有包括每天都要用掉的幾萬美金電費，和線下需要購買“機房”的成本。比如算力和數(shù)據(jù)的成本，就要近20億元人民幣。

而GPT-4, 作為“更聰明”的“大腦”，算力成本又是一個新的臺階。這些，全部都是“聰明”的價格，也是使用高性能計算要付出的成本。

最后提一嘴：我們青椒云云桌面，也可以用來做AI“大腦”的部署，所以青椒云桌面=半個AI“大腦”，使用青椒云=使用“人工智能” 哈哈哈哈哈哈哈哈哈～

[免責(zé)聲明]

原文標(biāo)題： ChatGPT4的超高“智力”，依靠什么來養(yǎng)成？

本文由作者原創(chuàng)發(fā)布于36氪企服點評；未經(jīng)許可，禁止轉(zhuǎn)載。