這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

量子位

+ 關(guān)注

2023-01-16 14:27

702次閱讀

金磊 Pine 發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI

家人們，AI做視頻這事今天又被推向了輿論的風(fēng)口浪尖。

起因是有人在網(wǎng)上發(fā)布了這么一只小企鵝的視頻：

而這個(gè)近50秒視頻的誕生，靠的僅僅是6句話！

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

陸陸續(xù)續(xù)的，網(wǎng)友們還在發(fā)布著這個(gè)AI的其它杰作：

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

這次給它投喂的提示詞也是極短，僅4行：

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

如此“所寫即所得”、絲滑連貫的視頻生成方式，也是令不少網(wǎng)友發(fā)出感慨：

未來已至。

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

甚至還有人開始“拉仇恨”，說AI正在用各種方式摧毀行業(yè)……

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

然后就有很多人發(fā)問了：“這又是哪家新搞的AI哇？”

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

不過眼尖的網(wǎng)友發(fā)現(xiàn)它其實(shí)是一位“老朋友”了——

谷歌去年10月份便發(fā)布的一個(gè)文本轉(zhuǎn)視頻（Text-to-Video）模型：Phenaki。

只需一段提示詞，分分鐘可以生成長達(dá)兩分鐘的視頻。

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

而相比Phenaki剛發(fā)布的時(shí)候，谷歌又來了一波上新操作。

那么我們現(xiàn)在就來一同看看這些新視頻吧~

打字就能生成的視頻

與以往AI生成的視頻不同，Phenaki最大的特點(diǎn)便是有故事、有長度。

例如，我們?cè)俳o這么一段場(chǎng)景描述：

在一座未來感十足的城市里，交通紛繁復(fù)雜，這時(shí)，一艘外星飛船抵達(dá)了城市。

隨著鏡頭的拉近，畫面進(jìn)入到了飛船內(nèi)部；而后鏡頭沿著船內(nèi)長廊繼續(xù)向前推進(jìn)，直到看到一名宇航員在藍(lán)色的房間里敲鍵盤打字。

鏡頭逐漸移向宇航員的左側(cè)，身后出現(xiàn)藍(lán)色海洋，魚兒們?cè)谒镝溽啵划嬅婵焖俜糯缶劢沟揭粭l魚的身上。

隨后鏡頭快速從海里浮出，直到看到摩天大樓高聳林立的未來城市；鏡頭再快速拉近到一撞大樓的辦公室。

這時(shí)，一只獅子突然跳到辦公桌上并開始奔跑；鏡頭先聚焦到獅子的臉上，等再次拉遠(yuǎn)時(shí)，這只獅子已經(jīng)幻化成西裝革履的“獸人”。

最后，鏡頭從辦公室拉出，落日余暉下鳥瞰這座城市。

想必不少友友們?cè)谧x這段文字過程中，腦中已經(jīng)浮現(xiàn)相應(yīng)的畫面了。

接下來，我們一起看看Phenaki生成的效果如何：

是不是和你腦補(bǔ)出來的畫面一致呢？

總體來說，這個(gè)AI即便面對(duì)這種腦洞大開的場(chǎng)景提示詞，也是做到了無縫銜接的轉(zhuǎn)場(chǎng)。

也難怪網(wǎng)友們看完這段視頻后驚呼“（科技）發(fā)展得真快啊”。

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

而對(duì)于篇幅稍短的提示詞，Phenaki就更不在話下了。

例如，給Phenaki投喂這樣一段文字：

一只逼真的泰迪熊正在潛水；隨后它慢慢浮出水面；走上沙灘；這時(shí)鏡頭拉遠(yuǎn)，泰迪熊行走在海灘邊篝火旁。

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

沒看夠？那再來一段，這次換個(gè)主角：

在火星上，宇航員走過一個(gè)水坑，水里倒映著他的側(cè)影；他在水旁起舞；然后宇航員開始遛狗；最后他和小狗一起看火星上看煙花。

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

而在谷歌更早發(fā)布Phenaki之際，還展示了向Phenaki輸入一個(gè)初始幀以及一個(gè)提示詞，便可以生成一段視頻的能力。

例如給定這樣一張靜態(tài)圖：

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

然后再給它Phenaki簡(jiǎn)單“投喂”一句：白貓用貓爪觸摸攝像機(jī)。效果就出來了：

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

還是基于這張圖，把提示詞改成“一只白貓打哈欠”，效果就成這樣了：

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

當(dāng)然，任意切換視頻整體風(fēng)格也是可以hold得住的：

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

網(wǎng)友：視頻行業(yè)要被AI沖擊了嗎？

但除了Phenaki之外，谷歌當(dāng)時(shí)還一道發(fā)布過Imagen Video，能夠生成1280*768分辨率、每秒24幀的高清視頻片段。

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

它基于圖像生成SOTA模型Imagen，展示出了三種特別的能力：

能理解并生成不同藝術(shù)風(fēng)格的作品，水彩、像素甚至梵高風(fēng)格
能理解物體的3D結(jié)構(gòu)
繼承了Imagen準(zhǔn)確描繪文字的能力

更早的，Meta也發(fā)布了Make-A-Video，不僅能夠通過文字轉(zhuǎn)換視頻，還能根據(jù)圖像生成視頻，比如：

將靜態(tài)圖像轉(zhuǎn)成視頻
插幀：根據(jù)前后兩張圖片生成一段視頻
根據(jù)原視頻生成新視頻……

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

對(duì)于這如“雨后春筍”突然冒出的生成視頻模型，不免會(huì)讓有些人擔(dān)心：

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

當(dāng)然也有人認(rèn)為現(xiàn)在時(shí)機(jī)還未到：

0-1總會(huì)很快，1-100還是會(huì)很漫長。

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

不過已經(jīng)有網(wǎng)友在期待靠AI拿奧斯卡獎(jiǎng)了：

AI要多久才能成為新的視頻編輯器，或者拿下奧斯卡？

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

原理介紹

再說回Phenaki，有不少網(wǎng)友都比較好奇它是如何通過文字生成這么絲滑的視頻的？

簡(jiǎn)單來說，Phenaki相較于以往的生成視頻模型，它更注重時(shí)間長度任意性和連貫性。

Phenaki之所以能夠生成任意時(shí)間長度的視頻，很大程度上要?dú)w功于新的編碼器-解碼器架構(gòu)：C-ViViT。

它是ViViT的一個(gè)因果變體，能夠?qū)⒁曨l壓縮為離散嵌入。

要知道，以往獲取視頻壓縮，要么就是編碼器不能及時(shí)壓縮視頻，導(dǎo)致最終生成的視頻過短，例如VQ-GAN，要么就是編碼器只支持固定視頻長度，最終生成視頻的長度不能任意調(diào)節(jié)，例如VideoVQVAE。

但C-ViViT就不一樣了，它可謂是兼顧了上面兩種架構(gòu)的優(yōu)點(diǎn)，能夠在時(shí)間和空間維度上壓縮視頻，并且在時(shí)間上保持自回歸的同時(shí)，還可以自回歸生成任意長度的視頻。

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

C-ViViT可以使模型生成任意長度的視頻，那最終視頻的邏輯性又是怎么保證的呢？

這就得靠Phenaki另外一個(gè)比較重要的部分：雙向Transformer。

在這其中，為節(jié)省時(shí)間，采樣步驟是固定的，并且在處理文本提示的過程中，能同時(shí)預(yù)測(cè)不同的視頻token。

這樣一來，結(jié)合前面提到的，C-ViViT能夠在時(shí)間和空間維度上壓縮視頻，壓縮出來的token是具有時(shí)間邏輯性的。

也就是說，在這些token上經(jīng)過掩碼訓(xùn)練的Transformer也具備時(shí)間邏輯性，最終生成的視頻在連貫性自然也就有了保證。

這段視頻火爆外網(wǎng)，谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

如果還想了解更多關(guān)于Phenaki的東西，可以戳這里查看。

Phenaki：https://phenaki.github.io

參考鏈接：[1] https://phenaki.video/[2] https://phenaki.research.google/[3] https://twitter.com/AiBreakfast/status/1614647018554822658[4] https://twitter.com/EvanKirstel/status/1614676882758275072