中科大&京東最新成果:讓AI像真人一樣演講,手勢打得惟妙惟肖
豐色 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
人類在說話時(shí)會(huì)自然而然地產(chǎn)生肢體動(dòng)作,以此來增強(qiáng)演講效果。
現(xiàn)在,來自中科大和京東的研究人員,給AI也配備了這樣的功能——
隨便丟給它一段任意類型的演講音頻,它就能比劃出相應(yīng)的手勢:

配合得非常自然有沒有?
對于同一個(gè)音頻,它還能生成多種不一樣的姿勢:
由于每個(gè)人的習(xí)慣并不相同等原因,演講和肢體動(dòng)作之間并沒有一套固定的對應(yīng)關(guān)系,這也導(dǎo)致完成語音生成姿勢這一任務(wù)有點(diǎn)困難。
△ 極具代表性的意大利人講話手勢
大多數(shù)現(xiàn)有方法都是以某些風(fēng)格為條件,以一種確定性的方式將語音映射為相應(yīng)肢體動(dòng)作,結(jié)果嘛,也就不是特別理想。
受語言學(xué)研究的啟發(fā),本文作者將語音動(dòng)作的分解為兩個(gè)互補(bǔ)的部分:姿勢模式(pose modes)和節(jié)奏動(dòng)力(rhythmic dynamics),提出了一種新穎的“speech2gesture”模型——FreeMo。
FreeMo采用“雙流”架構(gòu),一個(gè)分支用于主要的姿勢生成,另一個(gè)分支用于“打節(jié)奏”,也就是給主要姿勢施加小幅度的節(jié)奏動(dòng)作(rhythmic motion),讓最終姿勢更豐富和自然。
前面說過,演講者的姿勢主要是習(xí)慣性的,沒有常規(guī)語義,因此,作者也就沒有對姿勢生成的形式進(jìn)行特別約束,而是引入條件采樣在潛空間學(xué)習(xí)各種姿勢。
為了便于處理,輸入的音頻會(huì)被分成很短的片段,并提取出語音特征參數(shù)MFCC和演講文本。
主要姿勢通過對演講文本進(jìn)行關(guān)鍵字匹配生成。
語音特征參數(shù)MFCC則用于節(jié)奏動(dòng)作的生成。
節(jié)奏動(dòng)作生成器采用卷積網(wǎng)絡(luò)構(gòu)成,具體過程如圖所示:
MA和MB是訓(xùn)練集中隨機(jī)抽取的兩個(gè)動(dòng)作序列。
紅色框表示動(dòng)作序列平均姿勢的偏移量。通過交換倆個(gè)序列的偏移量,模型就可以在不影響主要姿勢的情況下進(jìn)行“節(jié)奏”控制。
FreeMo的訓(xùn)練和測試視頻包括專門的Speech2Gesture數(shù)據(jù)集,里面有很多電視臺(tái)主持人的節(jié)目。
不過這些視頻受環(huán)境干擾嚴(yán)重(比如觀眾的喝彩聲),以及主持人可能行動(dòng)有限,因此作者還引入了一些TED演講視頻和Youtube視頻用作訓(xùn)練和測試。
對比的SOTA模型包括:
-
采用RNN的Audio to Body Dynamics (Audio2Body)
-
采用卷積網(wǎng)絡(luò)的Speech2Gesture (S2G)
-
Speech Drives Template (Tmpt,配備了一組姿勢模板)
-
Mix StAGE(可以為每一個(gè)演講者生成一套風(fēng)格)
-
Trimodal-Context (TriCon,同樣為RNN,輸入包括音頻、文本和speaker)
衡量指標(biāo)一共有三個(gè):
(1)語音和動(dòng)作之間的同步性;
(2)動(dòng)作的多樣性;
(3)與演講者的真實(shí)動(dòng)作相比得出的質(zhì)量水平。
結(jié)果是FreeMo在這三個(gè)指標(biāo)上都超越5個(gè)SOTA模型獲得了最好的成績。
△ 同步性得分,越低越好
△ 多樣性和質(zhì)量水平得分
ps. 由于5個(gè)SOTA模型在本質(zhì)上都是學(xué)習(xí)的確定性映射,因此不具備多樣性。
一些更直觀的質(zhì)量對比:
最左上角為真實(shí)演講者的動(dòng)作,可以看到FreeMo的表現(xiàn)最好(Audio2Body也還不錯(cuò))。
一作為Xu Jing,來自中科大。
通訊作者為京東AI平臺(tái)與研究部AI研究院副院長,京東集團(tuán)技術(shù)副總裁,IEEE Fellow梅濤。
剩余3位作者分別位來自京東AI的研究員Zhang Wei、白亞龍以及中科大的孫啟彬教授。
論文地址:
https://arxiv.org/abs/2203.02291
代碼已開源:
https://github.com/TheTempAccount/Co-Speech-Motion-Generation
本文來自微信公眾號(hào) “量子位”(ID:QbitAI),36氪經(jīng)授權(quán)發(fā)布。
