国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

量子位

+ 關(guān)注

2022-03-28 11:30

1559次閱讀

豐色發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

人類在說話時(shí)會(huì)自然而然地產(chǎn)生肢體動(dòng)作，以此來增強(qiáng)演講效果。

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

現(xiàn)在，來自中科大和京東的研究人員，給AI也配備了這樣的功能——

隨便丟給它一段任意類型的演講音頻，它就能比劃出相應(yīng)的手勢：

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

配合得非常自然有沒有？

對于同一個(gè)音頻，它還能生成多種不一樣的姿勢：

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

采用“雙流”架構(gòu)

由于每個(gè)人的習(xí)慣并不相同等原因，演講和肢體動(dòng)作之間并沒有一套固定的對應(yīng)關(guān)系，這也導(dǎo)致完成語音生成姿勢這一任務(wù)有點(diǎn)困難。

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

△ 極具代表性的意大利人講話手勢

大多數(shù)現(xiàn)有方法都是以某些風(fēng)格為條件，以一種確定性的方式將語音映射為相應(yīng)肢體動(dòng)作，結(jié)果嘛，也就不是特別理想。

受語言學(xué)研究的啟發(fā)，本文作者將語音動(dòng)作的分解為兩個(gè)互補(bǔ)的部分：姿勢模式（pose modes）和節(jié)奏動(dòng)力（rhythmic dynamics），提出了一種新穎的“speech2gesture”模型——FreeMo。

FreeMo采用“雙流”架構(gòu)，一個(gè)分支用于主要的姿勢生成，另一個(gè)分支用于“打節(jié)奏”，也就是給主要姿勢施加小幅度的節(jié)奏動(dòng)作（rhythmic motion），讓最終姿勢更豐富和自然。

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

前面說過，演講者的姿勢主要是習(xí)慣性的，沒有常規(guī)語義，因此，作者也就沒有對姿勢生成的形式進(jìn)行特別約束，而是引入條件采樣在潛空間學(xué)習(xí)各種姿勢。

為了便于處理，輸入的音頻會(huì)被分成很短的片段，并提取出語音特征參數(shù)MFCC和演講文本。

主要姿勢通過對演講文本進(jìn)行關(guān)鍵字匹配生成。

語音特征參數(shù)MFCC則用于節(jié)奏動(dòng)作的生成。

節(jié)奏動(dòng)作生成器采用卷積網(wǎng)絡(luò)構(gòu)成，具體過程如圖所示：

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

M_A和M_B是訓(xùn)練集中隨機(jī)抽取的兩個(gè)動(dòng)作序列。

紅色框表示動(dòng)作序列平均姿勢的偏移量。通過交換倆個(gè)序列的偏移量，模型就可以在不影響主要姿勢的情況下進(jìn)行“節(jié)奏”控制。

更具多樣性、更自然、同步性更高

FreeMo的訓(xùn)練和測試視頻包括專門的Speech2Gesture數(shù)據(jù)集，里面有很多電視臺(tái)主持人的節(jié)目。

不過這些視頻受環(huán)境干擾嚴(yán)重（比如觀眾的喝彩聲），以及主持人可能行動(dòng)有限，因此作者還引入了一些TED演講視頻和Youtube視頻用作訓(xùn)練和測試。

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

對比的SOTA模型包括：

采用RNN的Audio to Body Dynamics (Audio2Body)
采用卷積網(wǎng)絡(luò)的Speech2Gesture (S2G)
Speech Drives Template (Tmpt，配備了一組姿勢模板)
Mix StAGE（可以為每一個(gè)演講者生成一套風(fēng)格）
Trimodal-Context (TriCon，同樣為RNN，輸入包括音頻、文本和speaker)

衡量指標(biāo)一共有三個(gè)：

（1）語音和動(dòng)作之間的同步性；
（2）動(dòng)作的多樣性；
（3）與演講者的真實(shí)動(dòng)作相比得出的質(zhì)量水平。

結(jié)果是FreeMo在這三個(gè)指標(biāo)上都超越5個(gè)SOTA模型獲得了最好的成績。

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

△ 同步性得分，越低越好

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

△ 多樣性和質(zhì)量水平得分

ps. 由于5個(gè)SOTA模型在本質(zhì)上都是學(xué)習(xí)的確定性映射，因此不具備多樣性。

一些更直觀的質(zhì)量對比：

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

最左上角為真實(shí)演講者的動(dòng)作，可以看到FreeMo的表現(xiàn)最好（Audio2Body也還不錯(cuò)）。

作者介紹

中科大&京東最新成果：讓AI像真人一樣演講，手勢打得惟妙惟肖

一作為Xu Jing，來自中科大。

通訊作者為京東AI平臺(tái)與研究部AI研究院副院長，京東集團(tuán)技術(shù)副總裁，IEEE Fellow梅濤。

剩余3位作者分別位來自京東AI的研究員Zhang Wei、白亞龍以及中科大的孫啟彬教授。

論文地址：
https://arxiv.org/abs/2203.02291

代碼已開源：
https://github.com/TheTempAccount/Co-Speech-Motion-Generation

本文來自微信公眾號(hào) “量子位”（ID：QbitAI），36氪經(jīng)授權(quán)發(fā)布。

0

京東人工智能開放平臺(tái)

京東人工智能開放平臺(tái)

0

0條點(diǎn)評(píng)

咨詢產(chǎn)品

免費(fèi)試用

通用文字識(shí)別，基于深度學(xué)習(xí)技術(shù)，利用OCR技術(shù)，依托京東海量優(yōu)質(zhì)數(shù)據(jù)為用戶提供多場景、高精度的圖片文字檢測和識(shí)別服務(wù)。

京東人工智能開放平臺(tái)-圖像搜索

京東人工智能開放平臺(tái)-圖像搜索

0

0條點(diǎn)評(píng)

咨詢產(chǎn)品

免費(fèi)試用

基于京東相關(guān)業(yè)務(wù)數(shù)億級(jí)圖片數(shù)據(jù)訓(xùn)練模型，支持自定義商品圖圖庫，可在各種場景下圖庫中搜索相同或者相似的圖片。

客戶案例

暫無

京東人工智能開放平臺(tái)-語音識(shí)別

京東人工智能開放平臺(tái)-語音識(shí)別

0

0條點(diǎn)評(píng)

咨詢產(chǎn)品

免費(fèi)試用

通過在傳統(tǒng)家電產(chǎn)品中植入京東的模塊并連接京東云的方式，使用戶能用一款A(yù)PP控制所有接入的產(chǎn)品。

合作品牌

暫無

京東人工智能開放平臺(tái)-文字識(shí)別

京東人工智能開放平臺(tái)-文字識(shí)別

0

0條點(diǎn)評(píng)

咨詢產(chǎn)品

免費(fèi)試用

基于深度學(xué)習(xí)技術(shù)，利用光學(xué)字符識(shí)別技術(shù)，依托京東海量優(yōu)質(zhì)數(shù)據(jù)為用戶提供多場景、高精度的圖片文字檢測和識(shí)別服務(wù)。

客戶案例

暫無

京東人工智能開放平臺(tái)-京東眾智

京東人工智能開放平臺(tái)-京東眾智

0

0條點(diǎn)評(píng)

咨詢產(chǎn)品

免費(fèi)試用

京東眾智——值得信賴的AI數(shù)據(jù)，標(biāo)注與采集平臺(tái)。

客戶案例

暫無

相關(guān)產(chǎn)品

最新文章

關(guān)注 36氪企服點(diǎn)評(píng) 公眾號(hào)

打開微信掃一掃

為您推送企服點(diǎn)評(píng)最新內(nèi)容

消息通知

咨詢?nèi)腭v

商務(wù)合作