国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

INTERSPEECH2025-MLC-SLM挑戰(zhàn)賽正式啟動!語音AI的巔峰之戰(zhàn)!

數(shù)據(jù)堂
+ 關(guān)注
2025-03-27 15:48
429次閱讀

大語言模型(LLMs)作為語言理解與生成的基礎(chǔ)技術(shù),其應用已擴展至語音處理領(lǐng)域,如語音識別、對話系統(tǒng)等新興方向。然而,構(gòu)建基于LLMs的語音對話系統(tǒng)面臨核心挑戰(zhàn):真實多語種對話數(shù)據(jù)的稀缺性。這類數(shù)據(jù)需涵蓋自然停頓、說話者重疊等復雜交互場景,對提升AI系統(tǒng)的多語種理解能力和長上下文處理能力至關(guān)重要,直接影響下一代人機交互的自然度與準確性。為推動這一研究發(fā)展,由數(shù)據(jù)堂主辦,中國移動、Meta、Google、 Samsung、NAVER聯(lián)合贊助的INTERSPEECH2025多語種對話語音語言模型(MLC-SLM)研討會正式對外發(fā)布,本次研討會將通過發(fā)布多語種對話語音數(shù)據(jù)集并舉辦MLC-SLM挑戰(zhàn)賽,推動該領(lǐng)域的技術(shù)突破。

 

一、核心亮點

1. 雙賽道任務,均要求參賽者探索基于 LLM 的語音模型的開發(fā):

(1) 任務I:多語種對話語音識別

① 目標:開發(fā)基于 LLM 的多語種 ASR 模型。

② 參賽者將獲得每段對話的真實時間戳標注及說話者標簽用于切分語音片段。

③ 該任務的重點是優(yōu)化多語種對話環(huán)境下的語音識別準確率。

 

(2) 任務II:多語種對話語音日志與識別

① 目標:開發(fā)一個同時進行說話者日志(即識別誰在何時說話),又能進行語音識別(將語音轉(zhuǎn)換為文本)的系統(tǒng)。

② 評估過程中不提供任何先驗信息,如真實時間戳標注、預先切分的語音片段、說話者標簽等

③ 該任務可以使用基于級聯(lián)系統(tǒng)或端到端系統(tǒng)的方法。

 

對于任務 I,系統(tǒng)性能將基于不同語言的詞錯誤率(WER)或字符錯誤率(CER)進行評估。

對于任務 II,性能將基于說話人日志錯誤率(DER)以及連接最小排列詞錯誤率(cpWER)或字符錯誤率(cpCER)進行評估。DER用于確定在參考標注和日志結(jié)果之間的最佳說話人排列。然后,將同一說話人識別結(jié)果和參考進行連接,以計算cpWER或cpCER。所有提交將根據(jù)cpWER或cpCER進行排名。

 

2. 多語種對話語音數(shù)據(jù)集

11種語言:英語(細分美/英/澳/印/菲口音)、法、德、日、韓等,總時長1500小時。

 

(1) 數(shù)據(jù)特性

① 自然對話場景:每段錄音均由兩位說話者就隨機分配的主題進行有意義的對話,需提供真實時間戳標注和說話者標簽。

② 高精度標注:日、韓語標注詞準確率95%+,其他語言98%。

③ 多設(shè)備錄制:使用iPhone等設(shè)備并于安靜的室內(nèi)環(huán)境采集,采樣率16kHz。

 

(2) 數(shù)據(jù)集結(jié)構(gòu)

① 訓練集:英語500小時(分5種口音)+其他語言各100小時,任務I/II共享。

② 開發(fā)集:每語種約4小時,任務I/II共享。

③ 評估集:每個任務使用不同的評估集,分別指定為 Eval_1 和 Eval_2。具體來說,Eval_1 包括真實時間戳標注和說話者標簽,使用 WER/CER 進行評估。Eval_2 不提供時間戳或說話者標簽,因此需要使用說話者日志系統(tǒng)在識別之前對較長的錄音進行分段。

參與者可以通過簽署數(shù)據(jù)使用協(xié)議并提交至報名表單來訪問數(shù)據(jù)集(具體詳情前往數(shù)據(jù)堂官網(wǎng)--INTERSPEECH2025 多語言會話語音語言模型研討論會 查看)。提交后,數(shù)據(jù)下載鏈接將發(fā)送到您的電子郵件。

INTERSPEECH2025-MLC-SLM挑戰(zhàn)賽正式啟動!語音AI的巔峰之戰(zhàn)!

 

 

3. 學界與產(chǎn)業(yè)界雙重背書

  • 組委會:馮俊蘭(IEEE Fellow及首席科學家/中國移動)、Eng-Siong Chng(教授/南洋理工大學)、Shinji Watanabe(副教授/卡內(nèi)基梅隆大學)、Khalid Choukri(秘書長/歐洲語言資源協(xié)會)等全球頂尖專家領(lǐng)銜。

 

  • 贊助商:中國移動、Meta、 Google、 Samsung、 NAVER、數(shù)據(jù)堂

 

二、參賽價值

  • 獎金池20,000美金:單任務前三名分別獲5,000/3,000/2,000美金。
  • 論文發(fā)表機會:優(yōu)秀成果可入選INTERSPEECH研討會,與頂級學者同臺交流(參考下文“其他主題”)。
  • 技術(shù)自由度:允許使用外部數(shù)據(jù)集與預訓練模型(需公開聲明),支持數(shù)據(jù)增強。

 

注:參加研討會的注冊費

  • 非會員注冊費:60歐元
  • 非會員學生注冊費:45歐元
  • ISCA會員注冊費:50歐元
  • ISCA學生會員注冊費:35歐元

 

三、關(guān)鍵日程(AOT時間)

2025 年 3 月 10 日:注冊開放

2025 年 3 月 15 日:訓練數(shù)據(jù)發(fā)布

2025 年 4 月 1  日:開發(fā)集和基線系統(tǒng)發(fā)布

2025 年 5 月 15 日:評估集發(fā)布及Leaderboard開放

2025 年 5 月 30 日:Leaderboard凍結(jié),論文提交系統(tǒng)(CMT)開放

2025 年 6 月 15 日:論文提交截止

2025 年 7 月 1 日:論文錄用通知

2025 年 8 月 18 日:荷蘭鹿特丹研討會(鹿特丹阿霍伊會議中心)

 

四、參賽必讀

所有參與者必須遵守以下規(guī)則:

  • 外部資源使用:對于任務I 和 任務II,允許使用外部數(shù)據(jù)集和預訓練模型(包括語音基礎(chǔ)模型和大語言模型)。所有使用的外部資源必須是公開可獲取的,并且在最終系統(tǒng)報告中應明確標明。
  • 數(shù)據(jù)增強:允許在發(fā)布的訓練集上進行數(shù)據(jù)增強,可能包括但不限于添加噪聲或混響、速度擾動和音調(diào)修改。
  • 禁止使用評估集:嚴禁以任何形式使用評估集。這包括但不限于使用評估集進行微調(diào)或訓練模型。
  • 多系統(tǒng)融合:參與者不得在任務I和任務II中使用系統(tǒng)融合。提交的結(jié)果必須來自單個模型,而不是通過結(jié)果融合得出。
  • 提交要求:所有參賽者必須提交其系統(tǒng)。提交內(nèi)容包括最終識別結(jié)果、模型以及能夠直接進行推理并獲得最終結(jié)果的Docker容器等文件。詳細的提交說明將在基線系統(tǒng)發(fā)布后提供。請注意,我們將公開那些確認參與但未提交任何文件的團隊及其所屬機構(gòu)的名稱。
  • 主辦方解釋權(quán):主辦方對本規(guī)則擁有最終解釋權(quán),特殊情況由主辦方酌情協(xié)調(diào)解釋。

 

五、其他主題

除了挑戰(zhàn)系統(tǒng)內(nèi)容外,還鼓勵參與者提交創(chuàng)新發(fā)和前瞻性研究論文。主題包括但不限于:

  • 新穎的架構(gòu)和算法:開發(fā)用于訓練語音語言模型的新架構(gòu)和算法。
  • 音頻數(shù)據(jù)處理管線:創(chuàng)新音頻數(shù)據(jù)處理流程,促進多樣化互聯(lián)網(wǎng)數(shù)據(jù)的收集,以便訓練語音語言模型。
  • 自然且情感豐富的語音生成:設(shè)計用于生成更加自然且富有情感表達的對話語音的算法,提升對話系統(tǒng)的表現(xiàn)。
  • 利用多輪對話歷史:利用多輪對話歷史來增強識別和分離結(jié)果的技術(shù)
  • 評估技術(shù)和基準:評估語音語言模型的創(chuàng)新評估技術(shù)或基準。
  • 新數(shù)據(jù)集:創(chuàng)建用于訓練語音和音頻語言模型的新數(shù)據(jù)集,包括真實數(shù)據(jù)和合成數(shù)據(jù)。

 

真實對話語音數(shù)據(jù)不僅對于技術(shù)進步至關(guān)重要,還在構(gòu)建能夠理解多語種和長上下文內(nèi)容的人工智能系統(tǒng)方面發(fā)揮關(guān)鍵作用。本次研討會通過發(fā)布高質(zhì)量的多語種對話語音數(shù)據(jù)集,并舉辦MLC-SLM挑戰(zhàn)賽,旨在為全球研究者和開發(fā)者提供一個開放的平臺,促進該方向的研究。未來,隨著更多創(chuàng)新技術(shù)的涌現(xiàn),基于LLMs的語音對話系統(tǒng)將更加智能、貼近人類交流方式,為全球用戶提供無縫的多語言溝通體驗。讓我們攜手共進,開啟人機交互的新篇章!

[免責聲明]

原文標題: INTERSPEECH2025-MLC-SLM挑戰(zhàn)賽正式啟動!語音AI的巔峰之戰(zhàn)!

本文由作者原創(chuàng)發(fā)布于36氪企服點評;未經(jīng)許可,禁止轉(zhuǎn)載。

資深作者數(shù)據(jù)堂
數(shù)據(jù)堂
0
數(shù)據(jù)堂(北京)科技股份有限公司
實力廠商
實力廠商
優(yōu)質(zhì)服務
優(yōu)質(zhì)服務
及時響應
及時響應
立即詢價
相關(guān)文章
最新文章
查看更多
關(guān)注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內(nèi)容
消息通知
咨詢?nèi)腭v
商務合作