
影視配音是一項對專業能力要求很高的工作。配音演員需要觀看、分析視頻中任務的表演,并用適當的韻律(例如重音、語調和節奏)重新錄制每一句臺詞,讓配音和畫面同步,并且具備豐富的情感和前后一致性,目前的人工智能配音還不能勝任這種工作。然而,近日發表在機器學習和計算神經科學領域頂級會議NeurIPS2021上的一項前沿研究表明,可以媲美專業配音演員的人工智能技術是有望實現的。
論文內容表明,清華大學交叉信息研究院趙行研究組(MARS Lab)聯合字節跳動提出了神經網絡配音器概念,旨在解決自動視頻配音任務。它能夠合成與給定視頻同步的高質量語音,并利用視頻中的嘴部運動來控制生成語音的韻律,以達到語音和視頻同步的目的。此外,該工作還針對多說話人場景開發了基于圖像的說話人嵌入模塊,讓神經網絡配音器能夠根據說話人的面部生成具有合理音色的語音。
“配音的主要應用場景有兩個。一是替換拍攝時錄制的對話,如拍攝場景下錄制的語音音質不佳,又或者出于某種原因演員只是對了口型,聲音需要事后配上;二是對譯制片進行配音。例如,為了便于中國觀眾欣賞,將其他語言的視頻翻譯并配音為中文。我們主要關注的是第一個場景。”在接受科技日報記者采訪時,論文的第一作者、清華大學交叉信息研究院博士生胡晨旭解釋說。
實驗中的定性和定量評估結果都說明,神經網絡配音器可以通過視頻控制合成語音的韻律,并生成與視頻同步的高質量語音。“不過,我們的技術還處于起步階段,模型需要在真實電影數據上進行訓練,也暫時還沒有開始中文配音應用。”胡晨旭補充說。
“我們的研究還在繼續,請期待我們下一版本的模型。”胡晨旭說。(實習記者 孫明源)
關于我們 廣告服務 手機版 投訴文章:39 60 2 914 2@qq.com
Copyright (C) 1999-2020 www.ymshequn.com 愛好者日報網 版權所有 聯系網站:39 60 2 914 2@qq.com