商用跑步機(jī)【科技在線】 大家都知道,卡耐基梅隆大學(xué)在計(jì)算機(jī)科學(xué)方面的研究名列前茅,而迪士尼有意將計(jì)算機(jī)科學(xué)技術(shù)引入動(dòng)畫制作。他們與卡耐基梅隆大學(xué)合作樹立的實(shí)驗(yàn)室近日發(fā)表了一篇論文 a deep learning approach for generalized speech animation,利用深度學(xué)習(xí)的做法,來生成看起來自然的語音動(dòng)畫。這篇論文已被siggraph 收錄。
他們引入了一種簡單而比較有效的深度學(xué)習(xí)做法,來自動(dòng)生成看起來自然的,能夠與輸入語音同步的語音動(dòng)畫。這種做法采用滑動(dòng)窗口預(yù)測(cè)器,可以學(xué)習(xí)到從音位標(biāo)簽輸入序列到嘴型運(yùn)動(dòng)的任意非線性映射,能精準(zhǔn)捕捉自然動(dòng)作和可視化的協(xié)同發(fā)音效果。
這種做法有幾個(gè)引起人的特點(diǎn):它能實(shí)時(shí)運(yùn)行,只需要進(jìn)行非常少的參數(shù)調(diào)節(jié),能很好的泛化到新的輸入語音序列,很容易來創(chuàng)建風(fēng)格化和情緒化的語音,同時(shí)與現(xiàn)有的動(dòng)畫重定向做法兼容。
迪士尼實(shí)驗(yàn)室表示,他們從業(yè)中的一個(gè)要點(diǎn)是開發(fā)出能高效生成語音動(dòng)畫,并將其輕松地整合到現(xiàn)有作品中的做法。他們的論文中詳述了這種端到端的做法,其中包括機(jī)器學(xué)習(xí)的一點(diǎn)設(shè)計(jì)決定。在論文中,通過動(dòng)畫片段中不同的人物和聲音,演示了泛化的語音動(dòng)畫結(jié)果,包括唱歌和外語輸入。這種做法還可以根據(jù)客戶的語音輸入實(shí)時(shí)生成靈活的語音動(dòng)畫。
ai科技評(píng)論將論文部分文案編譯如下:
語音動(dòng)畫是生成逼真的角色動(dòng)畫中重要且費(fèi)時(shí)的一部分。從廣義上講,語音動(dòng)畫是一種這樣的任務(wù):改變圖形(或機(jī)器人)模型的面部特征,使嘴唇的動(dòng)作與發(fā)出的聲音同步,形成一種在說話的感覺。作為人類,我們都是面部表情的專家,糟糕的語音動(dòng)畫可能會(huì)讓人分心,不愉快,產(chǎn)生困惑。例如,當(dāng)看到的嘴型和聽到的聲音不一致時(shí),有時(shí)會(huì)讓觀眾以為自己聽到的是另一種聲音(mcgurk和macdonald的論文,1976)。對(duì)于實(shí)際的角色動(dòng)畫來講,高保真語音動(dòng)畫至關(guān)重要。
目前在電影和視頻游戲制作中采用的以前傳下來語音動(dòng)畫做法一般趨向于兩個(gè)極端。一種方法是,高預(yù)算的產(chǎn)品一般會(huì)使用表演捕獲技術(shù)或雇一個(gè)大型的專業(yè)動(dòng)畫制作團(tuán)隊(duì),這樣消費(fèi)巨大,而且不太容易大規(guī)模復(fù)制。例如,目前沒有什么好的生產(chǎn)做法,可以跨多種語言,劃算且高效地生成優(yōu)質(zhì)的語音動(dòng)畫。另一種方法是,對(duì)于價(jià)錢低、文案多的產(chǎn)品,可能會(huì)采用簡單的唇形庫來快速生成質(zhì)量相對(duì)較低的語音動(dòng)畫。
近,人們對(duì)開發(fā)出自動(dòng)生成語音動(dòng)畫的數(shù)據(jù)驅(qū)動(dòng)做法越來越興致趣,以找到將這兩個(gè)極端折中的處理辦法(de martino等的論文,2006;edwards等的論文,;taylor等的論文,)。但是,以前的從業(yè)需要預(yù)先定義一組數(shù)量有限的唇形,還必需將這些唇形混合起來。簡單的混合函數(shù)限制了可以建模的視覺語音動(dòng)態(tài)的多而雜度。所以我們另辟蹊徑,計(jì)劃利用現(xiàn)代機(jī)器學(xué)習(xí)做法,直接從數(shù)據(jù)中學(xué)習(xí)視覺語音的多而雜動(dòng)態(tài)。
我們提出了一種自動(dòng)生成語音動(dòng)畫的深度學(xué)習(xí)做法,這種做法提供一種劃算且高效的手段,能大規(guī)模地生成高保真的語音動(dòng)畫。例如,我們用100多家自由度,在電影制作級(jí)別的人臉模型上生成逼真的語音動(dòng)畫。我們從業(yè)中的一個(gè)要點(diǎn)是開發(fā)一種高效的語音動(dòng)畫做法,可以無縫地整合到現(xiàn)有的作品生產(chǎn)中。
我們的做法采用連續(xù)的深度學(xué)習(xí)滑動(dòng)窗口預(yù)測(cè)器,這是受kim等人在年發(fā)表的一篇論文的啟發(fā)?;瑒?dòng)窗口的做法意味著預(yù)測(cè)器能夠在持續(xù)講話的輸入語音描述和輸出視頻之間表示多而雜的非線性回歸,也自然包括語境和協(xié)同發(fā)音效果。我們的研究結(jié)果展現(xiàn)了在kim等人之前的決定樹做法上利用神經(jīng)互聯(lián)網(wǎng)深度學(xué)習(xí)做法帶來的改進(jìn)。
采用重疊的滑動(dòng)窗口更直接地將學(xué)習(xí)集中在捕捉局部范圍的語境和協(xié)同發(fā)音的效果上,比起循環(huán)神經(jīng)互聯(lián)網(wǎng)和lstm(hochreiter和schmidhuber的論文,1997)等以前傳下來的序列學(xué)習(xí)做法,更適合預(yù)測(cè)語音動(dòng)畫。
采用機(jī)器學(xué)習(xí)的首要挑戰(zhàn)之一是:要以一種對(duì)所需的終目標(biāo)有用的方法,恰當(dāng)?shù)囟x學(xué)習(xí)任務(wù)(例如選擇什么樣的輸入/輸出和訓(xùn)練集)。我們的目標(biāo)是讓動(dòng)畫師能輕松地將高保真的語音動(dòng)畫合并到任何rig上,對(duì)任何說話者都適用,同時(shí)易于和風(fēng)格化。
我們將我們的機(jī)器學(xué)習(xí)任務(wù)定義為,從單個(gè)作為參照的說話者中,學(xué)會(huì)產(chǎn)生具有中性語音的高保真動(dòng)畫。通過聚焦作為參照的面部和中性的語音,我們可以低價(jià)錢且高效地收集一個(gè)全面的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集能充分地描述出語音動(dòng)畫的多而雜特點(diǎn)。大的訓(xùn)練數(shù)據(jù)集使得我們能夠采用現(xiàn)代機(jī)器學(xué)習(xí)做法,可信地學(xué)習(xí)語音運(yùn)動(dòng)中細(xì)微的動(dòng)態(tài)變化。
與之前程序化的生成語音動(dòng)畫的研究相比(de martino等的論文,2006;edwards 等的論文,;taylo等的論文,),我們的做法能直接從數(shù)據(jù)中學(xué)會(huì)自然的協(xié)同發(fā)音效果。
我們將輸入定義為文案(音位標(biāo)簽),意味著可以學(xué)習(xí)與說話者無關(guān)的從語境到語音動(dòng)畫的映射。
我們只需要現(xiàn)成的語音識(shí)別軟件自動(dòng)將任何說話者的語音轉(zhuǎn)換成相應(yīng)的音位描述。因?yàn)榇?,我們的自?dòng)語音動(dòng)畫可以泛化到任何說話者,任何形式的語音,甚至是其他語言。
局限性和未來的研究
首要的實(shí)際局限是,我們的動(dòng)畫預(yù)測(cè)是依據(jù)aam參數(shù)化法生成的參考面部來制作的。這使我們這種做法能泛化到任何文案,但是對(duì)特征進(jìn)行重定位會(huì)引入潛在的錯(cuò)誤源。當(dāng)提出重定向模型的初始特征設(shè)置時(shí),必需小心謹(jǐn)慎,以保持預(yù)測(cè)動(dòng)畫的逼真度。幸運(yùn)的是,對(duì)各個(gè)角色,這個(gè)預(yù)計(jì)算步驟只需執(zhí)行一次。展望未來,一個(gè)有意思的研究方向是采用真實(shí)的動(dòng)畫數(shù)據(jù)來開發(fā)對(duì)比自動(dòng)語音動(dòng)畫的數(shù)據(jù)驅(qū)動(dòng)重定位技術(shù)。
只從中性的語音中學(xué)習(xí),我們可以得到一個(gè)具有魯棒性的語音動(dòng)畫模型,它可以泛化到任何語音文案。目前,在動(dòng)畫中添加表情和情感還是藝術(shù)家的從業(yè),在未來,一個(gè)興趣的方向是從多個(gè)具有情感的語境(生氣、傷心等)生成的訓(xùn)練數(shù)據(jù)中,訓(xùn)練一個(gè)更大的神經(jīng)互聯(lián)網(wǎng),使預(yù)測(cè)的面部動(dòng)作更接近于真實(shí)的情感。
一個(gè)首要的挑戰(zhàn)是怎么既劃算,又高效地收集一個(gè)綜合數(shù)據(jù)庫用于訓(xùn)練。如果沒有一個(gè)夠全面的訓(xùn)練集,采用現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)會(huì)存在困難,因?yàn)樯疃葘W(xué)習(xí)等做法一般是嚴(yán)重欠約束的。可能的方向是大規(guī)模地收集雜亂的數(shù)據(jù)(例如從公共視頻存儲(chǔ)庫中收集),或者開發(fā)能自適應(yīng)地選擇收集哪種視頻的主動(dòng)學(xué)習(xí)做法,以使總收集價(jià)錢小化。
另外,泛化性可以從具有男性、女性、圓臉、方臉、肥胖、瘦身等各種臉部特征的多位說話者中訓(xùn)練聲音動(dòng)畫模型,在預(yù)測(cè)時(shí)選擇與動(dòng)畫角色模型相符的特征。 這種做法可以根據(jù)人物的說話方式,根據(jù)臉部的形狀泛化為不同的表情。 再次證明了如何有效地收集綜合訓(xùn)練集是一大挑戰(zhàn)。
標(biāo)題:“迪士尼研究人工智能 將AI用于動(dòng)畫制作”
地址:http://www.wgbvder.cn/lyzx/32129.html
免責(zé)聲明:洛陽信息港是洛陽市綜合性地方門戶網(wǎng)站,致力于向市民報(bào)道關(guān)于洛陽發(fā)生的大小事,本篇內(nèi)容來自于網(wǎng)絡(luò),不為其真實(shí)性負(fù)責(zé),只為傳播網(wǎng)絡(luò)信息為目的,非商業(yè)用途,如有異議請(qǐng)及時(shí)聯(lián)系btr2031@163.com,洛陽信息港將予以刪除。