在過(guò)去幾年中,可以自主生成各種類型內(nèi)容的基于機(jī)器學(xué)習(xí)的模型變得越來(lái)越先進(jìn)。這些框架為制作和編譯數(shù)據(jù)集來(lái)訓(xùn)練機(jī)器人算法開(kāi)辟了新的可能性。
雖然一些現(xiàn)有模型可以根據(jù)文本描述生成逼真或藝術(shù)圖像,但迄今為止,開(kāi)發(fā)能夠根據(jù)人類指令生成移動(dòng)人物視頻的人工智能更具挑戰(zhàn)性。在預(yù)先發(fā)布在服務(wù)器arXiv上并在 IEEE/CVF 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議 2024 上發(fā)表的論文中,北京理工大學(xué)、BIGAI 和北京大學(xué)的研究人員介紹了一種有前途的新框架,可以有效地解決這一任務(wù)。
“我們之前的工作《HUMANIZE》中的早期實(shí)驗(yàn)表明,通過(guò)將任務(wù)分解為場(chǎng)景基礎(chǔ)和條件動(dòng)作生成,兩階段框架可以增強(qiáng) 3D 場(chǎng)景中語(yǔ)言引導(dǎo)的人體動(dòng)作生成,”該論文的合著者 Yixin Zhu 說(shuō)。論文,告訴 Tech Xplore。
“機(jī)器人領(lǐng)域的一些工作也證明了可供性對(duì)模型泛化能力的積極影響,這激勵(lì)我們采用場(chǎng)景可供性作為這項(xiàng)復(fù)雜任務(wù)的中間表示。”
朱和他的同事推出的新框架建立在他們幾年前推出的生成模型之上,稱為 HUMANIZE。研究人員著手提高該模型泛化新問(wèn)題的能力,例如在學(xué)習(xí)有效生成“躺在床上”動(dòng)作后,創(chuàng)建逼真的動(dòng)作來(lái)響應(yīng)“躺在地板上”的提示。
“我們的方法分兩個(gè)階段展開(kāi):用于功能可供性圖預(yù)測(cè)的功能可供性擴(kuò)散模型 (ADM) 和用于根據(jù)描述和預(yù)生成的功能可供性生成人體運(yùn)動(dòng)的可供性到運(yùn)動(dòng)擴(kuò)散模型 (AMDM),”Siyuan Huang 聯(lián)合研究人員說(shuō)道。論文作者解釋說(shuō)。
“通過(guò)利用從人體骨骼關(guān)節(jié)和場(chǎng)景表面之間的距離場(chǎng)導(dǎo)出的可供性圖,我們的模型有效地將 3D 場(chǎng)景基礎(chǔ)和該任務(wù)中固有的條件運(yùn)動(dòng)生成聯(lián)系起來(lái)。”
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!