加州大學(xué)伯克利分校的一個機(jī)器人專家團(tuán)隊(duì)報告稱,通過使用模擬到真實(shí)的強(qiáng)化學(xué)習(xí)來訓(xùn)練機(jī)器人,可以訓(xùn)練機(jī)器人完成相對簡單的任務(wù)。在他們發(fā)表在《科學(xué)機(jī)器人》雜志上的研究中,該小組訓(xùn)練了一個機(jī)器人在陌生的環(huán)境中行走,同時它攜帶不同的負(fù)載,并且完全沒有翻倒。
在過去的幾年里,機(jī)器人專家使用了多種技術(shù)來訓(xùn)練機(jī)器人在不同的環(huán)境中高效、快速地移動。但正如這項(xiàng)新研究的研究人員指出的那樣,此類機(jī)器人并沒有太多有用的應(yīng)用。他們認(rèn)為,能夠以緩慢但高效的方式執(zhí)行日常任務(wù)的機(jī)器人會更有用。為此,他們轉(zhuǎn)向了模擬到真實(shí)的強(qiáng)化學(xué)習(xí)。
該技術(shù)涉及通過在模擬環(huán)境中暴露于數(shù)十億個示例來訓(xùn)練機(jī)器人的模擬版本來執(zhí)行所需的任務(wù)。該方法還涉及使用獎勵/懲罰系統(tǒng)作為機(jī)器人訓(xùn)練的一部分,例如,如果它在嘗試實(shí)現(xiàn)目標(biāo)時做得正確,則會獲得“1”的獎勵。然而,如果它做錯了什么,它就會收到“-1”。隨著時間的推移,它會在尋求增加獎勵數(shù)量時提高其性能。
研究小組使用這種方法訓(xùn)練了一個名為 Digit 的機(jī)器人,讓它在城鎮(zhèn)未知區(qū)域的人行道上行走,并在遭受大球反復(fù)攻擊后恢復(fù),克服身體限制,走過可能會遇到危險的材料。使其絆倒、攜帶背包、將一袋垃圾放入垃圾箱以及使用手提袋攜帶個人物品。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!