當(dāng)前位置:中國(guó)生活都市網(wǎng) >> 看科普 >> 文章正文
訓(xùn)練機(jī)器人在25分鐘內(nèi)學(xué)會(huì)6個(gè)動(dòng)作 伯克利開發(fā)了一個(gè)高效的機(jī)器人控制框架
雷老師來(lái)自寺
量子報(bào)告| QbitAI,微信官方賬號(hào)
這個(gè)機(jī)械臂正在完成伸、拿、動(dòng)、推、點(diǎn)、開六個(gè)動(dòng)作。
而且熟練,沒有錯(cuò)。
更令人驚訝的是,只花了短短的25分鐘時(shí)間就訓(xùn)練出了這只機(jī)械臂。
即使有人干擾,它也能成功完成抓取動(dòng)作。
還可以抓取從未見過(guò)的物體形狀。
這是加州大學(xué)柏克萊分校——高效機(jī)器操作框架高效機(jī)器人操作框架(FERM)的一項(xiàng)新研究,專門訓(xùn)練機(jī)械手高效操作的算法。
為什么FERM比其他方法更有效?
目前大多數(shù)機(jī)器人訓(xùn)練的RL算法效率都不是很高。
用稀疏獎(jiǎng)勵(lì)法訓(xùn)練Dota5游戲的人機(jī)操作需要180年,使其達(dá)到人類玩家的精通水平。
訓(xùn)練一個(gè)機(jī)器人手臂的手勢(shì)需要幾千萬(wàn)個(gè)模擬學(xué)習(xí)樣本和兩周的訓(xùn)練時(shí)間。
Sim2Real和模擬學(xué)習(xí)稍微好一點(diǎn)。Sim2Real需要接受模擬訓(xùn)練,然后將訓(xùn)練結(jié)果應(yīng)用到實(shí)際案例中。
模擬學(xué)習(xí)需要一系列的專業(yè)訓(xùn)練示范案例和監(jiān)督學(xué)習(xí)才能得到最終的訓(xùn)練策略,實(shí)驗(yàn)結(jié)果很大程度上取決于輸入示范案例的質(zhì)量。
FERM的優(yōu)勢(shì)在于,它不依賴模擬訓(xùn)練來(lái)轉(zhuǎn)化為現(xiàn)實(shí),也不高度依賴輸入演示案例的質(zhì)量。
相反,它使用基于無(wú)監(jiān)督表示學(xué)習(xí)和數(shù)據(jù)擴(kuò)展技術(shù)的pixel-based RL。
因此,它只需要10個(gè)Demo,25分鐘的訓(xùn)練時(shí)間,就可以讓機(jī)器人學(xué)會(huì)六個(gè)動(dòng)作.
FERM具體怎么訓(xùn)練?
FERM采用基于像素的強(qiáng)化學(xué)習(xí)(pixel-based RL)方法。
具體來(lái)說(shuō),少量的演示數(shù)據(jù)被收集并存儲(chǔ)在“回放緩沖器”中。
然后,通過(guò)將觀察結(jié)果與比較損失相結(jié)合來(lái)預(yù)訓(xùn)練編碼器。
然后,編碼器和“回放緩沖器”使用一個(gè)離線數(shù)據(jù)來(lái)加強(qiáng)RL算法和訓(xùn)練RL代理。
在論文中,研究人員總結(jié)了FERM的主要優(yōu)點(diǎn):
1.高效率:費(fèi)爾姆可以學(xué)習(xí)六種不同操作任務(wù)的最佳策略,并在15-50分鐘的訓(xùn)練時(shí)間內(nèi)完成每項(xiàng)任務(wù)。
2.簡(jiǎn)單統(tǒng)一的框架:結(jié)合現(xiàn)有的組成部分,該框架將無(wú)監(jiān)督的預(yù)培訓(xùn)和在線學(xué)習(xí)和數(shù)據(jù)擴(kuò)展到一個(gè)單一和有效的框架。
3.常規(guī)輕量設(shè)置:它只需要一個(gè)機(jī)器人,一個(gè)GPU,兩個(gè)攝像頭,幾個(gè)演示,稀疏獎(jiǎng)勵(lì)功能等等。
具體實(shí)驗(yàn)結(jié)果如何?
實(shí)驗(yàn)結(jié)果
在這個(gè)實(shí)驗(yàn)中,通過(guò)像素觀察來(lái)執(zhí)行一系列任務(wù)。下圖中的每一列顯示了三種狀態(tài):初始、中間和結(jié)果。只有當(dāng)機(jī)器人完成任務(wù)時(shí),它才會(huì)得到稀疏的獎(jiǎng)勵(lì)。
這種訓(xùn)練算法的效率非常高。具體完成時(shí)間如下表所示。30分鐘左右,機(jī)器人就能學(xué)會(huì)操作任務(wù)。簡(jiǎn)單的“伸手”動(dòng)作只需要三分鐘.
實(shí)驗(yàn)結(jié)果表明,它不需要大量的Demo和大量的設(shè)備,第一次完成任務(wù)的平均時(shí)間為11分鐘,25分鐘可以訓(xùn)練出6個(gè)機(jī)械動(dòng)作。
所以研究人員自豪地說(shuō):