美丽的小蜜蜂3娃娃脸,,,

當(dāng)前位置:中國(guó)生活都市網(wǎng) >> 看科普 >> 文章正文

訓(xùn)練機(jī)器人在25分鐘內(nèi)學(xué)會(huì)6個(gè)動(dòng)作 伯克利開發(fā)了一個(gè)高效的機(jī)器人控制框架

發(fā)布于:2021-01-03

雷老師來(lái)自寺

量子報(bào)告| QbitAI,微信官方賬號(hào)

這個(gè)機(jī)械臂正在完成伸、拿、動(dòng)、推、點(diǎn)、開六個(gè)動(dòng)作。

而且熟練,沒有錯(cuò)。

更令人驚訝的是,只花了短短的25分鐘時(shí)間就訓(xùn)練出了這只機(jī)械臂。

即使有人干擾,它也能成功完成抓取動(dòng)作。

還可以抓取從未見過(guò)的物體形狀。

這是加州大學(xué)柏克萊分校——高效機(jī)器操作框架高效機(jī)器人操作框架(FERM)的一項(xiàng)新研究,專門訓(xùn)練機(jī)械手高效操作的算法。

為什么FERM比其他方法更有效?

目前大多數(shù)機(jī)器人訓(xùn)練的RL算法效率都不是很高。

用稀疏獎(jiǎng)勵(lì)法訓(xùn)練Dota5游戲的人機(jī)操作需要180年,使其達(dá)到人類玩家的精通水平。

訓(xùn)練一個(gè)機(jī)器人手臂的手勢(shì)需要幾千萬(wàn)個(gè)模擬學(xué)習(xí)樣本和兩周的訓(xùn)練時(shí)間。

Sim2Real模擬學(xué)習(xí)稍微好一點(diǎn)。Sim2Real需要接受模擬訓(xùn)練,然后將訓(xùn)練結(jié)果應(yīng)用到實(shí)際案例中。

模擬學(xué)習(xí)需要一系列的專業(yè)訓(xùn)練示范案例和監(jiān)督學(xué)習(xí)才能得到最終的訓(xùn)練策略,實(shí)驗(yàn)結(jié)果很大程度上取決于輸入示范案例的質(zhì)量。

FERM的優(yōu)勢(shì)在于,它不依賴模擬訓(xùn)練來(lái)轉(zhuǎn)化為現(xiàn)實(shí),也不高度依賴輸入演示案例的質(zhì)量。

相反,它使用基于無(wú)監(jiān)督表示學(xué)習(xí)和數(shù)據(jù)擴(kuò)展技術(shù)的pixel-based RL。

因此,它只需要10個(gè)Demo,25分鐘的訓(xùn)練時(shí)間,就可以讓機(jī)器人學(xué)會(huì)六個(gè)動(dòng)作.

FERM具體怎么訓(xùn)練?

FERM采用基于像素的強(qiáng)化學(xué)習(xí)(pixel-based RL)方法。

具體來(lái)說(shuō),少量的演示數(shù)據(jù)被收集并存儲(chǔ)在“回放緩沖器”中。

然后,通過(guò)將觀察結(jié)果與比較損失相結(jié)合來(lái)預(yù)訓(xùn)練編碼器。

然后,編碼器和“回放緩沖器”使用一個(gè)離線數(shù)據(jù)來(lái)加強(qiáng)RL算法和訓(xùn)練RL代理。

在論文中,研究人員總結(jié)了FERM的主要優(yōu)點(diǎn):

1.高效率:費(fèi)爾姆可以學(xué)習(xí)六種不同操作任務(wù)的最佳策略,并在15-50分鐘的訓(xùn)練時(shí)間內(nèi)完成每項(xiàng)任務(wù)。

2.簡(jiǎn)單統(tǒng)一的框架:結(jié)合現(xiàn)有的組成部分,該框架將無(wú)監(jiān)督的預(yù)培訓(xùn)和在線學(xué)習(xí)和數(shù)據(jù)擴(kuò)展到一個(gè)單一和有效的框架。

3.常規(guī)輕量設(shè)置:它只需要一個(gè)機(jī)器人,一個(gè)GPU,兩個(gè)攝像頭,幾個(gè)演示,稀疏獎(jiǎng)勵(lì)功能等等。

具體實(shí)驗(yàn)結(jié)果如何?

實(shí)驗(yàn)結(jié)果

在這個(gè)實(shí)驗(yàn)中,通過(guò)像素觀察來(lái)執(zhí)行一系列任務(wù)。下圖中的每一列顯示了三種狀態(tài):初始、中間和結(jié)果。只有當(dāng)機(jī)器人完成任務(wù)時(shí),它才會(huì)得到稀疏的獎(jiǎng)勵(lì)。

這種訓(xùn)練算法的效率非常高。具體完成時(shí)間如下表所示。30分鐘左右,機(jī)器人就能學(xué)會(huì)操作任務(wù)。簡(jiǎn)單的“伸手”動(dòng)作只需要三分鐘.

實(shí)驗(yàn)結(jié)果表明,它不需要大量的Demo和大量的設(shè)備,第一次完成任務(wù)的平均時(shí)間為11分鐘,25分鐘可以訓(xùn)練出6個(gè)機(jī)械動(dòng)作。

所以研究人員自豪地說(shuō):

花垣县| 盐津县| 汝城县| 建始县| 白银市| 莱阳市| 景德镇市| 凌海市| 吉首市| 阿合奇县| 嘉义市| 安图县| 井研县| 阳城县| 尼木县| 泗洪县| 蒙阴县| 静海县| 永靖县| 女性| 寿阳县| 长寿区| 阿尔山市| 霍林郭勒市| 奉新县| 金堂县| 蒙阴县| 门头沟区| 浮梁县| 靖安县| 汝南县| 宜春市| 苏尼特左旗| 鸡泽县| 墨竹工卡县| 镇坪县| 平昌县| 民乐县| 乌审旗| 孟村| 大余县|