擁有雙臂的機器人能完成開瓶蓋這類任務嗎?顯然,這需要它用一只手握緊瓶身,另一只手捏緊瓶蓋并進行旋轉。這種比較復雜的順序步驟通常被稱為模式(schemas),它不受目標的幾何尺寸及空間狀態的影響。另外,模式不像其他深度學習技術那樣需要上百萬個案例、花費數周甚至數個月的時間去學習。
最近Facebook AI Research的一支團隊試圖讓兩支Sawyer機械臂從數據庫中選擇合適的步驟,從而完成指定的目標。在每一個步驟中,機械臂必須決定好使用哪種技能,以及具體的參數設定(包括施加力的位置和大小等)。盡管這涉及了很多復雜的問題,但這支團隊表示這種方法的學習效率很快,一種操作技巧可能只需要幾個小時就能完成學習。
這支團隊的核心目標就是幫助機器臂應對更多的任務。它的學習流程分為兩步,第一步學習完成任務的模式,第二步學習策略為不同技能配置合適的參數。他們認為這種方法能學得更快。首先,同一任務的細節差別所帶來的數據能用于技能優化。除此之外,其他相關任務也能得到改善。
“舉個例子,首先我們在仿真中讓機械臂學會了撿起一根棍子。隨后這個模式可以用于其他相關任務,比如在現實中借助攝像頭拿起一個碟子,雖然這兩者的空間狀態和具體參數(比如抓取動作)差別很大。在模式確定后,拿起碟子就只需要進行第二步的學習,也就是參數優化。”
這些研究員為機械臂設計了一個技能數據庫,包括扭轉、舉起、接近等動作。機械臂可用它對不同尺寸、不同空間狀態的物體進行橫向運動、旋轉和開啟等。目前模式的訓練是在MuJoCo仿真環境中完成的,它只需要機械臂本體感覺(包括關節位置和關節轉速等)和幾何尺寸等少量數據。訓練結果可以在仿真環境和現實中進行使用。