作者 | 李一鳴
編輯 | 楊怡
抓取是人類和物體最基礎的交互方式,機器人和物體之間的關系也是一樣。然而,讓機器人具有比肩人類的抓取能力并非易事,尤其是雜亂場景下對通用物體的抓取能力,該方向的研究也引起了學術界和工業(yè)界的廣泛關注。
就整理桌面而言,機器人看到雜亂的桌面場景,需要確認待抓取的物體,估計準確的抓取姿態(tài),進行無碰撞的抓取規(guī)劃并最終執(zhí)行,是一項非常具有挑戰(zhàn)性的任務。
本文將介紹的這篇工作便致力于提升機器人在雜亂場景下的語義理解及抓取能力,文本提出一種帶語義及碰撞檢測的機器人抓取姿態(tài)估計方法,能夠端到端地從單視角點云中同時學習實例分割、抓取姿態(tài)及可能存在的碰撞,輸出物體級別的無碰撞抓取配置,最終交由機器人執(zhí)行。Simultaneous Semantic and Collision Learning for 6-DoF Grasp Pose Estimation (IROS 2021)https://arxiv.org/abs/2108.02425
機器人抓取物體的通常做法是從視覺角度出發(fā),對目標物體進行檢測、識別和定位,然后將機械臂移動到目標位置實施抓取。然而,由于物體的形狀、類別具有不確定性,該做法往往只適用于已知的物體的抓取,缺乏一定的通用性。此外,物體在實際場景的擺放經(jīng)常具有一定的雜亂性,在實際抓取過程中,還需要考慮機器人的運動規(guī)劃及控制等問題。
圖1 聯(lián)合實例分割及碰撞檢測的機器人抓取姿態(tài)估計示意圖算法將雜亂場景下的機器人抓取作為一個多任務學習的問題,通過實例分割、抓取姿態(tài)和碰撞檢測三個分支進行聯(lián)合優(yōu)化。圖2 聯(lián)合實例分割及碰撞檢測的機器人抓取姿態(tài)估計算法框圖作者采用先提取特征后聚類的方式進行桌面物體的實例分割。具體做法是,同時提取場景點云的語義特征和實例特征,其中語義特征用來進行前景和背景的分割。對于前景點,使用判別損失函數(shù)對其類別進行監(jiān)督。該判別損失函數(shù)由類內(nèi)方差、類間距離及正則化項組成。類內(nèi)方差約束屬于同一物體的點特征盡可能相近,類間距離約束不同物體的特征中心盡可能遠,正則化項用于約束特征中心接近于原點以確保可以被激活。對于六自由度抓取姿態(tài)估計,作者將三維空間中的抓取配置用可抓取點坐標、旋轉(zhuǎn)矩陣、抓取深度、抓取寬度及抓取質(zhì)量表示,同時將點云分為可抓點和不可抓點兩種。作者假定每個可抓點只對應一個最優(yōu)的抓取配置。訓練階段,只有可抓點的抓取配置用于監(jiān)督。作者采用交叉熵損失函數(shù)監(jiān)督場景點云中每個點是否可抓。對每個可抓點,使用均方誤差損失函數(shù)監(jiān)督抓取深度、抓取寬度及抓取質(zhì)量。對于三維旋轉(zhuǎn),作者將旋轉(zhuǎn)矩陣分解為夾爪趨近方向(Approach)和閉合方向(Close)的單位向量,分別施加位置約束、余弦距離約束和正交約束。作者還增加了一個碰撞檢測的分支,用于預測夾爪和場景可能存在的潛在碰撞,并通過交叉熵損失函數(shù)進行監(jiān)督。最終生成的抓取由實例分割、抓取姿態(tài)估計和碰撞檢測三個分支合并加上物體級的非極大值抑制得到。算法在公開數(shù)據(jù)集 Graspnet-1Billion 上評測,達到了業(yè)界領先水平:圖 5 GraspNet-1Billion數(shù)據(jù)集實驗結果同時作者使用Kinova Jaco2機器人及Realsense在真實場景中進行評測,同樣優(yōu)于 Baseline 方法:
這篇工作將雜亂場景下的機器人抓取問題分為實例分割、抓取姿態(tài)估計及碰撞檢測三個子任務并進行聯(lián)合優(yōu)化學習。實驗表明,算法能夠在雜亂場景中準確地估計出物體級別、無碰撞的六自由度抓取姿態(tài),達到業(yè)界領先水平。[1] Fang, Hao-Shu, et al. "Graspnet-1billion: A large-scale benchmark for general object grasping."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.[2] Qin, Yuzhe, et al. "S4g: Amodal single-view single-shot se (3) grasp detection in cluttered scenes." Conference on robot learning. PMLR, 2020.[3] Ten Pas, Andreas, et al. "Grasp pose detection in point clouds." The International Journal of Robotics Research 36.13-14 (2017): 1455-1473.[4] De Brabandere, Bert, Davy Neven, and Luc Van Gool. "Semantic instance segmentation with a discriminative loss function." arXiv preprint arXiv:1708.02551 (2017).
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。