^{<sub id="jgr5k"></sub>}

ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer

本文作者：我在思考中

2021-09-07 10:21

導語：在現實場景下，現有的3D傳感器由于物體自遮擋等問題只能采集到缺失且稀疏的點云數據，所以如何將這樣缺失且稀疏的點云進行補全以得到高品質的點云，具有重大意義。

ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer

作者 | 于旭敏

編輯 | 王曄

我們提出了一種幾何敏感的點云補全Transformer，通過將點云表示成為一組無序的點代理，并采用Transformer的Encoder-Decoder結構進行缺失點云生成。除此以外，我們提出了兩個更具有挑戰性的點云補全Benchmark——ShapeNet-55/34。我們的論文已被ICCV接收為Oral Presentation，代碼、數據集與模型均以開源。

代碼倉庫：https://github.com/yuxumin/PoinTr

論文鏈接：https://arxiv.org/abs/2108.08839

視頻：https://youtu.be/mSGphas0p8g

ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer

簡介

在現實場景下，現有的3D傳感器由于物體自遮擋等問題只能采集到缺失且稀疏的點云數據，所以如何將這樣缺失且稀疏的點云進行補全以得到高品質的點云，具有重大意義。

想要借助無序且缺乏結構的點云數據進行3D物體形狀的補全，我們需要充分挖掘已知點云中的結構信息與長程關系。為此，我們將點云補全問題建模為一個集合到集合的翻譯問題，即通過已知的點云的信息翻譯得到缺失部分的點云。我們提出了PoinTr模型，其核心在于通過Transformer-Encoder充分建模已知點云的結構信息與點間關系，再通過Transformer-Decoder學習缺失部分與存在部分的相互關系并以此重建缺失點云。

同時我們提出兩個更具挑戰性的點云補全Benchmark，用以檢驗點云補全模型在更貼近真實條件下的補全表現。其中ShapeNet-55相比于PCN數據集考慮了更多樣的任務（點云補全與點云上采樣）、更多樣的種類（從原本的8類到55類）、更多樣的缺失視角（從原本的8視角到任意可能視角）以及更多樣級別的缺失（缺失25%到75%的點云）；ShapeNet-34則可以測試模型在訓練集中不存在的類別的物體上的補全表現。

ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer

（ShapeNet-55/34數據集）

方法

下面介紹我們的整體框架，我們提出的PoinTr主體由Transformance Encoder-Decoder構成：

ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer

簡單來說，在對點云進行補全時，我們會先將點云處理成為固定數目的點代理，方便作為Transformer的輸入；然后我們通過Encoder對現有點云進行編碼，通過Query Generator后生成第一階段的點云中心和對應的動態Queries；最后這些Queries通過Decoder被翻譯成點代理，點代理經過一個FoldingNet得到相對于特定中心點的偏移量，通過將對應中心進行移動，我們可以得到某個點代理對應的局部點云。

點代理生成：

想要將點云作為Transformer的輸入，首先我們需要將點云處理成一個序列。最簡單的想法是將每一個點作為序列的一個元素作為輸入，但是這樣會帶來非常大的計算資源負擔。所以我們提出可以將點云處理成一系列的點代理，用來代表點云上的一個局部區域特征。首先，我們對點云進行最遠點采樣（FPS），得到固定的N個中心點 ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer ；然后，我們使用一個輕量的DGCNN對局部區域進行特征提取，這樣我們可以得到N個局部區域的特征，其中對應了以為中心點的區域的特征。最后，我們利用一個MLP網絡，提取每一個局部特征的位置嵌入(positional embedding)，相加后得到點代理，即 ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer ，作為Encoder的輸入。

Encoder-Decoder結構：

ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer

如上圖所示，Encoder由多頭自注意力層(multi-headself-attention layer)與前饋神經網絡(feed-forward network)組成，Decoder則由多頭自注意力層、編碼器解碼器交叉注意力層和前饋神經網絡構成。

幾何敏感的Transformer：

ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer

我們針對點云輸入設計了一種即插即用的新型transformer block。在原本的transformer 模塊中，網絡只利用自注意力機制挖掘不同部分之間的關系，這其實是一種基于特征相似度的長程語義關系，為了利用點云數據的歸納偏置，我們將局部幾何關系補充到自注意力模塊。

我們根據點代理 ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer 對應的三維點坐標，使用kNN將空間中相鄰的點代理拼接在一起，使用一層線性層進行局部幾何信息學習，通過將該結果和自注意力機制的結果進行融合，我們可以同時挖掘長程語義相關性，也同時保留了有效的局部幾何關系，有效的提高了模型的性能。

Query生成器：

Queries是待預測點代理的初始狀態，用于指導缺失點云的重建。我們首先通過Encoder的輸出特征得到全局特征 ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer ，如最大池化，并通過一個線性層預測粗略的缺失點云中心點坐標。將缺失點云中心點坐標與全局特征拼接后，用一個多層感知機生成query特征，即

ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer

點云預測：

ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer 通過Decoder被翻譯為一個點代理，該點代理對應了以為中心的局部點云。我們利用FoldingNet對點代理進行偏移坐標重建：即

ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer

最后我們將輸入點云與預測結果進行拼接，即可以得到最終的預測結果。

實驗結果

首先我們將PoinTr和現有一些方法在ShapeNet-55與ShapeNet-34上進行了實驗，在Simple，Moderate與Hard三個難度下（缺失25%，50%，75%點云），PoinTr在Chamfer Distance與F1指標上都取得了最好表現；

同時我們也在PCN數據集上進行了測試，也取得了最好表現。

為了驗證我們提出的方法的有效性，我們對我們的方法進行了消融實驗，可見我們提出的方法都有效提高了Transformer模型在點云補全任務上的效果。

ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer

最后我們使用我們的方法對真實雷達數據進行補全，在數值結果和可視化結果下都取得了提升。

總結

在這項工作中，我們提出了適合點云補全的PoinTr模型，很好地將Transformers引入到點云補全任務中，并在已有的合成數據集與真實數據集上取得了目前最好性能。除此以外，我們提出了更具挑戰性的ShapeNet-55和ShapeNet-34，來模擬真實條件下的復雜缺失場景。我們希望本文提出的PoinTr和新的Benchmark可以為未來點云補全提供思路與啟發。

參考文獻：

[1]Ashish Vaswani, Noam Shazeer,Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, andIllia Polosukhin. Attention is All You Need. NeurIPS, pages 5998–6008, 2017.

[2]Haozhe Xie, Hongxun Yao, Shangchen Zhou, Jiageng Mao,Shengping Zhang, and Wenxiu Sun. GRNet: Gridding Residual Network for Dense PointCloud Completion. ECCV, pages 365–381, 2020.

[3]Wentao Yuan, Tejas Khot, David Held, Christoph Mertz,and Martial Hebert. PCN: Point Completion Network. 3DV, pages 728–737, 2018.

[4]Zhirong Wu, Shuran Song, Aditya Khosla, Fisher Yu,Linguang Zhang, Xiaoou Tang, and Jianxiong Xiao. 3D ShapeNets: A Deep Representationfor Volumetric Shapes. CVPR, pages 1912–1920, 2015.

[5]Andreas Geiger, Philip Lenz, Christoph Stiller, andRaquel Urtasun. Vision Meets Robotics: The KITTI Dataset. International Journalof Robotics Research, 2013.

掃碼添加小助手微信（AIyanxishe3），備注ICCV2021拉你進群。

ICCV 2021 Oral | PoinTr：幾何敏感的多樣點云補全Transformer

雷鋒網雷鋒網雷鋒網

雷峰網特約稿件，未經授權禁止轉載。詳情見轉載須知。

0人收藏

我在思考中

運營

發私信

當月熱門文章