五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

本文作者：楊曉凡

2019-06-26 22:48

專題：CVPR 2019

導語：真實世界中視覺系統的表現如何

雷鋒網 AI 科技評論按：計算機視覺頂會 CVPR 2019 上舉辦了首屆「Computer Vision After 5 Years - CVPR Workshop」，領域內的多位知名學者受邀演講，和大家分享他們對于 5 年后的計算機視覺領域發展的看法。

在上篇中，雷鋒網 AI 科技評論已經介紹了 Cordelia Schmid、Alexei Efros 兩位的演講內容。這篇中我們繼續帶來其他幾位講者的內容。

演講三

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

Facebook 人工智能研究院（FAIR）的研究科學家、目標檢測界的領軍人物 Ross Girshick 上午還在教學講座，下午就在這個研討會進行又一個演講。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

就在 Ross Girshick 之前演講的 Alexei Efros 說到有四件我們需要改變看法的事情，Ross 一開場也就說，他的演講相當于只針對其中的第四點數據集的一點想法。他的演講主題是「Big Little Data」。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

目前在深度學習時代，可以說「大規模、類別均衡的數據集+手工標簽+神經網絡=不錯的表現」，不過這也是我們唯一掌握的模式，所有不符合這個模式的都是還沒解決的問題。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

在這個演講里，Ross 打算討論的是一個和這個模式非常類似，但是還沒被解決的問題。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

從命名說起，人類和機器之間交流、機器和機器之間的交流會打開一個很大的新挑戰：實體命名。自然場景中的物體非常多非常細，對它們的命名是一個尚未得到充分研究的挑戰，這也將是未來的重要發展方向。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

相比于當前的數據集、當前的對象識別任務中只檢測主要的一些物體，如果要檢測場景中的所有物體，這有一系列不同：首先需要大幅擴充詞匯庫，其次，如果希望能服務更豐富的行為的話也需要更豐富的表征。實際上，要檢測所有的物體，其實并不僅僅是檢測更多類別而已，它會啟發很多全新的研究課題。

很明顯的，第一個問題：是要如何評價分類結果；第二個問題是，如何應對數據效率、長尾數據的狀況。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

長尾數據的狀況其實遠比我們一般印象里的糟糕，他們統計了 COCO 數據集中的類別分布比例，并同步嘗試了用更少的數據訓練模型。在減少到只有 1k 訓練樣本時，超過 90% 的類別都仍然有至少 20 個樣本，甚至還沒有到小樣本學習的范疇，但模型的準確率已經出現了大幅下降。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

而如果統計更大范圍的圖片內的類別分布，總的類別數目越大時，最后出現的罕見類別也就越多、每個類別樣本越少。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

Facebook 探究這個問題的努力是設計了 LVIS 數據集。它基于的是 COCO 數據集中的圖像，數據總量很大，但是樣本量很小的數據類別也很多。非常多的實例分割標注，但是包含的長尾數據中也有數量很少的類別，這就是 Big Little 兩個詞的所指。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

Ross 說道，構建數據集時就需要重新思考不少東西：過往的數據集構建時，做法都是先選定想要包含的類型（哪一千個類別），再通過關鍵詞搜索對應類別的圖片，然后添加到數據集中。這樣的結果就是模糊的類別少、類別總數目有限、不同類型的樣本分布過于平衡。這其實都是和更廣泛的圖像、生活中的圖像的特性不符的，也達不到檢測所有物體的目標。LVIS 的設計目標和方法都有所不同，所以不再有這些特點（也可以說是缺點）。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

Ross 著重說了一下他們對「類別」概念的重新思考。目前的對象識別數據集中都有許許多多類別名，但是「類別名只是一種表達」，并不能真的等同于類別本身的定義。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

實際上，類別就是具有靈活性和多義性的，比如玩具鹿可以同時屬于「玩具」類別和「鹿」類別，小汽車和卡車都可以屬于「交通工具」，以及同一個物體可以有不同的稱呼。一種直白的處理方式是把所有類別都列出來，然后每一個對象實例都要分別一一標注出它是否屬于某個類別。但類別和實例稍微多一點以后這種做法就是不行的。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

除此之外，真實世界的物體分類很多時候也就是模糊的，比如 hotdog（熱狗）、taco（肉卷）、sandwich（三明治）三者之間的區別就很難說清，cereal（燕麥粥）和 soup（粥）也很類似。對于 toast 的理解就更是令人迷惑了。沒有準確的定義，類別間的區別非常模糊。這都說明了沒法做以往那樣的直白的標注。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

Facebook 的解決方案是用聯邦數據集的概念，不做所有圖像中的實例的精細標注，而是把整個數據集看作許多個類別數據集的集合；其中每個類別數據集由出一定數量的正例和負例組成，除此之外的圖像都允許處于未知的狀態，不再逼迫分類器一定要給出某個結果。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

這種做法也帶來了一些標注方面的新特性。建立這個數據集他們花了一年多時間，目前還沒完全完成。感興趣的研究者可以訪問 www.lvisdataset.org。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

對于數據效率問題，Ross 有一個有趣的說法：我們嘗試持續提升 AP 了這么多年，是時候把它降下來了——需要讓大家知道這不是一個已經完全解決的問題。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

數據中的長尾特性是不可能消除的，檢測不同類別對象的 mAP 有明顯的高低區別，而且 Ross 認為當前的小樣本學習根本就還沒發展到可以解決問題的程度。從小樣本中學習的能力真的是未來五年中的一個非常重要的課題。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

Ross 并沒有介紹他們在這方面的新的成果，但是他們將在 ICCV2019 上舉辦比賽，就基于 LVIS 數據集，通過挑戰的過程吸引更多研究者關注長尾小樣本學習問題。

演講四

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

MIT 電子工程與計算機科學教授 Bill Freeman 的演講主題是「The future of CV told through seven classic rock songs」。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

他說這個主題，用搖滾比喻計算機視覺，其實覺得挺貼切的。不過鑒于這些老歌曲國內讀者都不熟悉，這里暫時把比喻都略去，只關注正題內容。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

Bill Freeman 一開頭也諷刺了過去五年的論文發表模式：翻到計算機視覺教科書的隨便哪一頁，在那一頁講的課題前面加上「深度」，收集一個相關的數據集，仿照 AlexNet 的樣子訓練一個 CNN 模型，然后就可以發表在 CVPR 了。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

最近幾年的一個新風潮是從人類的視覺感知系統獲得靈感發表論文，也許接下來五年的計算機視覺論文發表模式會變成：翻開 MIT 的《視覺科學》教科書，隨便翻到哪一頁，然后仔細地把這一頁的概念融入到自己設計的網絡中，就可以把論文命名為「一個 xxxx 的架構設計」，然后補充內容以后發表到 CVPR 了。（這當然也是諷刺）

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

接下來 Bill Freeman 花時間和聽眾一起討論了許多視覺系統概念的辨析，大家交換了一下看法。鳥類能夠飛行，當時有人認為是因為鳥有羽毛，也有人認為是鳥有翅膀。現在當然公認翅膀才是對飛行來說真正重要的，羽毛不一定需要。他希望大家思考一下，后面的這些概念，對視覺系統來講哪些是翅膀、哪些是羽毛。也藉由這些討論，窺探未來計算機視覺研究有待探究的課題。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

1 人類視覺系統中獨立的背側和腹側視覺通路，對類別和位置的分別表征，大多數人認為是羽毛；

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

2，明確地表征對象的邊界，應該是翅膀；3，邊界的重建能力，應該是翅膀；

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

4，Foveation，視野的中央部分最靈敏，Bill 認為這對學術研究來說是羽毛，對商業產品是翅膀（學術研究要研究視覺系統的本質，但商業產品有恰當的功能性就夠）；

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

5，感知分類（認為上圖中是一個條形貫穿了方形和圓形），應該是翅膀；6，三色視覺，有待討論；7，高效率，低發熱，可移動性，對學術研究來說是羽毛，對商業產品是翅膀；

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

8，反向連接，大多數人認為應該是翅膀

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

在這些說完之后，Bill Freeman 告誡大家要多看看前人的成果，不要總是重復發明輪子。

演講五

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

第五位演講的是計算機視覺領域奠基人之一的 UC 伯克利教授 Jitendra Malik。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

Malik 開場首先說了像繞口令一樣的一句話：科研的藝術，就是要找重要的、未解決的、但能解決的問題，去解決。

Malik 說，其實許多年前的演講中他就曾討論過未來：在 2004 年他就做過以《The Hilbert Problems of Computer Vision》的演講，提出了一些對于計算機視覺系統的問題，希望未來的研究可以給出答案；然后在 2015 年，他做了《The (new) Hilbert Problems of Computer Vision》的演講，為 2004 年提出的問題給出了一些回答，也提出了新的問題。他說他挺喜歡這個模式的，這個問答過程就是很好的預測和回顧，而且現在我們還可以回過頭看以前對更早的問題的回答，以此作為預測未來的參考。唯一的遺憾是，今天這次演講在 2019 年，距離上一次 2015 年的預測稍微近了點。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

2004 年提出的對于早期視覺、靜態視覺、動態視覺三個板塊的問題，可以看作是在深度學習時代來之前對視覺領域的思考。在 2015 年時給出的回答分別是：

早期視覺問題

如何從圖像統計中獲得目前還不了解的信息？

在監督學習任務中訓練一個多層神經網絡就可以獲得通用的圖像表征

自底向上的圖像分割能發展到什么水平？

可以產生一小組物體分割候選，然后可以用分類器添上標簽。滑動窗口已經不再需要了。

如何根據自然圖像中的陰影、紋理進行推理？

相比于對成像過程進行反向建模，我們可以進行學習。如果數據比較稀疏，我們需要給一些參數設定先驗的值；如果有足夠的數據，就可以直接用神經網絡之類的非參數化方法學習。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

靜態場景理解

分割和識別之間如何互動？

雙向信息流。

場景、物體、部件之間如何互動？

在感知域內能夠隱式地捕捉到一些聯系，但還不是普遍的結構

識別系統中的設計和學習的角色如何？

盡量多地從數據中學習。不要設計特征。要設計網絡結構。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

動態場景理解

在大范圍運動對應關系中，高階知識起到什么樣的作用？

如何找到好的對應關系是可以通過學習得到的

如何找到并追蹤明確的結構？

重建人體形狀和動作方面已經有了巨大的進步

如何表征動作？

這還是個開放性的問題，目前我們還不理解動作和活動之間的層次結構

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

2015 年提出的新問題和現在給出的回答則是

人、地點和物體

世界上的每一個地點建模

已經有了表現優秀的 SLAM、地點分類和視覺導航

對每個物體類別建模

已經有了表現優秀的實例分割、分類和形狀重建

用于社交感知的人類建模以及算法

已經有了表現優秀的人類形狀、姿態、動作識別

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

不過對于社交感知的現狀，Malik 認為并不樂觀：今天的計算機的社交智慧少得可憐；當人類之間互動、人類和外部世界互動時，我們需要能夠理解人類的內部狀態，例子比如情感狀況、身體語言、當前目標

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

Malik 回憶了圖靈當年在圖靈機論文較為靠后的章節里對智慧的表述，然后說我們的視覺感知發展之路可以像人類小孩的學習一樣經歷六個方向的發展。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

這六個方向是：多模態學習；漸進學習；物理交互學習；探索；社交學習；使用語言。對于體現不同階段的內建過程（以觀察為監督、以互動為監督、以文化為監督），他認為這是挺合適的思考結構。

五年后的計算機視覺會是什么樣？和CV先驅們一同暢想（下） | CVPR 2019

最終，我們希望達到的效果是，看到這樣一張圖（街邊長凳上坐著一個演奏手風琴的人，邊上經過兩個路人），除了能識別出來圖中的凳子、識別出人的動作之外，還能推測路人是否會給演奏者留下一些錢。

雷鋒網 AI 科技評論總結：在這個研討會的演講中，大家關注的不再是發論文時候需要的非常具體的任務和條件限定（做實驗所必須的），而是關注整個領域里未解決的問題需要我們如何思考，以及對計算機視覺、甚至就是視覺、自然世界的本質有全面的審視。用全局的、貼近自然世界的視角看過以后，也就更理解了 Ross Girshick 在演講中說到的這個成功的模式是「我們唯一掌握的模式」，現階段能在數據集上比較、能在論文中展示算法表現的只是一部分具體刻畫后的任務，整個計算機視覺領域內尚未得出結論的問題還有很多，我們都需要用更長遠更開放的眼光去看待。到最后，預測五年后會發生什么，遠不如提醒大家「我們還可以嘗試做什么」來得重要。

雷鋒網 AI 科技評論現場參會報道。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

4人收藏

專題

CVPR 2019

本專題其他文章

楊曉凡

讀論文為生

日常笑點滴，學術死腦筋

發私信

當月熱門文章