1
| 本文作者: 李尊 | 2016-07-27 18:58 |
ICVSS全稱International Computer Vision Summer School,是一年一度的計算機視覺領域的重要會議,今年會議選擇于7.17-23號在意大利西西里島舉行。

在剛剛過去的7.23號,ICVSS2016—第十屆國際計算機視覺暑期研討會在美麗的意大利西西里島落幕。
今年的ICVSS主題是“計算機視覺:接下來會發(fā)生什么?”
計算機視覺是讓機器能夠看見的科技,ICVSS2016—第十屆國際計算機視覺暑期研討會目的在于對當下計算機視覺領域提供一個客觀清晰的評價,并且對目前領域內相關研究做出深度分析。在這次大會中主要關注:計算機視覺領域接下來還會發(fā)生什么?
在大會期間有學術界和工業(yè)界的頂級學者和行業(yè)領袖進行演講,他們通過自己的成功經(jīng)驗從理論和實踐層面來詳解計算機視覺領域中的問題。主題演講者包括:
? Michael Black, 馬克斯-普朗克智能系統(tǒng)研究所
? Dhruv Batra, 弗吉尼亞理工大學
? William T. Freeman, 麻省理工學院CSAIL實驗室
? Andrej Karpathy|斯坦福大學
? Koray Kavukcuoglu| 谷歌Deepmind
? Yann LeCun| Facebook FAIR實驗室&紐約大學
? Sergey Levine伯克利,華盛頓大學,谷歌
? Devi Parikh, 弗吉尼亞理工大學
? Pietro Perona, 加州理工學院
? Ashutosh Saxena, 斯坦福大學,康奈爾大學
? Shahram Izadi, 微軟
? Bernt Schiele, 馬克斯-普朗克信息研究所
? Jamie Shotton, 微軟研究院,劍橋大學
? Stefano Soatto, UCLA
? Antonio Torralba, 麻省理工學院CSAIL實驗室
在本文中,我們將會詳細介紹幾位學術界和工業(yè)界大牛在ICVSS2016大會中的演講,把摘要及內容總結給大家。
首先給大家分享的是來自Facebook AI Research & NYU(Facebook FAIR實驗室與紐約大學)的Yann LeCun(燕樂存),他在大會中分享的內容是:深度無監(jiān)督學習:使用常識探索AI發(fā)展之路(Deep Unsupervised Learning:the Road to AI with Common Sense)
深度學習是計算機視覺和語音識別中的變革過程中的關鍵所在。目前很多工作都在將深度學習應用到自然語言理解、會話系統(tǒng)應用以及翻譯中,比如基礎視覺任—VQA和視頻注釋。但是絕大多數(shù)的深度學習都提前使用人類注釋的數(shù)據(jù)進行訓練。Yann認為對超大型深度學習系統(tǒng)進行訓練,讓他們能夠獲得類似于常識的經(jīng)驗,這要求深度學習系統(tǒng)在沒有被人類標記的“自然”數(shù)據(jù)中進行學習。機器能夠像幼年時期的動物或者人類一樣學習自然知識和真實世界的參數(shù)嗎?
對于AI研究領域來說這是下一個時間所面臨的挑戰(zhàn),在演講中Yann會提到一些有希望解決這些課題的研究技術與方法。

來自Google DeepMind 的Koray Kavukcuoglu,他在大會中分享的內容是:針對agents的深度學習(Deep Learning for Agents)
近幾年來,深度學習已經(jīng)提高或者近乎取代許多監(jiān)督基準方面標準視覺、語音和自然語言處理途徑的相關問題。同時,在深度強化學習模型方面的進步也讓使用端對端方法訓練agents來解決復雜任務成為可能。然而,最具挑戰(zhàn)性的問題時如何讓agent在完全沒有直接指導或者回報信號的情況下完全理解自身的環(huán)境。
在這次演講中Koray Kavukcuoglu首先介紹了幾種深度強化學習的方法,這幾種方法在agent基準上都能實現(xiàn)目前最好的結果。然后Koray Kavukcuoglu具體講了在通用圖像和視頻模型中近期的研究成果,最后Koray Kavukcuoglu與觀眾一起探討了在深度學習和通用agents模型中未來發(fā)展的方向。

來自CSAIL麻省理工學院計算機科學與人工智能實驗室(Computer Science and Artificial Intelligence Laboratory)William T. Freeman在大會中上分享了:看見微小的運動,使用聲音去學習視覺(Seeing tiny motions, and using sound to learn about vision)
世界上充斥著微小的運動,這些都可以用來可視化以幫助預測機械故障、研究物理或生物過程,或者診斷疾病。在演講中William T. Freeman介紹了一個他們開發(fā)的運動顯微鏡,并用它的輸出例子來進行展示。
運動產生聲音,聲音可以帶領研究學者推斷產生聲音的對象的材料屬性。William T. Freeman還介紹了有關“視覺表示聲音”的工作,這些聲音視覺信號可以用來幫助訓練視覺系統(tǒng)來推斷物體的材料屬性。

大會評選出了兩篇最佳論文,分別是:
Convolutional Two-Stream Network Fusion for Video Action Recognition(用于視頻動作識別的卷積雙流網(wǎng)絡融合)
Robust Visual SLAM Across Large Time Lags(跨越大型時間延遲的魯棒性視覺SLAM算法)


另外針對學術項目大會特別組織了一次研討會,讓學生有機會與計算機視覺領域里世界頂級的實驗室以及業(yè)界龍頭企業(yè)進行互動、交流、學習,其中參與的業(yè)界討論的實驗室以及企業(yè)有:
? Facebook Ai Research| Facebook AI實驗室,美國
? Google DeepMind, |谷歌Deepmind,美國
? Microsoft Research Cambridge|微軟劍橋研究院,英國
? OSRAM Corporate Technology|歐司朗科技集團,德國
? Qualcomm Research|高通研究院,奧地利
? Rakuten|樂天株式會社,日本
? Toyota Research Europe|豐田歐洲研究院,比利時
? Toshiba Research Europe|東芝歐洲研究院,英國
? Xerox Research Centre Europe|施樂歐洲研究中心,法國

有關于ICVSS2016會議最佳論文以及其他主題演講消息,請繼續(xù)關注后續(xù)報道。
PS : 本文由雷鋒網(wǎng)獨家編譯,未經(jīng)許可拒絕轉載!
via ICVSS2016 Twitter
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。