<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      智慧安防 正文
      發私信給李雨晨
      發送

      0

      港科大教授權龍:三維視覺重新定義人工智能安防

      本文作者: 李雨晨 2019-04-03 16:04 專題:2019中國人工智能安防峰會
      導語:計算機視覺迎來自己的黃金時代 ,但通用人工智能和視覺仍然遙遠。

      港科大教授權龍:三維視覺重新定義人工智能安防

      近日,由雷鋒網 & AI掘金志主辦的「第二屆中國人工智能安防峰會」在杭州召開。

      峰會現場,香港科技大學教授,CVPR 2022、ICCV 2011大會主席,Altizure創始人權龍教授發表了題為《三維視覺重新定義人工智能安防》的演講。

      權教授表示,人工智能的核心是視覺,視覺定義了智能安防,但現在的視覺仍局限在二維識別層面,未來三維視覺重建將會成為最重要的任務, 它也將重新定義智能安防。

      權教授也談到,現在計算機視覺本質上是大數據統計意義上的分類與識別。

      “我們的終極目標是對圖像的理解,也就是認知,但當前的計算機視覺只處于感知階段,我們并不知如何理解,計算機視覺一直是要探索最基礎的視覺特征,這一輪視覺卷積神經網絡CNN本質上重新定義了計算機視覺的特征。但人類是生活在三維環境中的雙目動物,這使得人類生物視覺的識別不只是識別,同時也包括三維感知與環境交互。”

      “因此我們要和三維打交道,二維識別所能做的事,在當前眾多復雜場景中,是遠遠不夠的。但三維重建不是最終目的,而且是要把三維重建和識別融為一體。”

      以下為權龍教授的現場演講內容,雷鋒網作了不改變原意的編輯及整理:

      感謝雷鋒網的邀請,今天我主要分享下現階段計算機視覺的現狀與未來發展方向,以及三維視覺在人工智能安防中的應用。

      我們知道,現在AI安防的核心,本質上是計算機視覺,而計算機視覺分為兩大部分,分別是識別和重建。

      “識別”是現在非常熱門的方向,相比而言,大家對“重建”的理解卻并沒有那么透徹。我們需要知道這一點,計算機視覺不止局限于識別,三維重建在其中扮演的角色甚至更為重要。

      這是三維重建和安防融合的實際案例:

      港科大教授權龍:三維視覺重新定義人工智能安防

      港科大教授權龍:三維視覺重新定義人工智能安防

      港科大教授權龍:三維視覺重新定義人工智能安防

      港科大教授權龍:三維視覺重新定義人工智能安防

      這些景物都是由三維構建,我們把實時視頻投影到三維,用戶在界面上也可以“前、后、左、右”拖動操作。

      接下來我要講的是當前計算機視覺存在的問題,以及為何三維視覺將重新定義計算機視覺,并且重新定義人工智能安防。

      人工智能的本質上是讓計算機去聽、看、讀,在所有的信息里面,視覺信息占了所有感官的80%,所以視覺基本上是現代人工智能的核心。

      對我們來說,其實并沒有泛泛的人工智能,人工智能需要具體根據技術維度和場景維度,區分開來看,人工智能的發展、革命和應用落地,一定是取決于以及受限于計算機視覺發展、革命和應用。

      而人工智能安防也同樣是伴隨著計算機視覺的發展而崛起。

      2012年是非常重要的一年,當時在ImageNet比賽中,有團隊用卷積神經網絡CNN把圖像識別準確率從75%提高到了85%,這件“非常小”的事情帶動了這一輪深度學習之下的人工智能,所以我們也可把2012年稱作是這輪以深度學習為代表的人工智能元年。

      這件事再回到1998年,那個年代Yann Lecun已經發表了卷積神經網絡LeNet,這個網絡呢,首先它輸入的圖像比較小,只黑白單通道32*32,只能識別出一些字符和字母;因為也沒有GPU,所以當時整個網絡也只有60萬的參數。

      到了2012年卷積神經網絡復活出現了AlexNet。AlexNet和1998年LeNet的卷積神經網絡相比,它的內部結構基本不變,但可輸入的圖像尺寸不一樣:1998年的模型,輸入尺寸為32*32,且只有一個通道。新的模型輸入尺寸已經擴大到了224*224,而且有三個通道。最關鍵的是里面有了GPU,當時的訓練用到了兩塊GPU,參數達到將近6000萬。

      港科大教授權龍:三維視覺重新定義人工智能安防

      這么多年來計算機視覺的卷積神經網絡,算法和結構,基本的結構變化是很小的。

      但1998年到2012年這十五年來發生了兩件特別重要的事:一是英偉達研發了GPU;第二就是李飛飛創建了ImageNet,她把幾百萬張照片發到網絡上并發動群眾做了標注。也正是因為算力和數據,才創造了AlexNet的成就。

      到了2015年,機器視覺的識別率基本超越了人類。其實人類在識別方面并沒有那么強,我們的記憶非常容易犯錯誤。根據統計,人類在分類上的錯誤率達到了5%。而機器,從2015年之后你們看各種ImageNet在公開域數據集上的錯誤率已經遠遠低于5%。

      但為什么ImageNet在兩年前停止了比賽,因為現在比拼的基本上都是靠算力和數據。

      2015年隨著卷積神經網絡下的人工智能技術的成熟,AI也到達了一定的巔峰,計算機視覺或者說更寬泛的安防市場也被重新定義。

      也在這一時期,曠視、商湯這幾家做視覺的公司進入了安防市場。

      從2012年到2019年的7年間,所有的數據又都翻了一千倍,計算速度比以前快一千倍,模型也比以前大一千倍。2012年訓練AlexNet模型需要使用兩塊GPU,花費兩個星期;今天做同樣的事情只需要一塊DGX-2,十幾分鐘就能完成。

      從整個模型的參數來看,2012年的AlexNet已非常可觀,6000萬的參數非常龐大,這個數字我們當時都不敢想象。到今天這個網絡又要放大千倍,達到十億級的參數量。但是從算法、架構來說,現在基本上都是標準的卷積神經網絡,其實并沒有太大的進步。

      我們也可以想一下,計算機視覺里面的識別到底能夠達到什么程度?其實它并沒有那么強,它只是在一個大數據統計意義上的識別而已。

      大家都聽說過無監督學習,但無監督學習的結果和應用的場景并不是太多。現在可用的、做的好的也就是可監督的,也就是CNN。

      我簡要概括下,現在的計算機視覺就是基于卷積神經網絡而來,整個CNN的架構非常簡單,能做的事其實也沒那么多,它提取了高維的特征,然后要結合其它方法解決視覺問題。

      如果你有足夠的數據并且能夠明確定義你想要的東西,CNN的效果很好,但是它有沒有智能?其實沒有。

      你說它蠢,它跟以前一樣蠢。它能識別出貓和狗,但我們要知道貓和狗的分類都是我們人類自己定義的,我們可以把貓和狗分開,也可以把復雜的狗類動物進行聚合和分類,這些東西本質上來說并不是客觀的,而是主觀的。

      我們做計算機視覺研究的理想,是讓機器進行理解圖像。如何讓它進行理解?這非常的困難,直到現在也沒有人知道它怎么去進行理解。現在它能做的,只能做到認知。我們研究計算機視覺的目的是得到視覺特征,有了視覺特征后才能開展一系列工作。

      為什么視覺特征如此重要?在語音識別領域,語音的特征已經定義得非常清晰——音素。但如果我們拿來一個圖像,問它最重要的視覺特征是什么,答案并不明確。大家知道圖像包含像素,但像素并不是真正的特征。像素只是一個數字化的載體,將圖像進行了數字化的表述。計算機視覺的終極目標就是尋找行之有效的視覺特征。

      在這樣一個擁有視覺特征前提之下,計算機視覺也只有兩個現實目的,一個是識別,另一個是三維重建。

      它們的英文單詞都以“re”做前綴,說明這是一個反向的問題。

      計算機視覺不是一個很好定義(ill-posed)的問題,沒有一個完美的答案或方法。

      這一輪的卷積神經網絡(CNN)最本質的一件事是重新定義了計算機視覺的特征。在此之前,所有的特征都是人工設計的。今天CNN學來的東西,它學到特征的維度動輒幾百萬,在以前沒有這類網絡的情況下是根本做不到的。

      縱使CNN的特征提取能力極其強,但是我們不要忘記建立在CNN基礎上的計算機視覺是單目識別,而人類是雙目。我們的現實世界是在一個三維空間,我們要和三維打交道。拿著二維圖像去做識別,這遠遠不夠。

      在雙目視覺下,要包含深度、視差和重建三個概念,它們基本等價,使用哪個詞匯取決你處在哪個群體。

      傳統意義上,三維重建是在識別之前,它是一個最本質的問題,三維視覺里面也要用到識別,但是它的識別是對同樣物體在不同視角下的識別,所以說它的識別是更好定義(well-posed) 的一個識別,也叫匹配。

      雙目視覺對整個生物世界的等級劃分是非常嚴格的。大家知道馬的眼睛往外看,對角的部分才有可能得到一部分三維信息,但它的三維視角非常小,不像人類。魚的眼睛也是往兩邊看的,它的主要視線范圍是單目的,它能看到的雙目視區也是非常狹窄的一部分。

      人類有兩只眼睛,通過兩只眼睛才能得到有深度的三維信息。當然,通過一只移動的眼睛,也可以獲得有深度的信息。

      獲取深度信息的挑戰很大,它本質上是一個三角測量問題。第一步需要將兩幅圖像或兩只眼睛感知到的東西進行匹配,也就是識別。這里的“識別”和前面有所不同,前面提到的是有標注情況下的識別,這里的“識別”是兩幅圖像之間的識別,沒有數據庫。它不僅要識別物體,還要識別每一個像素,所以對計算量要求非常高。

      在生物世界里,雙目視覺非常重要,哺乳動物都有雙目視覺,而且越兇猛的食肉的動物雙目重疊的區域越大,用雙目獲得的深度信息去主動捕捉獵物。吃草的或被吃的動物視覺單目視覺,視野很寬,只有識別而無深度,目的是被進攻時跑得快!

      在這一輪的CNN之前,計算機視覺里面研究最多的是三維重建這樣的問題,在CNN之前有非常好的人工設計的視覺特征,這些東西本質上最早都是為三維重建而設計,例如SIFT特征。而在這之后的“識別”,只是把它放在一個沒有結構的圖像數據庫里去搜索而已。 由此可見,現代三維視覺是由三維重建所定義。CNN誕生之前,它曾是視覺發展的主要動力源于幾何,因為它的定義相對清晰。

      我們再來看一下當今的三維重建技術的現狀和挑戰。

      三維視覺既有理論又有算法,一部分是統計,另外一部分則是確定性的,非統計,也就是傳統的應用數學。

      計算機視覺中的三維重建包含三大問題:一、定位置。假如我給出一張照片,計算機視覺要知道這張照片是在什么位置拍的。二、多目。通過多目的視差獲取三維信息,識別每一個像素并進行匹配,進行三維重建。三、語義識別。完成幾何三維重建后,要對這個三維信息進行語義識別,這是重建的最終目的。

      這里我再強調下,我們要把三維場景重新捕捉,但三維重建不是最終的目的,你要把識別加進去,所以說最終的應用肯定要把三維重建和識別融為一體。

      現在三維重建的主要挑戰是,算力不夠,而且采集也比較困難。我舉個例子,我們安防場景識別一個攝像頭比較容易,但如果實時重建N個攝像頭的實景,這對算力要求非常高。這些限制也使得當前的單目應用比較多,但我認為,未來雙目一定會成趨勢。

      在深度學習的影響下,三維重建已經取得了比較大的成就。CNN在2012年之后的幾年內,對三維重建的影響不是很大。但是從2017年開始,CNN就對三維重建產生了重要的影響。在三維重建領域有一個數據集叫KITTI,從2017年,我們開始用三維卷積神經網絡。

      以前是把它作為一個跟識別有關系的二維CNN,更現代的雙目算法都是基于完整的三維卷積神經網絡。現階段三維卷積神經網絡的表現也非常強,給任何兩幅圖像,錯誤率只有百分之2到3。

      現在計算機視覺覆蓋的應用場景,被計算機視覺重新定義,但這些應用也受制于計算機視覺的技術瓶頸。

      雖然計算機視覺對安防行業的推動作用很大,但基本也不外乎識別人臉、車、物體等應用,如果計算機視覺得到進一步發展,安防行業也將再度被重新定義。

      而我認為,三維視覺將對安防產生非常深遠的影響。

      三維重建在安防領域的應用,第一個是大規模城市級別的三維重建。

      港科大教授權龍:三維視覺重新定義人工智能安防

      每個大型城市動輒都百萬級的攝像頭,把攝像頭融合在這樣的一個實景三維場景里,才可達到城市級管控的效果,這是AI安防最理想化的形態。

      現在政府都在通過一張實景圖對城市進行治理,這張圖以前是二維的,但今后一定是實景的,是三維的。

      我們港科大的三維視覺初創公司Altizure就是一家做城市級別的實景三維重建和平臺企業,大規模重建有兩方面非常有挑戰性:

      第一是因為它的數據量非常大,我們現在建模動輒百萬級的高清圖像,要有強大的分布式以及并行算法,幾個星期才能做完。

      第二就是可視化,一張實景圖的展示也特別有挑戰性,因為一張實景圖數據量非常大,即便是在任何一個端口的瀏覽實景三維都是非常有挑戰性的。

      現時只有Altizure可以應對這個挑戰。

      我們做的一個典型案例就是為深圳坪山區布局了時空信息云平臺,我們對坪山的大片住宅區域進行了三維重建,后臺用戶可在三維實景圖像上進行“上、下放大“以及”前、后、左、右”拖拽移動,來查看區域實景。

      后臺用戶也可用鼠標在三維實景圖像中選取部分區域,然后這一區域的各個重點視頻監控畫面便在大屏幕中一一實時展示。坪山第一期項目的實時監控視頻顯示,與常規的視頻監控后臺呈現效果相似,總體更為傳統一些。

      而在二期和三期,我們開始可以把所有的視頻在三維平臺上進行展示。

      現在深圳已經有很多區在布局這類實景三維立體時空信息平臺。

      有了這樣的平臺,不僅是視頻,其實還有一些別的數據也是可以加進去應用。

      這個總控系統,集成了景區的監控攝像,閘機,商店,wifi等公共設施,實時可視化人流、電瓶車位置。三維實景給景區總控和下一步游客的導覽帶來了便利。

      下圖是我們在廣州做第一個案例,對歷史建筑進行保護以及城市規劃。

      港科大教授權龍:三維視覺重新定義人工智能安防

      Altizure實景三維視覺平臺現在已經有180個國家的實景三維內容和30萬專業用戶。

      港科大教授權龍:三維視覺重新定義人工智能安防

      我們的香港科技大學計算機視覺實驗室和初創公司Altizure 在全球引領視覺三維重建的研究與應用。我們的目的并不是為刷榜而刷榜,但在一些關鍵的三維榜單,我們從去年四月以來一直穩居榜首!

      港科大教授權龍:三維視覺重新定義人工智能安防

      最后總結一下,計算機視覺中的“識別”定義了智能安防,但現在的“視覺”和“識別”仍局限在二維,三維重建是未來計算機視覺中最為重要的任務,因此三維重建也將重新定義人工智能以及智能安防。

      現在的視覺研究,同質化現象非常明顯。

      我們在八十年代就開始做人工智能了,今天的現狀,有點像是歷史重演,計算機視覺的本質跟以往并沒什么差別,只是大家用的硬件工具不一樣。

      計算機視覺雖然正處于黃金時期 ,但它的發展還是非常有局限性的,我認為,所謂的通用人工智能和通用計算機視覺還遙遙無期。

      謝謝大家!

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      分享:
      相關文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 91人妻精| 色视频在线观看免费视频| 国产a在视频线精品视频下载| 微拍福利一区二区三区| jizzjizz日本人妻| 日韩精品人妻中文字幕| 太仓市| 肉色网站| 国产精品国产三级国产专播| 狠狠躁夜夜躁人人爽天天5| 精品少妇爆乳无码av无码专区 | 成年午夜性影院| 中文字幕亚洲综合第一页| 日韩亚洲国产中文字幕欧美| 中文字幕亚洲精品第一页| 亚洲中文字幕免费| V一区无码内射国产| 亚洲综合色中文网| 无码人妻精品一区二区三| 亚洲第一无码av无码专区| 亚洲AV日韩AV不卡在线观看| 欧美区国产区| 页游| 曲阜市| 黑人巨大精品欧美| 一本无码av中文出轨人妻| AV秘 无码一区二| 中文字幕乱码亚洲中文在线| 在线看国产精品自拍内射 | 亚洲色欲色欲天天天www| 思茅市| 伊人久久无码中文字幕| 亚洲AV无码一二区三区在线播放| 91在线小视频| 国产精品va无码一区二区| 中文人妻AV高清一区二区| 读书| 大胸少妇午夜三级| 国产3P视频| 99久久无码私人网站| 日韩欧美中文字幕在线三区|