<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給劉鵬
      發送

      0

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      本文作者: 劉鵬 2018-06-12 17:06
      導語:與單標簽圖像分類相比,多標簽圖像分類是一種更符合真實世界客觀規律的方法,尤其在圖像和視頻的語義標注,基于內容的圖像檢索等領域有著廣泛的應用。
      活動
      企業:優必選
      操作:線上公開課
      事項:基于課程學習的強化多標簽圖像分類算法

      雷鋒網 AI 科技評論按:與單標簽圖像分類相比,多標簽圖像分類是一種更符合真實世界客觀規律的方法,尤其在圖像和視頻的語義標注,基于內容的圖像檢索等領域有著廣泛的應用。

      在雷鋒網旗下學術頻道 AI 科技評論的數據庫項目「AI 影響因子」中,優必選悉尼 AI 研究院憑借4 篇 CVPR 錄用論文8.2億美元的C輪融資AI首席科學家陶大程當選澳大利亞科學院院士的不俗表現,排在「AI 影響因子」前列。

      近期,在 GAIR 大講堂上,北京大學計算機視覺碩士何詩怡分享了她用強化學習解決多標簽圖像分類問題的方法和經驗。公開課視頻回放地址:http://www.mooc.ai/open/course/499

      何詩怡,北京大學計算機視覺碩士,優必選悉尼 AI 研究院學生,主要研究方向為強化學習,深度學習等。

      分享題目:基于課程學習的強化多標簽圖像分類算法

      分享提綱

      • 基于課程學習的機制,我們提出了一種強化多標簽分類的方法來模擬人類從易到難預測標簽的過程。

      • 這種方法讓一個強化學習的智能體根據圖像的特征和已預測的標簽有順序地進行標簽預測。進而,它通過尋求一種使累計獎賞達到最大的方法來獲得最優策略,從而使得多標簽圖像分類的準確性最高。

      • 在真實的多標簽任務中,這種強化多標簽圖像分類方法的必要性和有效性。

      以下為雷鋒網 AI 科技評論整理的分享內容:

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      優必選成立于 2012 年,是一家全球領先的人工智能和人形機器人公司,目前已經推出了消費級人形機器人 Alpha 系列,STEM 教育智能編程機器人 Jimu,智能云平臺商用服務機器人 Cruzr 等多款產品,并成功入駐全球 Apple Store 零售店。

      此外,優必選還與清華大學成立了智能服務機器人聯合實驗室,與悉尼大學成立了人工智能研究院,與華中科技大學成立了機器人聯合實驗室,在人形機器人驅動伺服、步態運動控制算法、機器視覺、語音/語義理解、情感識別、U-SLAM(即時定位與地圖構建) 等領域深度布局。2018 年,優必選完成了 C 輪融資,估值 50 億美元。

      講解之前,我想感謝我的合作者們,他們在學習和工作中都給予了我很大的幫助,首先是郭天宇博士,徐暢博士,許超教授,和陶大程教授。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      開始介紹今天分享的主要內容,首先介紹多標簽圖像分類(Multi-label Image Classification),多標簽圖像分類,顧名思義,就是指一幅圖像有多個標簽。

      傳統的單標簽圖像分類是指一幅圖只有一個標簽,比如手寫數字識別數據集 Mnist:一張圖只有一個標簽,從 0 到 9 的一個數字;ImagineNet,一個數據集有 1000 個標簽,每張圖都只對應一個標簽。但在真實的生活中,一幅圖往往是屬于多個標簽的,比如一幅圖有桌子,很有可能也有瓶子,桌子和瓶子都是這幅圖像的標簽,下面是給出的多標簽圖例:

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      圖(a)中的標簽:老虎、雪、西伯利亞虎 ;圖(b)中的標簽:老虎、雪、樹、西伯利亞虎

      這兩幅圖例都屬于多標簽圖像,一副圖中有多個物體,多個物體的標簽組成了整幅圖的標簽,近些年來,這些多標簽分類的方法有著各種各樣的應用,比如圖像的語義標注,視頻的語義標注,還有基于內容的圖像檢索等等。

      相較于單標簽圖像分類,多標簽圖像分類有一些難點:

      • 難點一,標簽之間存在各種各樣的共生關系,比如天空和云彩,一幅圖中有天空,很大可能也是有云彩

      • 難點二,這種標簽之間的關系維度很高,用模型難以衡量

      • 難點三,很多標簽在語義上有重疊,比如 cat 和 kitten 都指貓,所以這兩個標簽在語義上有重疊

      • 近些年來,關于多標簽圖像分類有著各種各樣的研究,下面來介紹相關的工作。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      多標簽圖像分類的一種典型做法,就是將多標簽問題轉化為單標簽問題,最具有代表性的方法就是 Binary Relevance 方法,即我們常說的 BR 方法,假設有 3 個標簽,那么這里就有 3 個分類器,每一個分類器都對應一個二分類器,輸入 X,經過 3 個分類器,分別得到 Y1,Y2 和 Y3,它們的值都是 0 或 1,如果值是 0,就表示標簽不屬于該圖像,如果是 1,就表示標簽屬于該圖像。

      關于 BR 分類器的選擇是多種多樣的,有人使用 CNN,也有人使用決策樹。近些年來,大家使用 CNN 作為基本分類器,然后用 ranking loss 和 cross entropy loss 來訓練,但是這些方法都有一個共同的問題,它們忽略了標簽之間的相關性。但是在多標簽圖像分類問題中,標簽之間的相關性廣泛存在。

      怎么來衡量標簽之間的相關性?

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      一種簡單的方法,就是用預測過的標簽來推斷當前的標簽,即用順序預測的方法,順序預測的方法一個典型的例子就是 classifier chain 的方法,右邊是 classifier chain 的示意圖,這比剛才的 Binary Relevance 方法多了幾條線,就是從 Y1 到 Y2 的線,從 Y2 到 Y3 的線,還有從 Y1 到 Y3,剛開始的時候,X 輸入進分類器,然后得到 Y1,將 Y1 和 X 同時作為輸入,經過一個分類器得到了 Y2,然后將 X,Y1,Y2 再同時作為輸入,經過分類器得到 Y3,也就是說,后面標簽的預測依賴前面已經預測過的標簽,classifier chain 的方法需要固定的順序,而這個順序是提前定好,Classifier Chain 方法對順序非常敏感,為了減少順序帶來的影響,classifier chain 就有了各種各樣的變種,比如 ECC(Ensemble Cassifier Chain),就是用 ensemble 的方法來提高 Classifier Chain 的 performance,除此之外,還有一種 CNN-RNN 的方法。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      CNN-RNN 的方法,用 CNN 來提取圖像的語義信息,然后用 RNN 去 model 這個圖像和 label 之間的關系,但這個方法也需要一個提前定好的順序。

      除此之外,還有一些圖的模型,如下圖所示。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      圖(左)是標簽之間的共生機制;圖(右)將標簽之間的共生機制轉化成了一個圖的模型,通過求解圖的模型來求解多標簽圖像分類的問題,但是這種方法參數比較多,求解比較復雜。

      現有的方法不是同時預測圖像的標簽,就是進行順序預測,但順序需要提前定好,而且一般都是整個數據集給定一個順序,這與人,動物的學習方法相悖。人和動物一般遵循的一種從簡單到復雜的一種順序,也就是我們常說的先易后難。在生物學里,這種機制叫做課程學習機制,2009 年的 ICML 提出了這種課程學習的機制,并且驗證了能夠通過改變學習的順序(對知識進行簡單的組織),來提升機器學習的效率。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      上面是一個簡單的例子,圖(上排)是一些比較容易辨認狗的圖片,圖(下排)是比較難以辨認狗的圖片。

      使用 Curriculum Learning 來解決深度學習問題的時候,先學習圖(上排)這些比較 easy 的樣本,再去學習下面這些比較 hard 的樣本,從而去提升算法的 performance 和更加有利于它的收斂,在這里我們將這種課程學習的機制延伸到多標簽圖像分類的問題中。優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      看圖(左),boat 是十分顯眼的,所以說在這幅圖像中是 boat 屬于一個比較 easy 的 label,但是 boat 上的 person 被部分遮擋,因此 person 是比較難以預測的 label。人類對圖像預測的順序,是先預測 boat 再預測 person,這遵循了人的從簡單到復雜課程學習機制。
      圖(右)中,我們首先看到的是比較顯眼的「貓」,所以「貓」就是比較 easy 的 label,看到后面有部分遮擋的「沙發」,所以「沙發」就是比較 complex 的 label,這也是遵循了人的從易到難的課程學習機制。

      其實,對于人和動物來說,同一幅圖中物體的的順序并不是固定的,它們的順序根據物體在圖像中的大小,一些語義之間的聯系這些因素決定,給整個數據集定一個順序不符合人的課程學習機制,因此,我們就提出了基于課程學習的強化多標簽學習的方法,讓強化學習的智能體根據圖像的內容和標簽的關系,來學習該如何預測以及預測的順序。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      其次,在真實的圖像標注系統中,一般都是用戶上傳一幅圖,隨后系統會為用戶推薦幾個標簽,會給出一些反饋,面對給出的標簽,用戶會給出一些反饋。而這些反饋都很少被研究過,在這篇文章中我們也將反饋的信息都融入到了多標簽學習的過程中。

      上面我們提到的都是用強化學習來進行多標簽分類學習的問題,下面我們就來簡單介紹一下強化學習。

      強化學習是機器學習的一個重要分支,強化學習與其他機器學習的不同之處在于,首先強化學習沒有教師信號,比如它沒有 label,只有 reward。強化學習的反饋有延遲,不能夠立即反饋。強化學習輸入的相當于系列數據,它是從一個狀態到另一個狀態。強化學習智能體之間的動作是會影響到之后的數據。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      圖(左)是一個強化學習的智能體,圖(右)是環境。強化學習的智能體通過與環境交互,通過不斷的試錯學習,能夠達到目標的最優策略。

      強化學習有三個要素,第一個要素是狀態 State,第二個要素是動作 Action,第三個要素是 Reward。在 t 時刻的時候,智能體的狀態是 St,通過觀察環境,采取動作 at,同時得到環境的反饋 rt,進入到了下一個狀態 St+1,重復上述過程,直到交互結束。這就是一個強化學習的基本過程。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      除此之外,強化學習還有許多的應用,比如在大部分的 Atari 游戲中,強化學習的智能體的得分超過人類;AlphaGo(是將強化學習和蒙特卡洛樹搜索 (UCT) 結合在一起),強化學習的智能體能夠下贏世界冠軍;在文本領域,可以利用強化學習的算法,根據圖片生成文本;在圖像領域,圖(右下)是利用強化學習來做目標檢測的一個例子。

      下面介紹一下強化多標簽圖像分類學習方法。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      首先,我們來簡單介紹一下里面用的符號,X(大寫)是輸入語,Y(大寫)是 label 集,如果有 m 個標簽的話,它的 label 集就是從 1 到 m。x(小寫)是輸入的一個例子,在這里我們一般指的是一幅圖像,y(小寫)是屬于這個例子的標簽,如果這個例子有 K 個標簽,那么 y={y1,yk},yi 對應著第 i 個標簽屬于 x。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      我們將強化學習這個方法和普通的監督學習方法來進行一下對比,在傳統的監督學習方法中,在訓練的時候,x,y 已知,也就是輸入 X 和輸出 Y 在訓練的時候已知,我們學習的就是從 X 到 Y 的一個映射,但是在強化學習問題中沒有 label,也就是說 Y 未知,我們得到是只有反饋 p,在一個時刻,輸入是 x,采取動作是 zi,就會得到一個 zi 的反饋:pi。一般來說,pi 屬于 {-1,+1} 這兩個值,它反映了推薦標簽的好壞,-1 值推薦這個標簽得到的反饋不好,+1 指推薦這個標簽得到的反饋是好的。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      在這個任務中,我們將這個圖像序列建模的過程建立成一個 Markov 的過程,Markov 過程有 5 個要素,S,A,R,T,γ 。

      • S:狀態空間(state space)

      • A:動作集,一般動作集都是有限的

      • R:在執行狀態 S 下,執行動作 A 會得到一系列 R 構成的空間,稱為 R 空間,R 一般屬于 {-1,+1},它反映了執行動作 A 之后得到的反饋的好壞

      • T:在狀態 S 下執行 A 得到下一個一個狀態,就是之間狀態的轉移

      • γ:屬于 [0,1]

      • π:在這里指我們想要找的策略,是從 S 到 A 的一個映射

      首先我們來介紹第一個要素,A,即 Action。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      一個智能體它的動作就是為一幅圖選擇一個標簽,在多標簽分類圖像這個問題里面,動作 A 這個集和 label 的集一樣,如果一個數據集有 m 個標簽,它就有 m 個動作,圖(左)對應的是這個數據集的標簽集,它有 person,cat,bike 以及 sofa 這些標簽,然后它會分別對應到動作集 A 中來,比如說 person 對應 1,cat 對應 2,一一對應。

      狀態 S,State

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      狀態 S 是用一個二元組來表示的,二元組的第一個元素是圖像的元素 f(feature),第二個元素是 action history h,所以 s=(f,h),每一個狀態都屬于整個狀態空間。

      首先,feature f 是從一個 VGG16 的全連接層、4096 維的向量提取出來,VGG16 已經在 ImageNet 上面訓練好,但是還需要在多標簽數據集上進行返訓,這樣做是因為 imageNet 和這個 multi-label 數據集的標簽可能不完全一致,相較于 imageNet 這個單標簽的數據集而言,多標簽數據集的語義和空間關系會更加復雜一些,所以在 muti-label 數據集上的返訓非常有必要。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      二元組的第二個元素 h,h 是一個實向量,代表之前預測過的標簽,即從這個 episode 開始,一直到當前時刻所有預測過的標簽都叫做 action history,每個動作都對應著 1 到 M 的一個數字,所以我們將每一個動作編碼成一個向量,如果這個動作僅有 M 個動作,那么每一個動作都會被編碼成一個 M-1 位的向量,就是上圖(下)的公式,e 代表每一個動作的編碼。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      上圖一個具體的例子,初始的時候,這張圖沒有任何的標簽預測過,標簽頁面為空,然后我們進行它的第一個動作,就是預測它的標簽是 person,在這個圖里面找到了它的標簽 person,然后把它添加到 action history 里面。在 t=3 時刻的時候,預測了標簽 car,再將 car 添加到 action history 里面來,在 t=4 的時刻,預測了標簽 tree,所以再將 tree 添加到 action history 里面來,所以我們可以看到,從初始狀態一直到這個 episode 的結束,它的 action history 是從一開始的空到基本能填滿一些標簽,再看圖(左),剛才我們說每一個動作都被建模成一個 M-1 位的向量,如果我們取 n 個動作作為 action history 的話,那么 h 的維度就是 n*(M-1)。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      然后是 Transitions T,在我們這個 MDP 過程(馬爾科夫決策過程)中,T 是固定的,也就是說對于一個狀態和動作的對來說,它能夠到達的新狀態是固定的,也就是說在狀態 s 下采取動作 a,能夠達到唯一的下一個狀態值 sp,即上圖中的這個公式:T(s,a)=T((f,h)a)=(f,h')。因為對于一個 episode 來說,圖像的 feature 是不變的,都是 VGG16 全連接的那個 feature,變化的只是 action history。

      看上圖(下部),將該圖像輸入到 VGG16 中,抽取全連接層的 4096 維的 feature,組成了這個 feature f。這里,我們假設已經預測了一個標簽 person,所以這個就是它的 action history,兩者共同構成了狀態 s。在本時刻,我們預測 a=car,就會得到下一個狀態,就是同樣的狀態加上變化了的 action history,將這個 car 添加到 action history 列表中來,得到了一個狀態 s',對于每一個狀態而言,它采取了每一個固定動作之后,它得到了下一個狀態 s'也是唯一的。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      在真實的場景中,這些反饋是離散的(reward 是離散的),但是在這里為了簡化這個問題,我們將 reward 設置了一下:如果它的反饋是好的,那么就將它的 reward 設置成 1,如果它的反饋不好,就將它的 reward 設置成-1,如何來評定這個好和不好?

      在這個問題中,如果它選的標簽是對的,那么我們就認為它是好的,如果它選的標簽不屬于這個圖像,就認為它是不好的。圖(下)是一個具體的例子,在同一個狀態下,我們去選擇動作,如果它選擇的動作是 car 或 tree,就說明這個兩個標簽都是屬于該圖像,說明它選對了,就會得到 r=+1 這個標簽。如果它選的標簽是 dog 或 bus,就說明這兩個標簽是不屬于這個圖像,說明它選錯了,就會得到 r=-1。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      這是一個順序預測的例子,該例子更清晰的顯示 r 如何設置,在剛開始的時候圖像是有 horse 和 person 兩個標簽,如果我給這個圖像一個標簽「dog」,這個「dog」是不屬于這個圖像的,所以它會得到一個 reward=-1。如果給一個標簽 horse 或 person,這兩個標簽都屬于這個圖像,它們都會得到一個 reward=+1,當然預測成其他標簽也不對,它們得到的 reward 都是-1。選擇了標簽 dog 之后,我們就會選擇預測它的下一個標簽,如果它的下一個標簽預測的是 horse,就說明它選對了,就給一個 reward=+1。如果它下一個標簽選擇的是 person,也認為它選對了。當然,如果 horse 的下一個標簽選錯了,就給它一個-1,如果它的下一個標簽選對了,就給+1,另一邊也是如此。

      然后我們計算一下這兩步總體的 reward 和,可以看出當一個 reward 選對,一個 reward 選錯時,它們總體的 reward 和為 0,只有當兩個標簽都選對的時候,比如 horse,person 或者 person,horse,它才會得到 reward=+2,其他的情況會得到 0 或者-2。對于我們這個多標簽圖像分類問題轉化成標簽順序預測的問題,目標就是尋求一種預測,能夠讓它得到的 reward 和最大,也就對應著它的準確率是最高。

      上面的方法已經介紹完畢,下面我們來介紹用于求解多標簽強化圖像分類的 deep Q-learning 的算法。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      強化學習的最優策略,就是剛才講解的累計獎賞和最大的策略。在多標簽圖像分類任務中,累計獎賞和最大對應預測出的準確度最大。我們用 deep Q-learning 來解決尋求最優策略的問題,deep Q-learning 是運用神經網絡來預測每一個狀態動作對對應的 Q 值,使用已經訓練好的 CNN 作為 feature 的提取器,在訓練的時候不再對這一部分進行訓練,即這一部分的參數不再進行更新了,只需要更新 Q 網絡的參數,這樣會讓該算法收斂的更快、且更穩定。

      下圖是 deep Q-learning 的網絡結構示意圖:

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      給出一幅圖像,在 VGG 的這個網絡中輸入已經訓練好的 CNN,就會得到一個 feature

      ,將該圖像的 feature 和 action history 并在一起作為狀態,將其作為 deep Q 網絡的輸入,deep Q 網絡的輸出是每一個網絡對應的 Q 值,比如這里的 person,cat,bike...sofa 都會對應著自己的一個 Q 值,每一次在選擇的時候,我們都會選擇 Q 值最大的動作作為最優的動作來進行迭代更新。


      訓練 Q 網絡的損失函數,經典的 deep Q-learning 算法是寫成這樣的形式(見上圖第一行公式),在每一步選取動作的時候,都選取最大 Q 值對應的動作,但是這里我們根據多標簽圖像的這個問題,進行了一下變化,就是不再選取最大的 Q 值對應的動作,而是直接將下一個動作保存起來,存在 experience replay 里,更新的時候直接用這一部分(紅圈標注部分)的 Q 值,參數的迭代也是這種形式。優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      下面是 deep Q-learning 的具體算法:

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      初始的時候,我們初始化一個 replay memory D,和整個動作集 A,我們設置一個 B 作為已經預測過的動作集,然后設置了一個動作集 C 作為沒有預測過的動作集。因為在典型的強化學習問題中,對于每一個 episode 而言,智能體每一步是選取一個動作,一個 episode 的動作可以重疊,但是對多標簽圖像分類而言,每一幅圖都不會存在重復的標簽,因此在用強化學習解決多標簽圖像分類的問題時,每一幅圖,每一個時刻都不再選擇這些已經預測過的標簽,這就是為什么要設置已經預測過的動作集 B 和沒有預測過的動作集 C,然后從 t=1,T 時刻,在每一個時刻都首先計算一下 C,C 是沒有預測過的標簽動作集,C=A\B,即從 A 中將 B 的元素去掉,然后遵循∈-greedy,從 C 中選取一個動作,執行這個動作,然后會得到一個 reward r,同時進入下一個狀態,這樣一次交互就已經完成了,然后將剛才執行過的動作放入已經預測過的動作集 B 中,然后重新計算 C=A\B,然后遵循∈-greedy 這個策略,選擇下一個動作的狀態 at+1,然后將 St,at,rt,St+1,at+1 一起放在 D 中,一個和環境交互的過程就完成了(如上圖)。

      上圖(紅線下部分)是訓練的過程,在訓練的時候,我們從 D 中隨機抽取一個 mini batch 出來,然后用圖(紅線下部分)的公式來計算 Target Q 網絡的值,然后根據梯度更新 Q 網絡的參數和 target Q 網絡的參數,執行 M 次,最后通過這一系列算法的過程就會得到一個最優的動作和最優的策略,這就是 deep Q-learning 用于多標簽圖像分類算法的流程。

      下面介紹一下實現的一些細節:

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      我們用的數據集是 PASCAL VOC2007 和 PASCAL VOC2012,我們的 deep Q 網絡的設置是第一層有 512 個節點,第二層有 128 個節點。因為這個數據集有 20 個標簽,所以最后一層是有 20 個節點。數據集有 20 個標簽,每一個動作都可以用一個 19 維的向量來表示,每一個 action history h 都會編碼之前的兩個動作,所以 h 總共有 38 位。我們訓練這個網絡的 3 個 epoch,每一個 epoch 都表示整個數據集圖像都標記完,在訓練的時候,遵循∈-greedy 這個策略,∈在前兩個 epoch 的時候從 0 到 1.2,最后一個 epoch 固定在 0.1。

      介紹一下實驗的結果:

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      首先,介紹實驗中的 PASCAL VOC2007 和 PASCAL VOC2012,PASCAL VOC2007 一共有 9963 張圖,其中 5011 張是 trainval 的樣本,4952 張是 test 的樣本。PASCAL VOC2012 的數據集的圖像數量約為 VOC2007 的兩倍,是 22531 張圖,其中 trainval 的圖有 11540 張,test 圖有 10991 張,它們每個數據集都只有 20 個標簽。

      衡量指標,我們用 average percision 和 mean of averge percison 來衡量。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      首先,是我們設計實驗來探究了學習出來的 label 是不是符合課程學習的機制,我們標準的算法叫做 RMIC,然后我們設計了一個 RMIC-fixed 的算法,RMIC-fixed 是 RMIC 的一個變種算法,它是這樣設計的:

      假設在訓練集中出現次數較多的標簽,相較于訓練集中出現次數較少的標簽,預測的時候應該更靠前一些,因此我們計算了每一個標簽出現的次數,然后按照標簽次數從多到少設計了一個固定的順序,這就是我們為 RMIC 設計的固定順序,但是相對于標準的 RMIC 來說,RMIC-fixed 的 reward 設置有一些不同,舉一個例子,如果我們定義好的這個順序是 person 和 dog 的話,那么我們預測的順序是 dog 和 person 的話,那么 RMIC-fixed 得到的 reward 就是-1 和-1,RMIC 得到的 reward 是+1 和+1,RMIC-fixed 是當你預測的順序和定義好的順序完全一致的時候,它的 reward 才會都是+1。我們通過比較這兩種辦法來判斷學習到的標簽順序是不是根據 label 出現的頻率從多到少的順序。

      然后我們用下面的指標來衡量:

      • 第一個指標,類平均和樣本平均的準確率,即 class-level 和 example-level 的 precision

      • 第二個指標,指標是類平均和樣本平均的召回率,即 class-level 和 example-level 的 recall 值

      • 第三個指標,類平均和樣本平均的的指標值,即 class-level 和 example-level 的 F 值

      下面就是這個實驗的結果:

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      無論是在類平均(C-P),還是在樣本平均(E-P)上,RMIC 的 performance 遠遠好于 RMIC-fixed,所以標準的 RMIC 方法的學習順序優于簡單的定義好的順序。優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      介紹一下標簽出現順序和預測順序之間的關系,看上圖,紫色的柱體代表的是測試集中標簽出現次數的分布,藍色柱體表示第一步預測出來標簽的分布,綠色的柱體表示第二步預測出來標簽的分布,黃色表示第三步預測出來標簽的分布。

      通過觀察可以發現,第一步預測出來的標簽的分布和測試集上真實的分布,就是藍色的分布和紫色的分布大體上一致,出現次數越多的標簽會被更早的預測出來。在綠色和黃色的分布中,可以發現這種趨勢變得沒那么明顯了,也就是智能體在已經預測出簡單標簽的幫助下,能夠去預測一些比較難的標簽,比如說 person,car 和 dog,它們都是一些比較簡單的標簽,往往在第一步就會被預測出來,然后像后面的 bottle,chair 和 plant 這些標簽,它們都是一些比較難的標簽,一般在第一步都很難被預測出來,都在第二步和第三步才預測出來,也就是說第一步簡單標簽的預測對后面難的標簽的預測有幫助作用。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      除此之外,我們還預測了物體順序和大小的關系,看上圖,藍色是第一步預測出來物體大小的分布,綠色是第二步預測出來物體大小的分布,黃色是第三步預測物體大小的分布。可以看到比較大的物體,在第一步預測的時候會被預測出來,舉一個例子,比如 person 和 chair 都會比較大,通常會在第一步被預測出來,plant 和 bottle 比較小,一般會在第二步預測出來。也就是說第一步先預測出來 person,在 person 的幫助下,通常很容易在第二步和第三部預測出來 plant 和 bottle。經過這幅圖和前面的那幅圖可以得出,強化學習智能體是 能夠針對每幅圖的內容,按照從簡單到復雜的順序進行預測。

      將實驗算法和全監督的算法進行比較:

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      我們的算法在訓練的時候有 reward,在測試的時候沒有 reward,我們直接用輸入的 Q 值作為置信度的分數來進行比較,上面的這些算法都是全監督的算法,最后這一行是我們的算法。可以看到,我們的算法和全監督的算法相當,甚至會優于這些全監督的算法,上圖在 VOC2007 上的結果,下圖是在 VOC2012 山的結果,我們算法的優勢會更加明顯一些,這些結果就說明我們的算法相較于全監督的算法相當,或者是有一些優勢。

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      我們進一步分析了這個 RMIC 算法在不同的 epoch 的預測結果,這里一共列出來 3 個 epoch(豎排),觀察這些圖可以發現,從第一個 epoch 到第三個 epoch,預測出來的標簽越來越明顯,尤其是當標簽個數比較多的時候,趨勢會更加明顯一些。然后我們挨個分析一下這幾個圖,剛開始 horse 的分數不是很高,隨著 person 被預測出來,person 的分數越來越高,horse 的分數也會被預測出來。

      • 觀察第一幅圖(豎排)可以發現,person 是比較容易預測的,horse 有部分遮擋和比較難預測的,這說明簡單標簽的預測可以幫助困難標簽的預測。

      • 第二幅圖,car 比較顯眼,基本都被遮擋或者不是很明顯,我們可以看到當 car 的分數越來越高的時候,person 的分數也越來越高,也就說明,car 的預測有助于 person 的預測。

      • 第四幅圖,剛開始的時候,bottle 和 table 的 score 都不是很高,但是 person 的 score 是高于其他的標簽的,隨著 person 的 score 越來越高(越來越明顯),然后 bottle 和 table 的 score 也越來越高,說明 person 的預測有助于 bottle 和 table 的預測。

      • 第五幅圖,我們可以看到 chair 的預測直接促進了 table 和 sofa 的預測。

      結論

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      • 本文提出了強化多標簽分類圖像算法,這個算法模擬人類課程學習的機制,從簡單到復雜的進行標簽的預測。

      • 在這個算法中,一個強化學習的智能體,使用圖像的特征和之前預測過的標簽作為狀態,然后讓標簽作為動作,尋找一個使得預測準確率得到最高的策略。

      • 我們在 VOC2007 和 VOC2012 上證明了我們的實驗的有效性。

      參考文獻:

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網 (公眾號:雷鋒網) AI 慕課學院觀看。關注微信公眾號:AI 科技評論,可獲取最新公開課直播時間預告。

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      優必選悉尼 AI 研究院何詩怡:基于課程學習的強化多標簽圖像分類算法 | 分享總結

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 国产日韩精品欧美一区灰 | 日韩精品成人网页视频在线| 精品黑人一区二区三区久久| 精品人妻无码| 久久99精品久久久久久青青| 无套内谢少妇高清毛片| 五月花成人网| 日本熟女Va视频| 成人网亚洲| 思思久99久女女精品| 乌克兰少妇videos高潮| 99人体免费视频| 日韩人妻系列无码专区| 亚洲成a人v在线蜜臀| 欧美成人精品三级网站下载| 久久久久久无码午夜精品直播| 亚洲男人天堂网| 亚洲精品成人a在线观看| 婷婷四虎东京热无码群交双飞视频 | 橹橹色| 丰满少妇熟乱xxxxx视频| 玖玖精品| 亚洲国产一线二线三线| 亚洲国产区男人本色| 黄色综合| 另类专区一区二区三区| 国产精品三级av一区二区| 国产人妖ts在线视频观看| 久久久久国色av免费看| 亚洲色五月| 亚洲va国产va天堂va久久 | 人妻[21p]大胆| 国产视频一区二区三区四区视频 | 中文日产乱幕九区无线码| 色噜噜狠狠色综合av| 丝袜-91Porn| av天堂午夜精品一区| 欧美老熟妇喷水| 国产女人被狂躁到高潮小说| 亚洲色无码| 成人中文在线|