<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能學(xué)術(shù) 正文
      發(fā)私信給楊鯉萍
      發(fā)送

      0

      谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

      本文作者: 楊鯉萍 2019-08-22 10:02
      導(dǎo)語(yǔ):AI 計(jì)算機(jī)視覺(jué)任務(wù)的一大突破

      雷鋒網(wǎng) AI 開(kāi)發(fā)者按:就在不久前,Google 人工智能實(shí)驗(yàn)室宣布,他們?cè)凇笇?shí)時(shí)手部跟蹤」方面取得了新的進(jìn)展,并將這項(xiàng)新技術(shù)運(yùn)用在了 MediaPipe 中,這也是 AI 計(jì)算機(jī)視覺(jué)任務(wù)的一大突破。這一技術(shù)不光可以在手機(jī)上實(shí)現(xiàn)實(shí)時(shí)捕捉性能,甚至可以同時(shí)對(duì)多個(gè)手的動(dòng)作進(jìn)行跟蹤。目前,Google 已經(jīng)將該項(xiàng)目開(kāi)源,并且發(fā)布了相關(guān)博客介紹了這項(xiàng)技術(shù),雷鋒網(wǎng) AI 開(kāi)發(fā)者將其內(nèi)容整理編譯如下。

      谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

      概述

      能夠?qū)κ值男螤詈瓦\(yùn)動(dòng)軌跡進(jìn)行感知是改善用戶(hù)在不同的技術(shù)領(lǐng)域和平臺(tái)上的體驗(yàn)的一個(gè)重要組成部分。例如,它可以實(shí)現(xiàn)手語(yǔ)理解和手勢(shì)控制,還可以使數(shù)字內(nèi)容和信息疊加在增強(qiáng)現(xiàn)實(shí)(AR,https://ai.googleblog.com/search/label/Augmented%20Reality  )的物理世界之上。雖然對(duì)我們來(lái)說(shuō)這個(gè)能力是天生的,但強(qiáng)大的實(shí)時(shí)手部感知是一項(xiàng)極具挑戰(zhàn)性的計(jì)算機(jī)視覺(jué)任務(wù),因?yàn)槭滞鶗?huì)自我遮蓋或相互遮擋(例如手指/手掌之間的遮蔽或者握手),而且手部之間也缺乏高對(duì)比度。

      我們現(xiàn)在發(fā)布了一種新的手部感知方法,并且在 6 月的 CVPR 2019 大會(huì)上,我們已經(jīng)對(duì)該方法開(kāi)放了預(yù)覽。在這個(gè)方法展示過(guò)程中,我們通過(guò) MediaPipe——一個(gè)開(kāi)放源碼的跨平臺(tái)框架,來(lái)構(gòu)建了處理視頻和音頻等類(lèi)型的不同模式感知數(shù)據(jù)的框架。

      該方法通過(guò)機(jī)器學(xué)習(xí)(ML)從單個(gè)幀中推斷出一只手的 21 個(gè) 3D 關(guān)鍵點(diǎn),從而提供了高保真的手部和手指跟蹤。目前最先進(jìn)的方法主要依靠強(qiáng)大的桌面環(huán)境進(jìn)行推理,而我們的方法可以在手機(jī)端實(shí)現(xiàn)這個(gè)實(shí)時(shí)性能,甚至還可以擴(kuò)展到對(duì)多個(gè)手的同步跟蹤。

      我們希望通過(guò)提供該手部感知功能給廣泛的研究和開(kāi)發(fā)社區(qū),能夠有利于大家創(chuàng)造出更多全新的用例,同時(shí)激勵(lì)更多新應(yīng)用程序和新研究途徑的出現(xiàn)。

      谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

      圖 1 通過(guò) MediaPipe 在手機(jī)上進(jìn)行實(shí)時(shí) 3D 手部感知。我們的解決方案是使用機(jī)器學(xué)習(xí)從一個(gè)視頻幀計(jì)算手的 21 個(gè)三維關(guān)鍵點(diǎn)。圖中深度通過(guò)顏色灰色程度表示。

      用于手跟蹤和手勢(shì)識(shí)別的機(jī)器學(xué)習(xí)架構(gòu)

      我們的手部跟蹤解決方案使用了一個(gè)機(jī)器學(xué)習(xí)架構(gòu),該架構(gòu)由幾個(gè)模型共同組成:

      • 掌上檢測(cè)器模型(稱(chēng)為 BlazePalm)。它對(duì)整個(gè)圖像進(jìn)行操作,并返回一個(gè)定向的手部邊界框;

      • 手部標(biāo)志模型。它在掌上探測(cè)器定義的裁剪圖像區(qū)域上操作,并返回高保真的 3D 手部關(guān)鍵點(diǎn);

      • 手勢(shì)識(shí)別器,它將先前計(jì)算的關(guān)鍵點(diǎn)配置分類(lèi)為一組離散的手勢(shì)。

      這種架構(gòu)類(lèi)似于我們最近發(fā)布的 face mesh ML 模型(https://sites.google.com/view/perception-cv4arvr/facemesh),這個(gè)模型也被其他人用于的姿態(tài)估計(jì)中。將精確裁剪的手掌圖像提供到手部標(biāo)志模型中,可以大大減少更多數(shù)據(jù)(例如旋轉(zhuǎn)、平移和縮放)的需求,從而使網(wǎng)絡(luò)能夠?qū)⑵浯蟛糠中阅苡糜趨f(xié)調(diào)預(yù)測(cè)精度。

      谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

      圖 2 手部感知模型整體架構(gòu)

      BlazePalm:實(shí)時(shí)手部/手掌檢測(cè) 

      為了檢測(cè)手的初始位置,我們使用了一個(gè)名為 BlazePalm 的單鏡頭檢測(cè)器模型(https://arxiv.org/abs/1512.02325)。該模型可用于移動(dòng)實(shí)時(shí)檢測(cè),其方式類(lèi)似于 BlazeFace(https://arxiv.org/abs/1907.05047),這個(gè)模型也可以在 MediaPipe 中使用。

      手部檢測(cè)是一項(xiàng)非常復(fù)雜的任務(wù):我們的模型必須要適應(yīng)不同的手部尺寸,因此它具有相對(duì)于圖像幀更大的范圍 (~20x),并且它能夠檢測(cè)被遮擋以及自遮擋的手部狀態(tài)。

      人臉通常具有很高的對(duì)比度,例如在眼睛和嘴部區(qū)域都有明顯的區(qū)別。但由于手部缺乏這樣的特征,因此我們很難僅從其視覺(jué)特征中可靠地檢測(cè)到這些特征。不過(guò)通過(guò)提供額外的信息,如手臂、身體或人的特征,倒是有助于精確的手定位。因此,我們的解決方案使用了不同的策略來(lái)解決上述挑戰(zhàn)。

      首先,我們訓(xùn)練了一個(gè)手掌檢測(cè)器來(lái)代替手部探測(cè)器,因?yàn)橥茰y(cè)例如手掌和拳頭這樣剛性物體的邊界框比檢測(cè)手指的關(guān)節(jié)要簡(jiǎn)單得多。此外,由于手掌是較小的物體,我們采用了非最大抑制算法(https://www.coursera.org/lecture/convolutional-neural-networks/non-max-suppression-dvrjH  ),該算法可以在即使雙手自遮擋的情況(如握手)下,也能夠達(dá)到很好的工作效果。

      同時(shí),手掌還可以使用方形邊界框(在 ML 術(shù)語(yǔ)中的錨)來(lái)模擬,忽略其他高寬比,從而將錨的數(shù)量減少 3-5 倍。其次,我們將適用于更大場(chǎng)景上下文感知中的編碼器—解碼器特征提取器用于手部感知這樣的小對(duì)象中(類(lèi)似于 RetinaNet 辦法,https://arxiv.org/abs/1612.03144)。最后,我們將訓(xùn)練期間的焦損降至最低,從而支持由于高度變化而產(chǎn)生的大量錨點(diǎn)。

      利用上述技術(shù),我們實(shí)現(xiàn)了對(duì)手掌的平均檢測(cè)精度為 95.7%;而使用常規(guī)的交叉熵?fù)p失并且在沒(méi)有解碼器的情況下,檢測(cè)精度基準(zhǔn)僅為 86.22%。

      手部標(biāo)志模型 

      在對(duì)整個(gè)圖像進(jìn)行手掌檢測(cè)后,我們隨后的手部標(biāo)志模型通過(guò)回歸對(duì)檢測(cè)到的手部區(qū)域內(nèi)的 21 個(gè) 3D 手關(guān)節(jié)坐標(biāo)進(jìn)行精確的關(guān)鍵點(diǎn)定位,即直接對(duì)坐標(biāo)進(jìn)行預(yù)測(cè)。該模型將學(xué)習(xí)一致的內(nèi)部手勢(shì)表示,甚至對(duì)部分可見(jiàn)的手和自遮擋都表現(xiàn)出了魯棒性。

      為了獲得實(shí)時(shí)數(shù)據(jù),我們手工標(biāo)注了 30K 張具有 21 個(gè) 3D 坐標(biāo)的真實(shí)手勢(shì)圖像,如下圖所示(如果存在對(duì)應(yīng)的坐標(biāo),則從圖像深度圖中獲取 Z 值)。為了更好地覆蓋可能的手勢(shì),并提供對(duì)手勢(shì)的幾何形狀的附加監(jiān)督,我們還在不同的背景上渲染了一個(gè)高質(zhì)量的合成手部模型,并將其映射到相應(yīng)的三維坐標(biāo)中。

      谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

      圖 3 第一行圖片為對(duì)齊的手部通過(guò)實(shí)時(shí)標(biāo)注傳遞到跟蹤網(wǎng)絡(luò);第二行圖片為使用實(shí)時(shí)標(biāo)注渲染合成手部圖像。

      然而,單純的合成數(shù)據(jù)很難推廣到更廣泛的領(lǐng)域。為了克服這個(gè)問(wèn)題,我們使用了一個(gè)混合訓(xùn)練模式,下面的圖顯示了一個(gè)高級(jí)模型訓(xùn)練圖。

      谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

      圖 4 手部跟蹤網(wǎng)絡(luò)的混合訓(xùn)練模式。裁剪的真實(shí)照片和渲染的合成圖像用作輸入,以預(yù)測(cè) 21 個(gè) 3D 關(guān)鍵點(diǎn)。

      下圖展示了根據(jù)訓(xùn)練數(shù)據(jù)的性質(zhì)總結(jié)了回歸的準(zhǔn)確性。使用合成數(shù)據(jù)和真實(shí)數(shù)據(jù)都可以顯著提高模型的性能。

      谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

      圖 5 使用合成數(shù)據(jù)和真實(shí)數(shù)據(jù)對(duì)模型性能的影響結(jié)果

      手勢(shì)識(shí)別器

      在預(yù)測(cè)的手部骨架之上,我們應(yīng)用一種簡(jiǎn)單的算法來(lái)推導(dǎo)手勢(shì)。首先,每個(gè)手指的狀態(tài),例如彎曲或豎直,是由關(guān)節(jié)的累積角度決定的。于是,我們將一組手指狀態(tài)映射到一組預(yù)定義的手勢(shì)上。這種簡(jiǎn)單但有效的技術(shù)可以使我們?cè)诒WC檢測(cè)質(zhì)量的情況下來(lái)估計(jì)基本的靜態(tài)手勢(shì)。現(xiàn)有的架構(gòu)支持多種文化的手勢(shì)計(jì)數(shù),如美國(guó)、歐洲和中國(guó),以及各種手勢(shì)標(biāo)志,包括「拇指向上」、緊握拳頭、「OK」、「搖滾」和「蜘蛛俠」。

      谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

      圖 6 不同手勢(shì)識(shí)別結(jié)果

      通過(guò) MediaPipe 實(shí)現(xiàn) 

      通過(guò)使用 MediaPipe,我們可以將該感知架構(gòu)建模稱(chēng)模塊化組件的有向圖(https://en.wikipedia.org/wiki/Directed_graph),稱(chēng)為 Calculators(計(jì)算器)。Mediapipe 附帶了一組可擴(kuò)展的計(jì)算器,可用于解決各種設(shè)備和平臺(tái)的模型推理、媒體處理算法以及數(shù)據(jù)轉(zhuǎn)換等任務(wù)。而像裁剪、渲染和神經(jīng)網(wǎng)絡(luò)計(jì)算這樣的單個(gè)計(jì)算器,可以獨(dú)立在 GPU 上執(zhí)行。例如,我們?cè)诖蠖鄶?shù)現(xiàn)代手機(jī)上采用 TFLite GPU 推理。

      我們用于手部跟蹤的 MediaPipe 架構(gòu)圖如下所示。該圖由兩個(gè)子圖組成——一個(gè)用于手檢測(cè),另一個(gè)用于手部關(guān)鍵點(diǎn)(即標(biāo)志性)計(jì)算。MediaPipe 提供的一個(gè)關(guān)鍵優(yōu)化是只在必要時(shí)運(yùn)行掌上檢測(cè)器(因此該檢測(cè)器的運(yùn)行頻率很低),從而節(jié)省了大量的計(jì)算時(shí)間。

      我們通過(guò)從當(dāng)前幀中計(jì)算所得的手部關(guān)鍵點(diǎn)來(lái)推斷后續(xù)視頻幀中的手部位置實(shí)現(xiàn)手部跟蹤,從而無(wú)需在每個(gè)幀上運(yùn)行掌上檢測(cè)器。為了獲得魯棒性,手部跟蹤器模型輸出一個(gè)額外的標(biāo)量,以獲取一只手在輸入裁剪中存在并合理對(duì)齊的置信度。只有當(dāng)置信度低于一定的閾值時(shí),才能將手部檢測(cè)模型重新應(yīng)用到整個(gè)幀中。

      谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

      圖 7 手部標(biāo)志模型的輸出(REJECT_HAND_FLAG)控制何時(shí)觸發(fā)手部檢測(cè)模型。這種行為是通過(guò) MediaPipe 強(qiáng)大的同步構(gòu)建塊實(shí)現(xiàn)的,從而實(shí)現(xiàn)機(jī)器學(xué)習(xí)架構(gòu)的高性能和最佳吞吐量。

      該高效的機(jī)器學(xué)習(xí)解決方案可以實(shí)時(shí)運(yùn)行,并且跨越各種不同的平臺(tái)和形式因素。它所包含的復(fù)雜性要比上面的簡(jiǎn)化描述要復(fù)雜得多。為此,我們將在 MediaPipe 框架中開(kāi)源上述手部跟蹤與手勢(shì)識(shí)別方法,并附帶相關(guān)的端到端使用場(chǎng)景和源代碼(https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md),這為研究人員和開(kāi)發(fā)人員提供了一個(gè)完整的堆棧,基于我們的模型可以對(duì)新思想進(jìn)行實(shí)驗(yàn)和原型設(shè)計(jì)。

      未來(lái)方向 

      我們計(jì)劃通過(guò)更強(qiáng)大和穩(wěn)定的跟蹤來(lái)擴(kuò)展這項(xiàng)技術(shù),擴(kuò)大我們能夠可靠檢測(cè)的手勢(shì)數(shù)量,并支持動(dòng)態(tài)手勢(shì)的及時(shí)展開(kāi)。我們相信,發(fā)布這項(xiàng)技術(shù)可以激發(fā)廣大研究和開(kāi)發(fā)人員的新創(chuàng)意和應(yīng)用。我們很期待看到你的創(chuàng)新!

      谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

      *MediaPipe

      MediaPipe 是一個(gè)跨平臺(tái)框架,用于構(gòu)建應(yīng)用于機(jī)器學(xué)習(xí)流程中的多模態(tài)(例如,視頻,音頻,任何時(shí)間序列數(shù)據(jù))框架。通過(guò)使用 MediaPipe,我們可以將感知流程構(gòu)建為模塊化組件的圖形,包括:推理模型(例如,TensorFlow,TFLite)和媒體處理功能。

      MediaPipe 開(kāi)源地址:https://github.com/google/mediapipe/ 

      原文鏈接:

      https://ai.googleblog.com/2019/08/on-device-real-time-hand-tracking-with.html 

      手勢(shì)識(shí)別開(kāi)源地址:

      https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md 

      雷鋒網(wǎng) AI 開(kāi)發(fā)者    雷鋒網(wǎng)

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

      谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

      分享:
      相關(guān)文章
      當(dāng)月熱門(mén)文章
      最新文章
      請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡(jiǎn)介
      為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說(shuō)
      主站蜘蛛池模板: 国产在线一区二区在线视频| 奉新县| 成人精品无码成人亚洲| 午夜免费福利小电影| 久久综合色之久久综合色 | 国产精品理论片在线观看| 国产乱码精品一区二三区| 少妇大胆瓣开下部自慰| 国产亚洲精品成人aa片新蒲金| wwwww黄| 亚洲综合色在线| 欧美熟妇乱子伦XX视频| 日韩中文字幕高清有码| 中文字幕乱码无码人妻系列蜜桃| 亚洲夂夂婷婷色拍WW47| 国产成人综合网亚洲第一| 天天做天天爱夜夜爽女人爽| 中文字幕无码AV不卡一区| 乌克兰少妇xxxx做受野外| 成武县| 人妻aⅴ无码一区二区三区 | 绥滨县| 艳妇臀荡乳欲伦交换在线播放| 久久99视频| 91视频你懂的| 久久九九51精品国产免费看 | 日本高清视频在线www色| 午夜一区欧美二区高清三区| 黑人巨茎大战白人美女| 2021在线精品自偷自拍无码| 两个人的视频全免费观看在线| 国产偷窥熟女精品视频大全 | 国产大片黄在线观看| 阿瓦提县| 国产无遮挡裸体免费视频在线观看| 婷婷综合色| 色色资源网| 91熟女视频| 国产精品热久久毛片| 国产美女69视频免费观看| 欧美视频九九一区二区|