^{<sub id="jgr5k"></sub>}

如何利用圖像識別、語音識別、文本挖掘做好鑒黃？

本文作者：老王

2017-01-11 09:57

導語：人工智能鑒黃市場競爭愈發激烈，目前圖普科技、阿里綠網、騰訊萬象優圖等團隊已占據大量市場份額，在此環境下，不少公司試圖通過提供更全面的服務從這片紅海中分一杯羹。

雷鋒網按：人工智能鑒黃市場競爭愈發激烈，目前圖普科技、阿里綠網、騰訊萬象優圖等團隊已占據大量市場份額，在此環境下，不少公司試圖通過提供更全面的服務從這片紅海中分一杯羹。

那么更全面的定制服務體現在哪些地方？雷鋒網特地采訪了極限元 CEO 雷臻，雷臻從圖像識別、語音識別、文本挖掘三個維度向雷鋒網講解 AI 鑒黃，同時對一些工程細節進行闡述。

直播鑒黃一般從哪些方面進行鑒定？

通常情況下，直播鑒黃通過視頻截圖、圖像識別、語音技審、彈幕監控、關鍵字抽取等能力智能識別色情內容。在向客戶正式提供圖像識別服務前，會先邀請直播平臺用戶進行體驗測試，收集一些直播平臺專屬特征數據，比如不同的直播背景、環境光線強度、話題內容等，進行定制化的訓練模型，不同的直播平臺將獲得定制化的專屬圖像識別服務。

其中視頻直播內容的審查鑒定可以從以下幾個步驟：識別圖像中是否存在人物體征，統計人數；識別圖像中人物的性別、年齡區間；識別人物的膚色、肢體器官暴露程度；識別人物的肢體輪廓，分析動作行為；除了圖像識別之外，還可以從音頻信息中提取關鍵特征，判斷是否存在敏感信息；實時分析彈幕文本內容，判斷當前視頻是否存在違規行為，動態調節圖像采集頻率。

在圖像識別方面，其中每分鐘視頻采集關鍵幀的頻率可以由客戶設定，從1秒到幾十秒均可。例如可以默認5秒采集一次關鍵幀用于識別，也可以在出現疑似告警時動態調節采集頻率，加快至每秒一張。

您剛提到音頻關鍵特征提取，這個可以深入講講嗎?

音頻分析主要有以下幾個方面：

通過聲紋識別技術，判斷當前直播間的主播是否為注冊主播本人，對主播身份進行識別。
對主播的語音內容進行關鍵詞檢索，是否存在禁語、敏感詞。
對特定的連續語音數據段進行識別，是否存在不良信息。
對口播廣告的播出頻次進行統計，分析廣告投放效果。

不過視頻、音頻雙通道檢測的方案由用戶來決策，秀場直播通常用圖像檢測就可以滿足絕大部分需求，音頻檢測可能更適用于語音內容為主的直播平臺。兩者結合起來會大大提高識別準確率、降低誤報率，但成本也會相應提高，所以用戶可以根據業務需求進行選擇。

目前的準確率、誤報率、召回率大概是多少?是否會進行人工復審?

目前直播平臺涉黃圖像檢測的準確率高達99%以上，誤報率低于1%，需要客戶進行人工復核的比例不超過3%。通常情況下不提供人工復審的服務，但是會對疑似的圖像進行標注并提醒用戶進行人工復核。人工復核后的數據會被收集起來進行迭代訓練，這樣可以不斷提升識別的準確率。

直播的實時性、對于機器的圖片識別處理速度要求特別高，對于機器的計算能力會不會特別高?采用什么樣的方式進行處理?

網絡視頻直播實時性強，對服務端圖像識別處理的速度要求特別高，除了對帶寬有較高的要求外，還需要識別服務器擁有強大的GPU運算能力，尤其是應用深度機器學習算法進行模型訓練階段，強大的GPU集群服務器是不可或缺的，并基于全鏈接層的特性去除了對訓練圖像大小的限制，快速提升算法處理速度。此外在采集視頻圖片時也可以采用動態調節采集頻率的辦法，通常情況下幾秒一幀，出現敏感信息后加快采集頻率，可以更及時的識別涉黃信息并提出告警。

模型訓練所需的數據的量有多大?一般什么原因會影晌鑒定準確率？

以極限元為例，基礎數據集有幾千萬張圖片，此外每天還會追加兩萬張各類正、負樣本圖片，用于迭代訓練，不斷微調優化識別準確率。每周會進行一次基礎模型訓練，每1-2天會進行一次增量模型迭代訓練。

至于鑒定準確率影響層面，主要還是數據量的匱乏，樣本對應用場景的覆蓋不全面導致訓練出的模型存在誤報、漏報或者識別錯誤，隨著深度機器學習算法的日趨成熟，數據來源的多樣性、專業性反而成為模型構造的重中之重。

此外，主播刻意進行一些干擾檢測的手段，比如遮擋敏感部位、畫中畫等等，也會一定程度上影響到機器的識別判斷。

機器能不能自動處理:屏蔽、刪除、禁播等？

涉黃圖片檢測服務部署在云端，本身沒有網絡路徑可以接觸到用戶的直播間管理系統，因此無法自動屏蔽、刪除、暫停直播間的活動。但是如果用戶選擇私有云的部署方式，并授權識別服務器可以訪問直播間管理系統，那么對涉黃直播間的刪、停等操作是可以實現的。

智能鑒黃相對于人工鑒黃、成本下降多少?

以一家月直播10萬小時的中小直播平臺為例，如果采用傳統的內容審核技術，100人的內容管理團隊每月所花費的成本在80萬上下。如果借助人工智能進行內容監控，人力投入可以削減到10人左右，綜合投入不過10萬到20萬之間，將大大降低人力成本和管理費用。此外還有因此而節省的監視設備費、辦公場地費等等。

色情和非色情的界限怎么把握、拿捏?

首先，在建立這樣一個分類模型時，會有人工對圖像大數據進行標注，存在一定主觀判斷誤差，但也在大眾理解的范圍內。識別結果除了色情和正常外，還存在一個疑似或者稱之為性感的類別，這些都是根據機器識別后的近似值進行匹配。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

老王

編輯

微信 wangyafeng123456

發私信

當月熱門文章

如何利用圖像識別、語音識別、文本挖掘做好鑒黃？

如何利用圖像識別、語音識別、文本挖掘做好鑒黃？