6
說起人工智能(AI),盡管很容易又讓人想起它的威脅,但是該技術確實能夠在很多方面讓我們的生活變得更美好。AI算法是為了幫助我們與朋友聯系、查找信息,甚至帶我們感知物理世界。
國外媒體報道,Facebook即將發布一款新型屏幕閱讀工具,能對圖片上的內容進行自動描述,從而讓盲人或視覺障礙患者“看到”圖片。 據悉,用戶在iOS設備上使用這款屏幕閱讀器時,該工具可對照片進行自動文本處理,從而讓用戶聽到照片上的內容描述,如“有三個人,面帶微笑,站在戶外”等。
為了提高AI的文本識別準確度,開發者對算法模型基于100種不同類型的對象進行了集中訓練,所以目前該算法僅能夠識別人類、披薩、棒球等等。隨著研究地不斷推進,算法的識別將能夠越來越廣泛和復雜。
視覺障礙人士上網時往往依賴于屏幕閱讀器,然而,屏幕閱讀器只有一樣好,那就是它們只能讀好給定的文本內容。如果文本缺失,它們什么也讀不出來。雖然網頁標準規定,圖片需要有一個叫“alt text”的字段,以防網頁上的圖片因為某種原因不能被顯示時能夠出現相應的替代文字。不過,Facebook上的大多數圖片里唯一可度的文本就是隨狀態一起發出的文字。

通過應用人工智能算法,Facebook能夠掃描每個圖像,并整理出相應的信息描述。如果某人的帖子是一張披薩圖,算法能夠自動將“披薩”這個詞添加到圖片的替代文字中,那么屏幕閱讀器就能夠將圖片也讀出來告訴用戶了。
具體來說,Facebook想要利用這個機會來使得其技術研究更加大眾化。該公司的“無障礙倡議”項目(Accessibility team)和人工智能團隊直接將從用戶那里獲得反饋利用到進一步的研究當中。3月份,Facebook與康奈爾大學共同發表了一項探索盲人如何使用Facebook的研究,希望做一個能夠滿足這些群體需要的產品。
“研究的過程應該是以用戶的需要來驅動研究,而不是用我們的研究來產生需要。反饋讓我們進行更多有用的研究。”
挑戰識別并描述圖片是人工智能領域里一個杰出的研究項目。新的技術和硬件支持深度學習——利用人工神經網絡層級或者模擬大腦神經元的微型數學方程式 集群,來整理數據和尋找計算模式。這些技術可以應用于圖像、音頻、文本等幾乎任何類型的數據。
單個對象的話很簡單。但當存在對象相互作用,或上下文聯系的情況時,計算就變得困難了,因為機器需要真正了解物理世界,并且知道客觀對象之間的關系。對于一臺純粹的機器來說,它們不會有重心、家庭關系和愛。它們有的只是數據。
所以說,如果要識別出圖片“父親與女兒在散步”等信息,機器首先要學習現實世界。
而這正是Facebook Accessibility團隊需要實現的。現在,他們將這些被識別的對象稱為標簽。一只貓是一個標簽,一張床是一個標簽,一個人是一個標簽……有了這些信息,算法就可以說出“照片中四個人在吃冰淇淋或者披薩”等描述了。
然而,在許多方面來說,這只是一個起點。該團隊不僅夢想實現更多基于上下文的對象識別,同時也希望這些識別行為更加富有互動性。Facebook的計算機視覺研究負責人Manohar Paluri曾表示,它們或許還將開發出新的功能,可以讓算法描述圖片的特定局部。
但在Facebook的研究中,精確度是首要的任務。Facebook、Instagram、Messenger和WhatsApp上,每天有超過20億張圖片被分享,所以,即使百分之一的誤差都可能意味著數以百萬計的錯誤。因此,工程師每次對大約100算個法可以檢測的概念進行手動調整。舉例來說,關于性別等信息,算法需要更多的準確性支持。據悉,大多數機器可以理解的概念是關于人們和客觀事物。它知道眼鏡、棒球,甚至自拍照。當然,還有一些研究員未加入數據庫的圖片,這通常都是一些動物,比如照片角落里有一個貓爪子。
一個貓爪出現在照片的一角,算不算一張“貓片”呢?這個問題沒有標準答案
目前的人工智能,尤其在圖片識別領域,很可能觸碰到政治雷區,比如前陣子谷歌識圖把黑人的照片辨認成了大猩猩。為了避免這種狀況,Paluri 說:“我們要有足夠的自信,并不斷收到積極的反饋”。
“一個貓爪出現在照片的一角,算不算一張‘貓片’呢?這個問題沒有標準答案”,他說,“也許這只是一張‘貓爪照片’,這就是有趣的地方”。
人工智能的研究方向還有很多,甚至可以研究笑點。但總而言之,人工智能的研究基本等同于算法的研究,人工智能的任何提升都是算法在背后起作用。人工智能的研究者們承諾將使人類的生活更簡單,更美好。我們把一部分的思考外包給機器,讓機器的智慧增強人類,世界將運行的更好。
現在,這項功能已經可以在 iOS 的 Facebook app 里面啟用了,其他平臺及英語之外的其他語言也將陸續提供支持。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。