0
你能猜出下圖是什么花嗎?

在雷鋒網 AI 研習社的小伙伴中,有人猜梅花,有人猜梨花,有人猜桃花,可惜他們都錯了,答案稍后揭曉。
如果不是對植物有所研究的小伙伴,在分辨如上圖這種特征相似的花時,往往會出現錯誤,而這時,就凸顯了識花軟件的作用。
打開應用商店搜索識花軟件,主流的有「植物識別」、「形色識花」、「花伴侶」,這幾種軟件基本上都能識別常見的花朵,準確率也較高。
在知乎上,有人將幾種常見識花軟件進行對比,雷鋒網 AI 研習社看到,形色識花的好評數很多,而微軟識花相較來說準確度遜色于其他主流識花軟件。(目前,「形色」所屬睿琪軟件憑借此次專訪和贊助 CVPR 植物識別賽在雷鋒網學術頻道 AI 科技評論旗下數據庫項目「AI 影響因子」中得分為 12。)
有人提出這樣一種看法,「形色識別的準確度比較高是因為前期訓練數據比較多,而微軟識花識別率太低是因為訓練數據少,但他們的算法相對來說比較優秀。」對于這一觀點,形色表示,歡迎用戶的質疑,這是一個改進的機會。他們最關注的,是用戶提出自己對哪些植物識別不準確,他們會盡快修正。對于算法的優劣比較,形色說道,「歸根究底,算法不是公開的,所以也很難評估誰的算法更加優秀,能直觀感受到的就是識別準確率。相信前期的數據積累過程,各家一樣艱難,我們能想到的方法,微軟團隊肯定也能想到,但形色的數據增加更快,肯定是最初,用戶對于準確率就有所感知。」
目前,形色的識別正確率已經達到 98% 以上,可以識別 4000 多種植物,而內部模型已經可以識別一萬多種植物。在識別準確率和植物覆蓋數上,穩居市場前列。
形色的識花過程如下,將圖片上傳至形色 App,隨后 App 將圖像數據導入后端的云平臺進行識別計算,平臺會反饋 1~3 個識別結果,并獲取識別結果的一張相似圖給用戶作為參考,同時也會給出識別結果的植物介紹。用戶在給定的 1~3 個識別結果中,尋找與自己所見植物相同的結果后確認。
回到本文開頭那張圖片,形色 100% 確定這就是杏花,這一結果也完全準確。

據形色介紹,他們采用深度卷積神經網絡這種機器學習方法,讓計算機像人腦一樣,通過自我學習,來判斷怎樣識別植物。在這一過程中,形色將植物數據給到引擎,引擎通過自我學習,得出一套可以通過數百層卷積神經網絡的判斷來識別植物的方法。
傳統專家系統(Expert System)采用層層識別的方法,先對花朵進行粗略識別,再細分到具體種類,形色表示,如果采用傳統的專家系統,將所有分類學的規則進行編碼,需要不斷修訂此前的規則來完善鑒別系統的規則,數量的上限大約在 500 種,超過這個數量級,系統的工作量和數據庫的承載能力都無法實現。植物的物種在全球超過 60 萬,而常見的也在 4000 多種。
在識別時,上傳至 App 的圖片會經過預處理,包括光線調整、顏色反轉、曝光度、切出關鍵部位,再聚焦等,并通過圖片分類及物體識別技術,提高圖片在場景中的鑒別準確度。這在一定程度上可以改善照片模糊、光線不好以及角度不好所造成的不良影響。
形色最初的模型相對來說比較簡單,前期主要通過向各大植物論壇的植物愛好者征集花草圖片與數據信息,還會拍照搜集杭州本地常見花卉的圖片并請專家鑒定結果。他們表示,當時數據不多,識別準確率能達到 40%,彼時已經比百度的圖片搜索要準確。
「最初版本的人工智能,其實是『人工+智能』,當時為了避免因為數據不足而產生的識別錯誤,我們還在后臺配備了人工解答問題。」
人在識別植物時,如果此前見得比較少,容易出現識別錯誤,計算機也一樣,只有更多的數據才能將準確率提升得更高。隨著用戶的增加,數據的積累,模型的更新,系統的識別能力也會逐步提高并且越來越精準。
在利用用戶上傳的數據不斷優化模型時,一般情況下,用戶提供的圖片有很多達不到訓練標準,可能出現模糊或者標簽不準確的情況,形色會請專業人士先對這些數據進行清洗標注,以保證用來訓練引擎的數據絕對準確。
形色表示,在某種程度上,計算機可以看到很多人眼無法辨識的特征。比如梅花和杏花,可能人眼會覺得很像,但是在深度卷積神經網絡的分析下,可能顏色、花瓣形狀、花瓣的紋路都有不同,從而可以準確的區分植物種類,這就是人工智能的強大之處。
而為了實現精準識別,存在兩個主要挑戰:
一是數據標注清洗的工作量巨大,目前形色的植物數據已經超過 2 億張,這些數據的清洗標注,十分費時費力的。
二是成本高昂,因為植物數據清洗標注對專業性要求非常高,處理人員一定要是植物相關專業,能夠準確識別這些植物。形色在這方面也投入了巨大的成本。
上線至今,形色經歷了如下兩次大迭代:
2.0 版本,加入植物地圖功能。據形色介紹,這一功能是他們首創,受到很多用戶喜歡。「相信每個人都很喜歡身處花海的感覺,打開形色就可以感受到,自己身邊有這么多花花草草。」
3.8 版本,加入果蔬識別功能。「這是一個里程碑功能,是形色在識別品類上的突破。用戶不僅可以用形色識別植物,還可以識別水果蔬菜,了解水果蔬菜的營養價值、選購技巧、趣聞等。」
目前,形色還具備定位功能,他們對雷鋒網 AI 研習社表示,由于植物具有很強的地域性,不同地區的植物差異較大,地理位置會幫助進一步準確識別植物種類。
他們和中國自然標本館(CFH)、上海辰山植物園、浙大生物多樣性研究院都有合作,這些機構在專業上給了形色很多指導意見和幫助,形色表示,專家們的意見對于提升他們的專業性和準確性很有幫助。
現在,形色 App 已經入駐上百萬植物專家和植物愛好者,當系統碰到實在無法鑒別的植物,用戶可以直接上傳到鑒定區,植物專家和愛好者會在幾分鐘內給出他們的答案。
在將照片上傳至形色 App 之后,只需 1 秒,就能反饋植物的名字和故事。形色表示,團隊希望以最快的速度給用戶最準確的識別結果,這毋庸置疑。未來,隨著硬件和技術的升級,團隊也會盡可能投入更多資金,研發更先進、更復雜的模型去提升識別準確率和速度,給用戶最好的體驗。
除了中國版,形色也推出海外版識花軟件 PictureThis,對于推出海外版的原因,形色對雷鋒網 AI 研習社如是說道,「一方面,全球化是目前軟件發展的趨勢,軟件做大后肯定要走向更廣闊的市場;另一方面,我們發現其實海外植物識別領域也是相對空白的。其實外國人對于植物花卉的熱情更高,很多家庭都有自己的花園,但海外市場上的大多軟件識別種類有限,識別準確率也不高,所以這對 PictureThis 是個很好的機會。」
目前形色的競品很多,如「植物識別—拍照識花草樹木」、「微軟識花」、「花伴侶」,如何在這些軟件中不落下風?
形色表示,他們一直以來,都堅持用戶的想法最重要,所以更關注用戶,花了很多時間去了解用戶的真實需求。了解用戶需求后,團隊會頭腦風暴、嘗試探索,因此他們原創了很多功能,這也是形色的競爭力之一。
未來,他們會進一步進軍海外市場,推出更多語言版本的形色,讓世界各地的人們都能享受人工智能帶來的便捷和樂趣。各位小伙伴也可以即刻體驗形色帶來的識花樂趣。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。