1
| 本文作者: 張利 | 2017-05-04 10:39 |

雷鋒網按:深度學習的出現,使得NLP技術有著巨大的突破,但總體來說,NLP對于淺層次的特征提取、分類等問題已比較成熟,而深層次的語義理解是當下的研究熱點。目前,NLP技術在文本處理方面的主要應用有智能搜索引擎、機器翻譯、文獻摘要自動生成、文本分類等;在語音方面主要有智能客服、多媒體信息提取與文本轉化等。
同時,國內NLP領域的創業公司不斷進行其商業化探索。2012年成立的NLP技術供應商玻森數據便是這樣一家。到如今,公司已經找到了聚焦產品:風報,而據公司CTO趙迎賓介紹,公司現在也有了一個比較健康的現金流。
據趙迎賓介紹,風報是一款基于NLP技術的企業情報系統,通過在全網采集包括工商、涉訴、稅務、行政處罰等海量政府公開信息以及媒體信息,用NLP技術從不同角度挖掘實體之間關聯,為企業提供風險控制及情報分析。“風報相當于企業情報行業的“百度”,是一種搜集信息的渠道。”趙迎賓對雷鋒網介紹道,通過NLP技術,風報可以幫助企業和個人在海量信息中挖掘有效信息,節省大量人工查詢時間及第三方調查成本投入。
2016年,玻森數據便與鋼鐵行業B2B電商“獨角獸”找鋼網牽手,將風報用于其供應鏈金融業務中。找鋼網成立于2012年,到2015年時,已經一躍而成為行業內的獨角獸,同時,以撮合買賣雙方起家的找鋼網也開始布局供應鏈金融,那么,風控自然不可缺少。
供應鏈金融在貿易領域早已是再常見不過的融資模式之一,但隨著人工智能的發展,這一領域正在延伸出新的枝干。不同于消費者金融風控,供應鏈金融最大的風險在于企業經營風險,大宗商品價格波動相對來說比較平穩,即使存在“產能過剩”,依托大型的B2B平臺,根據歷史的交易數據,也可以進行相應的風險控制。大數據風控有效的前提是掌握盡可能多的數據,一般而言,數據來源包括自有平臺數據、外部抓取數據和與合作機構交換數據,取得這些數據后再進行去噪清洗建立風控模型。
而通過NLP技術,將網絡上非結構化的數據結構化,接入金融領域的風控模型后,能大大節省了數據整理的時間。
據玻森數據CEO李臻此前介紹,對于金融領域的大數據風控模式,風報能做的有兩點:一是企業信息過窄的問題,通過風報系統的裁判文書結構化分析和信息公告關聯挖掘,擴大數據來源;二是快速獲取信息的問題,通過風報系統核心的NLP技術及開庭公告、事件信息等功能能夠幫助企業從海量的信息中實時獲取所需信息,同時實現對交易對手的動態監控。
找鋼網金融事業部副總經理卞崢對雷鋒網介紹說,找鋼網平臺內有大量的企業交易數據,同時在網絡上抓取大量數據,“對于我們來說,有效的數據樣本自然是多多益善,風報的接入擴大了數據來源。”“外部抓取的數據比較散,而通過NLP技術,把這些比較散的數據源結構化,進行二次處理會方便得多。”
對于產品體驗效果,卞崢講道,總體上是不錯的,“但希望數據源頭越多越好,并且數據源能更加結構化。”
據了解,從信息獲取到企業情報,風報的背后有四個步驟:
獲取數據
形成信息(用NLP技術,在非結構化文本中抽取核心語義)
產生情報(對新聞拆解分析,通過數據挖掘對事件進行分類、以時間軸呈現企業情報信息)
得到認知(可視化呈現企業和個人關聯)。
在形成信息的過程中,涉及如何對句子進行正確拆分;如何進行實體識別,識別出相關人員和群體;以及通過機器學習的方法,對每項內容進行標簽化處理。為了向雷鋒網解釋NLP技術在此的應用,趙迎賓舉了這樣一個例子:
A跟B正在進行一場離婚訴訟,在其證據中提到B在中國農業銀行的一個賬戶,這與中國農業銀行其實并沒有關系,需要用到語義分析技術,來判斷到底誰是案件中的當事人。
雷鋒網根據公開資料了解到,目前中國與“企業信息服務”相關的公司有2000多家,風報、啟信寶、企查查等均屬這一類。
在數據來源上,知名度較高的企信寶是通過征信中心與連接相關征信網站數據接口的獲取,風報則是聚焦在散落在全網中的企業外部文本數據,從海量的企業事件角度切入。玻森數據公司CEO李臻認為,有 80% 的商業情報都以非結構化的自然語言文本形式存在于網絡的各個角落,但沒人處理這些信息。雷鋒網對公司CEO李臻的采訪中也提到,“相比其他產品,風報的核心是分析能力。企業信息涉及很多裁判文書等非結構化文本,提煉關鍵信息要進行去重、實體抽取、分詞、清洗及分析等,這些不是信息匯總就能完成的。”
事實上,企業信息服務行業并不是玻森數據一開始就扎根的領域。
據趙迎賓介紹,2012~2014年的這段時間,玻森數據尋求的是與咨詢機構的合作,咨詢公司進行行業調研時會用到大量數據,玻森數據的NLP技術則可對其進行分析和結構化,節省查閱資料的時間。“希望通過十幾個案例積累,找到一種互聯網數據分析的通用化方式,但發現這種嘗試行不通。”“咨詢行業是一個創意驅動的行業,不同報告分析角度不一樣。”
而2015年后,隨著大量政府信息公開,玻森數據開始做企業信息服務,并于同年九月發布了風報這款產品,2016年,開始對外銷售。到目前為止有一年多的時間,公司已經積累了120家客戶。
風報主要采用合同銷售的形式,按照使用量收費,公司的客戶群體可大致分為3類:
第一類是泛金融,包含保險、融資租賃等。
第二類是政府,政府會對所在區內的企業進行風險調查。風報是其一種搜集信息的渠道。
第三類客戶,介于B端與C端之前,是投資人、媒體等,這些人需要了解很多的公司背景信息。
“在風報開始銷售之后,公司就有一個比較健康的現金流。”趙迎賓對雷鋒網講道,據了解,波森數據已經有過三輪融資,最近在做B輪。
趙迎賓介紹說,風報每周都會有新版本發布,主要集中在幾個方面:第一方是在系統中集成新的數據來源,對企業相關的公開未挖掘數據進行結構化以及數據分析;第二,希望對互聯網上56000多家政府網站全覆蓋,做一個相當于政府網站方面的百度,并且需要比百度做得更深。
那么,玻森數據的未來向哪里走呢?趙迎賓用玻森的定位告訴雷鋒網答案。
玻森數據以NLP技術為核心,在該平臺上搭建各種商業化應用,專注于SAAS領域,聚焦在風報這個產品上。
有價值的數據、有競爭力的算法、有商業場景和圍繞著這個商業場景的產品化能力,這三者是保證公司競爭力的法寶,他補充道。
AI慕課學院近期推出了《NLP工程師入門實踐班:基于深度學習的自然語言處理》課程!
三大模塊,五大應用,海外博士講師手把手教你入門NLP,更有豐富項目經驗相授;算法+實踐,搭配典型行業應用;隨到隨學,專業社群,講師在線答疑!
課程地址:http://www.mooc.ai/course/427
加入AI慕課學院人工智能學習交流QQ群:624413030,與AI同行一起交流成長
相關文章:
深入NLP———看中文分詞如何影響你的生活點滴 | 雷鋒網公開課
CNCC 人物 | 出門問問創始人李志飛的 NLP 商業化之路
清華大學朱小燕教授做客雷鋒網沙龍,分享 NLP 和人工智能的那些事兒| AAAI 2017
百度王海峰Quora精華整理:未來5-10年,NLP領域將會有什么進展?
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。