<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給汪思穎
      發送

      0

      「2018 機器閱讀理解技術競賽」落下帷幕,看奇點機智如何從 800 多支隊伍中殺出重圍

      本文作者: 汪思穎 編輯:郭奕欣 2018-05-30 09:41
      導語:奇點機智在此次比賽中獲得第一,在兩個評價標準 ROUGE-L 和 BLEU-4 上,分別獲得 63.38 和 59.23 的得分,均高出第二名超過兩分。

      雷鋒網 AI 研習社按,日前,由中國中文信息學會 (CIPS)、中國計算機學會 (CCF) 和百度公司聯合舉辦的「2018 機器閱讀理解技術競賽」落下帷幕,Naturali 奇點機智從國內外 800 多支隊伍中脫穎而出,獲得第一名。在兩個評價標準 ROUGE-L 和 BLEU-4 上,奇點機智分別獲得 63.38 和 59.23 的得分,均高出第二名超過兩分。(目前,奇點機智憑借在「2018 機器閱讀理解技術競賽」上獲得冠軍以及比賽專訪,在雷鋒網學術頻道 AI 科技評論旗下數據庫項目「AI 影響因子」中獲得 13 分。)

      迄今為止,世界機器閱讀理解領域經典賽事多集中在英文領域,比如由斯坦福大學發起的 SQuAD 挑戰賽以及微軟的 MS MARCO 機器閱讀理解測試,而此次賽事基于百度 DuReader 中文數據集,對中文閱讀理解有著里程碑式的意義。

      奇點機智是一家提供定制化語音交互解決方案的公司,談及參賽原因,他們對雷鋒網 AI 研習社說道,「機器閱讀理解是推動人工智能未來發展的核心。機器能夠并且應該去理解人類,而不是人類去理解機器。閱讀理解是奇點機智關注的問題,公司的 NLP 團隊在相關領域有所積累,希望嘗試將開發的基礎組件應用到實際問題的解決中,也想借此比賽驗證公司在自然語言處理方面的技術實力。」

      比賽介紹

      本次比賽數據集來自搜索引擎真實應用場景,其中的問題為百度搜索用戶的真實問題,每個問題對應 5 個候選文檔文本及人工整理的優質答案。

      數據集共包含 30 萬問題(27 萬訓練集、1 萬開發集和 2 萬測試集),其中 20 萬來源于百度 DuReader 數據集(18 萬訓練集、1 萬開發集和 1 萬測試集)。

      DuReader 是迄今為止最大的面向真實應用場景的中文閱讀理解數據集,它包含來自百度搜索的 30 萬個真實問題,數據集中標注了問題類型、實體和觀點等豐富信息。

      在這次比賽中,對于給定問題 q 及其對應的文本形式的候選文檔集合 D=d1, d2, ..., dn,要求參評閱讀理解系統自動對問題及候選文檔進行分析,輸出能夠滿足問題的文本答案 a。目標是 a 能夠正確、完整、簡潔地回答問題 q。

      此次比賽評價指標采用 ROUGH-L 和 BLEU4,ROUGH-L 為主評價指標。針對是非及實體類型問題,主辦方對 ROUGE-L 和 BLEU4 評價指標進行了微調,適當增加了正確識別是非答案類型及匹配實體的得分獎勵,這在一定程度上彌補了傳統 ROUGE-L 和 BLEU4 指標對是非和實體類型問題評價不敏感的問題。

      奇點機智表示,長時間以來,自然語言處理的研究都是基于句子級別的閱讀理解,例如理解句子中的主謂賓、定狀補,時間、地點、事件等等。然而,基于篇章的長文本理解一直是一個技術難題,因為涉及到更高難度的研究內容,例如句子之間的連貫、上下文、推理等等,這也正是此次競賽面臨的挑戰。

      雖然目前機器閱讀理解與人類還存在差距,但此次比賽中,他們的答案與人工標注的答案非常接近,甚至有些比人工答案更全面,這也算是一大進步。下面是奇點機智答案與人工標注答案的對比:

      • 問題:昆特牌什么時候公測(實體類)

      奇點機智答案:「巫師之昆特牌國服山丘試煉開啟時間為 6 月 6 日, 暫定為期兩周,即 6 月 6 日-6 月 19 日。」

      人工答案:「時間為 6 月 6 日,暫定為期兩周,即 6 月 6 日-6 月 19 日。」

      • 問題:肩袖損傷能自愈嗎(判斷類)

      奇點機智答案:「肩周炎是可以治愈的,但是需要鍛煉,不然的話。時間長了肩周炎,就很難活動了。」

      人工答案:「肩周炎是可以治愈的,但是需要鍛煉,不然的話。時間長了肩周炎,就很難活動了。」, 「一般是不可以治愈的,需要外用膏藥,結合活血化瘀的藥品治療。」

      • 問題:蘭陵王妃大結局是什么(描述類)

      奇點機智答案:「女主選擇了蘭陵王高長恭,離開了北周,但是女主最后被蕭洛云殺了,當時她和蘭陵王高長恭在一起,所以宇文邕并不知道最后她死了,但也是在死前的最后那一刻她才明白自己最愛的人是宇文邕。」

      人工答案:「女主選擇了蘭陵王高長恭,離開了北周,但是女主最后被蕭洛云殺了,當時她和蘭陵王高長恭在一起,所以宇文邕并不知道最后她死了,但也是在死前的最后那一刻她才明白自己最愛的人是宇文邕。」, 「高長恭最終抱的美人歸,與元清鎖共度生死。」

      從直觀感覺上來說,奇點機智的回答比較完整和合理,從指標上來說,在比賽中 BLEU 超越第二名兩分也是非常難得的。

      參賽細節

      將中文閱讀理解與英文相對比,中文存在分詞問題,也缺少像 GloVe 這樣在大規模數據上預訓練好的詞向量。此外,中文的成語典故、俗語、一詞多義、歧義等都增加了機器閱讀的難度。那么面對這些挑戰,奇點機智在比賽中是如何完成這看似不可能的任務的呢?

      據奇點機智介紹,這次比賽主要是由技術團隊的兩名同事做系統實驗,其他同事提供相關幫助。

      他們對雷鋒網 AI 研習社表示,比賽數據集都是用戶的真實問答,有些問題在百度搜索里沒有答案,而且問題不一定很直接。比如「響一聲就說正在通話中」,這表面上并不是一個問題,用戶描述了一個現象,這種問題回答起來更具挑戰性。

      由于競賽給定了文檔全文,有的文檔可能會非常長,為了不超出內存占用和保證訓練效率,他們采取了簡單有效的啟發式方法預先對每個文檔抽取可能包含答案的部分內容。

      他們針對判斷類問題訓練了一個額外的分類模型,除此之外,比賽數據集中有一部分數據來源于百度搜索,一部分數據來源于百度知道,針對問題來源,他們也做了一些策略調整。

      在特征的選擇上,他們使用了詞向量、詞性標注向量、以及篇章中的詞是否出現在問題中。

      在模型選擇上,他們閱讀了大量論文,參考和借鑒了很多經典 MRC 模型,比如 BIDAF、Match-LSTM、R-Net、DCN 等。最終的模型基于 BIDAF,他們嘗試引入了多個答案的信息。

      此外,他們也發現,一些 NLP 的底層基礎部件,比如分詞和詞向量表示等也會對系統性能產生一定影響。

      而從公布數據到最終結果提交只有兩個月左右的時間,雖然時間上比較緊迫,但公司內部有自己的實驗系統和比較充足的硬件資源。

      奇點機智表示,「在這次比賽中,公司在自然語言處理方面的技術積累,團隊超強的執行力和學習力,良好的硬件資源和實驗平臺都是奪得冠軍的因素。」

      值得一提的是,參與競賽的兩位技術人員平時在奇點機智是做機器學習、語音識別相關工作,參賽之前沒有特別接觸過閱讀理解。能在短短兩個月左右快速上手并最終奪冠,這也在一定程度上反應了團隊超強的學習力和執行力。

      未來

      他們表示,在比較干凈的數據集上,機器模型已經可以做到非常好,比如在維基百科上,機器的表現已經可以超過人類。如果數據集比較原始,依然會有不錯的表現,但挑戰更大,這也是他們愿意去挑戰的難題。閱讀理解在一定程度上會給語音助手、問答系統等帶來諸多利好,這也是他們的研究重點。

      這次比賽使得他們對閱讀理解任務有了更深入的理解,包括任務可能運用的場景、問題難點等。下一步,他們一方面將在性能上嘗試對模型進一步優化,另一方面,將在工程上考慮將機器閱讀引入實際商業場景和產品中。參賽團隊對雷鋒網 AI 研習社說道,希望通過此次真實用戶問答數據,訓練優質實用的模型,將領先的機器閱讀理解技術應用于今后的產品以及各個領域中。

      在采訪的最后,奇點機智 CTO 林德康表示,「我們對過去的積累非常有信心,我們愿意去做有意義的、有挑戰性的事情,同時,我們也會經常組織大家一起學習、讀論文,進行小組討論。沒有什么可以阻止我們不斷學習,獲取最先進的理念和技術。」

      對奇點機智感興趣的同學,歡迎將簡歷投至 jobs@naturali.io

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      「2018 機器閱讀理解技術競賽」落下帷幕,看奇點機智如何從 800 多支隊伍中殺出重圍

      分享:
      相關文章

      編輯

      關注AI學術,例如論文
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 18女下面流水不遮图| 欧美三级在线播放| 精品亚洲麻豆1区2区3区| 欧美人与动zozo在线播放| 狠狠躁天天躁中文字幕无码| jizz日本69| 免费看欧美成人A片无码| www.国产在线观看| 丰满的少妇一区二区三区| 教育| 噜噜噜综合亚洲| 国产在线精品一区二区在线看| 国产 无码 国产精品视频| 日韩人妻中文| 人人妻人人爽人人澡av| 久久99国产亚洲高清观看首页| bt天堂新版中文在线| av无码小缝喷白浆在线观看| 日日碰狠狠躁久久躁96avv | 91视频观看| 在线视频一区二区三区不卡| 亚洲一区二区经典在线播放| 日韩精品人妻中文字幕无码流出| 性中国videossexo另类| 精品无码一区二区三区爱欲| 欧美黑人一区| 极品无码国模在线观看| 亚洲国产综合91麻豆| 日韩人妻系列无码专区| 亚洲丰满熟女一区二区v| 香蕉久久国产精品免| 国产丝袜打飞机免费在线| 亚洲av午夜福利大精品| 动漫AV纯肉无码AV电影网| 亚洲精品国产自在久久| 国产自在自线午夜精品| 亚洲午夜精品国产电影在线观看| 人妻窝窝| 久久激情人妻中文字幕| 国产精品av中文字幕| 高清dvd碟片 生活片|