<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      銀行AI 正文
      發私信給胡敏
      發送

      0

      國有大行OCR「進化論」:一個雙劍合璧的「樣本」

      本文作者: 胡敏 2022-09-08 19:09
      導語:一張小票據,也蘊藏著騰訊優圖的底氣和耐性。

      國有大行OCR「進化論」:一個雙劍合璧的「樣本」

      面對版式不固定、特殊字符

      定制化OCR「不靈了」


      在銀行這片票據“集散地”上,OCR并非新鮮事物。

      早在2017、2018年,隨著銀行各業務線數字化轉型提速,涉及憑證票證類別的需求不斷增加,各大銀行就將大量定制化OCR模型引入業務系統。

      這讓原本全憑“手工勞作”的票據錄入,搭乘上效率“直升機”,沖破了票據處理的效率屏障。

      國有大行探索OCR的時間則更早。

      2013年,在數字化號角還未吹得像今天這般響亮時,某國有大行便成立專門的技術研發團隊,完成了OCR技術從0到1的探索。遵照“兩錄一?!钡脑瓌t,原來需由兩位錄入員分別錄入憑證信息的工作,隨著OCR技術應用,替換成了一位人工錄入,一位OCR錄入,錄入人員立馬減半。

      不過,隨著在OCR領域的深入探索,這家大型銀行也發現,現有OCR技術能識別身份證、銀行卡等證件、增值稅專用發票、增值稅普通發票等有固定版式、文檔相對簡單的內容,但在面對銀行許多長尾場景下偏復雜的識別時,就容易無能為力。

      特別是遇到以下兩種情況:第一票據版式不固定、樣本量較少;第二文檔中含有手寫體、中英韓法等多種語言、特殊字符等,識別準確率大大降低。

      過往,為應對這些棘手問題,他們只能在前端繼續投入大量人力進行錄入和校驗,而在后端,則增加開發人員,對新出現的版式進行模型的重新配置。

      眾所周知,銀行票據種類、版式多如牛毛,開發人員不斷“打補丁”的方式也只是杯水車薪、隔靴搔癢。

      騰訊云售前架構師阿凱告訴雷峰網(公眾號:雷峰網),今年年初,他與這家國有大行研發中心負責OCR的項目經理溝通時發現,對方已經圍繞OCR的整體研發,打造了一支非常專業的團隊。

      到底如何提升OCR的能力,使其能對除固定版式、常規文檔之外的版式、信息進行識別提取,并直接錄入,且保證識別準確率?

      今年年初,騰訊云副總裁、騰訊優圖實驗室總經理吳運聲去到了銀行,與對方金融科技院院長見了一面,讓這一問題有了新的解法。

      多模態融合技術

      提升OCR模型泛化能力


      事實上,騰訊優圖也一直在嘗試攻克版式不固定、識別準確性的問題。

      去年到今年,他們在OCR技術上發表了一系列的論文。其中關注復雜場景文檔信息提取的有三篇,分別著眼在大規模多模態文檔預訓練模型、泛化版式文檔信息提取、表格等復雜關系提取。直面挑戰,攻克業界難題。

      這里需理解一下多模態和單一模態。多模態是融合視覺信息、語義信息、布局排版信息等單一模態的集合體。騰訊優圖在多模態文檔預訓練的基礎上,進一步統一了文檔結構化信息提取范式,形成智能結構化基礎模型,單一模型支持5000種以上版式。

      就好比培養人的運動技能,基于常規多模態進行大規模訓練的模型,只是針對一項基本能力,比如說腿部力量,進行重點訓練;而基于智能結構化基礎模型,則是提前教會你足球、籃球、網球多項等運動的關鍵動作,這樣人們就能在日常生活中參與不同的運動。

      放在金融文檔識別場景中,基于這種方式訓練出來的模型,泛化能力得到了極大提升,不論是銀行單據、票證、憑證等,它都能進行高精度的信息提取。

      而這也恰恰解決了該銀行一直以來的困擾。

      今年年初,在雙方高層進行溝通后的短短一個月內,該銀行就決定引入騰訊云TI-OCR產品,基于騰訊優圖實驗室在OCR領域多年的積累,來對銀行業務處理票據錄入過程中的十大重點場景進行優化升級,并把這一項目名稱取名為“多模態融合應用于計算機視覺”。

      騰訊云產品架構師阿凱表示:“不論是信息提取還是表格還原,都用了多模態技術,這也給整個項目定調?!?/p>

      成立聯合實驗室

      讓技術與業務更相融


      以往,騰訊云往往是通過向客戶提供算法包、訓練平臺等原子化產品進行合作。但事實上,若要真正和客戶的實際業務相結合,不免還需涉及一些工程業務方面的開發。

      為讓技術與業務更相融合,雙方決定成立聯合實驗室,探索更深入的合作。然而,剛開展合作就遇到的一個難題:銀行場景復雜多樣,到底選擇從哪一個場景開始下手?

      騰訊優圖算法研究員浩宇印象很深刻:“一開始確定業務場景時,行方一開始邀請我們分析了有差不多上千種場景,并梳理了其中痛點問題。”

      通過反復分析,最終雙方達成一致,先啃“硬骨頭”,決定最先在托管對賬單、提單以及集中錄入這三個業務場景的結構化識別中用上多模態技術。

      “托管對賬單、提單這幾個場景在業界比較接近天花板的難度?!苯桓都軜嫀熐锝追寰W說。

      國有大行OCR「進化論」:一個雙劍合璧的「樣本」

      提單樣本圖,圖源網絡

      以基金公司托管對賬單為例,各家基金公司在銀行內部托管一個公共賬號,記錄了投資人每一時段各基金持有份額和所有交易明細等,以方便投資人定期了解自己的交易情況。

      這場景最大的難點有三個:

      第一,版式多、樣本少。基金公司眾多且每家公司的賬單版式都不相同,且隨著業務擴展或變更,賬單板式也在發生變化。此外,也存在一些基金賬單比較少的情況,這都十分考驗OCR結構化提取模型。

      第二,具有表格等復雜關系。多數基金賬單都是以表格形式呈現,比如,XX在某年某月某日交易了XX金額,這需要OCR能夠從表格里面去提取結構化信息,而這也是目前業界普遍面臨的難點。

      第三,還存在字段嵌套、容易混淆等問題。比如在基金單交易中,同時存在多個相同形式表格,但表頭的時間或含義不同,這要求OCR能夠區分出來各種表格對應的具體含義。

      國有大行OCR「進化論」:一個雙劍合璧的「樣本」


      從實驗室走向實際應用

      還有兩道坎要跨越

      今年四月中旬,騰訊云動身派駐項目經理、算法研究員、交付架構師等項目成員去到該銀行,了解其實際業務運行情況,并確定方案進行指導標注。

      然后,在合作過程中,他們也發現,OCR技術從實驗室走向實際應用時,也還有一些坎需要跨越:

      如何讓產品更滿足業務的需求?

      即便是在實驗室打磨訓練過多次的產品,在遇到復雜的業務場景時,難免還是“不夠用”,需要項目團隊在產品實際落地過程中結合業務進一步“查漏補缺”。

      浩宇提到,他們在印鑒卡的問題分析過程中就曾遇到過一個類似刮獎的密碼驗證圖層,在單據識別過程中,需驗證涂層是否完整,以及識別密碼涂層刮開后的文字。“這是我們在實驗室中完全沒見過的。”

      與此同時,在實驗室中對事物的重要性判斷,和現實也可能會出現偏差。比如,實驗室更看重如何對表格中的信息進行提取,但在實際業務層面,還需要關注表格信息的含義,比如這是當前的基金交易信息,還是歷史交易信息。

      雙劍合璧

      票據識別漸入「無人區」


      面對這些分歧,雙方共同協商討論、解決問題也變得十分重要。

      國有大行OCR「進化論」:一個雙劍合璧的「樣本」

      騰訊云、優圖實驗室項目團隊交流中

      經過半年的接觸和交流,交付架構師少凱談到,整個項目讓他感觸最深的有三個點,第一是銀行的配合和參與,第二是銀行的開放心態,第三是銀行愿意學習的心態。

      拿樣本圖舉例,一般樣本圖都散落在各個業務部門,開發部門也需要內部協調才能拿到樣本圖,但銀行每一次都會快速響應,及時從業務部門收集樣本圖。

      與此同時,在整個合作過程,該銀行也一直強調,這次合作不僅是要獲得一套新工具,而且還要讓自己內部員工學習如何進行模型訓練,以及對模型訓練平臺有更深入了解,以便未來用到更多的場景中去。

      托管對賬單這一場景從今年7月份左右開始正式建模,經過雙方的反復測試、溝通、改進,其字段識別準確率目前已達90%以上。此外,包括提單、集中錄入等9個場景,也將陸續上線。

      隨著這種多模態技術加速滲透具體業務場景,該銀行也初嘗數字化的甜頭,其前端錄入環節將從單OCR錄入改為雙OCR錄入,減少了至少1/3左右的成本投入。

      而后端開發上,以前開發人員需花上兩三天時間進行新版式的開發,現如今只需要拿幾張圖進行標注訓練,一小時就能夠完成整體的訓練和上線的流程,極大提升了訓練效率,減輕了開發人員負擔。

      接下來雙方也將繼續“雙劍合璧”,通過聯合開發,讓票據識別向智能化、自動化邁進,讓票據錄入逐漸走入“無人區”。

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。

      分享:
      相關文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 亚洲www啪成人一区二区| WWW.四虎成人影院.CN| 久久精品熟妇丰满人妻99| 曰韩无码二三区中文字幕| 97激情| 鄯善县| 日本+国产+欧美| 久久久无码精品亚洲日韩按摩| 日韩欧美精品有码在线观看| 国产亚洲精品精品精品| 大渡口区| 亚洲国产精品久久久久久久| 人妻少妇被猛烈进入中文字幕| 青草午夜精品视频在线观看| 国产精品白浆一区二小说| 蜜桃av在线| 成黄色片视频日本秘书丝袜| 国产99视频精品免费观看9| 国产内射爽爽大片| 午夜性刺激在线观看| 美女网站免费| 久久熟| 丁香婷婷综合激情五月色| 中文字幕熟女一区二区三区| 亚洲精品乱码久久久久久中文字幕| 色悠久久久久综合网国产| 激情综合色五月六月婷婷| 18禁久久| 麻豆A?V视频| 顶级高跟鞋熟妇HD| 综合色小说| 欧美日产国产精品日产| 嘟嘟嘟www在线观看免费高清 | 国产农村老熟女乱子综合| 亚洲国产一区二区三区| 龙岩市| 亚洲成a人v欧美综合天堂下载| 熟女中文字幕?在线| 一本色道久久综合亚洲精品按摩 | 亚洲欧美国产另类视频| 亚洲色欲精品综合网|