文因互聯CEO鮑捷：RPA時代的「白領工人保命指南」

本文作者：周蕾

2020-06-02 19:58

導語：知識產業將由手工業走向大工業。

近日，文因互聯創始人、CEO 鮑捷博士在雷鋒網公開課上，以「RPA如何從1.0走到4.0時代」為題講述了流程自動化的前世今生。

RPA從1.0到4.0，是對手、眼、腦和心的自動化，實現對數據搬移、識別、機器自動化管理和信任的建立，逐步替代初級和中級工作人員；與此同時，是幫助組織從提高現有業務的效率到創造新業務、實現開放生態互聯的過程。

關注公眾號「AI金融評論」后臺回復關鍵詞“聽課”，收看本節課程視頻回放。

以下為鮑捷的分享內容節選，雷鋒網做了不改變原意的刪減：

一開始我起的題目叫「白領工人保命指南」，意思是怎么用知識工程（知識工程是人工智能大分支之一，另外兩個大分支是機器學習和神經網絡。）這種技術，來幫助白領工人實現自動化工作——某種程度上也是“替代”他的工作。

過去這二十年時間里，我一直都在從事這種“邪惡”的研究——機器人流程自動化。

機器流程自動化時代：知識產業將由手工業走向大工業

知識產業，是用人產生知識，轉移知識的產業，「白領工人」奮斗主戰場。其中，金融是最典型的，此外還有專業服務、政務服務、傳媒服務、教育服務等等。知識產業在經濟中權重巨大，加在一起一共是占美國GDP的35%。美國的GDP里各種工業的占比是18%，知識產業在美國經濟的比重是工業的兩倍。

工業早就從手工業變成了大工業，但知識產業還沒有完成這個轉變，不管是教育、金融還是各種會計法律的服務，都像是一種手工業，依賴于個人的知識和人脈，而不是一種有體系可依賴的大型系統，所以知識產業可以說目前還沒有完成工業化。

目前知識產業在美國是7萬億美元的規模，工業化一旦完成，我相信能夠創造的價值是不止于此的。它所能夠帶來的價值和沖擊，不夸張地說是大于200年前的工業革命的，這可能是我們當代最大的一個機會。

現在的知識產業是用人來產生知識和轉移知識的，我們的愿景是未來用機器來產生知識、轉移知識。

文因互聯CEO鮑捷：RPA時代的「白領工人保命指南」

知識產業的自動化，就需要用到知識技術，這也是非常龐大的一個技術體系。當然籠統來講，知識技術可以分為兩大類技術，一類是產生知識的技術，一類是轉移知識的技術，今天整個話題都是圍繞著這兩大類技術來展開的。

想要深刻理解RPA，就得明白流程自動化處理的「知識」是什么。小到一次報稅，大到各機構間的合作，蘊藏著知識產業各階段的需求和知識技術的發展軌跡。

在計算機科學里，知識就是結構（structure），或者說它是事物（thing）之間的聯系（relation）。比如親屬關系，比如說爸爸的爸爸是爺爺，是普適性的知識。我們身邊所有的事物之間的關系本質上都是知識。比如一張發票，它的表格的框就是結構，所以我們遇到的每一張發票其實都是一個知識庫。

并非只有文本類才算知識，只要能夠事物之間產生關系的，它都是知識。

例如寶馬汽車的自動車庫系統，車子靠近車庫時，車庫門會自動打開——車子和車庫這種靠近關系，本身就構成了一個結構，這也是知識，也會產生事件。稍后我們會看到，這也是流程自動化的一個重要組成部分。

過去一年，我們聽到RPA這個詞，但并不意味著流程自動化是最近一年才出現，它很久以前就已經出現，只是不叫這個名字。

RPA 1.0階段：自動化手

RPA的前身：RSS和IFTTT

流程自動化技術其實在很久以前就有了，1.0 版本主要是自動化手。

在十五到二十年前，新聞自動化推送技術叫mash up。當年社交網絡剛剛興起，每個社交網絡都會有一些API（應用編程接口），有人就想怎么把這兩種不同的應用串起來，或者把不同應用的數據源用機器自動串起來自動分發。RSS就是其中用于新聞的自動分發的一個技術。

與此相關的，還有另一種類型的應用：美國的IFTTT網站（if this then that）。

如果你有個to do list，要在你的亞馬遜音箱上面來提醒你，做同步；或者你喜歡了一個spotify播放列表，要從video里面把歌曲剝離出來，這些自動化的任務，由一個觸發器然后導致一個預定的動作，這就是if this then that。

IFTTT剛剛被發明出來的時候，更多的是這種任務：比如一條推特一旦滿足關鍵詞需求，就自動轉發到Facebook。其實這也是一種to C的流程自動化。

To B的也有很多，比如歷史上很有名的IBM Clio項目，1999年就開始了。因為企業內部有很多數據壁壘，有很多不同的內部IT系統，系統背后又都有不同的數據庫。要想把這些數據庫打通，是很麻煩的。

文因互聯CEO鮑捷：RPA時代的「白領工人保命指南」

所以IBM就起了這么一個項目：怎么能夠把不同數據庫之間的數據模式做自動發現對齊，之后用統一數據查詢，實現多數據源的數據集成自動化，最終實現任務自動化——這個問題，到今天也沒有完全被解決掉。

剛才介紹了知識和流程自動化這兩個核心概念，他們之間的關系是什么？如果我們想有流程的自動化，就必須擁有機器可讀的結構化數據，即知識。然后才能用機器或者軟件代理來自動化執行任務。

這也是狹義RPA。

UiPath這樣的RPA公司，在美國剛開始的時候其實就是做軟件代理的自動化任務執行。

RPA 1.0階段應用舉例：報稅單自動填寫

在美國報稅，代發工資的公司ADP在每年年初會給寄工資單W-2，列明去年的收入、各項稅額等。稅表里的數據要挪到美國稅務局給的一張個人報稅表（1040），再把這個表導到各種報稅軟件，如TurboTax。人就需要做這樣一個應用間的數據轉移。

文因互聯CEO鮑捷：RPA時代的「白領工人保命指南」

之前都是我們自己，或者雇個會計幫你做，這就是用手來做應用間的數據的轉移。現在可以用RPA機器人來做。

在企業環境下，這件事也很重要，因為企業內部有很多不同的IT系統都需要被打通，比如說CRM系統和內部ERP系統怎么對接資源？它們可能都是不同廠商實現的，所以就需要用一些自動化的數據扒取技術來實現。

這個技術并不是全新的，其實之前在很多其他地方已經出現過了，比如90年代末的游戲外掛，后來有了更加先進的軟件如按鍵精靈等。

互聯網公司的測試團隊也在做類似的事情，比如說開發網站，要測試所有使用路徑是否正常，達到預期結果。但這過程很復雜麻煩，可能要測試幾百個不同的路徑。

一般軟件的測試，只要把一些use case寫進代碼里，但是像這種Web的軟件測試要在瀏覽器里運行，要從瀏覽器的頁面里面把數據抓出來、填進去，所以最早為了解決這種外部的自動測試問題，就開發了一系列的技術。

這里面引用的是Selenium，一個很常用的外部自動化測試框架。如果你要做一個user login，寫很少一段的Python代碼就可以做這件事情。

同樣地，你也可以分析頁面，可以讀取、抓取、填寫數據。所以你會看到自動測試的軟件跑起來的時候，這臺機器就好像著了魔一樣，鼠標亂飛，一些數據自動就被填進去了。

現在的RPA技術其實就是從自動化測試技術衍生出來的，這就是RPA的1.0時代：如何去自動在不同的應用之間做數據的轉移，這個應用可能是windows上的桌面程序，也有可能是瀏覽器里的互聯網Web程序。

RPA 2.0階段：自動化眼

近兩年，RPA開始進入第二階段。

之前的1.0階段，所要移動的數據基本是現有的結構化數據，比如在兩個網頁之間傳數據，數據已經被結構化了，只是它呈現的是所謂的網頁結構，或將已有的可讀XML、電子表格，轉到另外一個程序里。

但如果是PDF這種比較復雜的大量表格，或者新聞，招股說明書、債券募集說明書、信貸文件等，以及格式不復雜但內容很復雜，比如法院判決書，你要能夠在這里面進行應用之間的數據轉移，這就需要知識提取的技術。

簡而言之，RPA 1.0時代，可以移動原有的結構化數據——RPA 2.0時代，可以生產結構化數據，移動非結構化數據，這就是核心的區別。

這個過程，其實之前是咱們用實習生——或者叫小弟小妹科技——用一些比較初級的工作人員來做的。流程自動化之后，RPA 1.0、2.0可以替代初級人員，這也是所謂的“加工已知的已知”：原來文件和表格有哪些數據，我們非常忠實地把這些字符串給遷移過去。

文因互聯CEO鮑捷：RPA時代的「白領工人保命指南」

上圖左邊的文本原文講到一個公司有信用危機，這就需要提取核心內容，比如公司出現的問題，它跟其他相關聯的所謂實體，如上游公司、子公司，或者打官司的對手公司有什么關系？這樣就從一個非結構化的文本變成了結構化的三元組數據。

這也是我們過去這幾年之間為用戶做得最多的事情。我們跟證券交易所、一些銀行一直都在做這種金融監管、信貸、資產管理領域中大量的文件自動化處理，以前要幾個月時間才能處理完的招股說明書，現在10秒鐘之內就可以自動把幾百頁的內容都提取出來。

RPA 3.0 階段：自動化腦

在這個階段，就不僅僅是把數據原樣加工和轉移，而是自動化業務知識。

比如金融監管有合規的需求，交易所的合規文件非常多。要把里面所包含的業務知識，轉化成機器可以執行的業務規則，這不僅需要識別數據本身，而要知道數據背后隱藏的內容，以及通過這些數據可推理出的結果。

所以，關鍵過程是如何讓機器挖掘這些關系，和自動化的管理。從這個意義上來講，RPA 3.0就是自動化腦的過程。一旦完成這一步，能夠替代的不僅僅是初級人員，還有一些中級人員。

這里兩大核心技術，一是知識圖譜技術，另一個是推理機技術。

知識圖譜

知識圖譜的技術，本質上來說，就是說如何發現未知的已知。有了數據，可以推理出背后隱藏的關系。

比如說張三是李四的哥哥，李四是王五的哥哥，可以推理出來，張三是王五的哥哥，因為這是一個傳遞關系。這就是如何通過已知，發現未知的已知。

當然在To B的應用里，有更加專業的各種關系：比如通過各種隱藏的股權關系和已知的擔保關系，發現未知的擔保關系，可以通過股權網絡發現不同公司間的集團派系；甚至還可以發現要隱藏的一致行動人關系，比如兩個人關系很密切，他注冊了好幾個公司都在同一個地址里面，這兩個人可能潛在有非常強的相互關聯關系。

通過這些關系，可以發現很多隱藏的風險，這就是知識圖譜技術能夠幫助我們做到的——讀懂數據不僅僅只是看到字面上的東西，而且還看到背后隱藏的關系。

但有時候知識圖譜技術不夠用。當我們有了更加深刻的知識，比如說財務的勾稽關系、大量的BPM管理知識，這需要用更加復雜的知識管理技術，各種各樣的規則系統。

如果規則很少，只有十幾條，其實用什么系統都無所謂，隨便找一個本科畢業生都可以搞得定。但當你有幾百條規則，再用規則編輯器，就很難管理了。當規則有一千條，一般的團隊基本已經不能勝任這種任務。

通常做一個問答系統，既需要深度學習或自然語言處理的能力，也需要規則的能力。一般來說，管理1000條規則已經很復雜了，這個系統就已經看起來很聰明。但是還不夠，如果想讓系統看起來非常地魯棒和聰明，通常需要1萬條左右的規則。

比如說IBM的Watson系統，它的前面寫了大概8000條的規則——如果想搞定這1萬條規則，需要“滅霸級”的能力，這是絕大多數的團隊是不具備的。

推理機技術

如何管理大量規則？需要引入知識庫管理系統，推理機是最核心的一環，通過大量的規則，找到合理的結果并解釋。

這事的邏輯很簡單，但為什么在工程上非常困難？因為不可能找到一個自洽的邏輯系統，不同的人寫出的業務規則肯定會打架，如果推理機不能消解這種沖突，在現實中肯定沒用。

另外，也不可能把全部的知識庫都給結構化或者規則化，很多是半結構化的。怎么把結構化和半結構化的知識整合在一起使用，降低總擁有成本，這也非常復雜。

最后推理出來一個結果，還要解釋它，比如法律判案、醫療診斷，都是基于大量的業務知識，不能說“系統它告訴我就是這樣，我也不知道是為什么”。比如判案，肯定是根據某一條結果、某一個法律，這就是叫可解釋的人工智能系統，這是跟深度學習非常不一樣的地方。

所以演繹的能力、消解沖突的能力、結果的解釋能力加在一起，其實就是推理機最核心的幾個模塊。

當然還有很多其他的模塊，比如推理加速。有了這些之后，我們就可以讓機器學會自動管理，從而讓大規模業務知識的執行自動化，來實現輔助中級業務人員的能力。

案例：債券合規的自動化檢測和完整性檢查

銀行間協會的債券發行合規文件非常多，所以要構造出大量這樣的業務規則系統，每個節點上面都會讀取相應的數據，從而完成整個合規的檢查過程。

文因互聯CEO鮑捷：RPA時代的「白領工人保命指南」

案例：上市公司公告

先提取公告，檢查是否含違規內容，比如發行時間，業績預測符合此前預測，重大合同是否滿足披露準則等等。

上市公司公告有多少種？400種。IPO審核后要看多少個數據點？7000個。這些全部用人工來做，肯定做不完，所以一定要用機器來做。

一個監管系統里面可以跑2500條規則，基于這些規則自動做數據路由、分析、統計，最后生成各種預警，發送給相應的人，生成各種各樣的報表。這是一個非常復雜的業務流程，只有RPA 3.0時代的系統才能夠勝任。如果只有手工的規則編輯器，很難去滿足這樣的需求。

展望一下，其實RPA到了這個階段，以后要做的就不只是自動化一些簡單流程，實際上是要把企業的業務自動化，或者企業有BPM、ERP、PLM、CRM系統……企業內部各種不同的資源都會有一個管理系統，這些管理系統現在背后都是數據庫，未來則會是基于知識庫來進行企業資源的調度。

例如CRM系統以前都是用關系數據庫，現在越來越多用到圖數據庫，BPM、SEM、供應鏈系統也是一樣。越來越多圖譜的數據，有越來越多的規則，和數據規則知識庫，怎么把這些整合在一起？就變成了知識庫管理系統。

知識庫再加上推理機，我認為這可能是下一代的RPA系統最核心的技術，就是怎么構造出一個能夠通用于所有IT系統底層的知識庫管理系統。我相信，它會替代之前類似Oracle這樣的數據庫管理系統的地位。

RPA 4.0階段：自動化心（信任）

組織內是完全信任的環境，而組織間是不完全信任環境，

前三個階段一直在講，組織內部如何實現業務知識的產生自動化和轉移自動化。顯然，自動化不會僅僅只限于組織內部。

如果要在兩個組織之間構造出這樣一個自動化系統，面臨的核心挑戰是：組織內是完全信任的環境，而組織間是不被完全信任的。

在組織間建立自動化信任機制，我們稱為分布式信任技術。

為什么要用這種技術？以開放銀行為例，未來的銀行其實是一堆API組合在一起的數據服務，但要想構造出這樣的分布式應用，就必須建立起一個高度可信的工作環境。

有了這種分布式信任能力，就進入了RPA的第4個階段——自動化心，這也代表人和人之間的信任。

說到分布式信任，大家肯定想到區塊鏈，其實它只是可追責性技術的一個分支。

此外，分布式信任還包括了信任度的電子化，比如說電子身份、電子合同、電子發票等等，也包括了開放調度系統技術，還有服務的發現和注冊、服務的編排和集成，分發引擎等等……這些技術在十幾年前叫web service。

可追責性（accountability）技術

這個概念由圖靈獎得主Tim Berners-Lee提出。

構造一個大規模的協作系統，很難事先阻止所有不軌行為。如果完全阻止，系統就非常沒有活力。只能是給每個人設定做事的合理范圍，如果做錯，產生不良后果，我們可以找你負責，這就叫事后追責。

這個技術需要以下環節：

忠實記錄數據處理和傳播的過程。這個現在是用區塊鏈來實現。十幾年前還沒有區塊鏈，Tim的實驗室發明了一整套跟區塊鏈并行的技術來做。當時我也參與了這個工作。現在其實兩個技術已經融合了。
擁有現場記錄后，還要取一手證據。如果發現問題，要一步一步重建犯罪現場，需要溯源圖譜技術（provenance）。
發現了問題也收集到了證據，必須建立起支撐結論的證據充分的完整鏈條，這就是證據推理技術（proof&justification）

以上環節加在一起，才是完整的可追責能力，這也是對現在區塊鏈的重要補充。

Tim Berners-Lee過去十幾年時間一直在促進這種技術的成熟；這兩年在開發SOLID框架，這是基于分布式的去中心化應用，可以是結合知識圖譜和區塊鏈構造一種可追責的分布式任務自動化系統。

總結一下核心五大類技術：

頂層技術：產生知識，轉移知識。
產生知識分為：如何發現事物（知識提取技術），如何發現關系（知識圖譜技術）。
轉移知識分為：組織內、組織間轉移知識的技術。
組織內分為：自動化測試技術或RPA 1.0的技術，推理機技術。
組織間轉移知識的技術，就是分布式信任的基礎。

從RPA的四個階段來總結：

1.0：自動化手，基于自動化測試技術，從而實現數據搬移。
2.0：自動化眼，實現數據識別——1.0和2.0結合，實現了對初級人員工作的替代。
3.0：自動化腦，基于知識圖譜和推理機技術，幫助我們進行機器自動化管理。
4.0：自動化心（信任建立），加上3.0就是對中級人員的替代。

從另一個角度來劃分，前三個階段主要關注內部自動化調度；最后階段關注外部自動化調度。

文因互聯當前是關注在2.0和3.0。過去三年，我們一直圍繞著RPA 2.0的技術，在做各種金融文檔的自動化識別和流程自動化。最近逐漸轉移到RPA 3.0的開發，即如何自動化腦、大規模批量產生成千上萬條規則和批量管理。

RPA 4.0，如何實現組織間的自動化調度系統，這也是我們今后兩三年內最重要的一件事情。

最后也給出我的兩條建議：要么參與這一場自動化的革命，從被機器取代轉為與機器協作；要么調整自己的方向，往未知的未知深耕，去發揮自己的創造力。

Q&A節選

問：關于分布式信用平臺，是不是和聯邦學習的聯合建模異曲同工？

鮑捷：基于我的理解，聯邦學習應該是每一個不同的數據源，需要保護自身隱私，然后再自動化、相當于去隱私的環境下，來進行一個集成的學習。

這個跟分布式信任應該是在做不同的事情。分布式信任解決的是我如何信任一個數據；聯邦學習解決的是我如何在不破壞隱私的情況下實現學習。這兩個應該是互補的技術。當然除了聯邦學習技術，我認為同態加密技術也是很重要的。

問：RPA感覺是NLP在推薦搜索更進一步的應用，比搜索推薦要難，搜索推薦的本質還是關鍵詞匹配，talk的API就不止關鍵詞匹配了，要怎么理解文本中的實體和關系？

鮑捷：其實核心就在于傳統的NLP階段，我們要處理的都是字符串，要在字符串之間做一些對應關系。

而在所謂的圖譜階段，我們所要處理的都是實體，每一個實體都是有UUID的，比如說全國有多少個叫“王偉”的人，“王偉”是一個字符串，但是我們想區別不同的“王偉”，就需要給他UUID，這就是變成了實體。

所以說在做實體的時候，我們要做的就不是關鍵詞匹配了，RPA其實從整體上來說還是做實體的匹配。

問：NLP這些算法并不能達到百分之百成功的效果。如果是流程自動化，對結果的準確度要求應該挺高的，想知道實際中如何平衡這種技術的局限性和業務的需求？

鮑捷：第一種方法，你這個系統如果要嚴格一點，你可以降低recall，但是你提取出來給我的數據，你要保證這個是正確的，可以用precision 和recall之間做一個交換。

另一種辦法就是人工加機器，這個機器先做一輪，然后人工審閱一輪。這也是絕大多數實施成功的案例里面最終用的方法，就是人工加上機器做一段初步的分析，再用校驗人員來做后面的數據提升，特別是補漏。

其實還有其他的平衡，比如說如果一部分確實是正確度不高的話，始終都不高，這部分可能我們就不追求它的自動化了，放棄本身也是一種很好的做法。

雷鋒網雷鋒網雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

周蕾

編輯

云計算/To B/金融科技丨微信：LorraineSummer

掃描關注作者微信

發私信

當月熱門文章

文因互聯CEO鮑捷：RPA時代的「白領工人保命指南」

機器流程自動化時代：知識產業將由手工業走向大工業

RPA 1.0階段：自動化手

RPA的前身：RSS和IFTTT

RPA 1.0階段應用舉例：報稅單自動填寫

RPA 2.0階段：自動化眼

RPA 3.0 階段：自動化腦

知識圖譜

推理機技術

案例：債券合規的自動化檢測和完整性檢查

案例：上市公司公告

RPA 4.0階段：自動化心（信任）

可追責性（accountability）技術

Q&A節選