如何利用大數據做金融風控？| 雷鋒網公開課

本文作者：溫曉樺

2016-10-16 01:14

導語：如何通過海量數據與欺詐風險進行博弈？

隨著金融科技、科技金融等概念的熱起，以及互聯網金融、無金融服務群體的剛性需求下，大數據風控技術也獲得越來越廣泛地重視和應用。但是，如何利用大數據、機器學習等前沿技術做金融風控？如何通過海量數據與欺詐風險進行博弈？本次硬創公開課我們邀請了同盾科技首席風險官董騮煥博士為我們解答。

董騮煥是南開大學概率統計博士，他博士畢業后加入中科院，2007年加入IBM/ ILOG從事決策模型在各種業務問題中的應用。2010年至2013年先后在FICO和SAS支持金融反欺詐事業。2015年5月15日，董騮煥加入同盾科技，負責反欺詐以及數據分析。目前他仍擔任上海財經大學統計管理學院兼職碩導和教育指導委員會成員。

如何利用大數據做金融風控？| 雷鋒網公開課

以下是本次公開課要點：

同盾提倡跨行業聯防聯控，一個維度是打破企業之間的數據孤島，即企業與企業、平臺之間的數據交通障礙。另一方面是行業與行業之間也存在一定的風險重合，比如信貸行業與電商行業、O2O行業之間，需要一定的機制來打破數據障礙。

風控體系：事前、事中、事后調控

整個風控體系包括幾個環節：

事前：在風險發生之前就要通過對風險輿情的監控發現風險，比如在某些惡意的欺詐團伙即將發動欺詐攻擊前就采取措施來提前防御，比如通過規則加緊，把模型閾值調高等方法。

事中：信貸借款申請，在線上注冊激活的過程中，根據自動風險評估，包括申請欺詐，信用風險等來選擇是否拒絕發放貸款。

事后：貸款發放以后的風險監控，如果借款人會出現與其他平臺的新增申請，或者長距離的位置轉移，或者手機號停機等信號，可作為貸后風險預警。

如何提前在網絡中把騙子揪出？

最基礎的技術：設備指紋

如何利用大數據做金融風控？| 雷鋒網公開課

在介紹整個風控體系時我認為，對于網絡行為或者線上借貸，最最基礎或者最最重要的技術是設備指紋。為什么呢？從上圖中我們可以看到，網絡上的設備模擬或攻擊，比如各種各樣的自動機器人，實際上是對網絡環境造成極大的干擾，在信貸中會導致信用風險的誤判。這個是第一道。

網絡設備最關鍵的地方是要實現對設備唯一性的保證，第二是抗攻擊，抗篡改。網上有各種高手會進行模擬器修改，修改設備的信息和干擾設備的定位等以各種手段來干擾設備的唯一性認定。

所以對抗這樣的情況的技術要點在于：抗攻擊、抗干擾、抗篡改。另一方面能夠識別出絕大部分的模擬器。

設備定位：基站和WiFi三角定位

接下來就是設備定位。

非GPS定位

值得注意的是，在模擬器或者智能設備系統里面它可以把GPS定位功能關掉。而如果通過將基站的三角計算或者WIFI的三角計算定位結合起來，定位的精度較高，且不受GPS關閉的影響。

這可以應用在信貸貸后管理，用來監測借款人的大范圍位置偏移。

地址的模糊匹配

如何利用大數據做金融風控？| 雷鋒網公開課

對于位置來講還有一個重要方面是地址的模糊匹配。在信用卡或者線下放貸中，地址匹配是一個重要的風險審核因素，但是地址審批過程存在一個問題：平臺與平臺之間因為輸入格式不同或者輸入錯誤等問題造成難以匹配，那就需要模糊算法來進行兩兩匹配，以及數個地址之間進行比對，或者在存量庫中搜索出歷史中的風險或者相關性名單來進行比對。這其中涉及的技術包括模糊匹配算法和海量地址的管理和實時比對。

復雜網絡

復雜網絡有時候大家稱之為知識圖譜，但這中間有點區別：復雜網絡更偏向于從圖論的角度進行網絡構建后進行實體結構算法分析，知識圖譜更偏重于是在關聯關系的展現。

如何利用大數據做金融風控？| 雷鋒網公開課

網絡分析最重要的一點是具有足夠的數據量，能夠對大部分網絡行為進行監控和掃描，同時形成相應的關聯關系，這不僅是實體與實體之間、事件與事件的關系，并且體現出“小世界（7步之內都是一家人）”、“冪分布”等特征。

如何利用大數據做金融風控？| 雷鋒網公開課

舉個例子：團伙性欺詐嫌疑識別。有一個被拒絕的用戶中，關聯出來了一個失信的身份證和設備，而且發現其設備有較多的申請行為，那么，這個被關聯出來的用戶或將需要嚴格的人工審核，甚至可以直接拒絕。

通過對借款事件的深入挖掘，我們可以關聯出大量的借款事件。這個需要進行一些算法分團，可以把相關的聯系人都分到一個地方，然后進行關聯成團的團伙性分析，根據圖論上的屬性如團的密集程度和某些路徑的關鍵程度等，比如介數，圖直徑等角度來估計風險。

數據抽樣結果案例：騙子遁形

通過對內部大量數據的抽樣分析，可以看到一些意思的現象：潛在的威脅者，出于惡意目的，他的行為會和正常的用戶有所不同。這里面有幾個例子可以分享：

如何利用大數據做金融風控？| 雷鋒網公開課

其中一個是設備與關聯賬戶的數量與欺詐風險的關系。當然這不僅包括了信貸行業的欺詐，還包括賬戶層面的盜取賬戶、作弊、交易等欺詐風險。可以看到，當設備關聯賬戶量大于3-5個時，其風險系數明顯增高。此外，當關聯數量大于五時，風險率也是明顯偏高。

另外一個是對于多頭負責與不良率的比較：7天內貸款平臺數高于5時其風險也是明顯偏高的。雖然這個數據還沒有做進一步的清洗和交叉衍生新的變量，但也可以看出其中的風險相關程度。

如何利用大數據做金融風控？| 雷鋒網公開課

另外是某個特定客群的建模抽樣分析。例如多次借款申請人如果180天內夜間申請借款的比例——就是有借款行為的同時，如果大于四分之一的借款申請是在夜間的，其風險明顯增加。

數據都是客觀的，取決于數據形成后對業務的分析和解讀。

優秀的決策引擎是怎樣的？

一個優秀的決策引擎包括以下幾點：

靈活可配——不但可以配規則，還可以配規則的字段和權重。業務友好就不用說了。

快速部署——配置好的規則模型可以實時生效，當然如果涉及一般規則修改時，可以做一個灰度部署。

決策流——它可以把不同的規則和模型串到一起，形成一個決策流，實現貸前、貸中、貸后的全流程監控。它要可以實現對數據的按需調用，比如把成本低的數據放到前面，逐步把成本較高的數據放到后面。因為有些決策在前面成本較低的數據下已經可以形成，就不必調用高成本的數據。

AB測試和冠軍挑戰——對于規則修改、調優時尤其重要。兩套規則跑所有的數據，最終來比較規則的效果。另一種是分流——10%跑新規則，90%跑老規則，隨著時間的推移來根據測試結果的有效性。

支持模型的部署——線性回歸、決策樹等簡單模型容易將其變成規則來部署，但支持向量機、深度學習等對模型支持的功能有更高的要求。

信用評估

那經過以上的手段，我們基本可以具有一個很強的力度來排除信用風險，那么以下便是信用評估階段。

評分卡模型

評分卡分為申請、行為、催收評分卡。申請評分卡用于貸前審核；行為評分卡作為貸中貸后監控，例如調額，提前預知逾期風險。它可以通過歷史的數據和個人屬性等角度來預測違約的概率。信用評分主要用于信用評分過程中的分段，高分段可以通過，低分段可以直接拒絕。

因為行業不同，客群與業務不同，評分卡的標準也有所不同。對于有歷史表現的客戶，我們可以將雙方的XY變量拿出來，進行一個模型共建，做定制化的評分。

如何利用大數據做金融風控？| 雷鋒網公開課

構建一個評分卡模型，目前傳統的方法是銀行體系中使用的：數據清洗、變量衍生、變量選擇然后進行邏輯回歸這樣一個建模方式。

那么機器學習和傳統方法最主要的區別是變量選取過程的不同——如果還是基于傳統的變量選取方法，那通過機器學習訓練出來的模型，其實還是傳統的模型，其模型雖然一個非線性模型，但是其背后體現不出機器學習的優勢。

核心技術與挑戰

在目前圍繞大數據、大數據決策為核心的風控技術體系中，整體的數據量達到一定水平，存在的挑戰將會是數據的稀疏化。隨著風控業務覆蓋的行業越來越多，平臺間的數據稀疏問題就越明顯。（雷鋒網注：“稀疏數據”即矩陣中含零元素特別多，這意味著無益于增加數據信息量的無用元素很多，對于數據從存儲，處理到建模都有挑戰。）

此外，其實對于大數據來說，即便具有數據和大數據決策，如果沒有一個很穩定的落地平臺也是一個空中樓閣。大數據應用要做到完整，還需要符合以下要求的平臺：一是容納量，能夠容納特別多的數據；一個是響應：任何決策都能實時響應；一個是并發，在大量數據并發時也能保持調用。此外，安全性自不待言。

問答：

問：深度學習是怎么用于風險控制的呢？

董騮煥：深度學習本身個框架，是結合非監督學習和監督學習的神經網絡訓練和部署的框架，只要有目標，有數據就可以衍生特征，就可以做目標訓練，可以當成一般機器學習去用。當然深度學習有些優勢，比如無監督的特征選取方式，另外訓練的過程中雖然計算量比較大，但也是可以接受的。

概括地說你可以認為深度學習是模型的一種。因為深度學習有些特殊的優勢，比如特征選取的自動產生，即無監督方式。另外，它可以實現稀疏數據結構的特征生成，而且可以通過正則化的方式來控制特征的生成，這對于具有大量數據，同時維度特別多，而且稀疏化的情況時就特別有用。

問：有一個問題，有沒有一種可能，對于用戶畫像，判斷的維度越多，得到的一些結論是沖突的。這個情況如果存在，是怎么協調，看權重么？

董騮煥：如果傳統的方法，這些維度，比如幾千個維度經過模型變量的篩選，有些變量是值越高越正面，有些是值越低越正面，就是WOE是不同的方向，這種情況下可以通過建模的方式來進行權重的訓練，來做一個協調。

問：根據最新關于互聯網金融平臺法規的實施，從數據平臺的角度分析下，大數據是否會取代以后的人工審核？您對互金風控未來的發展趨勢認為是什么樣的？

董騮煥：確實取決于不同信貸產品。比如小微的信貸產品，其立足點也許是經營性的評估，甚至包括現場的實際調研——水、電、煤，以及稅務調查。而對于一些小額分散的信貸產品，比如信用卡代償，這些由于量太大金額又很小，人工審核的話成本會太高。當然還有一些中間層面的，比如幾千到幾萬元的借貸，這種情況當前更多還是互相并存的方式。

至于“未來互聯網審核取代人工審核”這個命題，我認為更多取決于線上個人身份認證問題的解決。也就是說，目前線上沒有真正能完全規避偽冒的風險，包括活體認證和手持拍照等措施，尤其是大金額，走線上途徑還是有一定風險的，因此需要從信貸流程的各個維度來控制。

對于未來的風控我認為是往風險經營走，2個方向：一個是個人定制化，讓每個人都有不同的風險識別，以及對應的信貸產品。另外是最優化的授信，實現平臺的某個目標的最大化，比如收入最大化、利潤最大化，此外還有市場占有最大化——對于低風險人群的容忍，這當然取決于一個平臺的風險偏好，但這個風險偏好最大的基礎是對風險的準確識別，這樣相應的風險優化才是有效的。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

8人收藏