在過去的幾年里,建立在機(jī)器學(xué)習(xí)算法,、自然語言處理,、分布式存儲(chǔ)和計(jì)算等技術(shù)之上的大數(shù)據(jù)理論研究和技術(shù)應(yīng)用越來越受到關(guān)注。
?
有這樣兩個(gè)客觀事實(shí)推動(dòng)了本文的撰寫:
傳統(tǒng)信貸服務(wù)依賴人工,、基于流程的風(fēng)險(xiǎn)管理特點(diǎn),決定了金融機(jī)構(gòu)的放貸門檻高、審批手續(xù)煩瑣,,導(dǎo)致傾向于向資金需求量較大的大型企業(yè)和高凈值個(gè)人放貸,而將大量具有小微信貸需求的小微企業(yè)和中產(chǎn)階級(jí)以下群體拒之門外,;
相對(duì)寬松的民間借貸又存在利率過高,、渠道不正規(guī)、難以形成規(guī)模效益等問題,,使得小微企業(yè)和中產(chǎn)階級(jí)以下群體的融資難成為世界級(jí)難題,。因此,要實(shí)現(xiàn)金融普惠,,銀行業(yè)迫切需要新的解決方案,。
哈佛大學(xué)社會(huì)學(xué)教授加里·金說過一句話:
這是一場(chǎng)革命,,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界,、商界還是政府,,所有領(lǐng)域都將開始這種進(jìn)程。
這里面有一個(gè)很關(guān)鍵的詞,,叫量化,。
在大數(shù)據(jù)的世界里,一切都是可以被量化的,。正是基于此,,我們走上了一條風(fēng)險(xiǎn)量化之路,這也將兩個(gè)客觀事實(shí)結(jié)合在了一起:在機(jī)器學(xué)習(xí)的方式下,,建立風(fēng)險(xiǎn)量化模型,,并在實(shí)際應(yīng)用中不斷的訓(xùn)練,促進(jìn)模型快速迭代,,提升金融業(yè)內(nèi)部風(fēng)險(xiǎn)管理效率和外部服務(wù)效率,,降低金融服務(wù)成本。
所謂企業(yè)風(fēng)險(xiǎn)量化,,是利用企業(yè)各個(gè)維度的數(shù)據(jù)作為基礎(chǔ),,建立風(fēng)險(xiǎn)評(píng)估模型來評(píng)價(jià)其可能結(jié)果的范圍,進(jìn)而完成企業(yè)風(fēng)險(xiǎn)的評(píng)級(jí),、評(píng)分或者計(jì)算風(fēng)險(xiǎn)發(fā)生的概率,。
用機(jī)器學(xué)習(xí)的概念來講,企業(yè)風(fēng)險(xiǎn)量化可以定義為分類問題,、回歸問題或者是異常檢測(cè)問題,,分別有相應(yīng)的機(jī)器學(xué)習(xí)算法進(jìn)行建模;也可以建立基于企業(yè)關(guān)聯(lián)網(wǎng)絡(luò)的風(fēng)險(xiǎn)傳導(dǎo)模型對(duì)企業(yè)風(fēng)險(xiǎn)進(jìn)行量化分析,。
本文將結(jié)合譽(yù)存科技企業(yè)風(fēng)險(xiǎn)量化模型,,與大家探討一下整個(gè)大數(shù)據(jù)處理流程中最核心的部分——數(shù)據(jù)分析在場(chǎng)景應(yīng)用中的簡(jiǎn)單與復(fù)雜。
風(fēng)險(xiǎn)量化的數(shù)據(jù)分析可以很簡(jiǎn)單
數(shù)據(jù)分析人員對(duì)數(shù)據(jù)分析工作有一個(gè)普遍的共識(shí):80%時(shí)間是在做數(shù)據(jù)清洗,,20%時(shí)間工作是建模,。簡(jiǎn)單的講,數(shù)據(jù)清洗主要是對(duì)原始數(shù)據(jù)各字段進(jìn)行信息抽取,,對(duì)數(shù)據(jù)合規(guī)性進(jìn)行檢查和轉(zhuǎn)換,,如果數(shù)據(jù)源本身是文本則需使用自然語言處理技術(shù)。
清洗好的數(shù)據(jù)存入結(jié)構(gòu)化表格或者數(shù)據(jù)庫,,然后利用現(xiàn)有的各種數(shù)據(jù)分析語言和工具建模,,包括特征工程、缺失值和異常值處理,、模型訓(xùn)練和調(diào)參,、模型驗(yàn)證,、模型可視化等。
例如基于python語言的sklearn就包含了大量的機(jī)器學(xué)習(xí)算法實(shí)現(xiàn),,可以在比較短的時(shí)間訓(xùn)練一個(gè)可用的模型,。
如果數(shù)據(jù)量非常大,超過了單機(jī)處理能力范圍,,則根據(jù)實(shí)際需求搭建不同規(guī)模大小的分布式計(jì)算集群完成數(shù)據(jù)清洗和建模。Spark是現(xiàn)在比較流行的分布式計(jì)算框架,,它提供的各個(gè)組件基本能滿足企業(yè)級(jí)的應(yīng)用需求,。
以上就是大數(shù)據(jù)分析的標(biāo)準(zhǔn)流程,也是我們?cè)跇?gòu)建企業(yè)風(fēng)險(xiǎn)量化模型所采用的基本方法,。
不管是簡(jiǎn)單的還是復(fù)雜的算法或者技術(shù)框架,,最終都會(huì)演變成簡(jiǎn)單易用的工具,即使是在自然語言處理,、圖像,、視頻等領(lǐng)域均取得了突破性進(jìn)展的深度學(xué)習(xí)算法,也有很多開源項(xiàng)目支持,,開發(fā)者如果不是想深入研究其原理,,用深度學(xué)習(xí)算法訓(xùn)練一個(gè)模型并不是很困難的事情。
因此,,數(shù)據(jù)分析變的越來越"簡(jiǎn)單",,甚至可以通過流水線一樣的作業(yè)方式完成模型的構(gòu)建,唯一需要開發(fā)者理解業(yè)務(wù)和創(chuàng)新性工作的環(huán)節(jié)就是建模過程中的特征工程,。
風(fēng)險(xiǎn)量化的數(shù)據(jù)分析其實(shí)也復(fù)雜
構(gòu)建一個(gè)風(fēng)險(xiǎn)量化模型是可以很簡(jiǎn)單的,,但是構(gòu)建一個(gè)商業(yè)化的風(fēng)險(xiǎn)量化模型是復(fù)雜的。
近年來,,大部分學(xué)術(shù)界的研究都專注于算法創(chuàng)新,,致力于算法改進(jìn)后的指標(biāo)在公開數(shù)據(jù)集上有多大的提升,但一個(gè)模型是否成功是由多方面因素決定的,,絕不是簡(jiǎn)單的用諸如"準(zhǔn)確率"或“召回率”這樣的指標(biāo)來衡量的,,還應(yīng)該結(jié)合其在實(shí)際應(yīng)用中,到底解決了什么樣的業(yè)務(wù)難點(diǎn)及行業(yè)痛點(diǎn),,這是商用機(jī)器學(xué)習(xí)模型開發(fā)對(duì)比學(xué)術(shù)研究或者數(shù)據(jù)分析比賽的重要區(qū)別,。
下面列舉幾項(xiàng)使得模型設(shè)計(jì)和開發(fā)變得復(fù)雜的主要原因:
(1)待解決問題的定義
實(shí)際應(yīng)用中,清楚定義需要被解決的問題比想象中困難很多,。如果對(duì)問題的定義是"構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型來識(shí)別企業(yè)風(fēng)險(xiǎn)"就屬于沒有清晰定義要解決的問題,,什么是"企業(yè)風(fēng)險(xiǎn)"?是違約,?是失信,?還是停止經(jīng)營(yíng),?解決不同問題所依賴的數(shù)據(jù)和算法都可能不同,甚至在某些風(fēng)控應(yīng)用場(chǎng)景,,任何算法都不如行業(yè)專家的幾個(gè)規(guī)則來得直接有效,。
(2)模型的可解釋性
現(xiàn)有的機(jī)器學(xué)習(xí)模型種類繁多,有的模型能夠很好的被人解釋,,比如邏輯回歸,、決策樹算法等;而有的模型對(duì)人來說就是“黑盒子”,,比如神經(jīng)網(wǎng)絡(luò),、集成學(xué)習(xí)等。如果模型的可解釋性是第一位的,,那最終模型的選擇只能縮小到特定的算法類別,,即使它們的準(zhǔn)確性比較低。尤其在為金融行業(yè)制定的企業(yè)風(fēng)險(xiǎn)量化模型里,,客戶非常在意模型是怎么算出來的,,他們對(duì)“黑盒子”機(jī)器學(xué)習(xí)模型不是很感興趣,甚至抱持著懷疑態(tài)度,。
(3)帶標(biāo)注的數(shù)據(jù)量
如果帶標(biāo)簽的數(shù)據(jù)比較少,,或者獲取標(biāo)記數(shù)據(jù)的成本比較高,這對(duì)模型效果會(huì)是致命的打擊,。
(4)復(fù)雜的模型一定能更好解決問題,?
答案是否定的?;驹瓌t是,,效果相差不是太大的情況下,選擇簡(jiǎn)單的模型,。因?yàn)閺?fù)雜模型所需的數(shù)據(jù)多,,并且消耗的計(jì)算資源相對(duì)較高,所以在實(shí)際應(yīng)用中,,簡(jiǎn)單模型更實(shí)用,。
(5)建模的最終目的
以"企業(yè)是否有失信風(fēng)險(xiǎn)"這樣的分類任務(wù)為例,盡管在建立企業(yè)風(fēng)控模型的時(shí)候,,我們會(huì)去計(jì)算模型的各類指標(biāo),,比如分類任務(wù)的準(zhǔn)確率、召回率,、F1,、AUC等,但這些指標(biāo)的變化和提升,,并不是建模的最終目的,,提高模型的預(yù)測(cè)效果可能也不是建模的最終目的,。
我們真正關(guān)心的是建模過程,比如通過各類模型中間結(jié)果,,去判斷哪些因素對(duì)“企業(yè)是否有失信風(fēng)險(xiǎn)”沒有影響,,哪些因素對(duì)“企業(yè)是否有失信風(fēng)險(xiǎn)”非常重要,甚至我們只想知道哪些指標(biāo)影響了模型的準(zhǔn)確率,,哪些因素影響了模型的召回率,。
訓(xùn)練過程還能告訴我們模型的適用范圍是什么,哪些企業(yè)適用于失信風(fēng)險(xiǎn)模型的預(yù)測(cè),,哪些企業(yè)不適用,,從而去考慮其他方法。
模型分析過程是開發(fā)人員對(duì)該問題不斷深入理解的過程,,開發(fā)人員需要去成為那個(gè)最了解數(shù)據(jù)的人,而不是了解某個(gè)算法的人,。
(6)模型工程實(shí)現(xiàn)的周全性
訓(xùn)練模型跟產(chǎn)品使用的代碼是否完全一致,?數(shù)據(jù)分析接口能否應(yīng)對(duì)高并發(fā)問題?Spark技術(shù)是否有必要,?一般的關(guān)系型數(shù)據(jù)庫是否就能解決問題,?模型是否需要更新?什么時(shí)候更新,?用戶使用模型的反饋是否能以最快的速度反映到下一次模型輸出上,?
(7)對(duì)模型預(yù)測(cè)準(zhǔn)確性的預(yù)期
客戶對(duì)模型預(yù)測(cè)準(zhǔn)確性的預(yù)期是很高的,但任何模型都達(dá)不到100%準(zhǔn)確性預(yù)測(cè),,在企業(yè)風(fēng)險(xiǎn)量化領(lǐng)域更是如此,。主要原因有兩個(gè):
第一,建模所使用的數(shù)據(jù)種類,、數(shù)據(jù)量和數(shù)據(jù)質(zhì)量很可能并不能支撐任何模型達(dá)到我們期望的準(zhǔn)確性,;第二,我們用來訓(xùn)練的數(shù)據(jù)是抽樣數(shù)據(jù),,并不能反映真實(shí)數(shù)據(jù)的分布,。
因此,評(píng)估模型的實(shí)際效果是否滿足客戶的心理預(yù)期尤為重要,。
我們研發(fā)的基于風(fēng)險(xiǎn)傳導(dǎo)模型的企業(yè)失信風(fēng)險(xiǎn)預(yù)測(cè)AUC值達(dá)到0.9,基于LBGM算法構(gòu)建的企業(yè)吊銷風(fēng)險(xiǎn)預(yù)測(cè)AUC值達(dá)到0.89,表明模型對(duì)企業(yè)這兩類風(fēng)險(xiǎn)均有較好的區(qū)分度,。
?
(基于風(fēng)險(xiǎn)傳導(dǎo)模型的企業(yè)失信風(fēng)險(xiǎn)模型ROC曲線)
以上提到的每一個(gè)因素,,在模型設(shè)計(jì)和開發(fā)過程中都扮演著重要角色,,而最終采用的方案是各個(gè)方面綜合考慮的結(jié)果。企業(yè)風(fēng)險(xiǎn)量化分析任重而道遠(yuǎn),,譽(yù)存數(shù)據(jù)科學(xué)家團(tuán)隊(duì)將不斷研究,,更新大數(shù)據(jù)分析的前沿技術(shù),,為客戶提供更有商業(yè)價(jià)值的量化分析產(chǎn)品和解決方案。