在過(guò)去的幾年里,建立在機(jī)器學(xué)習(xí)算法,、自然語(yǔ)言處理,、分布式存儲(chǔ)和計(jì)算等技術(shù)之上的大數(shù)據(jù)理論研究和技術(shù)應(yīng)用越來(lái)越受到關(guān)注。
?
有這樣兩個(gè)客觀事實(shí)推動(dòng)了本文的撰寫(xiě):
傳統(tǒng)信貸服務(wù)依賴(lài)人工,、基于流程的風(fēng)險(xiǎn)管理特點(diǎn),,決定了金融機(jī)構(gòu)的放貸門(mén)檻高、審批手續(xù)煩瑣,,導(dǎo)致傾向于向資金需求量較大的大型企業(yè)和高凈值個(gè)人放貸,,而將大量具有小微信貸需求的小微企業(yè)和中產(chǎn)階級(jí)以下群體拒之門(mén)外;
相對(duì)寬松的民間借貸又存在利率過(guò)高,、渠道不正規(guī),、難以形成規(guī)模效益等問(wèn)題,使得小微企業(yè)和中產(chǎn)階級(jí)以下群體的融資難成為世界級(jí)難題,。因此,,要實(shí)現(xiàn)金融普惠,銀行業(yè)迫切需要新的解決方案,。
哈佛大學(xué)社會(huì)學(xué)教授加里·金說(shuō)過(guò)一句話:
這是一場(chǎng)革命,,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開(kāi)始了量化進(jìn)程,無(wú)論學(xué)術(shù)界,、商界還是政府,,所有領(lǐng)域都將開(kāi)始這種進(jìn)程。
這里面有一個(gè)很關(guān)鍵的詞,,叫量化,。
在大數(shù)據(jù)的世界里,一切都是可以被量化的,。正是基于此,,我們走上了一條風(fēng)險(xiǎn)量化之路,這也將兩個(gè)客觀事實(shí)結(jié)合在了一起:在機(jī)器學(xué)習(xí)的方式下,,建立風(fēng)險(xiǎn)量化模型,,并在實(shí)際應(yīng)用中不斷的訓(xùn)練,促進(jìn)模型快速迭代,,提升金融業(yè)內(nèi)部風(fēng)險(xiǎn)管理效率和外部服務(wù)效率,,降低金融服務(wù)成本,。
所謂企業(yè)風(fēng)險(xiǎn)量化,是利用企業(yè)各個(gè)維度的數(shù)據(jù)作為基礎(chǔ),,建立風(fēng)險(xiǎn)評(píng)估模型來(lái)評(píng)價(jià)其可能結(jié)果的范圍,,進(jìn)而完成企業(yè)風(fēng)險(xiǎn)的評(píng)級(jí)、評(píng)分或者計(jì)算風(fēng)險(xiǎn)發(fā)生的概率,。
用機(jī)器學(xué)習(xí)的概念來(lái)講,,企業(yè)風(fēng)險(xiǎn)量化可以定義為分類(lèi)問(wèn)題、回歸問(wèn)題或者是異常檢測(cè)問(wèn)題,,分別有相應(yīng)的機(jī)器學(xué)習(xí)算法進(jìn)行建模,;也可以建立基于企業(yè)關(guān)聯(lián)網(wǎng)絡(luò)的風(fēng)險(xiǎn)傳導(dǎo)模型對(duì)企業(yè)風(fēng)險(xiǎn)進(jìn)行量化分析。
本文將結(jié)合譽(yù)存科技企業(yè)風(fēng)險(xiǎn)量化模型,,與大家探討一下整個(gè)大數(shù)據(jù)處理流程中最核心的部分——數(shù)據(jù)分析在場(chǎng)景應(yīng)用中的簡(jiǎn)單與復(fù)雜。
風(fēng)險(xiǎn)量化的數(shù)據(jù)分析可以很簡(jiǎn)單
數(shù)據(jù)分析人員對(duì)數(shù)據(jù)分析工作有一個(gè)普遍的共識(shí):80%時(shí)間是在做數(shù)據(jù)清洗,,20%時(shí)間工作是建模,。簡(jiǎn)單的講,數(shù)據(jù)清洗主要是對(duì)原始數(shù)據(jù)各字段進(jìn)行信息抽取,,對(duì)數(shù)據(jù)合規(guī)性進(jìn)行檢查和轉(zhuǎn)換,,如果數(shù)據(jù)源本身是文本則需使用自然語(yǔ)言處理技術(shù)。
清洗好的數(shù)據(jù)存入結(jié)構(gòu)化表格或者數(shù)據(jù)庫(kù),,然后利用現(xiàn)有的各種數(shù)據(jù)分析語(yǔ)言和工具建模,,包括特征工程、缺失值和異常值處理,、模型訓(xùn)練和調(diào)參,、模型驗(yàn)證、模型可視化等,。
例如基于python語(yǔ)言的sklearn就包含了大量的機(jī)器學(xué)習(xí)算法實(shí)現(xiàn),,可以在比較短的時(shí)間訓(xùn)練一個(gè)可用的模型。
如果數(shù)據(jù)量非常大,,超過(guò)了單機(jī)處理能力范圍,,則根據(jù)實(shí)際需求搭建不同規(guī)模大小的分布式計(jì)算集群完成數(shù)據(jù)清洗和建模。Spark是現(xiàn)在比較流行的分布式計(jì)算框架,,它提供的各個(gè)組件基本能滿(mǎn)足企業(yè)級(jí)的應(yīng)用需求,。
以上就是大數(shù)據(jù)分析的標(biāo)準(zhǔn)流程,也是我們?cè)跇?gòu)建企業(yè)風(fēng)險(xiǎn)量化模型所采用的基本方法,。
不管是簡(jiǎn)單的還是復(fù)雜的算法或者技術(shù)框架,,最終都會(huì)演變成簡(jiǎn)單易用的工具,即使是在自然語(yǔ)言處理,、圖像,、視頻等領(lǐng)域均取得了突破性進(jìn)展的深度學(xué)習(xí)算法,,也有很多開(kāi)源項(xiàng)目支持,開(kāi)發(fā)者如果不是想深入研究其原理,,用深度學(xué)習(xí)算法訓(xùn)練一個(gè)模型并不是很困難的事情,。
因此,數(shù)據(jù)分析變的越來(lái)越"簡(jiǎn)單",,甚至可以通過(guò)流水線一樣的作業(yè)方式完成模型的構(gòu)建,,唯一需要開(kāi)發(fā)者理解業(yè)務(wù)和創(chuàng)新性工作的環(huán)節(jié)就是建模過(guò)程中的特征工程。
風(fēng)險(xiǎn)量化的數(shù)據(jù)分析其實(shí)也復(fù)雜
構(gòu)建一個(gè)風(fēng)險(xiǎn)量化模型是可以很簡(jiǎn)單的,,但是構(gòu)建一個(gè)商業(yè)化的風(fēng)險(xiǎn)量化模型是復(fù)雜的,。
近年來(lái),大部分學(xué)術(shù)界的研究都專(zhuān)注于算法創(chuàng)新,,致力于算法改進(jìn)后的指標(biāo)在公開(kāi)數(shù)據(jù)集上有多大的提升,,但一個(gè)模型是否成功是由多方面因素決定的,絕不是簡(jiǎn)單的用諸如"準(zhǔn)確率"或“召回率”這樣的指標(biāo)來(lái)衡量的,,還應(yīng)該結(jié)合其在實(shí)際應(yīng)用中,,到底解決了什么樣的業(yè)務(wù)難點(diǎn)及行業(yè)痛點(diǎn),這是商用機(jī)器學(xué)習(xí)模型開(kāi)發(fā)對(duì)比學(xué)術(shù)研究或者數(shù)據(jù)分析比賽的重要區(qū)別,。
下面列舉幾項(xiàng)使得模型設(shè)計(jì)和開(kāi)發(fā)變得復(fù)雜的主要原因:
(1)待解決問(wèn)題的定義
實(shí)際應(yīng)用中,,清楚定義需要被解決的問(wèn)題比想象中困難很多。如果對(duì)問(wèn)題的定義是"構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型來(lái)識(shí)別企業(yè)風(fēng)險(xiǎn)"就屬于沒(méi)有清晰定義要解決的問(wèn)題,,什么是"企業(yè)風(fēng)險(xiǎn)",?是違約?是失信,?還是停止經(jīng)營(yíng),?解決不同問(wèn)題所依賴(lài)的數(shù)據(jù)和算法都可能不同,甚至在某些風(fēng)控應(yīng)用場(chǎng)景,,任何算法都不如行業(yè)專(zhuān)家的幾個(gè)規(guī)則來(lái)得直接有效,。
(2)模型的可解釋性
現(xiàn)有的機(jī)器學(xué)習(xí)模型種類(lèi)繁多,有的模型能夠很好的被人解釋?zhuān)热邕壿嫽貧w,、決策樹(shù)算法等,;而有的模型對(duì)人來(lái)說(shuō)就是“黑盒子”,比如神經(jīng)網(wǎng)絡(luò),、集成學(xué)習(xí)等,。如果模型的可解釋性是第一位的,那最終模型的選擇只能縮小到特定的算法類(lèi)別,,即使它們的準(zhǔn)確性比較低,。尤其在為金融行業(yè)制定的企業(yè)風(fēng)險(xiǎn)量化模型里,客戶(hù)非常在意模型是怎么算出來(lái)的,,他們對(duì)“黑盒子”機(jī)器學(xué)習(xí)模型不是很感興趣,,甚至抱持著懷疑態(tài)度,。
(3)帶標(biāo)注的數(shù)據(jù)量
如果帶標(biāo)簽的數(shù)據(jù)比較少,或者獲取標(biāo)記數(shù)據(jù)的成本比較高,,這對(duì)模型效果會(huì)是致命的打擊,。
(4)復(fù)雜的模型一定能更好解決問(wèn)題?
答案是否定的,?;驹瓌t是,效果相差不是太大的情況下,,選擇簡(jiǎn)單的模型,。因?yàn)閺?fù)雜模型所需的數(shù)據(jù)多,并且消耗的計(jì)算資源相對(duì)較高,,所以在實(shí)際應(yīng)用中,,簡(jiǎn)單模型更實(shí)用。
(5)建模的最終目的
以"企業(yè)是否有失信風(fēng)險(xiǎn)"這樣的分類(lèi)任務(wù)為例,,盡管在建立企業(yè)風(fēng)控模型的時(shí)候,,我們會(huì)去計(jì)算模型的各類(lèi)指標(biāo),比如分類(lèi)任務(wù)的準(zhǔn)確率,、召回率、F1,、AUC等,,但這些指標(biāo)的變化和提升,并不是建模的最終目的,,提高模型的預(yù)測(cè)效果可能也不是建模的最終目的,。
我們真正關(guān)心的是建模過(guò)程,比如通過(guò)各類(lèi)模型中間結(jié)果,,去判斷哪些因素對(duì)“企業(yè)是否有失信風(fēng)險(xiǎn)”沒(méi)有影響,,哪些因素對(duì)“企業(yè)是否有失信風(fēng)險(xiǎn)”非常重要,甚至我們只想知道哪些指標(biāo)影響了模型的準(zhǔn)確率,,哪些因素影響了模型的召回率,。
訓(xùn)練過(guò)程還能告訴我們模型的適用范圍是什么,哪些企業(yè)適用于失信風(fēng)險(xiǎn)模型的預(yù)測(cè),,哪些企業(yè)不適用,,從而去考慮其他方法。
模型分析過(guò)程是開(kāi)發(fā)人員對(duì)該問(wèn)題不斷深入理解的過(guò)程,,開(kāi)發(fā)人員需要去成為那個(gè)最了解數(shù)據(jù)的人,,而不是了解某個(gè)算法的人。
(6)模型工程實(shí)現(xiàn)的周全性
訓(xùn)練模型跟產(chǎn)品使用的代碼是否完全一致,?數(shù)據(jù)分析接口能否應(yīng)對(duì)高并發(fā)問(wèn)題,?Spark技術(shù)是否有必要,?一般的關(guān)系型數(shù)據(jù)庫(kù)是否就能解決問(wèn)題?模型是否需要更新,?什么時(shí)候更新,?用戶(hù)使用模型的反饋是否能以最快的速度反映到下一次模型輸出上?
(7)對(duì)模型預(yù)測(cè)準(zhǔn)確性的預(yù)期
客戶(hù)對(duì)模型預(yù)測(cè)準(zhǔn)確性的預(yù)期是很高的,,但任何模型都達(dá)不到100%準(zhǔn)確性預(yù)測(cè),,在企業(yè)風(fēng)險(xiǎn)量化領(lǐng)域更是如此。主要原因有兩個(gè):
第一,,建模所使用的數(shù)據(jù)種類(lèi),、數(shù)據(jù)量和數(shù)據(jù)質(zhì)量很可能并不能支撐任何模型達(dá)到我們期望的準(zhǔn)確性;第二,,我們用來(lái)訓(xùn)練的數(shù)據(jù)是抽樣數(shù)據(jù),,并不能反映真實(shí)數(shù)據(jù)的分布。
因此,,評(píng)估模型的實(shí)際效果是否滿(mǎn)足客戶(hù)的心理預(yù)期尤為重要,。
我們研發(fā)的基于風(fēng)險(xiǎn)傳導(dǎo)模型的企業(yè)失信風(fēng)險(xiǎn)預(yù)測(cè)AUC值達(dá)到0.9,基于LBGM算法構(gòu)建的企業(yè)吊銷(xiāo)風(fēng)險(xiǎn)預(yù)測(cè)AUC值達(dá)到0.89,表明模型對(duì)企業(yè)這兩類(lèi)風(fēng)險(xiǎn)均有較好的區(qū)分度。
?
?。ɑ陲L(fēng)險(xiǎn)傳導(dǎo)模型的企業(yè)失信風(fēng)險(xiǎn)模型ROC曲線)
以上提到的每一個(gè)因素,,在模型設(shè)計(jì)和開(kāi)發(fā)過(guò)程中都扮演著重要角色,而最終采用的方案是各個(gè)方面綜合考慮的結(jié)果,。企業(yè)風(fēng)險(xiǎn)量化分析任重而道遠(yuǎn),,譽(yù)存數(shù)據(jù)科學(xué)家團(tuán)隊(duì)將不斷研究,更新大數(shù)據(jù)分析的前沿技術(shù),,為客戶(hù)提供更有商業(yè)價(jià)值的量化分析產(chǎn)品和解決方案,。