在线观看免费播放网址成人,婷婷亚洲五月色综合久久 ,国产国拍亚洲精品mv在线观看

簡(jiǎn)單OR復(fù)雜？機(jī)器學(xué)習(xí)專家為你解密企業(yè)風(fēng)險(xiǎn)量化

2018-03-23來源:譽(yù)存科技作者:譽(yù)存科技

　　在過去的幾年里，建立在機(jī)器學(xué)習(xí)算法,、自然語言處理,、分布式存儲(chǔ)和計(jì)算等技術(shù)之上的大數(shù)據(jù)理論研究和技術(shù)應(yīng)用越來越受到關(guān)注。

　　有這樣兩個(gè)客觀事實(shí)推動(dòng)了本文的撰寫：

　　傳統(tǒng)信貸服務(wù)依賴人工,、基于流程的風(fēng)險(xiǎn)管理特點(diǎn)，決定了金融機(jī)構(gòu)的放貸門檻高、審批手續(xù)煩瑣,，導(dǎo)致傾向于向資金需求量較大的大型企業(yè)和高凈值個(gè)人放貸，而將大量具有小微信貸需求的小微企業(yè)和中產(chǎn)階級(jí)以下群體拒之門外,；

　　相對(duì)寬松的民間借貸又存在利率過高,、渠道不正規(guī)、難以形成規(guī)模效益等問題,，使得小微企業(yè)和中產(chǎn)階級(jí)以下群體的融資難成為世界級(jí)難題,。因此，要實(shí)現(xiàn)金融普惠,，銀行業(yè)迫切需要新的解決方案,。

　　哈佛大學(xué)社會(huì)學(xué)教授加里·金說過一句話：

　　這是一場(chǎng)革命,，龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程，無論學(xué)術(shù)界,、商界還是政府,，所有領(lǐng)域都將開始這種進(jìn)程。

　　這里面有一個(gè)很關(guān)鍵的詞,，叫量化,。

　　在大數(shù)據(jù)的世界里，一切都是可以被量化的,。正是基于此,，我們走上了一條風(fēng)險(xiǎn)量化之路，這也將兩個(gè)客觀事實(shí)結(jié)合在了一起：在機(jī)器學(xué)習(xí)的方式下,，建立風(fēng)險(xiǎn)量化模型,，并在實(shí)際應(yīng)用中不斷的訓(xùn)練，促進(jìn)模型快速迭代,，提升金融業(yè)內(nèi)部風(fēng)險(xiǎn)管理效率和外部服務(wù)效率,，降低金融服務(wù)成本。

　　所謂企業(yè)風(fēng)險(xiǎn)量化,，是利用企業(yè)各個(gè)維度的數(shù)據(jù)作為基礎(chǔ),，建立風(fēng)險(xiǎn)評(píng)估模型來評(píng)價(jià)其可能結(jié)果的范圍，進(jìn)而完成企業(yè)風(fēng)險(xiǎn)的評(píng)級(jí),、評(píng)分或者計(jì)算風(fēng)險(xiǎn)發(fā)生的概率,。

　　用機(jī)器學(xué)習(xí)的概念來講，企業(yè)風(fēng)險(xiǎn)量化可以定義為分類問題,、回歸問題或者是異常檢測(cè)問題,，分別有相應(yīng)的機(jī)器學(xué)習(xí)算法進(jìn)行建模；也可以建立基于企業(yè)關(guān)聯(lián)網(wǎng)絡(luò)的風(fēng)險(xiǎn)傳導(dǎo)模型對(duì)企業(yè)風(fēng)險(xiǎn)進(jìn)行量化分析,。

　　本文將結(jié)合譽(yù)存科技企業(yè)風(fēng)險(xiǎn)量化模型,，與大家探討一下整個(gè)大數(shù)據(jù)處理流程中最核心的部分——數(shù)據(jù)分析在場(chǎng)景應(yīng)用中的簡(jiǎn)單與復(fù)雜。

　　風(fēng)險(xiǎn)量化的數(shù)據(jù)分析可以很簡(jiǎn)單

　　數(shù)據(jù)分析人員對(duì)數(shù)據(jù)分析工作有一個(gè)普遍的共識(shí)：80%時(shí)間是在做數(shù)據(jù)清洗,，20%時(shí)間工作是建模,。簡(jiǎn)單的講，數(shù)據(jù)清洗主要是對(duì)原始數(shù)據(jù)各字段進(jìn)行信息抽取,，對(duì)數(shù)據(jù)合規(guī)性進(jìn)行檢查和轉(zhuǎn)換,，如果數(shù)據(jù)源本身是文本則需使用自然語言處理技術(shù)。

　　清洗好的數(shù)據(jù)存入結(jié)構(gòu)化表格或者數(shù)據(jù)庫,，然后利用現(xiàn)有的各種數(shù)據(jù)分析語言和工具建模,，包括特征工程、缺失值和異常值處理,、模型訓(xùn)練和調(diào)參,、模型驗(yàn)證,、模型可視化等。

　　例如基于python語言的sklearn就包含了大量的機(jī)器學(xué)習(xí)算法實(shí)現(xiàn),，可以在比較短的時(shí)間訓(xùn)練一個(gè)可用的模型,。

　　如果數(shù)據(jù)量非常大，超過了單機(jī)處理能力范圍,，則根據(jù)實(shí)際需求搭建不同規(guī)模大小的分布式計(jì)算集群完成數(shù)據(jù)清洗和建模。Spark是現(xiàn)在比較流行的分布式計(jì)算框架,，它提供的各個(gè)組件基本能滿足企業(yè)級(jí)的應(yīng)用需求,。

　　以上就是大數(shù)據(jù)分析的標(biāo)準(zhǔn)流程，也是我們?cè)跇?gòu)建企業(yè)風(fēng)險(xiǎn)量化模型所采用的基本方法,。

　　不管是簡(jiǎn)單的還是復(fù)雜的算法或者技術(shù)框架,，最終都會(huì)演變成簡(jiǎn)單易用的工具，即使是在自然語言處理,、圖像,、視頻等領(lǐng)域均取得了突破性進(jìn)展的深度學(xué)習(xí)算法，也有很多開源項(xiàng)目支持,，開發(fā)者如果不是想深入研究其原理,，用深度學(xué)習(xí)算法訓(xùn)練一個(gè)模型并不是很困難的事情。

　　因此,，數(shù)據(jù)分析變的越來越＂簡(jiǎn)單＂,，甚至可以通過流水線一樣的作業(yè)方式完成模型的構(gòu)建，唯一需要開發(fā)者理解業(yè)務(wù)和創(chuàng)新性工作的環(huán)節(jié)就是建模過程中的特征工程,。

　　風(fēng)險(xiǎn)量化的數(shù)據(jù)分析其實(shí)也復(fù)雜

　　構(gòu)建一個(gè)風(fēng)險(xiǎn)量化模型是可以很簡(jiǎn)單的,，但是構(gòu)建一個(gè)商業(yè)化的風(fēng)險(xiǎn)量化模型是復(fù)雜的。

　　近年來,，大部分學(xué)術(shù)界的研究都專注于算法創(chuàng)新,，致力于算法改進(jìn)后的指標(biāo)在公開數(shù)據(jù)集上有多大的提升，但一個(gè)模型是否成功是由多方面因素決定的,，絕不是簡(jiǎn)單的用諸如＂準(zhǔn)確率＂或“召回率”這樣的指標(biāo)來衡量的,，還應(yīng)該結(jié)合其在實(shí)際應(yīng)用中，到底解決了什么樣的業(yè)務(wù)難點(diǎn)及行業(yè)痛點(diǎn),，這是商用機(jī)器學(xué)習(xí)模型開發(fā)對(duì)比學(xué)術(shù)研究或者數(shù)據(jù)分析比賽的重要區(qū)別,。

　　下面列舉幾項(xiàng)使得模型設(shè)計(jì)和開發(fā)變得復(fù)雜的主要原因：

　　(1)待解決問題的定義

　　實(shí)際應(yīng)用中，清楚定義需要被解決的問題比想象中困難很多,。如果對(duì)問題的定義是＂構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型來識(shí)別企業(yè)風(fēng)險(xiǎn)＂就屬于沒有清晰定義要解決的問題,，什么是＂企業(yè)風(fēng)險(xiǎn)＂？是違約,？是失信,？還是停止經(jīng)營(yíng),？解決不同問題所依賴的數(shù)據(jù)和算法都可能不同，甚至在某些風(fēng)控應(yīng)用場(chǎng)景,，任何算法都不如行業(yè)專家的幾個(gè)規(guī)則來得直接有效,。

　　(2)模型的可解釋性

　　現(xiàn)有的機(jī)器學(xué)習(xí)模型種類繁多，有的模型能夠很好的被人解釋,，比如邏輯回歸,、決策樹算法等；而有的模型對(duì)人來說就是“黑盒子”,，比如神經(jīng)網(wǎng)絡(luò),、集成學(xué)習(xí)等。如果模型的可解釋性是第一位的,，那最終模型的選擇只能縮小到特定的算法類別,，即使它們的準(zhǔn)確性比較低。尤其在為金融行業(yè)制定的企業(yè)風(fēng)險(xiǎn)量化模型里,，客戶非常在意模型是怎么算出來的,，他們對(duì)“黑盒子”機(jī)器學(xué)習(xí)模型不是很感興趣，甚至抱持著懷疑態(tài)度,。

　　(3)帶標(biāo)注的數(shù)據(jù)量

　　如果帶標(biāo)簽的數(shù)據(jù)比較少,，或者獲取標(biāo)記數(shù)據(jù)的成本比較高，這對(duì)模型效果會(huì)是致命的打擊,。

　　(4)復(fù)雜的模型一定能更好解決問題,？

　　答案是否定的?；驹瓌t是,，效果相差不是太大的情況下，選擇簡(jiǎn)單的模型,。因?yàn)閺?fù)雜模型所需的數(shù)據(jù)多,，并且消耗的計(jì)算資源相對(duì)較高，所以在實(shí)際應(yīng)用中,，簡(jiǎn)單模型更實(shí)用,。

　　(5)建模的最終目的

　　以＂企業(yè)是否有失信風(fēng)險(xiǎn)＂這樣的分類任務(wù)為例，盡管在建立企業(yè)風(fēng)控模型的時(shí)候,，我們會(huì)去計(jì)算模型的各類指標(biāo),，比如分類任務(wù)的準(zhǔn)確率、召回率,、F1,、AUC等，但這些指標(biāo)的變化和提升,，并不是建模的最終目的,，提高模型的預(yù)測(cè)效果可能也不是建模的最終目的,。

　　我們真正關(guān)心的是建模過程，比如通過各類模型中間結(jié)果,，去判斷哪些因素對(duì)“企業(yè)是否有失信風(fēng)險(xiǎn)”沒有影響,，哪些因素對(duì)“企業(yè)是否有失信風(fēng)險(xiǎn)”非常重要，甚至我們只想知道哪些指標(biāo)影響了模型的準(zhǔn)確率,，哪些因素影響了模型的召回率,。

　　訓(xùn)練過程還能告訴我們模型的適用范圍是什么，哪些企業(yè)適用于失信風(fēng)險(xiǎn)模型的預(yù)測(cè),，哪些企業(yè)不適用,，從而去考慮其他方法。

　　模型分析過程是開發(fā)人員對(duì)該問題不斷深入理解的過程,，開發(fā)人員需要去成為那個(gè)最了解數(shù)據(jù)的人，而不是了解某個(gè)算法的人,。

　　(6)模型工程實(shí)現(xiàn)的周全性

　　訓(xùn)練模型跟產(chǎn)品使用的代碼是否完全一致,？數(shù)據(jù)分析接口能否應(yīng)對(duì)高并發(fā)問題？Spark技術(shù)是否有必要,？一般的關(guān)系型數(shù)據(jù)庫是否就能解決問題,？模型是否需要更新？什么時(shí)候更新,？用戶使用模型的反饋是否能以最快的速度反映到下一次模型輸出上,？

　　(7)對(duì)模型預(yù)測(cè)準(zhǔn)確性的預(yù)期

　　客戶對(duì)模型預(yù)測(cè)準(zhǔn)確性的預(yù)期是很高的，但任何模型都達(dá)不到100%準(zhǔn)確性預(yù)測(cè),，在企業(yè)風(fēng)險(xiǎn)量化領(lǐng)域更是如此,。主要原因有兩個(gè)：

　　第一，建模所使用的數(shù)據(jù)種類,、數(shù)據(jù)量和數(shù)據(jù)質(zhì)量很可能并不能支撐任何模型達(dá)到我們期望的準(zhǔn)確性,；第二，我們用來訓(xùn)練的數(shù)據(jù)是抽樣數(shù)據(jù),，并不能反映真實(shí)數(shù)據(jù)的分布,。

　　因此，評(píng)估模型的實(shí)際效果是否滿足客戶的心理預(yù)期尤為重要,。

　　我們研發(fā)的基于風(fēng)險(xiǎn)傳導(dǎo)模型的企業(yè)失信風(fēng)險(xiǎn)預(yù)測(cè)AUC值達(dá)到0.9,基于LBGM算法構(gòu)建的企業(yè)吊銷風(fēng)險(xiǎn)預(yù)測(cè)AUC值達(dá)到0.89,表明模型對(duì)企業(yè)這兩類風(fēng)險(xiǎn)均有較好的區(qū)分度,。
?

　　（基于風(fēng)險(xiǎn)傳導(dǎo)模型的企業(yè)失信風(fēng)險(xiǎn)模型ROC曲線）

　　以上提到的每一個(gè)因素,，在模型設(shè)計(jì)和開發(fā)過程中都扮演著重要角色,，而最終采用的方案是各個(gè)方面綜合考慮的結(jié)果。企業(yè)風(fēng)險(xiǎn)量化分析任重而道遠(yuǎn),，譽(yù)存數(shù)據(jù)科學(xué)家團(tuán)隊(duì)將不斷研究,，更新大數(shù)據(jù)分析的前沿技術(shù),，為客戶提供更有商業(yè)價(jià)值的量化分析產(chǎn)品和解決方案。

最新動(dòng)態(tài)：