企業(yè)生存風險如何預測,?
——
最近譽存科技的數據科學家們在模型開發(fā)中又取得了一項新的進展。通過引進Cox回歸分析,,進一步優(yōu)化了企業(yè)失信,、破產預測模型,,使得我們對企業(yè)風險變化的預測,可以隨時間的變化而相應變化,,最終獲得更為科學動態(tài)的預測結果,。
一、為什么選擇Cox回歸分析,?
Cox回歸模型,,又稱比例風險回歸模型(Proportional hazards model)。1972年,,由英國統(tǒng)計學家D.R.Cox提出,,是一種半參數回歸模型。
該模型以生存結局和生存時間為應變量,,可同時分析眾多因素對生存期的影響,。它不僅考慮事件是否發(fā)生,也考慮事件發(fā)生出現的時間,,能分析帶有截尾生存時間的數據,,且不要求估計數據的生存分布類型。自問世以來,,Cox回歸在醫(yī)學隨訪研究中受到廣泛應用,,是迄今生存分析中應用最多的多因素分析方法。
?
綜上所述,,我們可以很清晰的明了,,醫(yī)學隨訪研究與企業(yè)風險預測其實在本質上是相通的,都是關于主體生存資料的分析,。
同時,,我們也發(fā)現,那些基于常規(guī)分析模型所做的企業(yè)風險預測,,往往會存在兩個問題:
1,、歷史數據的標簽一般基于當前狀態(tài)來判斷,沒有考慮時間的變量,;
2,、模型輸出值僅為當前發(fā)生風險的概率,不涉及未來一段時間內的風險概率,。
所以,,如果引入Cox回歸分析構建關于企業(yè)生存的分析模型,我們就能加入更多基于時間的變量因素,預測出未來一段時間內企業(yè)發(fā)生失信,、破產等風險的概率,。
?
二、Cox回歸模型的理論推導
Cox回歸模型的基本原理
生存分析是將結局或終點事件和出現這一結局所經歷的時間結合起來分析的一種統(tǒng)計方法,。
?
首先,,我們需要明確生存分析中常用的6個術語,如下:
(1)起始事件:反應研究對象開始生存過程的起始特征事件,。 ????????
(2)終點事件:出現研究者所關心的特定結局,。
(3)觀察時間:從研究開始觀察到研究觀察結束的時間。
(4)生存時間:觀察到的存活時間,。
(5)完全數據:從觀察起點到死亡事件所經歷的時間,,生存時間是完整的。
(6)截尾數據:觀察時間不是由于終點事件而結束的,,而是由于失訪,、死于非研究因素、觀察結束以上三種原因結束而對象仍存活的,。
?
Cox回歸分析的一般條件
①比例風險假定:即PH假定,,常通過觀察自變量分組的Kaplan-Meier生存曲線。若曲線無明顯的交叉,,則提示滿足PH假定,。
②樣本含量:一般需要協(xié)變量的15~20倍的陽性結局事件數。
?
Cox回歸的風險函數公式
其中,,是線性模型的系數(未知參數),,是基準風險函數,exp(...)這個式子描述了企業(yè)主體觀察到回歸變量的破產風險比例,;式中h(t)是具有協(xié)變量x的個體在時刻t的風險函數,,t表示生存時間。?i∈N,βi>0,,表示該協(xié)變量是危險因素,,越大使得生存時間越短。?i∈N,βi ?
三,、Cox回歸模型的應用案例
我們的模型研究以企業(yè)發(fā)生失信或破產為結局,各類風險參數為主要研究因素,,欲了解哪個參數對企業(yè)主體的生存影響更大,,即可應用Cox比例風險模型進行分析。
下面,,以企業(yè)破產風險預測為例:
>>> 預測某公司在未來時間段的破產概率
1. 樣本
正樣本:2W個 (隨機抽取的未破產公司)
負樣本:3707個 (從破產公告中解析出來)
2. 提取特征
包含司法類,、股東類、法人類,、工商類等數十個特征
3. 訓練模型
模型的數據預處理流程跟一般的模型分析類似,,如下圖所示:
本次模型構建最優(yōu)訓練步長為0.05, 得到模型的綜合評價指標Concordance =0.756,,表明具有較好的區(qū)分度。同時,,從模型的輸出結果可以看出最終有14個特征具有統(tǒng)計學上顯著意義,。比如,一個企業(yè)作為被告身份涉及的訴訟次數(defendant_judgedoc_cnt),,法人的關聯(lián)企業(yè)涉及的執(zhí)行次數(network_fr_zhixing_cnt)對企業(yè)風險影響較大,。
進一步地,利用Cox模型我們還可以考察單一因素對企業(yè)風險的影響,,例如:
(1)“成立年限”對破產預測模型的影響:成立年限越長,,其相對的風險越大。
(2)“股東變更次數”對企業(yè)破產風險的影響:股東變更次數越多對企業(yè)風險影響也越大,。
此外,,需了解一點。在實際應用中,,Cox回歸的結局不一定就是破產或者失信,,還可能表現為跑路、行政處罰,、工商吊銷等,,不同的時間周期會表現出不一樣的結果。
四,、備注
在進行Cox回歸分析前,,如果樣本不多而變量較多,建議先通過單變量分析考察所有自變量與因變量之間的關系,,篩掉一些可能無意義的變量,,再進行多因素分析,以保證結果更加可靠,。另外,,即使樣本足夠大,也不建議把所有的變量放入方程直接分析,,一定要先弄清楚各個變量之間的相互關系,,確定自變量進入方程的形式,這樣才能進行有效的分析,。
?