Minitab Statistical Software 中的預測分析模塊在所有行業(yè)中都是非常寶貴的資產(chǎn)。業(yè)務價值可以通過預測措施產(chǎn)生,例如客戶流失、患者住院時間、成本、風險、利潤和許多其他因素。
在本文中,我們將研究銀行業(yè)中的一個應用程序。對于銀行來說,向錯誤的人提供抵押貸款可能是一個損失數(shù)十萬美元的錯誤。鑒于這些風險,銀行在決定批準或拒絕他們的抵押貸款申請之前了解他們的客戶并對其做出預測是極其重要的。讓我們看看 Minitab 的預測分析模塊如何通過準確預測客戶未來可能違約的情況來最大限度地減少抵押貸款違約的數(shù)量。
了解貸款數(shù)據(jù)
以下是分析中使用的觀察數(shù)據(jù)的一部分。對以前的客戶抵押貸款有1,645 項觀察結果。C1 列顯示響應變量或目標,如果該人拖欠抵押貸款,則是,如果沒有,則否。 其他 9 列包含我們將評估為潛在預測因子的特征。
抵押貸款違約的現(xiàn)狀
下面的餅圖幫助我們更好地了解借款人的抵押貸款違約率。 我們看到 10% 的抵押貸款被拖欠。降低這個百分比可以大大增加利潤。
比較預測模型
為了應對這一挑戰(zhàn),我們使用 Minitab 預測分析模塊。
由于響應為是或否,我們將使用分類模型。如果對連續(xù)響應感興趣,將使用基于樹的回歸模型。預測分析模塊包含三種分類建模類型:
1. CART? 分類
2. 隨機森林分類
3. TreeNet 分類
對于分類,評估模型擬合優(yōu)度的主要指標之一是 ROC 曲線下的面積。該指標越接近 1 越好。模塊中的三個建模引擎中的每一個都被利用,并比較了各自的 ROC 曲線下面積值。
TreeNet 分類產(chǎn)生的 ROC 曲線下面積為 0.9695。對于來自其他兩個建模引擎的模型,該值優(yōu)于 ROC 曲線下的區(qū)域,這意味著生成的 TreeNet 分類模型是抵押貸款違約的最佳預測模型。 TreeNet Gradient Boosting 是 Minitab 中最靈活、屢獲殊榮且功能最強大的機器學習工具,它能夠始終如一地生成極其準確的模型。在三個建模引擎中,TreeNet 通常傾向于產(chǎn)生最好的結果。
可視化重要變量
我們首先將相對變量重要性圖作為我們模型輸出的一部分。相對變量重要性值的范圍從 0% 到 100%,最重要的變量始終為 100%。 債務對信用是預測抵押貸款違約最重要的變量,其次是債務對收入,是第二重要的變量。九個特征中的八個在某些方面對模型很重要。
預測違約概率
既然我們在 Minitab 中已有模型,我們可以進行預測。我們可以將單個值輸入 Minitab 以進行預測,如果一次進行大量預測很有價值,我們可以將值列輸入到 Minitab 中。
以下為申請 485,000 美元抵押貸款的個人數(shù)據(jù):
? 43 歲
? 81,000 美元的收入
? 9 個信用來源
? 0.68 的債務信貸比率
? 0.73 的債務收入比
? 住宅抵押貸款
? 來自西北地區(qū)
? 無家屬
我們將這些值輸入到預測模型中以獲得單個默認值的概率,如下面的預測輸出所示。此人拖欠抵押貸款的可能性超過 97%。一旦做出預測,那么您,擁有行業(yè)知識的人,就可以解釋預測并采取行動。我認為違約概率為 97% 的個人很可能會被拒絕抵押貸款。
在所有預測變量的值都可用時進行預測總是最好的情況,但實際上很多時候預測變量的某些值丟失。Minitab 中的預測分析使我們在發(fā)生這種情況時仍然可以輕松地進行預測。在下面的示例中,有幾個缺失值。即使有缺失值,我們仍然可以預測該客戶拖欠抵押貸款的概率。
我們還有另一個潛在客戶申請了 375,000 美元的抵押貸款。我們沒有關于該申請人的收入、債務與收入比率、地區(qū)和受撫養(yǎng)人數(shù)量的數(shù)據(jù)。但我們確實有以下信息:
? 49 歲
? 4 個信用來源
? 0.31 的債務信貸比率
? 住宅抵押貸款
盡管有缺失值,我們仍然能夠做出預測,并看到該客戶拖欠抵押貸款的可能性不到 1%,如下所示。
根據(jù)分析,此人似乎是抵押貸款的理想人選,因為根據(jù)預測模型,他們違約的可能性不到 1%。這只是 Minitab 基于樹的機器學習算法如何幫助您解決復雜問題并獲得寶貴見解的一個示例。
了解如何在您的行業(yè)中應用 Minitab 預測分析模塊的強大功能