信貸分析與公司貸款 pdf(信貸分析范圍)
《大數(shù)據(jù)原理與應(yīng)用》課程設(shè)計(jì)報(bào)告設(shè)計(jì)題目: 汽車貸款違約概率預(yù)測(cè)分析學(xué)院 經(jīng)濟(jì)與管理學(xué)院 班級(jí) 人力211學(xué)號(hào) 3210513119姓名 張泳淇指導(dǎo)教師段 喆2022年11月22日—— 2022年12月13日汽車貸款違約概率預(yù)測(cè)分析01 背景介紹目前,在經(jīng)濟(jì)快速發(fā)展的時(shí)代,貸款的風(fēng)險(xiǎn)審批是商業(yè)銀行面臨的首要問(wèn)題。貸款中風(fēng)險(xiǎn)的產(chǎn)生,不僅在貸款審查階段出現(xiàn),而且貫穿整個(gè)貸款流程中:在實(shí)際貸款審批流程中,大多數(shù)的審貸過(guò)程并非十分嚴(yán)謹(jǐn)和周全,因此不良貸款的概率會(huì)日漸飆升,在這樣的背景下,建立一個(gè)科學(xué)有效、有解釋力度的模型對(duì)貸款客戶的信用進(jìn)行評(píng)估與判定,從而將違約的風(fēng)險(xiǎn)降到最低并將利潤(rùn)最大化是刻不容緩的事情。對(duì)信用風(fēng)險(xiǎn)的識(shí)別與防控是商業(yè)銀行風(fēng)險(xiǎn)管理研究的重要內(nèi)容,是金融機(jī)構(gòu)不可回避的核心問(wèn)題,也是各國(guó)政府與金融機(jī)構(gòu)風(fēng)險(xiǎn)管理的焦點(diǎn)。因此,為了更好解決風(fēng)險(xiǎn)管理中的問(wèn)題,本文涉及的數(shù)據(jù)包含銀行客戶的交易數(shù)據(jù),而且涉及大部分貸款信息與眾多信用卡的數(shù)據(jù),通過(guò)分析這些數(shù)據(jù)可以獲取與銀行服務(wù)相關(guān)的業(yè)務(wù)知識(shí),例如,提供增值服務(wù)的銀行客戶經(jīng)理,希望明確客戶有更多的業(yè)務(wù)需求,而風(fēng)險(xiǎn)管理的業(yè)務(wù)人員可以及早發(fā)現(xiàn)貸款的潛在損失。
從國(guó)內(nèi)第一家汽車金融公司成立到現(xiàn)在已經(jīng)相繼成立了十幾家專業(yè)的汽車金融公司,同時(shí)商業(yè)銀行也在積極的發(fā)展汽車金融業(yè)務(wù)。相比2004年的沉寂,國(guó)內(nèi)整個(gè)汽車金融行業(yè)呈現(xiàn)出蓬勃的發(fā)展態(tài)勢(shì)。隨著國(guó)內(nèi)人民生活水平的提高和超前消費(fèi)意識(shí)的提升,越來(lái)越多的消費(fèi)者會(huì)加入到貸款購(gòu)車的行列。可以預(yù)見(jiàn)的是我國(guó)汽車金融市場(chǎng)的良好發(fā)展前景。但是,相比國(guó)外汽車金融的成熟,國(guó)內(nèi)目前的汽車金融市場(chǎng)還很混亂,違約情況并不鮮見(jiàn)。由于國(guó)內(nèi)的信用體制的不完善、收入的非透明化、人口的大流動(dòng)性特殊情況,加之當(dāng)前的汽車信貸的制度、環(huán)境、個(gè)人信用評(píng)估和操作上存在很多制約因素,這也就造成了貸后違約風(fēng)險(xiǎn)的增大。因此,研究汽車金融公司如何有效地控制違約風(fēng)險(xiǎn)就具有理論和現(xiàn)實(shí)意義【潛力巨大】近年來(lái),隨著國(guó)民消費(fèi)水平的提高,購(gòu)車熱潮的掀起,汽車消費(fèi)貸款成為了繼房地產(chǎn)消費(fèi)貸款之后的又一個(gè)市場(chǎng)熱點(diǎn),具有巨大的發(fā)展?jié)摿Α!举J款違約現(xiàn)象】雖然我國(guó)汽車消費(fèi)貸款發(fā)展迅猛,然而由于不少客戶信用意識(shí)不夠、道德觀念不強(qiáng),“騙貸”、“一車多貸”等現(xiàn)象時(shí)有發(fā)生。汽車貸款逾期不還的狀況大大增加了汽車金融公司的壞賬發(fā)生率,嚴(yán)重的貸款逾期率使得汽車金融公司蒙受很大損失。因此.嚴(yán)格控制貨款逾期率、盡量遏制貨款違約現(xiàn)象的發(fā)生是汽車金融公司的關(guān)鍵任務(wù)。
【宏觀經(jīng)濟(jì)意義深遠(yuǎn)】作為汽車金融公司的支柱業(yè)務(wù),汽車消費(fèi)貸款是公司資金運(yùn)轉(zhuǎn)的命脈,也是汽車工業(yè)和消費(fèi)市場(chǎng)高速發(fā)展的強(qiáng)勁動(dòng)力。做好汽車金融服務(wù),對(duì)于支持我國(guó)汽車產(chǎn)業(yè)調(diào)整振興,保增長(zhǎng)、擴(kuò)內(nèi)需、調(diào)結(jié)構(gòu)和促進(jìn)國(guó)民經(jīng)濟(jì)長(zhǎng)期平穩(wěn)較快發(fā)展具有重要戰(zhàn)略意義。【什么是汽車消費(fèi)貸款】本質(zhì)上來(lái)說(shuō),汽車消費(fèi)貸款就是汽車購(gòu)買人向金融機(jī)構(gòu)申請(qǐng)貸款用來(lái)支付購(gòu)車款項(xiàng),并且承諾以分期付款的方式來(lái)歸還本金和利息的一種消費(fèi)貸款。02 數(shù)據(jù)介紹與說(shuō)明數(shù)據(jù)概覽:此次數(shù)據(jù)分析主要針對(duì)汽車貸的貸款情況,以貸款發(fā)放數(shù)據(jù)推測(cè)貸款客戶違約概率,然后再對(duì)客戶數(shù)據(jù)和違約概率進(jìn)行邏輯回歸。總數(shù)據(jù)量超過(guò)23w,包含25個(gè)特征字段,其中訓(xùn)練集16w,測(cè)試集4.6w,驗(yàn)證集2.3w03 建模分析由于是為了預(yù)測(cè)是否違約,選擇使用隨機(jī)森林模型、Logistic回歸模型、樸素貝葉斯模型、SVM模型選出最優(yōu)模型。【Logistic回歸模型】Logistic回歸模型在兩分類問(wèn)題中具有非常廣泛的應(yīng)用,它能將待分類樣本的類別分成兩類,是該模型的核心是通過(guò)Sigmoid函數(shù)將因變量的值轉(zhuǎn)換成概率。但該模型在分類的精準(zhǔn)度上有一定欠缺,容易產(chǎn)生過(guò)擬合的現(xiàn)象。同時(shí),Logistic回歸模型通常用來(lái)處理兩分類問(wèn)題,不能很好地處理多分類的情況。
而對(duì)貸款違約行為進(jìn)行預(yù)測(cè)正是貸款是否逾期的兩分類問(wèn)題,比較適合Logistic回歸模型處理。Logistic回歸模型ROC曲線【樸素貝葉斯模型】樸素貝葉斯模型假設(shè)每個(gè)特征對(duì)分類變量的影響是獨(dú)立的,這使得分類的聯(lián)合條件概率很容易計(jì)算。其在信用評(píng)估方面得到了廣泛的應(yīng)用。因?yàn)樵谛庞迷u(píng)估中,多數(shù)變量的屬性為標(biāo)稱變量,并且原始數(shù)據(jù)存在較多的空值,而樸素貝葉斯主要對(duì)標(biāo)稱數(shù)據(jù)進(jìn)行分析,對(duì)空值又不太敏感,因此選擇該分類器對(duì)貸款違約行為進(jìn)行預(yù)測(cè)。樸素貝葉斯模型ROC曲線【隨機(jī)森林模型】隨機(jī)森林近年來(lái)廣泛應(yīng)用的領(lǐng)域是信用評(píng)估,信用評(píng)估中樣本量較大,原始數(shù)據(jù)存在較多的空值,并且數(shù)據(jù)中離散變量占多數(shù)。隨機(jī)森林模型可以很好地處理這樣的數(shù)據(jù),因此可以選用隨機(jī)森林算法對(duì)貸款違約行為的數(shù)據(jù)進(jìn)行擬合預(yù)測(cè)。隨機(jī)森林模型雖然對(duì)空值不敏感,但在部分樣本的特征屬性為空值的情況下,仍可以維持分類的準(zhǔn)確度。隨機(jī)森林模型既能夠通過(guò)隨機(jī)抽取的方式,抽取不同的特征變量進(jìn)行分類,又能夠處理大批量、多維度的復(fù)雜數(shù)據(jù)模型的泛化能力強(qiáng),不易造成過(guò)擬合問(wèn)題,而且具有較高的分類準(zhǔn)確度。隨機(jī)森林要求每個(gè)決策樹差異盡可能的大,從而在最大程度上減少模型的方差。
隨機(jī)森林模型超參數(shù)比較復(fù)雜不僅需要每一棵決策樹的參數(shù),還需要整個(gè)集成模型的參數(shù),經(jīng)檢驗(yàn)發(fā)現(xiàn)隨機(jī)森林在非平衡數(shù)據(jù)上依舊有著很好的效果。隨機(jī)森林模型ROC曲線【SVM模型】SVM也適用于有監(jiān)督的兩分類問(wèn)題。研究表明SVM在分類過(guò)程中可以利用少量的樣本獲得很好的分類效果,因此在貸款違約預(yù)測(cè)方面有很好的適用性。SVM的最終決策函數(shù)只由少數(shù)的支持向量所確定,計(jì)算的復(fù)雜性取決于支持向量的數(shù)目,而且是樣本空間的維數(shù)這在某種意義上避免了“維數(shù)災(zāi)難”。少數(shù)支持向量決定了最終結(jié)果,這不但可以抓住關(guān)鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡(jiǎn)單,而且具有較好的“穩(wěn)健”性。經(jīng)典的SVM算法只給出了兩分類的算法,此次分析主要也是處理兩分類問(wèn)題,因此該算法的特點(diǎn)和所要分析的數(shù)據(jù)的特點(diǎn)較為符合。SVM模型ROC曲線04 算法比較根據(jù)AUC值此次選擇預(yù)測(cè)模型的優(yōu)先順序?yàn)長(zhǎng)ogistic(0.8511)、SVM(0.8439)、隨機(jī)森林(0.8096)、樸素貝葉斯(0.7984)(1)Logistic回歸模型適用于特征維度適中、離散變量少的大容量樣本,在特征變量選取適當(dāng)?shù)那闆r下,能夠?qū)煞诸悊?wèn)題有較為準(zhǔn)確的評(píng)分效果,但不能很好地處理多分類的情況。
此次對(duì)貸款違約的預(yù)測(cè)是兩分類問(wèn)題,并且樣本容量大,起重要作用的特征數(shù)目為15個(gè)左右,特征數(shù)目較少,因此Logistic回歸模型可以很好地處理該問(wèn)題。(2)SVM算法有兩個(gè)不足:一是SVM算法對(duì)大規(guī)模訓(xùn)練樣本難以實(shí)施,二是用SVM解決多分類問(wèn)題存在困難,經(jīng)典的支持向量機(jī)局限于兩分類的問(wèn)題。此次對(duì)貸款違約的預(yù)測(cè)是兩分類問(wèn)題符合SVM算法的要求,但此次提供的樣本容量大,存儲(chǔ)和計(jì)算耗費(fèi)大量的機(jī)器內(nèi)存和運(yùn)算時(shí)間。SVM運(yùn)行的速度低于其他模型,且SVM的AUC值達(dá)到0.8439,與Logistic回歸模型的AUC值0.8511比較接近,因此考慮運(yùn)行效率問(wèn)題,優(yōu)選Logistic。(3)隨機(jī)森林算法通常適用于離散變量、連續(xù)變量混合的樣本對(duì)于特征變量維度較高的樣本集具有良好的分類效果,對(duì)于數(shù)據(jù)特征屬性變量少、噪聲比例大的樣本,隨機(jī)森林算法易出現(xiàn)過(guò)擬合的情況,且對(duì)樣本容量和特征數(shù)目的要求較高。起重要作用的特征數(shù)目為15個(gè)左右,特征數(shù)目較少,這將導(dǎo)致隨機(jī)森林算法出現(xiàn)過(guò)擬合的情況,影響最終的預(yù)測(cè)結(jié)果。若提供更多的客戶分類級(jí)別,例如不違約、逾期和違約等那么這里的貸款違約問(wèn)題就變成了一個(gè)多分類問(wèn)題,隨機(jī)森林算法相對(duì)于Logistic回歸模型算法可能會(huì)得到更好的預(yù)測(cè)結(jié)果。
(4)樸素貝葉斯的成功之處在于使得原本不獨(dú)立的變量近似認(rèn)為是獨(dú)立的,大大減少了模型的參數(shù),從而在一定程度上避免了過(guò)擬合的現(xiàn)象。變量之間并不是相互獨(dú)立的,這會(huì)對(duì)預(yù)測(cè)的結(jié)果產(chǎn)生重大的影響,所以樸素貝葉斯模型在四個(gè)模型中的預(yù)測(cè)結(jié)果表現(xiàn)最差。明顯Logistic回歸模型優(yōu)于其余三個(gè)模型,默認(rèn)參數(shù)也提供了較高的準(zhǔn)確率,所以最終選擇Logistic回歸模型為最優(yōu)的模型修正前的混淆矩陣修正后的混淆矩陣用混淆矩陣比較分類結(jié)果和實(shí)際測(cè)得值,違約133人,不違約329人,最后對(duì)整體模型進(jìn)行評(píng)價(jià)與檢驗(yàn),模型預(yù)測(cè)準(zhǔn)確度約為 0.659305 結(jié)論違約狀況隨客戶評(píng)分增加先惡化再改善, 而非簡(jiǎn)單的線性負(fù)相關(guān)。客戶信用處于