您好,欢迎来到独旅网。
搜索
您的当前位置:首页贝叶斯网络分类模型研究及其在信用评估中的应用

贝叶斯网络分类模型研究及其在信用评估中的应用

来源:独旅网
总第250期 计算机与数字工程 Vo1.38 No.8 2010年第8期 Computer&Digital Engineering 1O7 贝叶斯网络分类模型研究及其在信用评估中的应用 王学玲 (滨州学院计算机科学技术系滨州256603) 摘要基于概率估计的贝叶斯及贝叶斯网络分类模型,拥有其它数据挖掘工具所不具备的优势。在分析贝叶斯及贝 叶斯网络分类模型基础上,结合最小风险决策准则,提出了一种新的信用评估模型。在实际数据集上采用交叉验证方式进 行了测试。实验结果表明基于最小风险决策准则的贝叶斯及贝叶斯网络分类模型可以有效地减少信用评估风险。 关键词数据挖掘;贝叶斯网络;信用评估;风险 中图分类号C812 Study of Bayesian Network Classification Models and Its Application in Credit Scoring Wang Xueling (Department of Computer Science,Binzhou University,Binzhou 256603) Abstract Bayesian classifiers and Bayesian network classifiers are based on the probability estimate,which possesses some predominance than the other data mining tools.Via the analysis of the structure of Bayesian classifiers and Bayesian network classifiers,combining minimum overall risk rule,a new credit scoring model is proposed on the risk classification. They are tested by cross validation with a real data set according tO minimum overall risk rule.The experimental results show that Bayesian classifiers and Bayesian network classifiers on minimum overall risk rule can decrease the risk of credit scoring effectively. Key Words data mining,Bayesian network,credit scoring,risk Class Number C8】2 1 引言 根结点不同分类性能会有明显不同。也就是说, Fredman的TAN模型构造方法并没有真实地反 为了改进朴素贝叶斯分类器的性能,人们提出 映属性之间的依赖关系。我们曾经通过将依赖关 了许多方法和技术l_1q]。其中,Friedman和Gold— 系设定方向,并将有向树算法引入TAN分类器的 szmidt研究了具有树结构的TAN分类器 ],它放 构造,提出了一种新的TAN模型构造方法一 松了朴素贝叶斯中的性假设条件,扩展了朴素 DTANE引。 贝叶斯的结构,允许每个属性结点最多可以依赖于 在分类的决策中,使错误概率达到最小是最重 一个非类结点。TAN具有较好的综合性能,体现 要的,但实际上有些问题需要考虑一个比错误概率 了学习效率与分类精度之间的一种适当的折衷。 更为广泛的概念一风险。比如在商业银行的信用 然而,Friedman等人提出的TAN算法是通过构造 评估中将“违约”类样本误判为“不违约”给银行带 一个以条件互信息为权的完全无向图,然后构造其 来的损失和将“不违约”类样本误判为“违约”给银 最大权生成树,最后任选一根结点把无向树变为有 行带来的损失显然是不同的。因此,本文在朴素贝 向树,从而得到TAN模型。实验l_4]已证明,选的 叶斯分类模型和贝叶斯网络分类模型(TAN与 *收稿日期:2010年3月12日,修回日期:2010年4月10日 作者简介:王学玲,女,硕士,讲师,研究方向:数据挖掘、人工智能。 lO8 王学玲:贝叶斯网络分类模型研究及其在信用评估中的应用 第38卷 DTAN)基础上引入最小决策风险分类准则[6],并 错误分类后采用错误决策不同情况下损失函数 (a I Cj)显然是不一样的。结合考虑领域专家意见 把不同的损失函数 (a l Cj)赋予合适的取值后,可 以考虑用最小风险准则作为我们的分类准则,即取 R(uj 1.z)一min R( l )最小的作为决策的准则。 z—l,…. 在实际数据集上进行了测试。实验结果表明,在引 入最小决策风险分类准则后,DTAN模型分类性 能最好。 2理论基础 ,.假定X是一个有限实例集,A一{A ,Az,…, 3 引入最小决策风险分类准则后的 分类器算法 A }是一个有 个属性的有限集。一个实例z∈X 用向量<口 ,a ,…,n >来表示,这里a 是属性A 的 一个值。假设共有m个不同类别C一{c ,c ,…, C },对于给定的一个未知类别数据样本z,分类器 根据贝叶斯定理计算样本z属于类别c 的后验概 率P( 1z)。贝叶斯最大后验准则L7]将选择后验概 率p(c I z)最大的类作为该实例的类标签。即P (c z)=max P( l ),贝0 0定z属于C,。 在分类的决策中,使错误概率达到最小是最重 要的,但实际上有些问题需要考虑一个比错误概率 更为广泛的概念一风险。在个人信用评估中,对消 费者贷款的分类不仅要考虑尽可能做出正确的判 断,而且还要考虑到做出错误判断时会带来什么后 果。在信用评估中如果把“信用良好的客户”误判 为“信用差的客户”固然会使银行损失一笔利息收 益,然而如果把“信用差的客户”错判为“信用良好 的客户”,肯定会造成更大的损失,显然这两种错误 判断所造成后果的严重程度是有显著差别的。因 此,有必要在分类决策时采用一种使误判风险最小 化的准则一最小风险准则来代替最小错误概率准 则来进行分类。 要使误判风险最小化,就要考虑损失函数[6]。 损失函数是精确阐述每种决策行为所付出代价大 小的,令{a ,a。,…,a )表示有限的k种可能采取的 行为集,损失函数a(a l cj)描述类别状态为C,时采 取行动a。的风险。假定观测到某个特定模式 并 将其采取行为a ,如果其真实类别状态为Cj,定义 在类别状态为c 时采取行动Ot 的损失为 ( I Cj), z属于类别C 的后验概率P(cj I z)可以有贝叶斯 分类模型得出,那么与行为a 相关的条件期望损 失P(G Iz)为 m R( fz)一 (口 }cj)P(ci f ) (1) 一1 在实际应用中,式(1)中的损失函数 ( l c )取 值是随z得不同观测值不同而不一样的。例如:在 商业银行信用风险评估中,客户正确分类就意味采 用正确决策,那么 (∞l cj)( — )就没有损失,客户 朴素贝叶斯分类模型和贝叶斯网络分类模型 ( 与DTAN)的工作原理是:选择后验概率p(c Jz)最大的类作为该实例的类标签。即P(c l z)一 max P( {z),则判定z属于cj。考虑在商业银行 信用风险评估中,可以将每一种决策对应于客户的 分类类别,那么 ( l c )一 ( l ci)。于是有R(c Iz) 一∑ ( Iq)p( lz),取R(q{z)= n,R( Iz) 』:1 “… 最小的作为决策的准则,即取P(c l z)最小的类作 为该实例的类标签。可以看出,一旦获得贝叶斯分 类模型后,要进行最小决策风险准则分类就很容易 了。下面给出我们的算法步骤。 1)根据训练样本数据集训练分类模型A,此 步可以计算出PA(ci l )。 2)根据给出的损失函数对未知类别的样本 计算 R(ci fz)一 a(c }Cj)PA( lLz) 』=1 3)比较R(c lz),选择R(c Iz)最小的G在作 为z对应的类。 4试验结果 我们的所有实验都是在weka系统上完成的, 实验数据选自UCI资源库中的德国信用数据 集嘲。德国信用数据集中由数据记录1000条,定 义了两类人,第一类人(Good Credit)样本700个, 第二类人(Bad Credit)样本300个,每个样本有21 个属性。由于TAN和DTAN不能处理连续属性, 因此,使用weka中的“weka.filters.DiscretizeFil~ ter”对连续型数值离散化,将所有包含非序数型数 据的数据集离散化,使得所有的数值属性值都转换 为序数型数值。而作为比较标准的Naive Bayes分 类器的数据,则是在数据集未加处理的自然条件下 运行取得的。 实验的主要目的是为了比较DTAN与Naive Bayes和TAN分类器引入最小决策风险分类准则 2010年第8期 计算机与数字工程 1O9 前后在德国信用数据集上的分类精确率和风险损 失。其中损失函数在正确分类时取值为0,第一类 器的分类精确率是在测试集上错误预测的实例占 总实例的百分比,总损失为两类人错误分类实例数 与损失函数乘积之和。采用10重交叉验证来估计 分类器的精确率,实验结果如表1、表2所示。 人误分成第二类人时损失函数取值为1,第二类人 误分成第一类人时损失函数取值为5。每个分类 表1 引入最小决策风险分类准则前分类结果 混合矩阵Naivet ̄yes TAN DTAN GOOd Bad G∞d Bad G∞d aBd Ga 605 95 638 62 638 62 Bad 151 149 181 119 181 119 误分率 13.57%50.33 &86%65.75%&86%65.75 总损失85O 967 967 总误分率24_40 24.3O 24.30 从表1、2我们可以得出以下结论: 1)在采用了最小决策风险决策分类准则后, 所有贝叶斯分类模型的总误分类率都上升了。Na— iveBayes从24.4O 上升到31.50 ,TAN和 DTAN从24.3O 上升到26.5O 和26.7O 。第 一类人Good的误分类率上升,第二类人Bad的误 分类率显著降低了,这正是我们所希望看到的。由 于两类人的误分类损失不同,那么通过增大第一类 人Good的误分类率来减少第二类人Bad的误分 类率而获得更低的总损失。 2)分类器的误分类率低和总损失的大小并无 对应关系。例如在未采用最小决策风险决策分类 准则前,三分类器误分类率差别不大,但总损失最 小的是NaiveBayes,采用最小决策风险决策分类准 则后,TAN和DTAN的误分类率差别不大,但总 损失最小的是DTAN。 3)不同的分类模型对最小决策风险决策分类 准则的敏感程度不同。NaiveBayes采用最小决策 风险决策分类准则后误分类率增加7.1 ,总损失 减少295,TAN采用后误分类率增加2.2 9/6,总损 失减少370,DTAN采用后误分类率增加2.3%,总 损失减少424。 5 结语 结合个人信用评估实际在朴素贝叶斯分类模 型和贝叶斯分类网络分类模型基础上引人最小决 策风险决策分类准则,并将引入最小决策风险决策 分类前后的分类器模型在真实数据集上进行了测 试。实验结果表明,使用引入最小决策风险决策分 类准则确定根节点的贝叶斯网络分类模型进行个 人信用风险评估取得了较好的效果。由于贝叶斯 网络分类模型作为概率型分类器,容易结合最小风 表2 引入最小决策风险分类准则后分类结果 混合矩阵NaiveBayes TAN DTAN GO0d aBd( 0()d Bad G00d Bad Go。d 445 255 518 182 502 198 Bad 60 240 83 217 69 231 误分类率36.43%20.00%26.00%27.67%28.29%23.00% 总损失 555 597 543 总误分率31.5O 26.5O 26.7o 险准则来进行分类,可以实现对信用评估中风险的 有效控制,便于银行在个人信用评估中进行风险管 理,是信用分类问题的理想选择,在个人信用评价 领域具有广阔的应用前景。 参考文献 E1]Witten I H,Frank E.Data Mining:Practical machine learning tools and techniques,2nd Edition1-M].Mor— gan Kaufmann,San Francisco,2005 -12]E J Keogh,M J Pazzani.Learning augmented Bayesian classifiers:Acomparison of distribution-based and clas— sification-based approaches1-C]//Proceedings of the 7 International Workshop on AI and Statistics,1999:225 ~23O -13]N.Friedman,D.Geiger,^/L Goldszmidt.Bayesian Network Classifiers.Machine Learning E J].Boston: Kluwer Academic Publishers,1997:131~163 [4]Zhihai Wang,G.I.webb,F Zheng.Adjusting De— pendence Relations for Semi-Lazy TAN Classifiers -1C]//Advances in Artificial Intelligence,LNAI 2903. Berlin Heidelberg:Spring-Verlag,2003:453 ̄456 -15]王学玲,王志海,王建林.基于有向树算法构造的TAN 分类器[J].计算机工程与设计,2008,29(13):3451~ 3453 -16]James O.Berger.统计决策论及贝叶斯分析[M].贾乃 光,译.北京:中国统计出版社,1998 [7]Richard O.Duda,Peter E.Hart,David G.Stork. Pattern Classification,2nd Edition[M].北京:机械工业 出版社,2004 E8]Newman D J,Hettich S,Blake C L,et a1.UCI Repos— itory of machine learning databases1-http://、】1) rw.ics. uci.edu/ ̄mlearn/MLRepository.html ̄.Irvine,CA: University of California,Department of Information and Computer Science,1998 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- dcrkj.com 版权所有 赣ICP备2024042791号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务