您好,欢迎来到独旅网。
搜索
您的当前位置:首页fcm

fcm

来源:独旅网
万方数据第29卷第2期北京交通大学学报Vol.29 No. 2文章编号:1673-0291(2005)02-0017-05一种模糊聚类算法归类的研究李翠霞,于剑(北京交通大学计算机与信息技术学院,北京100044)摘要:模糊C均值(FCM)算法是模式识别领域应用最广的聚类算法之一但是FCM算法存在很多缺点,其中以对噪声数据敏感,鲁棒性较差最为突出.针对这种情况,Lee于1994年提出了一种所谓的改进模糊C均值算法一Lee's算法.但是本文证明了Lee's算法并不是一种真正意义上的模糊C均值改进算法,而是Krishnapuram和Keller于1993年所提出的PCM算法的一种特珠情况.数值实验进一步证明了我们的结论.这时合理地使用模糊聚类算法提供了一定的理论依据.关键词:聚类;模糊C均值(FCM)算法;隶属度;权重指数;目标函数中图分类号:TP18文献标识码:A    Study on the Classification ofA Kind of Fuzzy Clustering AlgorithmLI                           Cui-xia,YU Jian(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)Abstract: Fuzzy Gmeans clustering algorithm is one of the most widely used algorithms in pattenrrecognition. However, FCM algorithm has a lot of drawbacks. Among these drawbacks, being sensi-tive to the noise is the most outstanding. In order to overcome this drawback, Lee proposed a modifiedFCM algorithm-Lee's algorithm. In this paper we will prove that Lee’s model isn't a kind of FCMalgorithm, but a special case of PCM which was proposed by Krishnapuram&Keller in 1993. More-over, the numerical experiments demonstrate our conclusion.Key words: clustering; fuzzy c-means(FCM) clustering algorithm; membership; weighting exponent;objective function    随着互联网技术的发展和计算机处理能力的同意义下相似性较低.目前,聚类分析已被广泛地应不断提升,处理海量数据成了目前计算机的主要任用在模式识别、特征提取、图像分割、古生物类别分务之一如何把海量数据很好的进行归类以发现知析、市场研究和Web网上的文档分类等很多领域.识也成了很多学科领域的研究重点.和简单的分类正因为聚类分析应用广泛,    所以各种不同的聚相比,聚类根据“物以类聚”的原则,按照数据间的相类算法层出不穷.在众多的聚类算法中,最早由研究似程度进行区分和分类.在这个过程中,事先并不清者提出的聚类方法是硬划分方法,其中以C均值算楚每个数据的类别,是一种无监督的分类过程.其目法最为有名.C均值算法中的隶属度不是0就是1,的是要获得一个划分,这些划分将一组数据集合分也就是说,硬C均值算法会把每个待处理的对象严成几个子集,每个子集为一类,划分的标准是同类的格地划分到某个类中,而现实世界中数据的归类有数据在某种意义下相似性较高,不同类的数据在相时并没有如此严格的界限.Zedeh所提出的模糊集收稿日期:2005-01-01基金项目:国家自然科学基金资助项目(60303014)作者简介:李翠霞(1978-),女,河南焦作人,硕士生,email : gyliying)126. com于剑(1          969-),男,山东淄博人,教授,博士.北京交通合理论为解决这一问题提供了有力的工具.人们开始用隶属度来刻画界限并不鲜明的划分问题.模糊聚类方法就是在此基础上发展起来的.这种类型的聚类方法用隶属度来描述样本隶属的不确定性,能够比较客观地反映现实世界.其中,由Dunn首先提出,之后又被Bezdek加以推广的模糊C均值(Fuzzyc- means, FCM)算法〔‘〕是被实践证明的最有效的方法之一    FCM算法本身也存在一些缺点,其中以对噪声数据敏感尤为突出.为克服该缺点,有很多学者进行了相应研究,并提出了不少新算法,例如Krishnapu-ram和Keller[21基于可能性理论所提出的可能C均值(Possibilistic‘一means, PCM)算法,以及Lee D]于1994年在改变FCM算法约束条件的基础上所提出的算法(以下称该算法为Lee's算法)等等.由于FCM算法中数据点在类之间的隶属度之    和等于1,对于包含n个数据点的待分类集合来说,所有隶属度的和就是n.在条件相同的情况下,Lee's算法中所有隶属度的和也为n.两者都根据有关隶属度的约束条件来求得隶属度和类中心的更新迭代公式.表面上看起来,Lee's算法和FCM算法中的类中心之间都是互相影响的,彼此并不.故而很多学者认为Lee's算法是FCM型的算法[]’.但是,我们可以从理论上证明,Lee's算法并不是真正意义上的FCM算法的改进算法,而是PCM算法的一种特殊模型.本文作者将利用理论和实验两种手段证明    Lee's算法应该属于PCM型的算法,这将有助于聚类算法使用者们正确地认识Lee's算法,使其能够根据实际应用需要合理地选择聚类算法.1  FCM算法    FCM算法是Dunn于1974年提出的,之后又被Bezdek加以推广.为了更好的描述FCM算法.我们做如下假设:X{xl+x2,…,x,}CR,是一个数据集,U=}I斤cxn E Mfm是一个隶属度矩阵,{VI,v2,二.,vc}是‘个聚类中心,vi E R',2(c镇n.FCM算法的目标函数如下J,n(。,v)=艺Eu :-d (xk,。‘)(1)-1式中,习uik=1, u,k -C(0,1),t/ k,d (xk,vi)=}}x*一v川2(以下记做dik,若未做特殊说明,都与此定义相同),m通常叫做权重指数.FCM算法即是求出使目标函数Im达到最小值    万方数据大学学报第29卷的隶属度矩阵U=Iu;k{cx二与类中心v= Iv1}V2}…,vc},VkC-Ik}1镇k镇n},ViE Ii!1镇i镇c},x;属于模糊集合X,的隶属度为u;k.初始时,类中心和隶属度矩阵都是随机产生的,之后根据如下更新规则对其进行迭代更新nuXkVi=(i=1,2,…,。)(2a)艺     um1        止立r .l  11/m一1艺一i=1‘“Jk 护}J(i=1,2,。;k=1,2,…,n)(2b)因此,FCM算法的基本步骤可描述如下.步骤1指定算法中的参数,包括类数目。,权重指数m,最大迭代次数丁和rGil值:.步骤2初始化隶属度矩阵U,    使其满足约束条件Xuik=1,。二E (0 ,1).i=1            步骤3使用式(    2a)计算。个聚类中心Vi (1镇i镇c).步骤4计算新的目标函数值J.     (u, v).如果它与上一次目标函数值之差小于闭值。或者迭代次数大于T,算法停止;否则,用式(2b)重新计算隶属度矩阵U,返回步骤3.从以上的分析可以看出,FCM算法简单,实现    起来也比较容易.目标函数采用的是欧氏距离,具有比较直观的几何意义.但是,正因为它采用了欧氏距离,所以只适于发现球状的簇.习 uik=1的条i=1                         件假设各个数据点的影响力相同.在这种条件下,点x*隶属于模糊集合X1的程度还要受到该点隶属于其他模糊集合X, (l二1,2,…,。,且l#1)程度的影响,因此也间接受到类数目的影响.换言之,FCM中的隶属度事实上描述的是点隶属于某一类的相对程度,并非点隶属于该类的绝对程度.这样做虽然有一定的道理,但却使得各个类中心之间互相影响,并不相互,一个类中心的变化会影响到其他的类中』L".因此,FCM算法对噪声数据非常敏感.当数据中包含噪声和孤立点时,很可能会给噪声和孤立点的隶属度赋予一个较大的值,而导致聚类效果不好.对于FCM算法而言,不能区分“证据相等”和“一无所知”.即使两个数据点都是不规则点,FCM算法也不能区分不规则的程度,文献【3].虽然FCM算法引人了权重指数来实现模糊化划分,在某种程度上可以很好地反映现实情况,但是算法本身第2期李翠霞等:一种模糊聚类算法归类的研究的效果受m的影响也较大,近来很多学者对m的选择问题进行了研究,详细内容可参考文献〔5,6].为了克服FCM算法对噪声数据敏感的缺点,    文献中提出了很多新的算法.PCM算法就是众多新算法中的一种.3  Lee' s算法Le    e于1994年提出了一种改进的模糊C均值算法.Lee's算法的目标函数为J(u,v)=习EUPikk=1 i二1(长U2     PCM算法    PCM算法放松了对隶属度归一化的要求,改变=n.类中心这里,V i,k,。二翔,艺艺uiki=1 k=1一士T   刀1万方数据了隶属度函数的约束条件,对噪声数据有较好的处理能力.PCM算法中,各个数据点的隶属度只需满足大于零的条件,并且在产生隶属度和类中心更新迭代公式时,也没有归一化的约束条件.通过这种方法产生的各个类中心之间相互,即:某一类中心的改变并不会影响到其他的类中心.因此,PCM算法中的隶属度可以解释为数据点属于某一类的绝对程度的值.PCM算法的目标函数如下    J(u,。)一艺艺u d;k十习'7i名(1一。二)!=1盖=1(3)                            这里,0镇uik成1, }i是一个合适的正整数.    利用拉格朗日乘子法,可以得到使得式(3)取最小值的必要条件如下月                    乙     uimkxkk=1            vi=(4a)          \-l          -r -, ui__mkk=1              ui        k=[1+(jZ ldik)1/(m-1)]一‘(4b)其中,Krishnapuram和Keller还给出了,‘的定义为      艺 u kdik,‘=K k=1nK=1      (5)    PCM算法首次把可能性理论运用于聚类,可以较好地处理噪声数据.但是,它也存在一定的缺点.由于FCM算法中各个类中心之间互相影响,所以产生重合类中心的概率很小.而对于PCM算法,情况就截然不同了.PCM算法中各个类中心之间相互,彼此并不影响,易于产生重合的类中心.显然,此时产生的结果是不理想的结果,我们并不期望这种情况发生.文献【7]中对PCM的这一缺点进行了,详细描述.也有一些研究者提出了其他的聚类算法,如文献「8,9]中所提到的WPCM算法,这些聚类算法的目标函数及更新公式与式(3)一式(5)相似,我们称这类算法为PCM型算法.隶属度u;的更新公式如下            n u黔k   V1=(  11la,     u k dn  1ik‘i(一m)了‘、7,b艺又dlikl(‘一’走二1 i=1    本文如果能够证明Lee's算法的目标函数与PCM型算法的目标函数等价,并且隶属度和类中心的更新迭代等式也分别与PCM型算法的相同,那么就可以证明Lee's算法是PCM型的算法.把式(    7b)代人到式(7a)中去,可以得到如下等式nU Uk习dmik(‘一m )xk公 i=R=一、,am/(1-m)(8)艺     um‘“动k二1    得知,同时使用式(7a)和式(7b)进行迭代与只用式(8)进行迭代完全相同.下边来分析PCM型算法的目标函数和类中心及隶属度的更新公式.PCM型算法的目标函数一般为如下形式,    见文献[9一12]J(      u,v)=习习u kdik+f(uik)(9)k=1                                   i=1式中,f(u动是u二的函数.如果取f(    uzk )=一E又mu=k,那么就变成了如下形式J(u,。)      E Eu p.一z Em u;k( 10)k=1 z=1利用拉格朗日乘子法,    可求得式(10)取最小值的必要条件为=d1/沃(1一m)(11)类中心v、的迭代与式(7a)相同,如果把式(11)代到式(7a)中去,那么式(7a)就变成了与式(8)完全相同的形式,也就是说,对于同一数据集合,若d*定义相同,m取值也相同,玫e’s算法中类中心的更新公北京交通大学学报第29卷式与(4a)是完全一样的.可以证明,    在式(11)成立的条件下,最小化式表1实验1结果Tab. l  Results of Test 1(10)和最小化Lee's算法的目标函数式(6)也等价.初始类中心类中心万方数据在此,将以目标函数为式(10),隶属度更新公式为式(11),类中心更新公式为式(7a)的聚类算法称作PCM1算法.    综上所述,Lee's算法模型的目标函数、迭代过程和PCM算法的一种特殊模型一PCM1算法的目标函数、迭代过程分别等价,换句话说,Lee's算法模型是PCM型的算法,而非改进的FCM算法.4实验结果分析    下边通过实验来验证以上的结论.为了验证本文提出的观点,分别对Iris数据和人为数据进行了实验.在做实验时,FCM算法的目标函数和迭代分别采用第1节中给出的式(1)和式(2a)与式(2b);PCM算法的目标函数和迭代分别采用第2节中给出的式(3)和式(4a)与式(4b), X72采用式(5)的定义;Lee's算法的目标函数和迭代分别采用式(6)和式(8) , PCM1算法的目标函数和迭代分别采用第3节中给出的式(10)和式(8).实验1在本实验中,    采用Iris数据作为待聚类的数据集合.Iris数据集合中包含3类,每一类有50个样本点,其中有两个类的样本点之间有重合.每一样本点有4个属性特征.本实验中只取前三维属性,权重指数m取值为2,迭代次数为100次,误差取为0.00001,类别个数为3.图1为Iris数据分布图,从中可以清楚地看到数据的分布情况,图1                  Iris数据分布图Fi            g. 1  Iirs data distirbution figure    表1列出了实验结果.从表1中可看出,FCM算法的结果基本上可以代表数据的结构,输出了3个类中心,而PCM算法得到的却是3个重合的类中心,同样,当Lee's算法的初始类中心与我们所推导出的PCM1算法相同时,得到了与PCM1算法完全相同的3个重合的类中心,这与前边的推断一致.(5.7113,3.0540,3.5908)(5.0032,3.4016,1.4870)(5.8651,3.0492,3.7815)(5.8742,2.7604,4.3827)(5.9449,3.0869,3.8256)(6.7936,3.0545,5.6443)PCM(5.8561,3.0459,3.8445)(6.1770,2.8823,4.8079)(5.8150,3.0954,3.7379)(6.1770,2.8823,4.8079)(5.7722,3.0958,3.6452)(6.1770,2.8823,4.8079)Lee’s(5.8481,3.0257,3.8981)(5.7000,2.8000,4.1000)(5.9067,3.0613,3.8423)(5.7000,2.8000,4.1000)(5.8544,3.0180,3.8788)(5.7000,2.8000,4.1000)PCMl(5.8481,3.0257,3.8981)(5.7000,2.8000,4.1000)(5.9067,3.0613,3.8423)(5.7000,2.8000,4.1000)(5.8544,3.0180,3.8788)(5.7000,2.8000,4.1000)    实验2随机产生如图2所示的数据集合,m仍然取2,迭代次数取100次,误差为0,00001,类别个数为2.数据集中样本点的个数为200,每个样本点有2个属性.其数据分布图如图2所示,实验结果如表2所示.从表2可以看出,FCM算法得到了2个不同的类中心,PCM算法得到的是重合的类中心,PCMi和Lee's算法得到的却是近乎重合的2个类中心.N「        。O 0}p"..p.0nm0 k  V 09Q,O    GOC。0.0夕 日0。 ̄入 ?0 0 寸.0..‘....凶..0Lnx/                cm图2人工数据分布图Fig. 2  Manual data distirbution figure表2实验2结果        Tab. 2 Results of Test 2算法初始类中心类中心FCM(0.301 7,0.722 8)(0.196 7,0.819 2)(0.301 6,0.712 6)(U.517 2,0.504 4)PCM(0.300 1,0.715 6)(0300 3,0.712 5)(0304 1,0.719 6)(0.308 8,0.719 2)喊(0.294 1,0.715 5)(0.300 3,0.7125)(0.298 7,0.723 8)(0.300 3,0.7125)钟(0.294 1,0.715 5)(0.300 3,0.712 5)(0.298 7,0.723 8 )(0.300 3,0.712 5)    实验3采用与实验2相同的数据集合,类别个数取2. m取1.8,迭代次数取100次,误差为0.00001,实验结果如表3所示.表2的结果仍然是第2期李翠霞等:一种模糊聚类算法归类的研究FCM算法可以得到指定的2个不同的类中心,PCMFunc    tion Algorithms〔M].New York: Plenum Press,1981.      算法得到的是重合的类中心,PCM1及Lee's算法[2] Krishnapuram R, Keler J M. A Possibilistic Approach to得到的又是2个近乎重合的类中心.Cl    ustering [ J ].IEEE Trans. on Fuzzy Systems, 1993, 1                  表3实验3结果万方数据Tab.                     3 Results of Test 3算法初始类中心类中心FCM(0.314 8,0.693 2)(0.518 9,0.503 0)(0.293 2,0.736 8)(0.198 0,0.818 3)哪(0306 2,0.718 9)     (0.311 4,0.7212)(0.309 6,0.707 3)     (0.300 3,0.7125)贼(0.304 1,0.7155)(0.300 3,0.7125)(0.292 5,0.7319)(0.290 3,0.7342)PCMI(0.304 1,0.7155)(0.300 3,0.712 5)(0.292 5,0.7319)(0.290 3,0.734 2)    如果正如有些研究者认为,Lee's算法是改进的FCM算法,那么类中心彼此影响,就不会产生重合的类中心.而如果它是PCM型的算法,它就会有PCM型算法的缺点,也就是容易产生重合的类中心.从实验结果表1、表2、表3可以看出,当初始划分相同时,Lee's算法的聚类结果与我们所推导出的PCMI算法的结果完全相同,而与FCM算法的结果差别较大;每次实验中,FCM算法所产生的类中心都各不相同,而PCM算法和PCM1算法及Lee's算法产生的却是重合的类中心,这与我们前边的理论分析完全一致.5结论    在本文中,对Lee's算法模型进行了深人研究:(1)    从理论上证明了Lee's算法并不是FCM算法的改进算法,应该属于PCM型算法.(    2)通过实验验证了Lee's算法易于产生重合类中心的缺点.这将有助于聚类算法的研究者重新认识Le    e' s算法,又可以为数据挖掘、模式识别、图像分割等诸多聚类分析应用领域的算法使用者们合理地使用聚类算法提供一定的理论依据.参考文献:[1」Bezdek J C. Pattern Recognition with Fuzzy Objective(    2):98一110.[3] Cherkassky V, Mulier F. Learning form Data Concepts,The    ory, and Methods[ MI.John Wiley&Sons, Inc. 1998.413一417.    [4〕边肇棋,张学工.模式识别〔M].北京:清华大学出版社,1999        BIAN Zha-oqi, ZHANG Xue-gong. PatenrR eocgnition[M].Be    ijing: Tsinghua University Press, 1999. (in Chinese)[s〕于剑论模糊C均值算法的模糊指标〔J].计算机学报,2003,    26(8):974一981.YU     Ran. On the Fuzziness Index of the FCM Algorithms[    J ] . Chinese Journal of Computer, 2003, 26 (8):974一    981. (in Chinese)[6」于剑,程乾生.关于FCM算法中的权重指数m的一点注记[    J].电子学报,2003,31(3):478一480.YU     Jian, CHENG Qian-sheng. A Note on Weighting Ex-po    nent m of FCM Algorithm[J].Acta Electrenica SinicaI2003,    31(3):478一480. (in Chinese)[ 7 ] Barni M, Cappelini V, Meoocci A. Comments on ` A Pos-s    ibilistic Approach to Clustering'【J〕.IEEE Trans. onFuz    zy Systems, 1996,4(3):393一396.[8] Schneider A. Weighted Possibilistic Clustering Algorithms[    J]. In: Proc. of the 9th IEEE Int' l Conf. on Fuzzy Sys-t    enrs. Texas: IEEE, 2000,1:176一180.[9」张敏,于剑.基于划分的模糊聚类方法【J].软件学报,2004,    15(6):858一868.    ZHANG Min, YU Jian. Fuzzy Partitional Clustering Algo-r    ithms[J ].Journal of Software. 2004,15(6):858一868.(i    n Chinese)[10] Krishnapuram R, Keler J M. Possibilistic Means Algo-    rithms: Insights and Recommendation[J].IEEE Trans.o    nFuzzy Systems, 1996,4(3):98一110.[ 111 Schneider A. Weighted Possibilistic Clustering Algorithms[    J].In: Proc. of the 9th IEEE Int' 1 Conf. on Fuzzy    Systems. Texas: IEEE, 2000,1:176一180.[12] Krishnapuram R, Keller J M. The Possibilistic Means Al-gorithxns:  Insights and Recommendation〔J].IEEETrans. on Fuzzy Systems, 1996,4(3):98一110.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- dcrkj.com 版权所有 赣ICP备2024042791号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务