第10卷第1期 2012年2月 实验科学与技术 Experiment Science and Technology VDJ.1O No.1 Feb.2012 利用Origin对数据异常值的剔除方法进行比较 张(华南师范大学璇,程敏熙,肖凤平 物理与电信工程学院,广州510006) 摘要:介绍了采用拉依达准则、肖维勒准则、格拉布斯准则以及狄拉克准则4种剔除异常数据的方法,简述了各准则的数 理统计原理、处理步骤,并借助Origin软件对处理某次盐液体电导率实验的数据,对比了各准则剔除异常值后的处理结果 指出在大样本情况下较适合用拉依达准则,而肖维勒准则和狄拉克准则适用于样本容量较小的情况,格拉布斯准则则适 .用性和剔除结果较为普遍。 关键词:Origin软件;异常值;拉依达准则;肖维勒准则;格拉布斯准则;狄克逊准则 中图分类号:TP37;04~33;G642.423 文献标志码:A doi:10.3969/j.issn.1672—4550.2012.01.024 Origin Used in Comparison the Methods of Eliminating the Excrescent Data ZHANG Xuan,CHENG Min-xi,XIAO Feng-ping (School of Physics and Telecommunication Engineering,South China Normal University,Guangzhou 5 10006,China) Abstract:Four criterions are introduced in this paper to eliminate and distinguish the abnormal values,they are PauT a,Chauv—enet, Grubbs,and Dixon.Their mathematic statistics principles and concordances rea also resumed in this paper.Oriign software are used to deal with experimentl dataa of conductivity of solution and tO compare the processing results.It pointed out that PauT a and Chauv—enet are suitable for large sample and Grubbs,Dixon is suitable for small sample.The Grubbs criterion is in common use. Key words:Origin software;abnormal value;PauT a;Chauv-enet;Grubbs;Dixon 在处理实验数据时,如果其中混杂着若干异常 值,可能导致整个实验的可靠性降低,甚至实验结 Uo/Ui=L/KSR=B/R (3) 式(3)中:B=( 如图l所示。 0.9 O・8 ),代人式(2),得 =( ) 论的错误。若异常值是由于客观外界条件变动,测 量人员操作、记录错误以及仪器故障等方面得出则 考虑删除。对于还不能确定的异常数据,常采取增 加测量次数消除误差,如果仍无法判断其测量结果 中被怀疑含有的可疑误差,则需要根据数理统计原 理,采取一些剔除准则消除异常值 。 u ̄/v,,把实验数据代入式uo/u,=B/R得到的关系 0-7 o,6 0.5 1 盐溶液电导率实验 本文以某次盐溶液电导率实验的测量为例,在 定的输人电压 范围内,并且液体的电导率or or=K(U。/U。) 电压。 0・4 O-3 0.2 0.1 一处于一定范围内时, 与 / 成正比关系: (1) 1/R 式中, 为比例系数;U 是输出电压;U;是输入 液体柱电阻为:R=L/orS, =L/RS 比较式(1)和式(2)可得到: 收稿日期:201I一03—04;修订日期:201l一05—04 图1原始实验数据图 (2) 可以看到1/R:1.25和1.6时,曲线趋势骤 式中, 为液体柱的长度;S为液体柱的截面积。 变,不符合公式推导的正相关趋向。但从仪器和实 验操作上无法排除,因此采取统计判别法。 在Origin中新建表Datal,列u存放(U /U.) 值;列r存放(1/R)值,通过拟合工具得到图2。 作者简介:张璇(1987一),女,在读研究生,主要从事 拟合参数如表1所示,A为截距,日为斜率,SD 为贝塞尔公式求得的标准差。 物理教育和物理实验设计研究。 第10卷第1期 张璇,等:利用Orion对数据异常值的剔除方法进行比较 ・75・ 大可疑误差,予以剔除 J。 在Datal中新增一列名为Contrastl,该列为 I l=30-与30-的对比结果。根据30-检验准则, 在Lab Talk程序窗口输入命令:Datal—Contrastl =abs(Datal—Vd)一3 0.107 98;得至0 Contrastl 0 2 4 1,R 图2原始数据线性拟合图 表1拟合参数表 在Lab Talk程序窗口,输人如下命令,对数据 集直接运算求出残差列 : DatalVd:0.15235+Datal——r 0.20034一 Datal—u;结果如表2所示。 表2 Origin数据列表 以下分别采取不同的判据剔除异常值。 2拉依达检验 拉依达准则又称为30"准则: ^√/ n一1 :+/一 堑 /'t一1 为贝塞尔公式计算的标准差。根据正态分布理论, I l≤3 的概率约为99.7 ,因此,在有限次 的测量中,某次观测的误差大于3o"时,该值有较 列的如表3所示。 表3 Origin数据列表 可以看到Contrastl均小于0,即J I<30-, 没有需要剔除的异常数据。由表1,直线斜率B= 0.200 34±0.039 45,相关系数R=0.848 86;可 知(U /Ui)与1/R线性关系一般。 当测量次数较少时,不宜用拉依达准则,特别 的当n≤10则完全不能使用拉依达准则剔除粗差。 但对于大样本情形(如:n>185),用3o-准则作为 粗判别判据使用最简单方便…。 3肖维勒准则 】 在n次测量中,取不可能发生的数据个数为 1/2,这可以和舍人误差中的0.5相联系,那么对 正态分布而言,误差不可能出现的概率为 1 r一 , 2, 、, 1 卜 J P卜 2一n 由标准正态函数的定义,则有: (∞ ) I( 一 1)+0・5=l一 1 利用标准正态函数表,根据等式右端的已知值 可求出肖维勒系数 。对于数据点 ,若其残差 满足Vd>∞ 0-则剔除 J。查肖维勒系数表可 得,当rt为12时, 为2.03。在Datal中增加一 列,命名为Contrast2,该列为l l与 0-的对 比结果即l I一 0-。在Lab Talk程序窗口输人 ・76・ 实验科学与技术 2012年2月 命令:Datal—Contrast2=abs(Datal—Vd)一2.03} 0.10798;剔除异常值如表4所示。 表4 肖维勒准则剔除异常值表 O 图3剔除异常值后二次拟合图 在Contrast2列中,第3、7点为正值,即所以 应剔除。拟合参数如表5所示。 表5二次拟合后参数表 由表5知,直线斜率B=0.210 47±0.008 8, 相关系数R=0.993 08;可知(Uo/Ui)与1/R线性 关系很好,所以B值有应用意义。可以看出使用 肖维勒准则较为严格,剔除结果也较明显,对于测 量次数不是很多(如:凡<185)的情况常采用此准 则。但在肖维勒系数表中当n一∞,cc, 一∞时,则 所有数据均剔除不了,因此对于测量次数较多的情 况此准则不适用。 4格拉布斯准则 J 若测量值 对应的残差 满足l l=I O 0 O O l^, 0 0 0 0 0 9 8 7 6 5 4 3 2 1 一 I>g。 ,则该值将舍去。式中g。是一个取决 于测量次数n和显著水平 的系数。当n=12取 =0.05,查格拉布斯准则表得g 值为2.285。在 Datal新增一列名为Contrast3,该列为I I的对 比结果即I I—g0or。在lab talk窗口输入:Da— tal—Contrastl=abs(Data1一Vd)一2.285% 0.10798;得到对比Contrast3列的值,结果第3个 数据l I的值大于g。 ,故需剔除,如表6所示。 表6格拉布斯准则剔除异常值表 0.9 0.8 0・7 0.6 0.5 0.4 0.3 0.2 O.1 4 图4剔除异常值后二次拟合图 第2次拟合参数如表7所示。 表7二次拟合后参数 由表7知,直线斜率B=0.190 98±0.027 17, 相关系数R=0.919 76;可知(Uo/Ui)与1/R线性 关系较好,所以B值有应用意义。相比前两个检 验准则格拉布斯临界系数较为适中,弥补了拉伊达 (下转第118页) ・1 l8・ 实验科学与技术 2012年2月 解释此问题,可以举个例子:A和B两人要赛跑, 析课程效果的探索[J].中国教育发展研究杂志, 假设他们的场地环境不同,如一人在室内、另外一 2010,7(8—9):107—109. 人在室外跑,则很难判定其快慢。如存在第3个人 [2]闫淑莲,何深知,段薇,等.仪器分析实验课教学中 s,它分别与A人和B人赛跑,分别求出A人和S 存在的问题及改进方法分析[J].首都医科大学学报: 人以及B人和s人的速度比值,再把2个比值比较 社科版,2008:103—104. 就可以判定以上2人赛跑速度的快慢。此法在一定 [3]刘昭第,徐华杰,盛良全.仪器分析实验教学改革探 索[J].实验科学与技术,2010,8(5):86—88. 程度上消除了环境的影响因素。这种思想同样适用 [4]吴纯,张列林,许晓娥.设计性实验教学法的探索 于相对定量校正因子上。 [J].实验室研究与探索,2005,24(4):74—75. 本实验采用板书、计算机多媒体和实物相结合 [5]朱明华.仪器分析[M].3版.北京:高等教育出版 的方法,效果非常明显,通过约一个小时的讲解, 社,2000:1—101. 可以把整个色谱法理论和实验讲透,即使还没有学 [6]仪器分析实验编写组.仪器分析实验[M].上海:复 过色谱法的人也能完全理解和牢固的掌握。 旦大学出版社,1987:213—245. [7]尤努斯江・吐拉洪,肖开提・阿布力孜.提高气相色 参考文献 谱实验教学效果的探索[J].实验室科学,2010,13 (3):28—29. [1]尤努斯江・吐拉洪,彭秧.提高民族学生学习仪器分 ,l: (上接第76页) 准则的统计临界系数相对比较大不易及时发现异常 6结束语 数据,而肖维勒准则易剔除仅含有较大正常误差的 除以上准则外,还有t一检验准则 、罗曼诺夫 测量值,因此用于一般实验数据的处理较为普遍, 斯基准则 等。通过以上对比可以看到,虽然所有准 处理结果也较为理想 。 则都以数据按照正态分布为前提,但由于各准则的适 5狄克逊准则 用性不同,在数据剔除时会得出不同结论,因此采取 哪种检验准则要依据实验要求、测量次数来综合衡 把数据样本 。, ,…, ,按从大到小顺序 量。本文主要探讨的是偶然误差的检验与剔除,为了 排列为 。, ,…, ,采取极差比的方法简化 完整的达到实验要求,还需要注意实验过程的系统误 计算公式,对于不同的测量次数采用不同的极差比 差,包括实验方法,测量手段等,从根源上遏制,从 公式,这里 =12,因此构造统计量 过程上防范从而使实验尽可能完善。 F21 了 : 兰孚,’ , :÷ ■ 一 :11 13参考文献 若r f>r r >D( ,n),则 为异常值。 [1]熊万杰,黄振中.用Origin软件处理物理实验数据 若 <r r >D( ,凡),则判断 为异常 [J].大学物理实验,2004(17):65—67. 值。 [2]张敏,袁辉.拉依达(PauTa)准则与异常值剔除[J]. 将Vd歹0从大至0/J、{jF歹0 :, , 。,…, 郑州工业大学学报,1997(1):85—88. 依次为,0.224 47,0.026 98,0.025 22,0.021 [3]肖明耀.误差理论与应用[M].北京:计量出版社. ,62,0.017 04,0.011 62,0.O11 31,一0.010 34, 1985. [4]邓勃.异常值的检验与处理方法[J].中国石油和化工 一0.011 68,一0.028 04,一0.040 98,一0.247 2。 标准与质量,1982(2):6—22. r: 21= 一 ,≥ .-~ ,≥- 1 一= 0 _-.26 5 45=一0u.’ 75J0u 6ul‘ 2,’ [5]刘建,刘文金.应用格罗布斯准则判定测量结果中的 粗大误差[J].设计与研究,2006(2):20—21. rt21= 一 , ÷ -1_一 ≥, 1=一 0Q .2 7 4—2 1=一0u.’ 799 3J5一 1 [6]王文周.未知 ,t检验法剔除异常值最好[J].四川 工业学院学报,2000(3):85—86. r 21>r2】,查表得D(0.05,12)=0.546,r 21>D, [7]雷洪.粗差判别方法的比较与讨论[J].石油仪器, 则判断 ,为异常值,应剔除。剔除后数据同格布 1997(11):54—56. 拉斯准则,适用次数较少时,可一次性剔除多个异 [8]邵婷婷,张水利,张永波.两种剔除异常数据的方法 常值。 比较[J].现代电子技术,2008(24):148—149.