设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1532|回复: 1
打印 上一主题 下一主题

火眼金睛,巧妙识别离群值及处理之(一)

  [复制链接]
跳转到指定楼层
楼主
发表于 2019-1-16 13:43:40 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
大家在处理数据时经常会遇见离群值(有时也叫异常值,但是它们并不完全一样)。如何处理好离群值并不是一件简单的事,而且大多数高校的统计学课或工业界的统计培训(比如六西格玛绿带、黑带、黑带大师培训)都没有专门的以离群值为主题的课程。我们从下面两个例子来强调离群值识别与处理的重要性。

例一:历史上有的科学家在他的研究工作中轻视、忽略了离群值,结果重大的科学新发现在他鼻尖下错过,而被另一位火眼金睛的同行抢去了科学新发现的桂冠。

例二:在生产线上的工程师们多多少少有过这样的经历:生产线上的质量指标数据有少数看上去和大部分数据不太一样,等会儿这种数据又自行消失了。在一段时间之后工程师再回来察看时竟然有不少数据明显的异常,导致相应产品不合格。

有的人已经认识到辨认离群值的重要性,开始学习离群值侦测的统计方法,学会了使用统计软件来侦测离群值。  但是仍然有不少问题困扰着大家。比如说异常值和离群值有什么差别?在侦探到离群值时可不可以把它扔掉?有的人滥用统计软件中离群值的检验来删除并忽视这些异常值,以至于FDA对医药行业滥用离群值检验来删除数据发出了警告信。 于是又有些人认为不管什么情况下都不能把离群值给删去做余下的数据分析 这样是不是正确的做法?如果不是,那么什么情况下不能扔掉,什么情况下可以扔掉?

本文希望通过有限的篇幅(而且目前只限于一元数据)来和大家讨论这些困扰着大家的问题。

首先我们在这里给出离群值(Outlier)的定义。国标(GB/T6380-2008 数据的统计处理和解释:I型极值分布样本离群值的判断和处理)中定义离群值如下:样本中的一个或几个观测值,它们离开其他观测值较远,暗示它们可能来自不同的总体【1】。大家所称呼的异常值主要指来自不同的总体,或者说是异类。它们的观测值大小并不一定离其他观测值很远。离群值是一种在观测值离群体较远的一种异常值。  它和异常值的含义稍有不同,容易与异常值混淆使用。异常值可以用一句成语来比喻,即“鹤立鸡群”。这些鹤是不同于鸡群的总体。大部分鹤在高度这个特征上是明显区别于鸡群的,但是也有年幼的鹤高度不明显区别于鸡群,但是其他特征仍然有别于鸡类,比如脖子与脚占身体的尺度比例不管年幼还是成年的鹤都与鸡类有显著的差别。

在统计上给定检测水平下被检验为显著的异常值称为统计离群值。 离群值的检验也是一个假设检验的过程。原假设为不存在离群值。统计学家根据数据的特点构造出一个专用的统计量,然后在原假设的基础上计算概率或者相应的统计量值。当p值低于指定的检测水平(比如0.050.01等等)或者被怀疑为离群值的数据的统计量值大于临界值就判断为离群值。不同的离群值情景(单个,多个可能的离群值,单边还是双边等)和检验方法会有不同设计的统计量与对应的概率分布。检验的方法有许多种,有的甚至是简单的半经验方法。通常文献、教课书上看到的方法有简单切尾均值法,a切尾均值/标准差,俄国人发明的拉伊达准则,MAD (MedianAbsolute Deviation),Tukey’s 箱线图法,GrubbsESD 统计量法,Tiejen-Moore 统计量法,Huber’sM-estimator等(大都假设原本数据属于正态分布,或者偏离正态分布不远)。有一次检测一个离群值的方法,有一次可以检测多个单边或双边的离群值的方法。各种方法都有它的局限性。

至于侦探到离群值之后怎么处理,是丢弃掉接着继续你的数据分析还是留在数据里一起分析?这个要看你数据分析的目的是什么。如果分析的目的包括了检查被怀疑为离群值的观测值是否为系统误差,即可能是不同系统和根因造成的系统误差,就不能在被侦测为离群值时丢弃到一边不去进一步分析。比如实验数据中的离群值本身就反映了某个变量具有统计上显著、不可忽略的的效应。分析中把这些数据丢弃后就分析不出来该变量存在的效应。 这就是为什么FDA对医药行业滥用离群值检验来删除数据发出警告信来提醒医药界的同行。但是如果你的目的是参数估计,比如说反映群体的均值和标准差的参数估计,或者在做假设检验, 这时就需要把这些检测到的离群值给舍去。比如说你在计算SPCchart的上下控制线及其中心线时你就必须舍去侦测到的离群值。否则你的控制限就会过宽,侦测OOC的能力就大大下降。 当然你还是需要继续关注计算控制限时丢在一旁的离群值产生的原因。有时候对这些离群值的深入调查研究可以帮助你提前找到将来出现的更多隐患的根因或者可以帮助你找到潜藏的可以改进工艺的新的因素与水平的组合。在科学研究的前沿,你忽略离群值有可能错失新发现的机会。在生产线上你忽略离群值有可能你就是放过了一条变色隐藏的毒蛇,过后它回过头会从你背后来咬你一口。这里的寓意是这些隐藏的根因的继续发展会给你的产品合格率带来致命般的下滑。  

大家知道了离群值判别的重要性,那么,在这么多种方法中哪些是我们方便使用的方法?

在大家常常看到的文艺竞赛的电视节目中看到评委在去除可能带有个人偏见或私下特殊恩怨关系原因给出的离群值分数时用“去掉一个最高分,去掉一个最低分”方法得到剩下数据的平均分(产生于六十年代时的简单切尾均值法)。 这个方法虽然简单但是过于粗糙,有些其他复杂的统计方法很精细但是适用范围很窄,成了中看不中用的奢侈品。JMP软件有提供专门的“探索离群值”实用工具来侦探和处理单元和多元的离群值。由于篇幅有限,这里我们在这第一篇中先简单介绍JMP软件的分布平台里提供的一个简单但非常实用Tukey’s离群值箱线图法以及Huber’sM-estimator 其他更多的在数据分析的数据清理和预处理阶段中对离群值的探索与分析将在下篇与大家讨论分享。


Tukey’s
离群值箱线图法使用以下的上下限来侦测离群值。

上限=Q3 + k*IQR 下限= Q1 - k*IQR

Q1Q3是第一、第三四分位数;IQR (Inter Quantile Range)是四分位间距(IQR=Q3-Q1)。

落在该上下限之外的观测值被判定为离群值。JMP软件的离群值箱线图采用的k=1.5,它所侦探到的离群值称为mildoutliers(温和离群值)。这种方法侦探到的温和离群值会比较多,其中有少许不一定是真正的离群值,但是可以让你关注它们。在第二篇介绍JMP中的“探索离群值”实用工具在单元数据的应用时k值除了这里推荐的1.5之外还可以自己选定。
图一是JMPTukey’s离群值箱线图(Outlier  Box Plot)

图一中箱的上端用点表示的数据为离群值,箱的两端延伸出有时称为须线的线条。须线从箱的两端延伸到如下距离内的最远数据点,

这些距离计算如下:
第一四分位数- 1.5*( 四分位间距)
第三四分位数+ 1.5*( 四分位间距)

若数据点未达到该计算的范围两端,则由这些数据点的高值和低值(不包括离群值)来确定须线。在图一中的低端没有离群值,其低端的须线就是在前面定义的上下限之间的最小值。

如果你想查看离群值箱线图中的离群值是哪几行,你可以选择点击工具栏中的套索工具,将离群值箱线图中的离群值点用套索圈住,这时在数据表中含有这些离群值的行就会被突出显示出来,这样你就可以研究这些离群值的来源与特性。

至于剔除离群值后估计均值和标准差,JMP的分布平台在“汇总统计量”的红三角下面可以选择“定制汇总统计量”,然后选择“稳健均值” 和“稳健标准差”。这里的“稳健均值” 和“稳健标准差”是根据Huber’sM-estimators侦探并删除离群值后计算均值和标准差的(与Tukey’s离群值箱线图判定离群值的方法不一样,判断出的离群值不再是温和离群值)。



如果你有许多列的数据要同时计算“稳健均值” 和“稳健标准差”,你可以在“文件”菜单下面的“首选项”中选择“平台”, 再选择“分布汇总统计量”,之后勾选“稳健均值” 和“稳健标准差”选项,最后确定。这样你将多个列放进分布对话框中的“Y,列”之后得到一系列的分布报告。



你可以在“汇总统计量”的报告中右键点击、选择“制成合并数据表”,你就得到了包含所有列的汇总统计量的数据表。


如果你只想保留各列的“稳健均值” 和“稳健标准差”,你可以选择“稳健均值” 和“稳健标准差”后右击选择“”选择匹配单元格“, 然后把它们制成子集表格。最后的表格就是你想要的各列的“稳健均值” 和“稳健标准差”数据表。这里介绍的离群值分析没有能够给大家标明侦探到的离群值是哪些行,第二篇文章将介绍的专门的“探索离群值”实用工具具有多种功能供大家使用。



在这里我们讨论了困扰大家最多的问题,也介绍了简单的快捷的离群值侦探与“稳健均值” 和“稳健标准差”的获得方法。想要进一步学习、了解离群值的多种情景与分析方法,敬请期待离群值探索后续的文章。

更多数据分析相关干货、JMP实用技巧、JMP最新活动,敬请关注JMP官方微信公众号:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
分享到:  !connect_viewthread_share_to_qq!!connect_viewthread_share_to_qq! QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏1 转播转播 分享分享 分享淘帖 支持支持 反对反对
回复

使用道具 举报

沙发
发表于 2019-1-17 17:51:23 | 只看该作者
期待續集
謝謝分享
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-4-20 15:13 , Processed in 0.375946 second(s), 16 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表