设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 521|回复: 4

过程能力分析的窘境 - 捉摸不定的分布

  [复制链接]
发表于 2017-7-31 10:19:25 | 显示全部楼层 |阅读模式
关键词:过程能力、SPC、正态、数据转换、非参分布

过程能力作为质量管理中对工艺或产品重要评估方法被广泛的应用于各个领域,它消除了不同行业之间工艺、产品指标纲量的限制,形成了统一的评价标准,为企业的推广铺平了道路。然而在实际落地的时候依然面临不小的挑战。其中从业人员最为困扰的问题之一便是进行过程能力评价前提:弄清楚“数据的分布”,只有根据分布选择相应的过程能力计算方法才能够得到可靠的评价结果。于是大家会千方百计寻找与实际数据匹配最佳的分布。

借助于专业的数据分析软件,这一工作已经变的效率很高。但是我们往往会这样的窘境:统计软件给出的最佳的分布面临与我们的行业经验并不符合。比如我在评价某一产品指标的过程能力时,分析软件给出的最佳分布是Weibull分布,但是实际根据产品的特性,这个指标应该是属于正态分布。


产品指标数据的分布拟合汇总:推荐最优为Weibull分布


遇到这种情况,很多朋友就开始蒙圈了,该如何选择呢?

有些朋友就开始运用各种数据转换的工具(如Box-Cox方法,Johnson方法),将数据变换成正态分布,然后再进行过程能力的评估。

真的需要这样做吗?不!其实我们不妨先等等,先弄清楚数据不符合正态的原因。

通常来说,数据出现非正态的原因大致可以归纳为以下几点:

1.  数据本来就不应该是正态的。

如可靠性研究中,数据基本上是服从指数分布或韦伯分布的。以及某些望大或望小的工艺参数也时常会出现非正态的情况,如果确定符合这种情形就直接在计算过程能力的时候选择相应的分布即可。




2.  存在异常点
通常可以用直方图或箱线图来查看,建议大家要养成先用图形来观察数据的习惯。如果发现有异常点,通常的做法是先看看这些异常点是怎么来的,要回头检查一下数据收集的过程。



产生异常点的原因非常多,不同的过程其原因也不同。

可能的原因有:遇到了一个特殊的材料、过程中某个参数突变、设备异常、数据记录错误等。如果确认是异常点,可以考虑剔除。

但如果找不到产生异常点的原因,它可能就是一个正常数据,此时可以考虑补充抽样,看看能不能把异常点与大多数数据中的空间填补上,然后再进行过程能力的分析。

3.多个正态分布的混合

产生这样的数据,可能是把两组(或多组)数据混到一起了,如几台机床的加工数据、不同操作人员的数据、不同产品的数据等。



由此推断,其实在数据量足够大的情况下,可以通过工艺显著因子的若干正态分布组合而成,这也增加了识别数据分布的难度。此时无法找到合适的分布与数据匹配,数据即使经过Box-Cox或 Johnson转化也未必能够符合正态分布。

尽管现在的有些数据分析软件提供,两个或三个混合正态分布的过程能力计算依然无法满足复杂的工艺情况。那此情此景是否无路可走了呢,也不必如此悲观,还有最后一招就是过程能力非参数计算法。

过程能力的非参数计算法, 不需对原始数据做任何转换,可以直接使用以下公式计算过程能力指数CP和CPK.


其中,Xupper和Xlower是随机数据X的百分位数,通常从数据总体(而非样本数据)中,取Xupper为X99.865%,取Xlower为X0.135%,对应于正态分布时覆盖99.73%的数据范围(±3σ);也可取Xupper为X99.5%,取Xlower为X0.5%,以覆盖99%的数据范围。

u*表示过程的实际“位置(Location)”,根据ISO22514,u*通常取随机数据X的中位数(总体的中位数,而不是样本数据的中位数),有时也取X的算术平均数Xbar(总体的均值)。在各行业的实际使用中,此方法有时用来计算短期过程能力,有时用来计算长期过程能力。

值得一提的是,严格来讲,这种方法中所使用的分位数(包括中位数)、均值都不应该通过样本数据直接计算得到(如前一段括号中的注释),而是应该先找到数据实际服从何种分布,然后通过这种分布来计算其分位数和均值。




在实际工作中,对数据拟合其实际服从的分布模式并不是一件很容易的事情(涉及拟合模型和假设检验),而且有些数据我们往往并不能找到其合适的分布模型。这种情况下,我们可以考虑用样本数据进行估算。

总之,在进行过程能力评价的时候,遇到数据不正态或分布不确定也不要慌,有很多方法可以解决这个问题,当然弄清楚其根本原因,然后有针对性的选择相应的解决方案。


更多关于统计分析的技巧分享,敬请关注JMP官方微信公众号:



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

发表于 2017-8-12 11:03:37 | 显示全部楼层
很不错的文章
回复 支持 反对

使用道具 举报

发表于 2017-9-6 16:58:21 | 显示全部楼层
回复 支持 反对

使用道具 举报

发表于 2019-4-24 18:45:36 | 显示全部楼层
學到了一招非参数计算法
回复 支持 反对

使用道具 举报

发表于 2019-6-28 19:01:25 | 显示全部楼层
u*表示过程的实际“位置(Location)”,根据ISO22514,u*通常取随机数据X的中位数(总体的中位数,而不是样本数据的中位数),有时也取X的算术平均数Xbar(总体的均值)..点赞.
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603 )  

GMT+8, 2019-7-19 22:54 , Processed in 0.311932 second(s), 17 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表