3月14日,JMP软件最新版本—JMP14已经正式发布啦!在大数据、智能化等话题越来越热的今天,这次JMP14版(JMP普通版)及JMP Pro14版(JMP专业版)的全新发布自然也受到了众多统计分析爱好者和JMPer(JMP粉丝)们的关注。
本文作者Vincent Zhou,从去年下半年起成为国内为数不多的几位JMP14 Early Adopter之一,试用了一段时间新软件,已经有了一些感性的认识。
从整体上看,JMP14的提升力度还是较大的。在继承了JMP软件一贯的可视化、交互式特色之外,JMP14新增或改进了18个功能大类,大大小小共计100项左右的功能,其技术难度不亚于重新设计开发出一个新的小型统计分析软件。
从具体功能来看,也是有不少可圈可点的地方。现在,Vincent Zhou 就结合这半年多来的使用体验,精挑细选出四大亮点,推荐给大家,希望喜欢走在时间前的朋友能够一睹为快。
追求极致的“图形生成器Graph Builder” 用过JMP的人都知道,用鼠标拖拖拉拉、指指点点就能画图的图形生成器是开展探索性数据分析的利器。初看JMP14的图形生成器界面,好像和以前的没有什么不同。但仔细看看,会发现了很多新选项。比如“Bar Style”里的“Packed”, “Error Bars”里的“Two-way Interval”,等等。
你可别小看了这些细节,就是因为这些新选项,我们可以画很多更酷更眩的图形啦!比如,像这种“垂直帕累托图”,它可是像华尔街日报、沃顿商学院教材上频频出现的统计图表,常常用来突出一大串候选项里最领先的前几项,现在分分钟就能搞定。
还有这种叫“双向误差条图”的专业统计图形,可以从两个维度来表达数据的不确定性,现在也不需要任何编程,只要手指点几下鼠标就能完成。这对很多需要写科研论文、但又不熟悉计算机程序语言的研究人员可是个小小的福利。
永无止境的“实验设计DOE” 众所周知,实验设计一直是JMP独步统计江湖的看家本领,其中的“定制设计”更是王牌中的王牌。一开始我还有点怀疑:定制设计已经这么强大了,这回JMP还能超越自我吗?可结果不得不让我再次折服,因为JMP14的定制设计又有新突破!它的操作界面里增加了一个“Make A-Optimal Design”的选项。用来填写每个因子的重要性,以确保设计出来的实验计划更有针对性。
比如说,有一个需要优化的流程,共有三个潜在因子A、B、C,根据资深工程师的经验,认为因子A显著的可能性很大,B显著的可能性一般,C显著的可能性很小。那么,我们就可以在设计实验时,像下图一样把这些有价值的信息输入到定制设计的初试条件中。这样,就可以确保在由于实验次数少而使正交性下降的时候,新的实验计划依然能够有效地发现真正关键的因子。
唤醒工业化大数据的“函数数据分析器Functional Data Explorer”
注意,这可是一个全新的功能平台,也是我觉得技术含量最高的一项功能,而且是JMP Pro14才有的新功能噢。说实话,其中的统计学原理还挺复杂的,这里就只谈谈应用思路吧。
想象一下,在一个氧化的表面处理工艺中,有7个化学槽液的浓度会显著地影响产品的外观质量,已经收集了100批生产记录,请问该怎么分析它们之间的关系?也许有人会觉得很简单:不就是用100行数据建立一个7因子的回归模型吗?但有经验的工程师知道:实际情况要比想象的复杂很多!因为在很多化工、钢铁、医药等流程性行业中,工艺参数常常是无法彻底固定的,比如说上面提到的槽液浓度,就会在生产过程中不断变化,每分钟的测量结果都会不同。所以进一步设想一下,在一个生产批次中,有100个测量时间点,那每一列浓度就变成了100列数据,总共会得到一个700(=7*100)列X100行的大数据表格,也就是说有700个候选变量要考虑!这是一般的回归分析无法解决的难题,连资深的六西格玛黑带也往往望而却步。
好在现在有办法了!如下图所示:通过JMP的函数数据分析器,原先每个浓度的100个观测变量被浓缩成了3个左右的新变量, 平均来看,7个浓度只要用21(=3*7)个变量来表达就可以了。这样一来,运用回归分析优化工艺的可行性是不是大大增强了?
有人可能会问:这样处理靠谱吗?误差会不会很大?其实,所有的降维处理都有误差,但同样从下图可以看到,前3位的新变量能解释100个原变量中90.09%(=64.4%+19.9%+5.79%)的变异,这样的误差程度在很多工程条件下还是可以接受的。
有了这个秘密武器,我们公司MES数据库里的海量数据终于可以发挥作用了!
1+1>2的“Python接口Interface to Python” 最后一个功能是面向专业数据分析人士的,或者用个高逼格的词,是面向数据科学家的,统计分析菜鸟请绕道。因为只有像数据科学家这样的人,才知道什么是Python,才喜欢用Python这样的开源软件编程。毫无疑问,用Python进行科学或商业分析研究肯定是有一些优势的,但是它也存在学习周期长、灵活性不够等菜单操作式统计分析软件所没有的缺点。
现在不必再纠结如何取舍工具软件了。因为JMP14继承了以往可以和SAS、R、Matlab等编程软件无缝衔接的优良传统,并且往前再迈进了一步,能够运行Python代码了!
从上图中不难发现,这个功能主要是在JSL(JMP脚本语言)的环境下实现的。通过JSL,JMP可以直接与Python结合,启动Python连接、向Python发送数据、提交代码以及将分析报告或图形送回JMP。对于不懂Python只懂JMP的人,瞬间就可以调用现有的Python模型,大幅拓展了分析能力;而对于不懂JMP只懂Python的人,也只需要花一点点时间学习下面几个JSL新函数,就能使模型展现结果更加栩栩如生,极大地提高了工作效率。
怎么样,是不是有一种“鱼和熊掌,可以兼得”的感觉?
关注JMP微信公众号,了解更多:
|