设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1555|回复: 4

使用JMP轻松搞定重复数据!

  [复制链接]
发表于 2017-9-22 15:34:20 | 显示全部楼层 |阅读模式
大数据时代,我们的日常工作和生活已经被四面八方不断涌现的数据所包围。如何巧妙地从这些海量数据中挖掘出有价值的部分为我们所用,也成为大家特别是数据分析师日常工作的重中之重。

获取数据、整合数据、清理数据、定义数据、探索数据就是数据分析的五大核心环节。

                              

数据的整合与清理往往会占据整个数据分析过程中大部分时间。这其中,对于重复数据的处理是让很多朋友头疼的问题。如何能够有效的根据数据分析的要求对重复数据进行处理,考验着许多从事数据分析的朋友。

今天,我们就结合几类常见的场景来与你分享一下重复数据处理的诀窍。

现在我们有一组测试的数据,包括9个产品,根据序列号可以识别,数据列中涵盖产品的测试时间,两个测试参数:Parameter1、Parameter 2.


接下来我们来看看在处理重复数据中会遇到哪些挑战?


重复数据处理第一重挑战:
针对Parameter 1所有的重复数据的记录都是一样的,需要删除重复的数据,保留唯一的记录就可以。这种重复数据有其独特性,所有重复测试值都是一样的,那就可以采用一个巧妙的方法,即计算每个产品的平均值,便可以提取每一个产品的测试结果。

按照这一思路,在JMP中就可以轻松将重复的数据解决,具体方法如下:

  • 步骤1:在JMP的主菜单“分析”à“制表”。
  • 步骤2:将SERIAL_NUM拖至“行的拖放区”,将Parameter1的“均值”拖至“产生的单元格”,便可以获得每个产品的唯一测试结果。


重复数据处理第二重挑战:
产品的测试数据Parameter 2存在重复的记录,各个重复的测试值可能存在差异,需要保留最后一个测试结果。

此时第一招就不管用了,我们得寻找新的突破点。既然要寻找最后一个测试结果,也就是要获得每个产品测试时间最大的值对应的测试结果。所以首先要解决的问题是:只要获取产品最大的测试时间值,然后通过表格的连接就可以将最后的测试记录从原表格中提取出来。观察仔细的朋友不难从第一中方法中获得一些启示。

先前汇总的是Parameter 1 的平均值,我们同样可以汇总TestTime的最大值不就可以将每个产品最后的测试时间提取出来了吗?那问题也就迎刃而解了。具体步骤如下:

  • 步骤1:在JMP的主菜单“分析”à“制表”。
  • 步骤2:将SERIAL_NUM拖至“行的拖放区”,将TestTime的“最大值”拖至“产生的单元格”
  • 步骤3:使用“制表”子菜单中的“制成数据表”生成每个产品最后测试时间的表格。
  • 步骤4:通过“表”的“连接”功能,将两数据表的“SERINAL_NUM”匹配,“最大值(TestTime)”与“TestTime”, 选择输出列“SERINAL_NUM”、“最大值(TestTime)”、“Parameter2”,便可从原数据表中获取最后的测试值。

重复数据处理第三重挑战:
挑战再次升级,产品的测试数据“Parameter2”存在重复的记录,各个重复的测试值可能存在差异,为了保证结果的可靠性,需要保留最后两个测试结果,用于计算平均值。之前的两种方法最后都只能够被保留一组测试数据,显然无法实现第三种挑战的场景。

如果你暂时毫无头绪,不妨将注意力集中需要解决的问题的关键点,“最后两个测试结果”,其突破口还是在这个测试时间上如果能够对产品的测试时间进行排序,并获取其序号,然后对序号进行筛选,不就可以按照要求提取测试记录了吗?

JMP的命令ColRank()这个时候就派上用场了!它可以帮助我们对时间进行排序。
但有一点需要注意的是,通常我们对时间直接进行排序的话,时间小的序号也比较小,这样的话最后测试记录的序号是不统一的,就无法进行筛选了
按照我们的设想,最后一个记录序号需要是“1”,最后第二个记录序号依次为“2”,其实这就是需要将时间按照倒序排列,有个简单的做法可以实现,那就是:在时间前面加个负号“-”

梳理一下具体实现的方法:
步骤一:在原有数据表格中新建公式列“Time Rank”,输入以下公式就会得到按照产品测试时间的倒序排列的序号。这样所有最后两个测试的记录序号就被标注为“1”、“2”。

步骤二:使用数据过滤器选择“Time Rank”1~2之间的测试记录,SN6的前两次重复记录就被排除了。



步骤三:使用“表”的“子集”功能就可以获取每个产品的最后两个测试记录。



好了,以上就是我们今天要给大家分享的几招看似简单却很实用的处理重复数据的三种常见方法。

其实,重复数据的处理是讲究招式的,需要依据不同的情形,见招拆招。以上几种方法只是抛砖引玉,希望对于数据分析师的你能够有所启发。

更多数据分析相关资讯、最新活动,敬请关注JMP官方微信众号:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

发表于 2017-9-23 16:09:43 | 显示全部楼层
拖拖拉拉就能轻松完成统计制表,确实体现了JMP的实用与高效。
回复 支持 反对

使用道具 举报

发表于 2017-10-5 20:11:04 | 显示全部楼层
如果有自动化去掉重复数据就更加好
回复 支持 反对

使用道具 举报

发表于 2017-10-10 10:36:43 | 显示全部楼层
我去重的操作特别简单
就是 表→汇总→放入可能有重复值的列
然后生成的新表即去掉重复值了
去掉行数这一列就OK了
回复 支持 反对

使用道具 举报

发表于 2017-11-2 16:34:58 | 显示全部楼层
资料不错,好好学
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-3-29 18:00 , Processed in 0.401279 second(s), 17 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表