众所周知,获取数据是数据分析的基础环节,但往往这个基础也会带来很多困扰。特别是数据系统不是特别完备的情况下,这一项工作就会变的异常繁琐。
在很多企业的生产质量管理中都会使用测量的仪器或检验的设备,用来判断产品的合格与否,这样,大量的产品测试数据就会保存在测试仪器或检验设备。要进一步发挥这些数据的价值,就需要将他们整理出来。
这时,你会发现面临着诸多棘手的问题,比如说:
- 测试文件类型及格式不统一,如txt、csv、excel等都是常见的保存测试数据的格式文件。
- 测试文件数量庞大,有些设备以日期为文件名称,每天都会生成单个的测试文件;有的甚至每个测试产品会形成单独的测试文档,对于产量大些的企业每日形成的文件数量就比较惊人了。
如何将这些分散在不同文件中的数据提取、并且汇总是当务之急。下面我们就跟大家分享一下,通过专业的数据分析软件JMP如何一一破解这些难题。 难题1:
首先,我们来看一下如何来应对多种数据文件格式的数据导入的问题。这一点考验的其实是数据分析软件对数据格式的兼容性的能力。现在我们有三种格式的样本文件(txt、csv、xlsx)保存在“D:\Data”的文件夹中,在JMP中使用“文件”—“打开”菜单开启数据导入窗口,在“所有JMP文件”的下拉列表中会惊喜的发现,对于这三种格式的文件是可以直接读进JMP中进行分析了。
不仅如此,对于每种格式还提供了预览的功能,可以依据数据结构的不同调整输出的结果,所见即所得,以确保最终导入的数据能够满足后续分析的要求。
我们以导入“SN01.txt”的数据文档为例,通过“预览模式”可以设定数据分隔符、列名的所在行、数据的起始行等一系列的格式输出要求。
随后点击“下一步”—“导入”便可将特定的数据文件成功导入JMP中。其它的文件类型也可以如法炮制。这样,第一个难题在我们不经意间就已经得到了解决。
让我们继续砥砺前行,进一步挑战。
难题2:
现在需要将多个文件中的数据提取出,并能够整合到一起。有了之前的经验,单个文件的数据导入对我们来讲已经不是问题了,可以将所有需要提取数据的文件逐一导入进JMP程序。在JMP的“打开”平台中也可以更方便地完成这一任务,在文件选择的界面一次性选中所有需要读取的文件即可。
接下来我们的重要任务是将这些数据表格合并到一起。最直接的方式就是,将所有的数据一个一个表格通过复制粘贴的方式添加至一个总表中。当然在数据表格的数量比较少的情况下可以这样尝试。但一旦表格的数量增加,那这种方法的工作量也相应的会成倍的增长,显然不是一种有效的方式。
如果面临的后者的情况就不防尝试一下JMP中表格处理的功能“拼接”,它可以将多个打开的数据表格合并在一起,下面以之前开启的“SN01、SN02、SN03”三个数据表为例跟大家分享详细的用法。具体步骤如下: 1. 通过菜单:“表”—“拼接”启动平台, 2. 将所需要合并的表格从“已打开的数据表”中选择; 3. 使用“添加”按钮加入“要拼接的数据表”中; 4. 如果后续分析中需要表格名称的信息,切记将“创建源列”的选项勾选; 5. 在“操作”中点击“确定”即可完成三个数据表格的合并。
值得注意是的,如果在操作的过程中未将“创建源列”的选项勾选,生成的数据表格就不会产生“源表”这一列,那对就无法区分第1行与第13行是来自于哪个生产品,也许就会对后续的分析工作成影响。
通过这个简单的选项就可以将完整的数据信息全部获取。三个文件是这样操作,对于更多数据表格也是如此,通过鼠标的指指点点即可轻松完成,数据处理的效率的提升是不言而喻的。
以上是数据处理的一些小技巧,希望能够减轻些繁琐的数据处理工作,使得我们有限的精力能够发挥到更有价值的数据分析之中去。
关注JMP微信公众号,获取JMP最新动态及实用统计技巧~ |