设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1944|回复: 7
打印 上一主题 下一主题

大量数据文件处理技巧,数据处理技术系列之(三)

  [复制链接]
跳转到指定楼层
楼主
发表于 2017-11-20 13:39:57 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
众所周知,获取数据是数据分析的基础环节,但往往这个基础也会带来很多困扰。特别是数据系统不是特别完备的情况下,这一项工作就会变的异常繁琐。

在很多企业的生产质量管理中都会使用测量的仪器或检验的设备,用来判断产品的合格与否,这样,大量的产品测试数据就会保存在测试仪器或检验设备。要进一步发挥这些数据的价值,就需要将他们整理出来。

这时,你会发现面临着诸多棘手的问题,比如说:

  • 测试文件类型及格式不统一,如txt、csv、excel等都是常见的保存测试数据的格式文件。
  • 测试文件数量庞大,有些设备以日期为文件名称,每天都会生成单个的测试文件;有的甚至每个测试产品会形成单独的测试文档,对于产量大些的企业每日形成的文件数量就比较惊人了。
如何将这些分散在不同文件中的数据提取、并且汇总是当务之急。下面我们就跟大家分享一下,通过专业的数据分析软件JMP如何一一破解这些难题。
难题1:
                                

首先,我们来看一下如何来应对多种数据文件格式的数据导入的问题。这一点考验的其实是数据分析软件对数据格式的兼容性的能力。现在我们有三种格式的样本文件(txt、csv、xlsx)保存在“D:\Data”的文件夹中,在JMP中使用“文件”—“打开”菜单开启数据导入窗口,在“所有JMP文件”的下拉列表中会惊喜的发现,对于这三种格式的文件是可以直接读进JMP中进行分析了



不仅如此,对于每种格式还提供了预览的功能,可以依据数据结构的不同调整输出的结果,所见即所得,以确保最终导入的数据能够满足后续分析的要求。

我们以导入“SN01.txt”的数据文档为例,通过“预览模式”可以设定数据分隔符、列名的所在行、数据的起始行等一系列的格式输出要求。



随后点击“下一步”—“导入”便可将特定的数据文件成功导入JMP中。其它的文件类型也可以如法炮制。这样,第一个难题在我们不经意间就已经得到了解决。

让我们继续砥砺前行,进一步挑战。

难题2:

现在需要将多个文件中的数据提取出,并能够整合到一起。有了之前的经验,单个文件的数据导入对我们来讲已经不是问题了,可以将所有需要提取数据的文件逐一导入进JMP程序。在JMP的“打开”平台中也可以更方便地完成这一任务,在文件选择的界面一次性选中所有需要读取的文件即可。



接下来我们的重要任务是将这些数据表格合并到一起。最直接的方式就是,将所有的数据一个一个表格通过复制粘贴的方式添加至一个总表中。当然在数据表格的数量比较少的情况下可以这样尝试。但一旦表格的数量增加,那这种方法的工作量也相应的会成倍的增长,显然不是一种有效的方式。

如果面临的后者的情况就不防尝试一下JMP中表格处理的功能“拼接”,它可以将多个打开的数据表格合并在一起,下面以之前开启的“SN01、SN02、SN03”三个数据表为例跟大家分享详细的用法。具体步骤如下:
1.  通过菜单:“表”—“拼接”启动平台,
2.   将所需要合并的表格从“已打开的数据表”中选择;
3.   使用“添加”按钮加入“要拼接的数据表”中;
4.   如果后续分析中需要表格名称的信息,切记将“创建源列”的选项勾选;
5.   在“操作”中点击“确定”即可完成三个数据表格的合并。



值得注意是的,如果在操作的过程中未将“创建源列”的选项勾选,生成的数据表格就不会产生“源表”这一列,那对就无法区分第1行与第13行是来自于哪个生产品,也许就会对后续的分析工作成影响。

通过这个简单的选项就可以将完整的数据信息全部获取。三个文件是这样操作,对于更多数据表格也是如此,通过鼠标的指指点点即可轻松完成,数据处理的效率的提升是不言而喻的。

以上是数据处理的一些小技巧,希望能够减轻些繁琐的数据处理工作,使得我们有限的精力能够发挥到更有价值的数据分析之中去。

关注JMP微信公众号,获取JMP最新动态及实用统计技巧~

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
分享到:  !connect_viewthread_share_to_qq!!connect_viewthread_share_to_qq! QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
回复

使用道具 举报

沙发
发表于 2017-11-22 21:09:19 | 只看该作者
JMP不愧为可视化数据处理的利器。
回复 支持 反对

使用道具 举报

板凳
发表于 2018-3-30 09:01:52 | 只看该作者
此文大好,刚好碰到一个关键问题挡在那了,找了好几天,感谢。
开森啊:)
回复 支持 反对

使用道具 举报

地板
 楼主| 发表于 2018-3-30 09:17:30 | 只看该作者
jackwyj 发表于 2018-3-30 09:01
此文大好,刚好碰到一个关键问题挡在那了,找了好几天,感谢。
开森啊:)

有帮到你就好
回复 支持 反对

使用道具 举报

5#
发表于 2018-3-30 10:13:03 | 只看该作者

来个实际的问题:
请教老师针对这个大文件的自动分割JMP能实现吗?谢谢!
具体是:有过亿行的多列文本、已按第一列排序、第一列的代码筛选不重复的有约3000多个,能否实现将这个大文件按第一列的不重复代码分割、保存为以这些代码为文件名的文本?

谢谢!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

6#
发表于 2018-3-30 10:17:15 | 只看该作者
见JMP中有"拼接" 项、未见有拆解之类的(已有的"拆分"不是这种功能),谢谢!
回复 支持 反对

使用道具 举报

7#
 楼主| 发表于 2018-3-30 12:59:40 | 只看该作者
ak47ok 发表于 2018-3-30 10:17
见JMP中有"拼接" 项、未见有拆解之类的(已有的"拆分"不是这种功能),谢谢!

帮你问问老师,之后回复你~
回复 支持 反对

使用道具 举报

8#
发表于 2018-3-30 13:51:16 | 只看该作者
admin 发表于 2018-3-30 12:59
帮你问问老师,之后回复你~

非常感谢 !
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-5-3 07:20 , Processed in 0.291055 second(s), 16 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表