设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1171|回复: 0

3招教花式导入Excel数据

[复制链接]
发表于 2020-11-4 15:09:56 | 显示全部楼层 |阅读模式


在上篇文章《临床医师看过来:5个理由告诉你,为什么JMP软件更适合你?》中,我们简单介绍了JMP软件对于非专业统计人员的优势:JMP以其友好的菜单界面、强大的可视化工具、丰富的数据清洗功能、系列的统计分析方法、交互的结果展示方式等,对非统计学专业的分析人员非常友好。

为了帮助更多的临床医师学习如何运用JMP高效地开展数据分析,提高日常工作和发表论文的效率,2020年8月起,JMP资深用户、JMP特约专栏作者、资深统计学家冯国双博士及其团队将在JMP数据分析平台为大家分享一系列统计及数据分析、JMP实战操作等干货内容,每期一个经典话题,帮助大家掌握一个新技能。值得注意的是,这些话题并非仅针对临床医师,对所有运用JMP软件进行数据分析的小伙伴都适用哦!
本文为此系列文章的第二期。冯博士及其团队介绍了JMP数据分析的第一步:导数据!文章将以Excel为例,教大家如何花式导入已有数据以及注意事项,其他类型数据集(如SPSS数据、csv数据等)的导入方式非常类似。为方便阅读,文章以第一人称描述。

JMP导入数据的三种常见方式有:复制和粘贴、直接在JMP中导入、通过Excel中的JMP插件。下面我们就逐一看看吧!

01  复制和粘贴

首先,打开JMP软件,在菜单【文件】下方有一个类似数据集的小图标,当光标移动到上面的时候显示【新建数据表】,点击此小图标(图1),就会看到图2的界面。这时,回到Excel数据集中,找到你想要分析的数据集,将想要分析的数据单元格全部选中,进行复制。

图1 建立JMP空数据集



图2 JMP空数据集

这里有一个小技巧,如果你的变量(列)特别多,或者观测(行)很多,用拖拉的方式进行选中有点麻烦,不妨点击一下表格最左上角的小三角将整个页面都选中,再到JMP里进行复制。不要担心,JMP可以准确识别出有数据内容的单元格。

数据选中并复制完成后,再回到刚才新建立的JMP空数据表中。在这里,可不是简简单单的粘贴或者ctrl+v了,因为我们在Excel里进行复制的时候,第一行是变量名,直接粘贴的话,变量名就变成JMP数据集里的第一行观测了(如图3所示),这是万万不可的。

图3  JMP打开已有数据集界面

正确的做法是,在JMP中的菜单栏中点击【编辑】下的【带列名一起粘贴】,这时,你的Excel第一行就放到JMP的变量名位置上了。当然,你也可以通过快捷组合键方式,只不过不是ctrl+v,而是ctrl+shift+v

至此,第一种导入Excel数据的方法就结束了。是不是很简单?

02  直接打开已有数据

这种将Excel导入JMP的方法可能是日常实践操作中大家最常用的方法。
首先,仍然是打开JMP软件,选择【文件】下拉菜单中点击【打开(O)…】,然后在弹出的文件浏览器中定位到你的Excel数据集(图4,如果看不到Excel类型的文件,在文件名右侧的下拉菜单中选择Excel文件即可。JMP可以导入目前常用的绝大多数数据文件,包括文本文件、PDF文件、SAS程序文件、R代码、MATLAB代码、HTML文件、Shape文件、JSON数据文件等),单击选中,然后打开。


图4 JMP打开已有数据集界面

这里有个需要注意的地方是 👉 当文件类型定位Excel文件时,文件名上方会出现一行小字和一个选项,提示是否强制使用Excel的第一行作为标签,一般我们会选择“最佳推测”,没错,JMP就是这么聪明,总能正确判断出我的第一行是不是变量名。当然了,你也可以选择“始终”或者“从不”,视你的数据情况而定。

点击“打开”后,就到了数据正式导入前的预览阶段了,如图4。左上角是数据的预览,你可以在这里拖拽滚动条,看看观测和变量的数量是否正确(只要你的Excel格式没有问题,JMP是不会出错啦)。

预览窗口这里还有另一个比较实用的功能,你可以选中某个列,单击右键指定数据的输入格式。比如更改数值型变量的小数位,改成百分比形式或者更改成日期格式等,当然,这些在数据导成JMP数据表之后再操作也可以,而且,如果你在这里操作错了想重来,那最下面的“恢复默认设置”可以帮助你。

右上方的sheet的选择,也就是Excel里的工作表,如果你的Excel表里有多个sheet,这里要注意确认好sheet的名称。如果你想把表里所有的sheet都导入,这里可以选择全选,那么Excel里有多少个sheet,JMP就会导入多少个数据表。

左下方是单个工作表的设置,默认设置是列标题起始于第一行,带标题的行数为1数据起始于第一列第二行,如果你的数据格式特殊,那么这里要根据情况进行修改。其它的我们维持其默认状态就好了。

万事俱备,现在,点击【导入】就大功告成了!

03  通过Excel中的JMP插件(此为Excel独有功能)

这种方法可能是三种方法中操作最简单的了!

正常情况下,当我们安装完JMP软件后,Excel里也会安装JMP插件打开你的Excel数据表,就能看到JMP的选项卡,就像我们在Word里看到的EndNote插件一样(图5)。
图5 EXCEL中的JMP插件

在生成JMP数据表之前,我们要先点击首选项进行设置。点击【首选项】后会弹出图6界面,需要勾选“使用首行作为列名”,即把Excel数据的第一行作为列变量名称,点击确定之后再点击首选项旁边的【数据表】(图8),便可直接生成JMP数据表。

图6 EXCEL中JMP插件的设置

图7 点击“数据表”自动从EXCEL进入JMP软件

以上就是三种最常用、最简便的将Excel数据导入JMP的方法。

数据导入看似简单但如果掌握了一些小技巧,便可以让你事半功倍。下面根据我们多年使用JMP的经验,给大家分享两个数据导入的“雷区”,帮助你轻松避雷。

01  原始数据中的数据一定不要有任何非数值的符号

在JMP中,“连续型”的变量名称前显示为蓝色三角, “名义型”的变量名称前显示为红色柱状(图8,有序型显示为绿色,图中无有序型变量,因此未显示)。

导入数据后,如果软件认定该变量为数值型的,那么你可以将其改为任意类型,而如果软件认定某变量是字符型的,那么该变量只能在“有序型”和“名义型”之间更改。

图8 不同变量类型示意图

正常情况下,数据导入后,JMP默认所有数值均为“连续型”,凡是变量中有任意的非数值(如不小心把8.6写成了8。6,或者某个单元格有“+”、“#”等各种非数字的符号,等等),均认为是“名义型”。因此,如果某变量本来应该是数值(如年龄、身高等),但导入后发现默认为“名义型”,说明该变量一定存在非数值的字母或符号(如小数点写成了逗号等),此时需要检查原始数据,否则名义型的变量是不能当作数值来分析的。

例如,图9中BMI在原始数据(如Excel)中都是数值,因此导入后直接默认为连续型变量,并无问题。

图9 原始数据为数值时导入后默认为连续型变量

图10中BMI,在原始数据集(如Excel)中,由于不小心,其中一个数值把小数点敲成了句号,这时候这个看起来像是数值的单元格就不是数值了。因此如果直接导入到JMP,可以成功导入,但是由于BMI中有一个非数值(21。6),因此默认就是名义型变量。

图10 数值型变量中存在非数值符号导致导入后成为名义型变量

所以一定要注意 👉 当你从Excel等数据集中导入到JMP时,如果你发现本来应该是数值的变量,却默认为字符型变量(红色标记),那只有一种可能性:一定是你的原始数据中该变量至少有一个包含了非数值的字符,可能是句号、顿号等不经意的东西,也可能是你习惯把空格加个“-”、“/”等这些字符,也可能是有的软件默认把空值填上了“#NULL”等。总之,凡是非数值的东西,一律都不行。

02  JMP导入时对变量名限制最宽松
讲到最后,不得不提一下JMP导入Excel数据时的另一个巨大的优势——你不必担心你的变量名软件无法识别

目前绝大多数统计软件都对变量名有限制,比如不能有括号,不能有各种特殊字符等等。比如age(年龄),这样的变量名在其他分析软件或编程软件中根本无法直接导入,均提示不认识(无法识别)。这在作图时尤为麻烦,要么就得事后修图,要么就得通过标签形式改一下变量显示方式,多一道手续。

在JMP中则无此顾虑,无论你的变量名是纯数字、纯字母、特殊符号还是各种奇怪的组合,JMP都能原样导入,这样做出分析结果后,无需再修图,直接就把变量改成自己文章所需的形式就行了,虽然看似一个很简单的小改进,但对发表文章而言,其实省了很多麻烦。

数据导入作为数据分析的第一步,看似简单却相当重要,特别是当你的数据量庞大繁多、数据类型杂乱无章、数据来源四面八方,你就会发现这些方法特别有用啦!


​​



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-4-19 00:50 , Processed in 0.392753 second(s), 18 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表