作为源自西方的一个传统节日,风靡全球的万圣节已经成为越来越多的商家、年轻人甚至是小朋友追捧的节日。那么在形式迥异的万圣节装扮中,究竟哪些造型最受欢迎呢?
基于美国国家零售联盟(NRF)前几年做的一次"今年万圣节最受欢迎的装扮“的调查,JMP一名员工在此调查结果的基础上对数据进行了进一步的探索和可视化分析,在今年的万圣节前夕,我们就一起来看看这些有意思的发现,看看哪些是当年的爆款万圣节造型。
本次调查主要包括三个问题,分别针对成人、儿童和宠物在万圣节期间的造型装扮:
- 今年你的万圣节装扮是什么?
- 你的孩子在万圣节期间会如何打扮?
- 万圣节,你会怎样打扮你的宠物?
数据清洗与整理
调查结果的原始数据并不是完整的数据,因此需要先做预处理。JMP的重新编码功能(Recode)可以方便我们快速有效地清理数据。
首先,导入的数据如下所示:
可以看到,“服装(Costume)”列中有多余的数字、空格和数据表中的缺失值。
因此,我们首先对“服装(Costume)”列进行重新编码,以突出显示并删除多余的字符,然后选择列>重新编码。选择红色三角形下拉菜单中的“去除首尾空格”选项可以消除每个值前后的空白。
之后,运用过滤器搜索栏来搜索不想被包含在重新编码过的数据表中的任何数字。这里我们在搜索栏中输入“1”,每个包含“1”的值就会被分组到表格顶部。在“新值”列中删除不需要的字符后,旧值和新值将分组在一起并显示为阴影(选中状态)。当数据量较大时,还可以使用“仅显示已分组/未分组”复选框来帮助控制视图。
在这个数据表中可以看到有一些值多次出现,但它们的空格或字母有所不同(比如“Batman” 和 “Bat man”)。如果想找到这些值并重新编码,以便它们在整个表中保持一致,“分组类似值”选项是一种理想的方法,尤其是在检查一致性时。
“最大差异比”和“最大字符差异”选项会自动将仅相差几个字符的值分组在一起(取决于你的设置)。这样很容易发现错误或不一致。这里我们保留 “最大差异比”的默认值为0.25,该值将最多相差25%的值分组在一起——换句话说,具有75%以上字符匹配的值将会被分组在一起。
运行“分组类似值“后的结果如下所示:
现在,我们可以轻松看到分组后的类似值。编辑每组,让给定值的每个实例看起来都相同。例如,更改“星球大战角色”组的新值,可以让三个实例中具有相同的间距。适当进行更改后,选择“新列”>“原位”后,“新值”列中的值将替换数据表中的旧值。要保留原始数据,可选择完成>新列或公式列将“重新编码”中所做的更改另外保存。
可视化分析之初探索
整理好数据后,我们就可以大展身手来探索数据了。在“图形生成器”中可以按百分比来看看服装的排比:
请注意,包含“其他 (other)”的行已被排除在外并隐藏。
从图上我们可以直观地看到每个类别清晰的分布,但如果想要进一步查看更深入的关系,就需要对数据再次进行探索。于是我们再次对“服装(Costume)”列进行编码,以便将服装分类,从而更轻松地在数据中找到模型。在“服装”列中重新编码 ,选择要分组的值并右键单击选择分组到…可以看到这里有很多细分动物的装扮都可以统一归类为“动物”系列。
我们把所有动物相关的服装全部归类为一类—— “动物(猫,狗,狮子,老虎等)”后,将类别名称简称为“动物”。以此类推,将其余的服装分别归类为“超级英雄”系列、“梦幻”系列、“恐怖”系列等。重新编码之后,选择“新列”>“公式列”,从而保留原有的“服装”列 ,并将新列命名为“类别(Categories)”。
新生成的数据表如下所示:
可视化分析之再探索
现在,把服装简化为几类后,我们就可以在“图形生成器”中更进一步探索数据了,将“比例(Percent)”放入X变量,将“类别(Categories)”放入Y变量,按照“儿童”,“成人”和“狗狗”三个大类对数据进行分组,并按照服装受欢迎的程度进行排序。
重新运行后的结果如下:
上图显示了每组(成人、儿童、狗狗)按服装选择的百分比,通过图表可以清晰地看到哪些类型的装扮在成人、儿童和狗狗中是最受欢迎的。从图中可以看到,梦幻类最受成人欢迎,动物类是孩子们的最爱,而物品类则是狗狗们的首选。
如果想再深入分析,还可以选择"本地数据过滤器"只查看成人服装的选择。以下是按照"成人"过滤并按受欢迎程度排序的数据:
可以看到,女巫装扮是成人中最受欢迎的服装。
再来看看哪些特别的服装在儿童和成人中都受欢迎。在图形生成器中,来分析那些选择特定服装的人群的比例。由于数据不包括狗狗服装的数量,因此在运行分析之前,创建一个名为“组(Group)”的新列,其中仅包含“成人”和“孩子”。
这里用一个马赛克图来查看分布:
在上图中,垂直轴表明了“服装”列中属于“儿童”或“成人”人群的比例。每个条形图的整体大小表明哪种服装在儿童和成人中都很受欢迎。从图中可以看到,选择女巫服装的人中约有75%是成年人。选择动物服装的人群中大约有一半是成年人,一半是儿童。在一些特殊的组,比如公主系列,儿童就完全承包了整个条形图。
分析越来越有趣!于是我们继续使用“ 以X拟合Y”平台按类别将数据分组来生成另外一个马赛克图。结果如下:
可以看到“物品”类的服装只有孩子选择,“职业”类的服装只有成人选择。综合来看,“梦幻”系列、“恐怖”系列和“超级英雄”系列是成人和儿童都最青睐的服装类型。虽然在前面提到的条形图中也能观察到一部分的发现,但是通过上面的马赛克图,我们可以更轻松地进一步了解到两组人群对服装的喜爱程度和选择偏好。
一图胜千言!强大的可视化分析工具不仅可以在工作中助你一臂之力,让你一目了然地自如探索数据并掌握分析结果,在生活中也可以是你分析时的好帮手。你也可以动手试试看!欢迎下载最新版软件JMP 15练练手!
最后,祝大家万圣节快乐!
|