设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1235|回复: 0

警惕!数据表中的10个危险信号!

[复制链接]
发表于 2018-9-20 11:31:54 | 显示全部楼层 |阅读模式
数据表,是大家每个人日常工作中不可缺少的基础文件。但你知道吗?数据表中常常蕴藏着巨大的危险。今天,我们就来聊聊如何拯救数据表中的危险。

本文作者:本文作者 Dr. Russ Wolfinger,JMP高级总监, 原文发表在Community,感兴趣的朋友朋友也可以直接查看英文原文:https://community.jmp.com/t5/JMP-Blog/10-dangers-in-your-tabular-data/ba-p/55388

我一直沉浸在数据科学竞赛的世界里。在盲赛中,预测功能可以帮助你和你的队友在排行榜上赢得名次、奖品和荣誉称号。为了在这些比赛中取得成功,你必须要非常高效和聪明,因为有几百个大小决策和不同方向让你选择。 如果你逻辑混乱或浪费了时间,那很快就会有人超越你。 有时,你甚至会发现有些风险就是要故意将你绊倒,这是不是有点像在现实生活中发生的事?

每当学到一种最佳的数据实践技能,我就可能为此犯过10倍的错误。 因此,随着时间的推移,我专门汇总了一张清单,包含10种陷阱,便于大家在数据分析工作时提高警惕。 正如我在之前的文章中所说的,并不存在整齐、完美的数据,总会潜伏着或多或少的问题。 尽管我所列的重点是在表格化数据上,但其实图像、文本和其他类型的结构数据也同样存在着大量这些问题。

更好玩的事情来了。我发现这些普遍存在实际工作的危险,和电影里的一些大反派都颇有几份相似之处。为了增加趣味性,脑洞大开的我把每一种危险都和一个反派人物做了关联。你来一起看看,是不是真的很像呢?

危险1:不正确的数据分布形状

角色:Mystique,来自<X战警>中充满迷惑性的变形者

问题:
a. 数据表是宽的,不是高的或者堆放的?
b. 行对应的是专门用于训练的观察值,还是专门用于预测的观察值?列对应的是目标变量,还是特征变量?

解答:
1. 可视化检测
2.根据需要执行数据处理和重塑
措施: JMP操作平台:转置,拆分,堆叠,连接,更新

危险2:错误值

角色:Joker,来自<蝙蝠侠>的小丑,总是喜欢对人恶作剧

问题:数据的值是正确吗?什么可能导致错误?

解答:1. 可视化扫描  2.单变量、双变量、多变量的图形和统计;3. 必要时检查并验证原始数据源

JMP操作平台:分布,图形生成器,多元



危险3:缺失值

角色:Lord Voldemort ,来自<哈利波特>的伏地魔,应该出现的人物却神秘地消失了

问题:1. 缺失的值是随机性地消失还是系统化地消失?b 缺失的值是可以预测的吗?

解答:1仔细研究缺失的程度和模式; 根据需要设计新特征
2.创建缺失值指标,并检查它们是否与响应相关
3.注意:对于梯度提升树,补缺通常不是必需的

JMP操作平台:分析>筛选>探索缺失值,列>重新编码,图形生成器

危险4:无效的预测因子

角色:Mr. Burns,<辛普森一家>的伯恩斯先生,自私地谋划着让别人生活变惨的方式

问题:
a是否有一列不可以或不便于将来预测吗?
b所有潜在的预测因子都是合情合理的吗?

答案:
1. 浏览所有列并理解每列的含义
2. 删除无效列或将它们移动到表的开头或结尾位置,以便做分析时候不用选择它们

JMP操作平台:列>删除,列>重新排列,在左侧控制面板中用鼠标移动列


危险5:高水平数

角色:Magneto,来自<X战警>,可以控制任何含有金属的物品,并且可以在瞬间向对方扔出大量碎片

问题:
a.哪些类别预测因子含有很多水平数?
b. 什么样的数值编码有用?
c. 低频率的类别是否应该被替换?

答案:
1. 检查水平的数量和频率计数
2. 适当重新编码各个水平
3. 计算数值编码,如果用到目标信息请特别小心,以避免过度拟合

JMP操作平台:分布,列>重新编码


危险6:群内值和离群值

角色:Winged Monkeys,来自<绿野仙踪>里的飞猴子,不断地飞来飞去,执行邪恶女巫的指令

问题:
a.极端值是否在合理范围内?
b.是否有意想不到的重复值?

答案:
1.检查直方图和分位数
2.验证异常值是否正确
3.使用对数变换来评估真正偏斜的连续分布
4.马氏距离

JMP操作平台:分布,多元,分析>筛选>探索异常值


危险7:重复的数据

角色:Siamese Cats,来自< Lady and the Tramp >的暹罗猫,充满着双重恶意,爱唱朗朗上口却又令人讨厌的歌曲

问题:
a. 是否有任何行或列不小心重复了?
b. 是否有一些列是同一种意思?
c. 每一行的ID值是否唯一?

答案:
1. 可视化扫描
2. 双向聚类散点图矩阵

JMP操作平台:汇总,排序,聚类(针对行),多元(针对列)



危险8:响应值不平衡

角色:Jabba the Hutt,来自<星球大战>,喜欢用令人恶心的脂肪来挤压对方

问题:
a. 它是什么类型的响应?
b. 对于二元型或名义型的数据,它们的比例是否与你想要预测的总体的比例大体一致呢?
C. 对于连续性数据,它的分布是否有意义?

答案:
1. 检查响应的分布
2.考虑加权、过抽样,欠抽样,取决于期望的性能指标

JMP操作平台:分布,列>新建列,以创建权重变量


危险9:训练-测试数据的不一致

角色:Eye of Sauron,<魔戒>里的索伦之眼,它永远在注视着你,寻找并利用你心灵最深处的矛盾

问题:
a. 响应和预测因子的分布在训练、验证和测试集中是否相似?
b. 未来的测试集是否会保持在范围内,还是真的需要外推?

答案:
1.创建一个指示分层的新变量;然后用它来动态探索分布
2.使用低维度投影来比较子集的结构

JMP操作平台:以X拟合Y,其中Y是所有变量,X是分层指标,为名义型变量创建马赛克图,为连续型变量创建经验累积分布比较,多元


危险10:数据泄露

角色:Ursula,来自<小美人鱼>的厄秀拉,可以用她乌黑的墨汁完全使对方失明,而且还把墨汁渗透到意想不到的地方

问题:
a. 训练、验证和测试集中的某些特征是否不恰当地用到了响应中的信息?
b. ID列是预测性的吗?

答案:
1.探索意想不到的关系,并找出可能表明某项特征有漏洞的任何线索
2.使用简单的函数设计新特征,以便进一步检查泄漏情况

JMP操作平台:X拟合Y,图形生成器,多元,聚类,选择列>右键单击>新建公式列


在这个世界上,我们怎样才能有效地处理这些令人头痛的问题?特别是当它们交织在一起,而我们又没有足够的时间来编写和调试自定义代码?上文中每一个段落的最后部分都包含着我每天用来处理它们的JMP工具 - 这是我的秘密,也是数据挖掘不可或缺的武器。这个灵感来自于20世纪50年代一位著名的超级英雄和苹果Macintosh那永远改变游戏规则的用户界面,而JMP团队在以鼠标驱动、统计和图形紧密结合为主导思想的基础上,一直稳步前进了30年。

关注JMP官方微信公众号,了解更多统计分析干货知识、JMP实用技巧、JMP最新活动:



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-3-29 22:57 , Processed in 0.372160 second(s), 17 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表