设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 11906|回复: 70
打印 上一主题 下一主题

8个案例让数据不再撒谎<转>

  [复制链接]
跳转到指定楼层
楼主
发表于 2014-10-11 16:38:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
最近关于数据造假的评论很多,数据说谎的情况有两种,一种是出于某种目的,人为的将公示的数据注入一些水分;另一种“假”则是因为对业务不了解或经验的不足而在数据解读上的一种误读。什么被平均啊,什么统计局这些都是老生常谈的案例,EC数据分析网重新收录整理了一些案例供大家参考。
        
        【案例一】、@曹政 通过可控的客户端采样监测,得到了一定样本的,包含google搜索url特征的日志记录,得到google的搜索量;同样的样本下,采集到包含google adwords广告url特征的日志记录,得到google的广告点击数。 那么,理所当然&一厢情愿的 用点击数/搜索量,得到点击率。 但是,这个点击率是显著错误的,理由是,google的adwords广告点击,并不只发生在google的搜索结果中! 当时的情况是,点击率被高估了一倍。(其实已经区分了adsense和adwords广告点击的url特征,但是adwords也会出现在其他网站)
                        对数据逻辑及相互关系的理解不透彻,就会带来错误的解读。
        【案例二】、某同事,名校计算机博士,算法达人,做了一条曲线,A和B高度相关,得到结论,A会导致B,看一眼结论我就骂人了,狗屎结论,实际上是A和B均受C的影响,所谓高度相关是C的因素带来的,这是只看数据不懂业务的典型。
                        这个不仅仅是不懂业务的典型,统计基础也不牢靠,亲,这个时候该试试偏相关系数。
        
        
游客,如果您要查看本帖隐藏内容请回复
分享到:  !connect_viewthread_share_to_qq!!connect_viewthread_share_to_qq! QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
回复

使用道具 举报

沙发
发表于 2014-10-16 08:29:18 | 只看该作者
thanks for share
回复 支持 反对

使用道具 举报

板凳
发表于 2014-12-13 20:56:03 | 只看该作者
好好学习案例。。。
回复 支持 反对

使用道具 举报

地板
发表于 2014-12-15 11:41:15 | 只看该作者
這些案例的確需要好好來學習一下
回复 支持 反对

使用道具 举报

5#
发表于 2015-1-5 21:03:35 | 只看该作者
the truth is written all over our faces.thanks.
回复 支持 反对

使用道具 举报

6#
发表于 2015-1-5 22:24:56 | 只看该作者
看看学习下
回复 支持 反对

使用道具 举报

7#
发表于 2015-1-6 19:54:17 | 只看该作者
为什么会如此呢
回复 支持 反对

使用道具 举报

8#
发表于 2015-1-7 12:29:17 | 只看该作者
kankankankankankankan
回复 支持 反对

使用道具 举报

10#
发表于 2015-1-14 10:12:35 | 只看该作者
kankankankankankankan
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-4-29 18:36 , Processed in 0.429788 second(s), 15 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表