JMP数据分析论坛

标题: 拥抱大数据 需要大智慧 (JMP文章) [打印本页]

作者: 小颖    时间: 2014-4-28 12:33
标题: 拥抱大数据 需要大智慧 (JMP文章)
[attach]1878[/attach]
摘要:近年来,有关大数据的热点话题一浪高过一浪,关注大数据应用的人也越来越多。总体来说,人们对大数据的前景持乐观态度,但其实,大也有大的难处,大数据也不可避免地存在着一些负面劣势。

近年来,有关大数据的热点话题一浪高过一浪,关注大数据应用的人也越来越多。总体来说,人们对大数据的前景持乐观态度,比如谈到大数据的技术特征,人们最容易想起的就是4个“v”:vast(数量庞大)、variety(种类繁多)、velocity(增长迅速)和value(总价值高)。这些都没错,但仔细一想,它们都是偏重说明大数据的正面优势的。但其实,大也有大的难处,大数据也不可避免地存在着一些负面劣势。结合笔者的从业经验,大数据的负面劣势可以概括为4个“n”,下面逐一说明每个n的含义。

inflated大数据是肥胖的。大数据的大不仅仅体现在数据记录的行数多,更体现在字段变量的列数多,这就为分析多因素之间的关联性带来了难度。哪怕是最简单的方差分析,计算一两个还行,计算一两百个就让人望而生畏了。

unstructured大数据是非结构化的。大数据的结构也是非常复杂的,既包括像交易额、时间等连续型变量,像性别、工作类型等离散型变量这样传统的结构化数据,更增添了如文本、社会关系网络,乃至语音、图像等大量新兴的非结构化数据,而这些非结构化数据蕴含的信息量往往更加巨大,但分析手段却略显单薄。

incomplete大数据是残缺的。在现实的世界里,由于用户登记的信息不全、计算机数据存储的错误等种种原因,数据缺失是常见的现象。在大数据的场景下,数据缺失更是家常便饭,这就为后期的分析与建模质量增加了不确定的风险。

abnormal大数据是异常的。同样,在现实的世界里,大数据里还有不少异常值(outlier)。比如某些连续型变量(如一个短期时间内的交易金额)的取之太大,某些离散型变量(如某个被选购的产品名称)里的某个水平值出现的次数太少,等等。如果不删除,很可能干扰模型系数的计算和评估;如果直接删除,又觉得缺乏说服力,容易引起他人的质疑。这使得分析人员落到了一个进退两难的境地。

如果不能处理好这些不利因素,大数据应用的优势很难发挥出来。想要拥抱大数据,并不是一项在常规条件下数据分析的简单升级,而是一项需要大智慧的综合工作。STIR(唤醒)策略是笔者在实践工作中提炼出来的、能够在实际工作中有效克服大数据负面劣势的应对方法。具体来说,STIR策略包含了四种技术手段,目前都已经有机地整合在统计分析与数据挖掘专业软件JMP中了,它可以用来解决上文提出的四个问题,下面将分别说明。


作者: Jerry96    时间: 2014-8-11 19:40
JMP功能好强大
作者: jqdy    时间: 2015-4-9 00:24
感谢分享!!!!
作者: rocluo5566    时间: 2015-6-24 11:04
Thanks for showing !
作者: cnkwz    时间: 2015-7-12 00:35
不看不知道,看了才知道,好帖












王牌
作者: cnkwz    时间: 2015-7-29 11:35
看的激动。。。 谢谢楼主了












末日新世界
作者: emdee    时间: 2015-8-14 10:25
回复是很好的习惯。
作者: maximun    时间: 2015-9-1 18:59
Thanks share!
作者: wangxudong    时间: 2015-9-14 18:04
楼主说的很好


作者: juna    时间: 2015-9-15 08:59
xuexixuexi
作者: 彩虹之子1991    时间: 2015-9-15 10:31
etdgfgftgjfghfg
作者: welsonlee    时间: 2015-12-30 09:20
来看看,看看实用的理论解释
作者: mike_wang    时间: 2016-1-2 11:26
谢谢分享,很期待正文!
作者: mike_wang    时间: 2016-1-2 11:27
内容很好玩!
作者: 568813    时间: 2016-2-24 14:10
不错 强大 学习
作者: zgriver    时间: 2016-4-25 01:08
谢谢分享了
作者: zdp    时间: 2016-5-3 21:02
十分有用 感谢分享
作者: suitzh    时间: 2016-7-5 16:27
想继续看看
作者: hnhbjmp    时间: 2017-5-15 18:21
是功能好,看看

作者: wangtian4625    时间: 2017-5-26 09:06
先搞小数据  再搞大数据
作者: 绿灵    时间: 2017-5-26 21:57
谢楼主,分享一下
作者: 绿灵    时间: 2017-5-27 06:25
请问第2个图怎么做,一直想做一个,但是不得要领
作者: 坤鸣海飚    时间: 2018-5-25 16:31
大数据的收集也是大智慧的提现
作者: rhdx    时间: 2018-5-27 21:10
renzhenxuexi
作者: wanshitian    时间: 2018-6-4 15:11
新手学习下
作者: easonhsiao    时间: 2018-6-5 00:59
Thanks for share
作者: bbc123qwer    时间: 2018-6-23 21:29
JMP功能好强大
Thanks share!
作者: xufengyun    时间: 2018-7-26 10:49
好好学习天天向上
作者: tianlong0315    时间: 2018-9-18 13:45
好好学习,非常感谢
作者: smlqf8    时间: 2018-9-19 19:54
真不知道,还有这么好心的楼主 支持











吉林   http://www.gfgfgf.com.tw/mzyy/hy/   2018年09月19日 排行榜
中醫針灸    情感散文 http://www.gfgfgf.com.tw/shenxu/  直髮         http://www.gfgfgf.com.tw/  節日祝福語
作者: shch35    时间: 2018-12-19 13:48
look look

作者: phinikes    时间: 2019-7-2 14:49
大数据,楼主写的真好,学习中
作者: Latitude    时间: 2020-2-19 18:43

Thanks share!
作者: mountainboy    时间: 2020-5-3 22:03
学习!!!
作者: hmconline    时间: 2020-5-4 07:44
Thanks for showing !
作者: jmpwjf    时间: 2020-5-12 23:11
学习使人快乐
作者: Ryuichi-Dong    时间: 2020-6-4 13:16
我来康一康
作者: llovejmp    时间: 2020-7-21 10:29
Thanks for sharing.
作者: jmpforum    时间: 2020-8-16 22:19
学习了,感谢!!!
作者: yirannorm    时间: 2022-5-9 07:52
功能强大的软件
作者: yirannorm    时间: 2022-6-24 06:48
大数据有大智慧
作者: yirannorm    时间: 2022-7-14 07:28
拥抱大数据,需要大智慧




欢迎光临 JMP数据分析论坛 (http://www.jmpforum.net/) X3