设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1275|回复: 0
打印 上一主题 下一主题

【转载】大数据迷思:重点是如何快速挖掘数据

[复制链接]
跳转到指定楼层
楼主
发表于 2013-9-6 16:52:31 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  大数据的时代已经来临,这一点没有人会提出反对。当然,已经有很多的文章讨论过,大数据的重点就是数据挖掘,或是说,如何在海量的非结构性数据里找出有意义的资料出来。意义可以是,客户的某一些行为,供应商的某一些供货和价格趋势,库存的某一些趋势等。这些都是非常有价值的资讯。当通过数据挖掘,把有用的资讯放在一些图像报表,或分析报表,让高管可以根据报表所提供的资讯,做一些配合当时的商业决定,从而增加获取利润的机会。

  在上面的描述里,不知道你有没有发现一个最关键的地方,就是,从挖掘到报表产生,可以让高管做决定的时间。 简单的说,大数据的意义就是,如何可以在最快的时间里,从海量的数据里,挖掘并产生有用的报表,让高管作出适时的决定。 如果整个过程需要的时间越长,报表的意义就越低。

  举个例子,在澳门或美国拉斯维加斯的赌场,都有一些专门对付不受欢迎赌客的系统。赌场在每一个重要的角落,都安装有视像头,从一个赌客进入赌场开始,他的面容已经进到赌场的海量数据库里。一家赌场可能安装有几千个或以上的视像头,一天24小时不断的把海量的数据,传送到数据库里。赌场当然不会只是很被动的等到有老千干了事情,再从海量的数据复查,因为赌场有可能已经被骗了很多金钱。赌场的系统会从每一个赌客进入赌场开始,把他的面容特征,和数据库做实时的比较。如果某人的面容,和数据库里不受欢迎赌客的面容一致,赌场就会立刻邀请他离开赌场。整个过程的关键,就是时间。越长的时间,代表赌场有机会被骗的金钱越多。

  大数据的核心设备,当然是存储系统。所有的数据,都是从存储系统送到应用服务器分析计算,再产生报表。在整个过程里,数据会在存储系统和应用服务器间来回很多遍。时间的关键,就在于存储系统的IOPS(Input/Output Operations Per Second,每秒进行读写操作的次数)。存储系统的IOPS越高,整个数据挖掘的时间就越短,就是这么简单。

  但是,往往很多用户都没有在这一点上有太多的了解,或是,包括存储系统供应商的人,可能也没有太多的了解。结果是,实施后的数据挖掘方案,所需要产生报表的时间太长,根本没法满足原来想要的目标,并导致整个数据挖掘系统项目的失败,投进去的钱变成白投。

  所以,在你为一个大数据项目立项时候,一定要有很明确的目标,而目标不单是你需要的报表内容,更需要是获取报表所需要的时间。目标明确后,一定要确保存储系统的IOPS足够支撑你定的目标。如果系统供应商的方案顾问在这一点上没有很明确的意见,我建议你可以找别家来谈,因为他们根本没有抓到数据挖掘的核心重点。


分享到:  !connect_viewthread_share_to_qq!!connect_viewthread_share_to_qq! QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-5-2 08:41 , Processed in 0.352526 second(s), 16 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表