设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1165|回复: 0
打印 上一主题 下一主题

如今,你还会怀疑大数据的价值吗?

[复制链接]
跳转到指定楼层
楼主
发表于 2014-3-4 10:12:16 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
大数据是目前炙手可热的一个概念。针对大数据平台,我们可以从宏观和微观两个角度对其进行技术剖析。

  中国移动通信集团设计院有限公司 史彤
  数据可以产生价值吗?十年前,很多人恐怕会对这个问题给予否定或者模棱两可的答案。在那时的观念和技术发展水平下,对于IT一知半解的人们还没有完全了解数据的本质。大家承认数据本身的价值,却并不了解如何利用数据。
  不过,在今天这个大数据(Big  Data)时代,几乎没有人会对数据的价值生产能力产生怀疑了。越来越多的人认识到,数据将会成为未来一个非常重要的虚拟资产。
  但是培育数据让其产生价值却不是一个容易的事情。大数据由此应运而生,这一当前最为热门的概念集合了多种技术为一体,开发出了一套全新方法,以便捷快速地处理数据。因此大数据并不是一种单独的技术,相对而言我们可以将其称之为一套技术集合。
  为什么需要大数据?
  在当今IT业界中大数据是炙手可热的一个名词,其以简单的语法构成通俗易懂地诠释了什么才是庞大和复杂的数据集。大数据之所以会如此流行,是因为其契合了IT业界的发展与应用趋势。
   最为广泛流传的对大数据的解释莫过于4个V——海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型 (Variety)和巨大的数据价值(Value),而这恰恰是当前社会对数据的需求组成。为了更好地发展业务,一直以来企业、组织和机构都在对结构化数 据进行梳理和统计。不过随着IT应用在业务中的逐渐深入,决策者们发现他们需要收集的数据不仅存在于销售年报这样的传统信息中,而且还同样存在于网络日 志、传感器网络、社交网络、影音文件、互联网搜索索引、详细通话记录、医疗记录、摄影档案、视频档案以及电子商务等内容之中。
  这些内容 有着多种多样的载体和类型,数据增长和迭代速度极快,相互之间还会存在不同的关联。最终,会积累下非常庞大的体量。近两年吸引了大量投资的视频监控领域, 就是大数据内容的一个重要应用实例。其不仅拥有较大的数据规模,产生速度惊人,同时非结构化的数据组成使得很难利用传统IT技术对其进行处理。不过,由于 其与日常生活、工作的密切相关性,视频监控数据又具有而且能够产生极大的价值。当然,我们也要看到,在庞大的数据量背后,视频监控数据的价值密度很低。在 动辄数十小时的视频资料中,有时我们需要的仅仅是其中的几分钟或者几秒。但是就是这样,我们依然需要对其进行长期保存。
  来自IDC的调查报告认为,全球的数据资料存储量到2020年将达到40ZB,而数字信息的主要制造者也将从现有的成熟市场转移至新兴市场。比如说,各种物联网传感器产生的数据量占比将从2005年的11%增长到2020年的40%。
  传统的关系型数据库没办法将这些内容加以消化。从应用角度,业界需要大数据这样的概念指导,为企业、组织和机构开发出一套全新方法和一系列技术,使得决策者们不仅能够处理传统数据,同时可以便捷地分析和应用这些新兴数据,而不是仅仅进行储存。
  大数据的技术构成
  在大数据概念中,目前还没有哪项单一技术能够满足所有应用需求。这些大数据技术或针对数字营销数据进行优化,或分析社交网络数据,再或者主要用已知数据来预防未知的风险,其应用领域比较具有针对性。
  我们可以将一套完整的大数据平台拆分成几个不同的技术领域。从宏观上来看,大数据平台包含了三个重要的技术部分。
  首先是数据交易技术。这一部分技术所从事的工作,是对一些传统的关系型数据或者非结构化数据进行处理,这些数据包括ERP应用、数据仓库应用、在线交易处理(OLTP)等。
  数据交互是第二类组成部分,其也是成长最迅速的一类大数据技术。数据交互技术主要是对社交网络、物联网设备和传感器、地理定位、影像文件、互联网点击、电子邮件等应用产生的数据进行处理。
  最后是对数据的处理。在这一部分中,包含了技术架构、计算方式等内容。知名的Hadoop平台就是其中的一份子。
  另一方面,从微观层面,我们可以将大数据平台再进行更加细致的剖析。
  1. 数据存储  数据存储是大数据平台的根本,也是所有大数据技术中产品种类最多的一个组成部分。没有了存储平台,数据也就没有了载体。在数据存储的组成中,包括了高性能的内核式分布存储系统、用户级的分布式存储以及业务级别的数据存储。这其中不乏LustreFS、Hadoop  HDFS这样的知名产品。
  2. 数据同步 这一部分技术主要用于将基础架构产生的数据内容进行转换,以完成数据处理、系统监控等方面的操作。
  3. 数据开发 顾名思义,数据开发技术主要承担了搭建大数据平台上层建筑的任务。其中涵盖了用户认证、数据鉴权、工作流、数据管理等多方面的任务。
  4. 数据呈现 数据可视化是这一部分的一个重要主题。Facebook为了更好地应用大数据技术,特别开发了名为Facebook  Insights的产品,将大数据平台中的单元和属性抽离出来,以更好地掌控数据资源。
  5. 数据计算  这一部分毫无疑问是一个大数据平台最为重要的技术核心。其承担了对海量数据进行再加工再处理的任务。一般来说,我们可以将其分为离线计算与实时计算两种模 式。离线计算一般适用于对时间属性不敏感的应用,相对而言,其技术开发和构建的成本较低。但是由于离线计算需要数据同步技术对数据进行采集,过大的数据量 会使得采集过程失败,因此目前用于离线计算的数据量还不能太大。
  相较于离线计算,实时计算处理速度更快,但是其成本很高。目前实时计算大都用于金融、互联网等行业。
  6. 数据挖掘  数据挖掘并不是一个新的技术,目前其发展已经非常成熟。在大数据的概念下,数据挖掘被赋予了新的意义。其所处理的数据类别越来越广泛,同时为了迎接海量数据,数据挖掘工具的性能也在不断提升。
   在当今这个飞速发展的数字时代,大数据已经成为我们生活中必不可少的一部分。展望未来,围绕大数据还将有一些新的技术和商业模式诞生。数据将成为如同服 装、汽车、家电或者是食物一样的商品,成为人们选购的对象。同时,精通大数据相关技术的数据科学家,也会成为一个新兴的职业类型,在新时代中扮演重要的角 色。
分享到:  !connect_viewthread_share_to_qq!!connect_viewthread_share_to_qq! QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-6-11 08:13 , Processed in 0.365664 second(s), 16 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表