设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1258|回复: 2
打印 上一主题 下一主题

2014年大数据行业深度梳理总结《转》二

  [复制链接]
跳转到指定楼层
楼主
发表于 2014-12-29 19:50:46 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
                1)交通
                        交通的大数据应用主要在两个方面,一方面可以利用大数据传感器数据来了解车辆通行密度,合理进行道路规划包括单行线路规划。另一方面可以利用大活数据来实现即时信号灯调度,提高已有线路运行能力。科学的安排信号灯是一个复杂的系统工程,必须利用大数据计算平台才能计算出一个较为合理的方案。科学的信号灯安排将会提高30%左右已有道路的通行能力。在美国,政府依据某一路段的交通事故信息来增设信号灯,降低了50%以上的交通事故率。机场的航班起降依靠大数据将会提高航班管理的效率,航空公司利用大数据可以提高上座率,降低运行成本。铁路利用大数据可以有效安排客运和货运列车,提高效率、降低成本。
                        2)天气预报
                        借助于大数据技术,天气预报的准确性和实效性将会大大提高,预报的及时性将会大大提升,同时对于重大自然灾害,例如龙卷风,通过大数据计算平台,人们将会更加精确地了解其运动轨迹和危害的等级,有利于帮助人们提高应对自然灾害的能力。天气预报的准确度的提升和预测周期的延长将会有利于农业生产的安排。
                3)农牧业
                        由于农产品不容易保存,因此合理种植和养殖农产品对十分重要。如果没有规划好,容易产生菜贱伤农的悲剧。过去出现的猪肉过剩、卷心菜过剩、香蕉过剩的原因就是农牧业没有规划好。借助于大数据提供的消费趋势报告和消费习惯报告,政府将为农牧业生产提供合理引导,建议依据需求进行生产,避免产能过剩,造成不必要的资源和社会财富浪费。农业关乎到国计民生,科学的规划将有助于社会整体效率提升。大数据技术可以帮助政府实现农业的精细化管理,实现科学决策。在数据驱动下,结合无人机技术,农民可以采集农产品生长信息,病虫害信息。相对于过去雇佣飞机成本将大大降低,同时精度也将大大提高。
                        4)医药卫生
                        食品安全问题直是国家的重点关注问题,关系大人们的身体健康和国家安全。最近几年外国旅游者减少了到中国旅游,进口食品大幅度增加,食品安全问题是其中的一个重要原因。在数据驱动下,采集人们在互联网上提供的举报信息,国家可以掌握部分乡村和城市的死角信息,挖出不法加工点,提高执法透明度,降低执法成本。国家可以参考医院提供的就诊信息,分析出涉及食品安全的信息,及时进行监督检查,第一时间进行处理,降低已有不安全食品的危害。参考个体在互联网的搜索信息,掌握流行疾病在某些区域和季节的爆发趋势,及时进行干预,降低其流行危害。政府可以提供不安全食品厂商信息,不安全食品信息,帮助人们提高食品安全意识。
                        5)宏观调控和财政支出
                        政府利用大数据技术可以了解各地区的经济发展情况,各产业发展情况,消费支出和产品销售情况,依据数据分析结果,科学地制定宏观政策,平衡各产业发展,避免产能过剩,有效利用自然资源和社会资源,提高社会生产效率。大数据还还可以帮助政府进行监控自然资源的管理,无论是国土资源、水资源、矿产资源、能源等,大数据通过各种传感器来提高其管理的精准度。同时大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提高公信力和监督财政支出。大数据及大数据技术带给政府的不仅仅是效率提升、科学决策、精细管理,更重要的是数据治国、科学管理的意识改变,未来大数据将会从各个方面来帮助政府实施高效和精细化管理。政府运作效率的提升,决策的科学客观,财政支出合理透明都将大大提升国家整体实力,成为国家竞争优势。大数据带个国家和社会的益处将会具有极大的想象空间。
                        6)社会群体自助及犯罪管理
                        国家正在将大数据技术用于舆情监控,其收集到的数据除了解民众诉求,降低群体事件之外,还可以用于犯罪管理。大量的社会行为正逐步走向互联网,人们更愿意借助于互联网平台来表述自己的想法和宣泄情绪。社交媒体和朋友圈正成为追踪人们社会行为的平台,正能量的东西有,负能量的东西也不少。一些好心人通过微博来帮助别人寻找走失的亲人或提供可能被拐卖人口的信息,这些都是社会群体互助的例子。国家可以利用社交媒体分享的图片和交流信息,来收集个体情绪信息,预防个体犯罪行为和反社会行为。最近警方通过微搏信息抓获了聚众吸毒的人,处罚了虐待小孩的家长。
                        四、大数据技术及厂商
                        由于本篇文章主要的目的是进行大数据知识普及,因此在大数据技术和平台方面就不进行深入探讨,主要介绍一些典型的大数据技术和行业解决方案,具体的大家可以参考赵刚老师的《大数据技术与应用实践指南》,以及迈克尔.梅内里(MichaelMinelli)《大数据分析决生互连网金融时代》(BIGDATABIGANALYTICS)。以下内容主要来源于以上两本书。
                        大数据技术必谈的Hadoop和MapReduce.
                        Hadoop的最早创始人是DougCutting(曾经在雅虎公司工作,现在Cloudera工作)和MikeCafrella.他们当时在从事一个名为Nutch的开源项目,该项目主要致力于创建Web海量检索框架,在研究过程中他们参考了google的MapReduce和GFS(GoogleFilesSystem)的技术,开发出Hadoop数据处理平台。Hadoop的名称来源于Doug的儿子为一只黄毛绒玩具长毛象取的名字。
                        Hadoop主要特点是,运行在标准硬件之上的Hadoop可以以传统解决方案1/10的成本从海量的数分析分析复杂问题,可以胜任收搜索系统、登录系统、推荐系统、数据仓库、语音/图像分析等。其是一个开源软件,同传统的技术不Hadoop能在它原有格式里存储任意种类数据,并基于这些数据衍生一系列分析和变化。可以廉价的存储百万兆(Terabyte)甚至千万亿字节(Petabyte)数据。HDFS和MapReduece是其两个关键要素。
                        HDFS将数据分成若干片段后分布存储在集群中的不同服务器上。每台服务器只存储数据的若干片段,并且数据的每个片段被冗余存储在多个服务器之上。分析工作可以在存储数据的每个服务器上并行计算分析。每台服务同时对自己存储的数据片段进行分析并将结果范围,最后在汇总计算为一个详尽的分析结果,MapReduce就是这种收集和汇总分析结果代理。
                        主流的大数据厂商分为大数据分析基础设施,大数据操作基础设施,大数据基础云服务,传统结构化数据库,商业智能,可视化领域等,下面将一一介绍。
                        1)大数据分析基础设施
                        主要指Hadoop的发行版本产品,主要厂商有Cloudera,Hortonworks,MapR.其他还包括HP的Vertica,EMC的GreenplumHD,IBM的BigInsights
                        2)大数据操作基础设施
                        主要是指企业级的NoSQL数据库和SQLonHadoop产品。主要产品有Caouchbase,Hadapt,Teredata,Marklogic等
                        3)大数据基础云服务(IAAS)
                        基于大数据基础设施提供云服务的有AmazonWebServiceElasticMapReduce、GoogleBigQuery、Infochimps、MicrosoftWindowsAzure,阿里云等
                        4)关系型数据库
                        关系型数据库产品Oracle、MicrosoftSQLserver、SAPSybase、IBMDB2、MySQL、PostgreSAL,MemSQL等
                        5)数据云服务(DAAS)
                        DaaS的服务主要有WindowsAzureMarketplace、Datasift、SpaceCurve、Factual等
                        6)商业智能产品
                        BI产品主要有Oracle的Hyperion、SAPBusinessObjects,MicrosoftBusinessIntelligence、IBMCongnos,SAS,HP的Autonomy、QlikView等这些产品通常具有分析和可视化能力。
                        7)分析和可视化应用
                        主要产品有SAS,TeraDataAster,EMCGreenplum,TableauSoftware,Tibco等。
                        8)日志应用
                        主要产品有Splunk、Loggly、SumoLogic。其中Splunk是一个可运行于各种平台的IT数据、日志分析软件。
                        9)广告/媒体应用
                        主要产品有MediaScience、BlucefinLaps、RocketFuelDataXu,RecordedFuture.其中RocketFuel是一家广告优化公司,每天处理15亿次品牌广告展示,广告效果完全基于数据来改善。
                        10)垂直应用
                        主要有PredictivePliciing、BloomReach,Myrrix,Atigeo.其中BloomReach公司面向市场开发大数据应用(BDA),通过机器学习,网络爬虫和搜索技术来挖掘数据,对网站的数据进行分析,然后为网站带来更多的流量,从而给他们的客户带来更多的利润。
                        国内的互联网企业在大数据应用和研发方面处于较好的水平例如淘宝、百度、腾讯、新浪等。但是在大数据产品和技术服务领域却落后于国际厂商。国际主流大数据产商包括Cloudera、Hortonworks、MapR,IBM,Oracle,EMC,Intel,SAP,Teredata。具体的解决方案请参考赵刚老师的书《大数据技术与应用实践指南》
                        五、大数据产业链介绍
                        由于大数据及大数据技术是一个工具,无法像互联网企业那样形成一个大数据生态圈,形成闭环。但是从数据的收集,存贮,处理,分析,销毁等方面分析,可以形成大数据产业链。
                        数据的收集
                        主要是指各种数据通过传感器或其他方式被采集,大数据的的采集除了传统的互连网入口、社交平台、搜索引擎、电商交易数据、在线问答、企业业务数据外,移动互联网的App将是一个重要的数据入口,例如通过手机APP内嵌的SDK将手机App上的用户行为数据集中进行收集和处理,TalkingData目前是这一领域的领先的大数据厂商,他们既有大数据又有数据管理平台DMP。摄像头采集的数据、导航地图的轨迹数据、物流信息、移动互联网App的LBS位置数据等都大数据的重要来源。在这个阶段主要是指拥有大数据的公司例如BAT,通讯行业、互联网企业、物流行业、零售行业、医疗行业等,它们需要大数据采集和存储产品。
                        数据的存储
                        主要是指利用何种方式进行数据存贮,对于中小企业,云存储是以个不错的原则,对于金融行业和其他对数据保有权较为重视的企业,私有云将是一个不错的选择。政府主导的大数据存储平台可以作为参考。如果认为云平台无法采用时,采用低端的并行计算机可能是一个经济的方案,但是由于没有云操作系统,其存储的效率是个较大的挑战。EMC、NetAPP、日立的NAS存储可以考虑。SAN存储由于成本过高,不建议用于大数据存储,但是土豪除外。
                        数据处理
                        数据处理主要是指数据处理平台,采用了SAAS概念的大数据处理平台都可以考虑,企业在考虑处理平台时建议,循序渐进,以未来2年内的数据处理量为参考,千万不要一次投资到位,因为数据处理的技术发展是几何级数的,两年后采用新的技术平台,其ROI将会大大降低,采用Cloudera,Hortonworks,MapR的Hadoop产品都可以,如果其在中国没有成熟团队建议考虑IBM,HP,Oracle的解决方案,他们的案例较多。
                        数据分析
                        主要是指如何对处理完的数据进行商业分析,业务需求和技术需求必须有本企业技术和商业人员主导,外部厂商很难了解企业自身的商业需求,但是数据展现形式和分析方式可以交给厂商来做,主要涉及的厂商是传统的商业智能产品和可视化应用,包括Oracle的Hyperion、Teredata、SAPBusinessObjects,IBMCongnos,SAS,HP的Autonomy、QlikView等。
                        数据销毁
                        主要是指数据如何进行安全管理,对于不再需要的数据如何进行销毁,鉴于数据的数量较大,存储需要重用,因此数据索引删除、数据空间7次重写,数据混淆、数据对称加密等方式都可以用作数据销毁,目前此阶段市场需求不多,因此还没有较为成熟的方案和厂商,未来将会用安全厂商进入此领域。
                        由于目前大数据产业的商业模式和盈利模式还在探索之中,大数据带来的直接收益还没有明确,目前主要的商业形式还是大数企业自身的大数据应用(例如,大数据计算平台,大数据采集和分析,数据分析报告),行业应用处于一个探索的阶段,在大数据较为集中的电信行业,并没有成立数据事业部,数据被当作资产良好的保存起来,国外的大数据投资`在2005年就开始了,很多高科技企业已经大数产业链上投入巨资进行技术开发和行业应用。

分享到:  !connect_viewthread_share_to_qq!!connect_viewthread_share_to_qq! QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
回复

使用道具 举报

沙发
 楼主| 发表于 2014-12-29 19:52:17 | 只看该作者
六、大数据隐私保护

大数据的隐私和伦理已经争论了很多年,由于其涉及我们每个人的自身利益,大数据隐私保护是大数据产业需要正面面对的问题。大数据在采集过程中必定会涉及到 隐私数据,的收集,如果其保护的不好将会造成严重的后果,成为大数据产业发展的瓶颈。过度强调大数据的商业应用而忽视了大数据产业的隐私保护,将会产生灾 难性的后果,大数据产业的发展可能会因此被禁止。过度强调隐私保护而不发展大数据产业也是一个错误的选择,人类可能会错失一个高速发展的机遇。大数据产业 发展要建立在隐私保护基础之上,同时隐私保护也将通过适当约束来助推大数据产业的发展。

大数据企业在采集外部数据时,应该注意尽量不要收集可以识别出个人的PII信息,参照美国个人隐私定义者,PII信息包括姓名、地址、手机号码、身份证 号、驾驶证号、银行帐号、借记卡/信用卡号。大数据企业在使用自身拥有的信息时也要注意保护敏感信息例如民族、政治意见、宗教信仰、健康/医疗信息,婚姻 状况、性生活、年龄、性别、犯罪记录、个人喜好、标准IP地址等。

大数据企业应该在其公司的章程和文件中体现对个人隐私数据的保护,坚持遵守全球隐私保护7条原则;

1)知晓权(透明性):应该通知本人关于所收集信息的目的

2)选择权:提供机会选择或放弃所提供的个人信息是否被使用或如何被使用

3)同意权:再符合知晓权和选择权的情况下才可以向第三方透露个人数据信息

4)安全权:采取负责的措施保护个人信息免受丢失、滥用、未授权获取、泄露、篡改、毁坏的威胁

5)数据完整性:确保个人信息在最终用途、合理防护方面的可靠性,确保信息精确、完整、无误。

6)可查询:提供本人查询个人信息的途径

7)责任性:企业有责任遵守上述法则,并应确保合规的机制。

大数据企业面对的数据分为公开数据,授权数据,隐私数据。公开数据来源于公共媒体因此可以无须强调保护,授权数据来源于数据收集过程中,客户对企业的授 权,需要依据签订的协议使用范围来使用,不能过越权进行数据转让和贩卖,大数据企业仅能在签署的授权范围内部进行使用,企业在使用大数据时尽量使用分类数 据、群体数据、趋势数据、统计数据。不要使用针对个体的数据,同时在数据分析是需要注意关注隐私数据保护。大数据企业在利用隐私数据时将要特别注意对其的 保护,即使在客户授权的前提下,也要注意数据的使用场合和揭示方式,不要向外泄露受保护的PII信息。

大数据隐私保护应该从企业法律意识、国家法律法规、数据保护技术等几个方面入手进行大数据隐私保护,其是大数据产业发展的一个重要前提,解决了大数据隐私保护问题才能打开大数据产业发展的空间,大数据产业发展才有明确的未来。

七、大数据的风险控制

任何一中事物出现后都会有其有利的一个方面,也有其不利的方面,片面的夸大了它的作用而不谈它的弊端,这就是传销了。大数据和其他的新鲜事物一样,它不是 神,不可能天生没有缺陷,不可能天生没有风险,我们要正视大数据时代的弊端,在享受大数据时代的红利时,希望能够认清其弊端,不要成为数据的奴隶,不要成 为Matrix的营养品。

大数据本质就像计算机和互联网一样是人类的工具,能有限地帮助人们但是不能代替人们思考和做决策。大数据不能帮助人类解决生理需要、情感沟通、心理安慰的问题,大数据只是一个提高效率和辅助人类决策的工具。

我们聊一聊如何控制大数据带来的风险。

1)数据不能起到决定作用,仅应提供辅助决策。决策应来源于人类集体智慧和决策层,千万不能让数据或人工智能指挥一切。

2)数据报表不能代替人类思考,有些因素没有办法进行量化,有些因素数据报表无法提供信息,重大决定人类必需综进行综合考虑。

3)利用数据进行决策,应考虑其不良影响,顾及其他群体的利益,避免多数人暴政和少数精英独断专行。

4)有些领域不能过度依靠参考数据,还应该从尊重生命出发如食品安全管理问题等。

5)应建立数据分析和决策之间的防火墙,避免出现黑客帝国的场景。

大数据应用、大数据思维归根到底还是商业思维的具体体现,同样的大数据在不同的人眼里,会表现出不同的表现形式,同样一组数据,通过不同的纬度看将会产生不同的商业结果。因此大数据仅是工具,其不能代替人类自身对社会的理解,以及人类社会自身的道德约束等。

八、中国的大数据之路任重而道远

中国目前的大数据应用环境和技术相对于美国而言,在整体技术水平、应用环境、国民意识、商业环境、技术厂商、技术平台上面相差超过5年左右。在大数据应用的国家战略层面落后的也较多。

2012年3月,美国奥巴马政府宣布推出“大数据的研究和发展计划”。该计划涉及美国国家科学基金、美国国家卫生研究院、美国能源部、美国国防部、美国国 防部高级研究计划局、美国地质勘探局等6个联邦政府部门,承诺将投资两亿多美元,大力推动和改善与大数据相关的收集、组织和分析工具及技术,以推进从大量 的、复杂的数据集合中获取知识和洞见的能力。美国奥巴马政府宣布投资大数据领域,是大数据从商业行为上升到国家战略的分水岭,表明大数据正式提升到战略层 面,大数据在经济社会各个层面、各个领域都开始受到重视。

2014年从“两会”的提案、议案看,很多人建议将大数据业务上升为国家战略,互联网领军人物李彦宏在政协记者会上表示,政府应该把更多和人民生活有关的 数据资料,公开地放到网络上;雷军则直接建议将大数据纳入国家战略,推动大数据切实地被用起来;科大讯飞刘庆峰建议国家建设声纹数据库进行大数据反恐。张 近东、马化腾、杨元庆的提案也与数据应用有着紧密联系。但是在中国大数据国家战略和大数据产业发展发面还没有一个清晰的蓝图。

目前了解到的信息是上海政府计划建设大数据产业园,通过政府自身投资来建立大数据平台,吸引中小企业将信息系统及数据放到政府主导的数据平台上,政府将利 用此平台来挖掘数据信息,提供数据信息报告。另外一个大数据应用是地方政府请一些大数据公司来开发舆情检测系统,及时了解社会舆论。无论是大数据产业园还 是舆情监控。我个人认为没有抓住大数据优势的核心,大数据产业园的管理机制和创新动力不足,无法发挥大数据计算的优势,反而浪费了大量的投资,效率较低。 舆情监控本身就无法发挥大数据的商业应用优势,反而阻碍大数据产业的商业应用。我们应该提供大数据产业优惠政策,在资金、场地、税收、科研方面提供外部支 持,让企业自身投入到大数据产业建设之中,从企业自身商业需求出发,投入资金来发展大数据产业。

IBM现已拥有全世界最先进的大数据和分析技术能力,其拥有400多位IBM数学家。2013年IBM就成功的申请了1500项大数据与分析的相关专利, 自2005年开始对收购和研发投资达240亿美元,2013年IBM大数据分析领域营收高达160亿美金。美国的通用电气公司投入了15亿美金建立了软件 分析公司,雇用了400名数据科学家进行大数据产业研究。但是在中国除了我们熟知的BAT涉及大数据产业外,知名的大数据产业企业就非常少,市场机会巨 大。北京腾云天下科技有限公司(TalkingData)是为数不多的大数据领先公司,其既有大数据又有大数据技术平台,其目前是国内最大的第三方移动大 数据平台,旗下拥有众多广受欢迎的移动端数据统计、分析、监测产品。TalkingData与国内众多应用分发平台、渠道、广告联盟保持着紧密的合作关 系,三年来积累了大量的移动互联网用户行为、兴趣数据。中国银联、招商银行、聚美优品等企业,正在使TalkingData提供的数据服务。

最后总结一下,大数据时代将会给人类社会带来巨大变化,它是一个好的工具,就像计算机一样,帮助人们提升社会生产效率,了解事物真相,认识客观规律。重要的大数据可以帮助政府和企业进行科学决策,降低决策风险,加快进入智慧社会。
回复 支持 反对

使用道具 举报

板凳
发表于 2014-12-30 06:45:45 | 只看该作者
很专业的知识呀,赞一个
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-4-29 03:16 , Processed in 0.380092 second(s), 15 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表