设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1336|回复: 0
打印 上一主题 下一主题

大数据现在该怎么用?

[复制链接]
跳转到指定楼层
楼主
发表于 2014-11-3 09:25:17 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  大数据之于电影行业,绝对称得上是最熟悉的陌生人,它就像有人所比喻的青春期少年口中的“性”——“大家都在谈论它,但没有人知道如何操作;每个人都以为别人在做,于是都声称自己正在做”。                经过去年对大数据近乎神话般的热捧之后,中国电影人发现,这个他人口中的无所不能的大数据似乎到自己身上就失灵了,它连最“简单”的票房预测都难以胜任,谈何其他?
                问题到底出在哪里?现在我们可以用大数据做什么?剧角君从两篇文章当中摘选了部分内容并编辑成文,或许能帮大家理出一些头绪。
        本文摘自:
        1.《为什么百度大数据在预测<黄金时代>票房时不灵了?》
                来源:虎嗅
                作者:陈昌业
        2.《不要因为票房预测失灵就全盘否定大数据》
                来源:娱乐资本论
                作者:郑道森
                电影《黄金时代》坐拥众多一线明星,却在日进斗金的国庆档遭遇票房失利,堪称今年影市最大的冷门之一。但最令人哑然的恐怕还是影片上映前百度为其背书的票房预测,在百度百发的新闻发布会上,当宣布预测票房为2.0~2.3亿后很多媒体还认为百度的预测太过保守,但现在看来,这个数字也依然过于乐观。
                其实百度很早就开始研究并在内部测试票房预测了,爱奇艺首席内容官马东就曾透露,目前在爱奇艺内部,基于百度大数据的票房预测已经能够做到80%以上的准确率。那么,中国最有能力做大数据预测的百度,为何会在本次预测中失利?这还要从头说起。
       
        为什么预测不准?
        问题1.数据沉淀不够
                在采访中,爱梦娱乐大数据创始人雷鸣和凡影调研客户总监王舒都认为,在国内做电影票房预测存在一个根本性的“疏漏”,就是中国电影市场的历史数据沉淀严重不足。我国有详细、清楚和准确的票房记录是从2012年开始。在此之前,除了年底由国家电影专资办统计出具的权威票房数据外,其他每周、每月票房的数据多是由专业人士根据抽样样本的统计进行的估算。
                相比之下,好莱坞从1930年代前后即开始进行票房数据的调查、统计和披露。据查可能是好莱坞最早的票房数据调研公司之一的QUIGLEY出版公司创立于1915年。根据其官网介绍,该公司每年向公众出版《全球电影票房年鉴》( Internationl Motion Picture Almanac),年鉴内包含电影公司的信息、当年出品电影片目、票房统计数字、获奖情况等电影行业的制片、发行及放映方面的统计资料。
                由于包括QUIGLEY公司在内的第三方调研公司经年累月的数据统计,好莱坞能够在近百年的时间里积累了大量的历史统计数据,这些数据的沉淀并经过当代计算机数字技术的结构化才形成了如今好莱坞电影大数据预测的基础。而我国有数据可查的片子数量也只有数百部,可用来学习规律的历史数据积累其实十分有限。
        问题2.模型不成熟
                谷歌曾公布电影票房预测模型,可以提前一个月预测电影的票房,准确率高达94%。在谷歌的模型中,票房预测的依据包括:电影预告片的搜索量,同系列电影前几部的票房表现,以及档期的季节性特征等等。然而,同样的模型,放在中国用却不是很合适。爱奇艺CEO龚宇就曾公开表示,用百度和爱奇艺的类似数据来套用,发现准确率很低,说明中国的市场除了这些因素之外,可能还有别的因素。
                “获取数据并不难,难的是怎么建立合适的分析维度。”爱梦娱乐的创始人雷鸣说,中国的娱乐行业有很多隐秘的规律,外行人并不了解,他的公司希望建立更适合中国市场预测模型。“比如偷票房,这在三四线城市是一件很普遍的事,我们会根据偷票房来专门建模”。雷鸣说。
                关于百度预测模型,媒体公开的资料显示,“这一产品结合百度搜索数据、新浪微博数据,以及中国电影过去5年的历史票房数据,可以从演员热度、导演热度、电影关注度、上映时间等多个维度对一部电影进行票房预估。”
                乐视影业数据及策略中心总监凌毅认为,从媒体公布的资料看,特别是忽略了档期内其他竞争影片这一重要的参考维度。而据其分析,该片之所以会票房失利,与影片对国庆档期的错判,特别是该档期内观众的消费心理错判有很大的关系。凌毅介绍,乐视影业内部对于电影项目的数据决策模型中,基于同档期竞争影片的数据分析是十分重要的数据维度。
                在王舒看来,变量遗漏和样本偏差是做统计性趋势分析的最大敌人。前者即是凌毅提到的问题,维度的不够丰富,不仅可能是因为疏漏而导致没有纳入到统计口径内,还可能是因为互联网内的数据目前仍然存在“门户”壁垒——无法打通一些关键的大数据,譬如说微博与微信数据打通,譬如百度的搜索引擎内沉淀的数据与腾讯在QQ、微信上沉淀的用户数据打通,譬如淘宝、京东、猫眼等电商或O2O平台内的数据之间打通。而这些数据不能打通,则任何一方对于“人”的消费行为描述、消费心理观察都必然会有相当程度的偏颇,变量遗漏也就在所难免了。
                样本偏差指的是,“在没有严格遵循随机的原则时,所覆盖的样本越大反而会导致误差越大。”另外由于搜索只是一种表示兴趣的行为,如果仅以一小部分人的兴趣来推测全体的购票决策,准确度有限是难免的。
        问题3.“噪音”太多
                一个明星的微博粉丝中,有多少是买来的,有多少是僵尸粉,几乎没有人知道。雷鸣表示,现如今技术越来越进步,让微博的僵尸粉越来越像真粉,而随着微博活跃度的降低,真粉反倒越来越像僵尸粉。
                在中国,几乎所有新媒体的数据,都可以用钱买到。在淘宝上,花120元能卖到1万个新浪微博的优质粉丝,这些粉丝有头像、有微博,如果出价到170元,这些买来的僵尸粉账号还基本都能有100个以上粉丝,显得更加逼真。在论坛里,只需要花16元就可以“制造”1万次热帖点击,在视频网站上,视频点击1万次的成本也仅为8元。
                问题也就随之而来:百度的搜索排名以及搜索结果导出的各类指数都会有大量的“结果”来自于片方及其宣传公司的购买,形成了非自然的人为推高——这在电影行业的宣传里司空见惯,当然也是百度的竞价排名等与搜索结果有关的收费服务所提供的“宣传空间”。
                如果是这些“结果”,则本身由此就会存在大量的误导,这在雷鸣的描述里被称作统计上的“噪音”,亦被称作“脏数据”。雷鸣认为,不排除《黄金时代》存在这些“噪音”,而百度方面很有可能因为没有能够剥离这些“脏数据”,从而“被自己欺骗了”。
                即便过滤这些“噪音”在技术上被认为是可行的,但如果这些“脏数据”成为构成指数的大部分甚至是绝大部分数据呢?特别是当一部偏小众、偏安静的文艺青年所期待的电影,他们本身对于这些数据的贡献有限甚至微弱的情况下,一旦洗干净了数据是否会存在可供分析或生成指数的数据也就所剩无几了呢?而这些失去统计价值的数据是否仍能作为票房预测的依据呢?
        问题4.市场尚不稳定
                王舒还特别提到了,从2012年有详尽票房统计以来的统计数据并不足够有参考价值以作为票房预测的基础,因为中国电影产业自2012年以来连续地进入了一段爆发式的增长期,从百亿迅速跨越到了两百亿元,甚至今年有望冲击300亿元。
                “稳定性是做趋势性预测的基础。”王舒认为,“高速增长是破坏性的,如果根据这样的数据进行预测,则必须做出实时的调整才能相对准确。”就王舒看来,只有等到中国电影的票房产值进入到一个稳定的平台期,电影的消费习惯趋于稳定,趋势性的预测才可能基于统计分析“准确”做出。
       
        那么,大数据现在能做什么?
                “以往电影行业不太重视数据,因为电影是艺术品,不是产品。宝洁的一款产品可能从设计、调研、生产到销售,整个流程都需要数据支持,但电影业没有这个意识。” 数托邦创始人杨玥说:“但随着郭敬明、韩寒、肖央这些新锐导演进场,他们是很了解受众的,把电影当做产品去运营的人,而且上来就是2、3亿起跳的票房,让 整个行业开始反思,怎样了解用户、洞察市场。”
                数托邦曾经做了一款“油价早知道”的产品,可以提前三天预测油价涨跌。数托邦在新浪微博上抓取提到油价的发言,发现其中700个人属于意见领袖,再把他们的 意见提取出来经过加权得到一个结果,预测未来油价会涨还是会跌。“从去年5月到现在,我们预测了30次,准确率100%。”
                在大数据行业的设想中,未来必将出现这样一部电影:它的剧本创作,会从数十百个微博用户的网络行为中攫取兴趣点,供编剧创作故事情节;投资方会根据剧本和拟定的主演名单,在社交媒体上分析粉丝群体,进行投资收益分析,决定合理投资额。紧接着,在电影拍摄后期,所有营销已根据大数据分析的目标群体展开,根据人们的好恶、反响,讨好、卖萌或者耍酷。最后,大数据会帮助投资方预测票房,拉动更多广告植入的介入。
                尽管真正意义上的“大数据电影”还没有出现,但国内电影行业在“大数据”的应用上已经跃跃欲试。
                《后会无期》就是这样的案例。雷鸣说,7月21日《后会无期》大规模点映,爱梦娱乐随后把所有当天在互联网上产生的言论进行分析,并在22号凌晨,提交了一份娱乐预警预案。在这份预案中,爱梦娱乐将所有可能的负面关键词列出来,针对每一条可能出现的负面评价,给出应对的预案。与此同时,他还强烈建议片方调低用户预期,建议韩寒口吻更加谦逊,适当的时候可以自黑。
                北京的另一家大数据公司艾曼科技,曾给《小时代》、《北京爱情故事》、《窃听风云》等电影提供过数据支持服务。艾漫科技的CTO郭锐介绍说,当他们对新浪微博上提及“小时代”的众多微博用户进行了数据分析后,建议片方加大南方二三线城市的排片量,这些城市包括宁波、福州等等,因为这些地方的网友对小时代的讨论热度更高。艾漫还发现,女孩子们最喜欢的男演员是柯震东,建议宣传方更多以柯震东为主打进行宣传。
                对于《后会无期》和《小时代》的数据服务大多集中在电影后期的宣传营销阶段,而在影视剧创作前期,大数据有时也能起到意想不到的效果。
                数托邦曾给克顿传媒的编剧们提供过一次大数据的服务。克顿传媒希望参考日本作家东野圭吾《白夜行》的风格拍摄一部悬疑剧,于是数托邦从微博上抓取了上千个关注白夜行、悬疑剧等相关作品的用户信息,最终发现,这些用户都有一个共同的关注点——果壳网,尤其是对于果壳网“谋杀现场法医”这个小组最为关注。让人意外的是,这些用户还非常喜欢一部台湾电视剧《白色巨塔》,这部剧以一所大学附属医院里的政治生态为背景,讲述身陷其中的青年医师们,如何在理想与现实之间挣扎的故事。
                此外,这些用户还关注穷游、马蜂窝论坛、Lens杂志。数托邦建议克顿的编剧去这些媒体上找一找灵感,当这部剧拍摄完成,也不妨借助这些媒体进行宣传。
                以上这些基于大数据做出的分析,都在为故事创作和电影宣传策略的制订提供了更多可能性。

分享到:  !connect_viewthread_share_to_qq!!connect_viewthread_share_to_qq! QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 支持支持 反对反对
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2024-5-8 09:09 , Processed in 0.358367 second(s), 16 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表