设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 312|回复: 1

舆情数据分析:红会、大众情绪与应对策略

[复制链接]
发表于 2020-2-14 15:48:57 | 显示全部楼层 |阅读模式
大众情绪正在成为政治,经济和社会层面的主导力量之一。一不小心,一则普普通通的抱怨在几小时之内就如雪崩般演化成一场全民愤怒。这是互联网带来的福音还是魔咒?答案恐怕取决于:
1. 你能否及时辨别情绪
2. 多快采取行动3. 以及,行动是否恰当
今天,我们就用上述大众策略三原则的第一原则,复盘一下近期关于红会的公众情绪。其中的发现,不仅仅适用于慈善机构,更对企业有重要意义。产品丑闻、质量丑闻、法律丑闻总是难以避免,竞争对手或许乘机落井下石,作为当事人的企业或品牌所有方,如何把自认的“受害者”,与公众认为的“施害者”,客观地联系起来,并且及时采取正确的策略去应对?
对了,隔着屏幕,我就知道你恐怕在想某地高官们最近的遭遇……对不起,这个问题我们不分析不分享不理会不知道。
一方有难,八方支援,这是中华民族的传统美德。但2020年1月31日的一张照片,以及随后陆陆续续的跟帖/转发,引发了一场令当事人始料未及的重大后果。
(图片源自网络,侵删)
照片里,病情肆虐,医护人员却没有穿戴最基本的防护工具。这瞬间揪起了民众的疑问:我们捐赠的物品去哪儿了?一小段时间后,网友开始加入讨论和转发,网络疑问(中性)升级成质疑。质疑没有得到及时回复,或者说,还没来得及被及时回复,少数人的质疑在一两天内连升几级,从质疑到批评,从批评到愤怒,直至湖北红会被整改,情绪仍未平息,短短几天功夫的进展,对红会领导所期望的公信力造成了巨大的打击。

期间,相关红会也进行了回应,以“辟谣”的形式和姿态,然而非但于事无补,而且还激化了矛盾。

在这一系列后续的处理中,我们可以看到红会为此所做出的各种努力与挽救。问题是,为什么他们没能自我证明?为什么越解释越愤怒?再来一次,会不会有所变化呢?
为了探索、分析大众情绪及其传播背后的科学,我们抓取了新浪微博上的部分评论数据作为样本数据,借助于JMP软件的文本挖掘平台展开逐步剖析。
文本获取—抓取新闻官微评论
作为一个舆论相对公开的平台,我们抓取了新浪微博中新闻官博(此类博主拥有大量粉丝,需要对发布新闻负法律责任,因此我们相信此类发布的真实性)所发布的从1月31日至2月9日关于红十字会节点事件报导下的网友评论。

节点关键事件:

1月31日#武汉回应红十字会物资供应问题#;

2月1日#武汉红十字会辟谣拦扣医疗物资#、#武汉红十字会存在调拨不及时问题#、#总台记者探访武汉红十字会#、#湖北红十字会将对负责人追责#;

2月4日#湖北省红十字会3名领导被问责#;

2月7日#武汉呼吁通过红十字会统筹捐赠#;

2月9日#红十字会总会赴武汉工作组#:坚决彻查整改

另外,还有武汉红十字会官博“博爱江城”发布的公示明细。
针对所抓取的评论,我们保留了热评(此类评论点赞数量多,具有代表性),共8033条评论,并标注好日期与事件。

文本预处理—剔除噪声评论

获取了评论文本信息后,我们需要剔除噪声评论,从而改进挖掘的精度。剔除噪声评论,我们依次进行以下处理:
  • 正则化:由于爬取到的评论中有很多html的一些标签,需要利用正则表达式去掉,这些在爬取时已去掉。
  • 分词:JMP软件会根据内置的词库来进行分词,但微博评论参杂许多新型词语(比如“呵呵”、“狗头”等)无法自动进行分词。但幸运的是,这类词语可以通过“文本分析器”中的“管理重新编码”进行手动添加:
  • 在进行分词后,词条和短语列表中会出现大量例如“了、是、的”等助词,并没有什么实际的意义。另外,由于本文想分析的是网友的关注点与情绪,而 “动词”、“主张词”以及“程度词”对我们并没什么太大作用。因此这些词可以通过管理“停止词”来进行处理。

    预处理完文本后,我们将开展进一步的文本分析。

基本描述—基于词云的分析

JMP在进行文本分析时采用的是词袋模型(Bag of Words)。词袋的方法是假设我们不考虑每条评论中词与词之间的上下级关系 ,仅仅考虑词在文中出现的频率,统计每个词在文中出现的次数,就可以得到该文本基于词的特征。

基于此,在进行文本数据清洗后,共得到7469条词条。下图展示了词条频次的基本分布:
从图上可以看到,仅有3%的词条出现过50次以上,有43%的词条只出现一次,因为我们想获知大部分网友的关注与态度,又考虑到网友用语的多元化,因此这里对这些仅出现一次的词条予以删除。

在7469个词条中,出现频次前100名的词条如下所示:
我们可以大致观察到,像“口罩”、“物资”这类事物是大家比较关心的话题,也是武汉同胞在疫情爆发时最需要的东西。同时不乏看到“吃瓜”、“呵呵”、“加油”这类字眼,可见,大家在评论时除了关心的问题也给出自己的看法。

为了更加清晰地呈现我们所关注的问题,我们删除了像“红十字会”、“人”这类词语,继而通过“显示词云”来更清晰地查看(词云将全部词条均包含,其字的大小根据出现频率而定):
不出所料,果然一眼看到郭美美!

词云中展示的词条均为这段时间网友的所闻所感,这与我们大家从网上一眼望到的信息大致无二。但放眼望去,词云中相应的词条繁多,特征还不够明显。如果我们想进一步提取更重要的信息来分析该怎么做呢?

于是我们自然而然地联想到,在进行数据分析时,如果变量(特征)的数目过多,我们常常会使用多元方法来进行降维处理。那么在进行文本分析时,对于切割的词条数目过多,是否也可以依葫芦画瓢,将其“降维”后选出一些有代表性的因子来“概况”这些词条呢?答案是肯定的。JMP中的“潜在语义分析(SVD)”此时就可以派上用场了。文本分析器中的潜在语义分析(SVD)相当于主成分分析(PCA)。那对于文本信息如何进行”主成分分析“呢?

深度挖掘—潜在语义分析(SVD)

潜在语义分析是对所有评论的文档词条矩阵(DTM)进行偏奇异值分解(SVD),该分解将文本数据简化为可处理的位数进行分析。

偏奇异值使用三个矩阵来近似DTM:U、S和V,即
其中V矩阵的列使用类似含义或主题领域来捕捉不同词条之间的关联,若三个词条倾向于出现在同一评论中,那么V生成一个对这三个词条值都很大的奇异向量,奇异向量表示投影到这个新词条空间的评论。

SVD还能捕捉间接关联。也就是说,如果两个词从来没有出现在同一文档中,但它们通常出现在具有第三个词的文档中,则SVD也会捕捉到这种关联。若两个文档没有相同的单词但是包含在降维空间中有关联的单词,则它们映射到 SVD 输出中的类似向量。SVD将文档数据变换为固定维的向量空间,使它适合于所有聚类、分类和回归技术,通过“保存“选项可以将这个向量空间导出到其他JMP平台上分析。
左侧的图显示评论空间中的前两个奇异向量,右侧的图显示词条空间中的前两个奇异向量。


在今天的分析中,我们通过潜在语义分析只分析出现频次超过50的词条。与主成分分析一样,我们希望找出有“代表特征”来代表筛所选出的词条,利用“主题分析,旋转SVD”选项来解释文本。这里我们指定5个主题。
以上为JMP所提供的主题,根据每个主题中的词条,我们依次命名为“明细问题”、“监督问题”、“库存发放问题”、“物资问题”以及“捐款信任问题”,这也是此次新闻出来后大家普遍关注的几个问题。

通过潜在语义分析,我们可以更加清晰地看到这些问题。同时,JMP提供了每个主题下的词云,分别如下所示:
那么,这些网友所关注的问题在新闻发生后的每个节点关注度是否都一样?为了进一步探索事件的相关性,我们利用“保存文档主题向量”将这些主题与各条评论的向量保存在原数据表中。每条新闻节点大家关注的问题变化如下所示:
强调一下这里需要看相对值,而不是看绝对值。首先可以看到,在1月31日事件爆发后网友对这些问题的关注度最高。随着事件的发展,医院资源的补足,大家对此类问题的关注度会相对下降。在2月7日武汉发布声明强调捐款应通过红十字会后,大家对信任问题则更加关注。针对最近一次2月9日的新闻,网友的评论大多是“呵呵”、“哦”这类词语,因此对于事件的问题相对来说关注比较少。但就这五个主题比较来看,大家更加侧重于“捐款信任问题”以及“监督问题”。通过潜在语义分析,我们全面地了解了网友对于事件的关注度与节点的关系。然而我们还想进一步探索网友的情绪在各事件中的表现。

情绪分析—基于TF-IDF算法

由于大部分网友评论都比较简短,其中不乏直接用表情或一两个单词来评论,这类词语在进行SVD分解时,与其他词条的关联性不强,但此类词语恰恰是表达网友态度以及情感的词语。

进入互联网时代后,网络社交评论用语趋于多元化,学者们更加关注于互联网文本中产生的情绪,基于此,牛耘等人(2014)[1]将微博中文情绪分为喜、怒、哀、惧四类。而Bollen等[2]学者的研究表明,社交媒体评论中的情绪以消极情绪为主,故本文参考刘林(2016)[3]将消极情绪划分为焦虑、悲伤、愤怒、厌恶、害怕五种,对网友的评论进行简单的情绪分类,从而来看,在这十天时间内,网友们的负面情绪的起伏变化来定义5个指标如下。
  • 愤怒:以“怒”、“滚”等评论为代表;
  • 厌恶:“呕”、“呵呵”、“微笑”等评论为代表;
  • 害怕:“黑会”、“担心”、“发黑”等评论为代表;
  • 悲伤:“允悲”、“难过”、“痛心“等评论为代表;
  • 焦虑:“费解”、“急”等评论为代表;

利用“文本分析器”中的“保存文档词条矩阵”,在原数据表中,为每条评论建立于选中词条的矩阵。若评论中存在该词条,则评论中在此词条位置标记为相应的权重,否则为0,最后对在将同一指标内的词条等权求均值,来看一下随时间变化有何波动。
权重,本文采用基于TF-IDF(词频-逆文本频率)算法,这种统计方法认为,一个单词的重要性随着它在一句话中出现的次数成正比增加,但同时会随着语料库中包含该单词的句子数量成反比下降,说的通俗一点就是如果某个词或短语在一条评论中出现的频率高,而在其他评论中出现的很少,则认为此词或短语具有很好的类别区分能力,适合用来分类,JMP默认此算法。
根据上述过程,我们得到了这五种情绪随时间推移得到的新增与累积变化,如下图所示:

从图上我们可以看出:
  • 首先这五种情绪的累积都是在不断增大,但增大的幅度有所不同。
  • 悲伤情绪在1月31日与2月1日相对来说新增量比较大。面对没有防护措施的前线医护人员,我们心情十分沉重。所幸之后,大家捐赠的物品陆续到达前线,随着口罩、防目镜等设备的完备,网友的悲伤情绪也稍作趋缓。
  • 愤怒情绪在2月1日增速较快,这也许与当日“央视采访未得”的新闻相关吧。这也说明网友们并不盲,一些事情越是遮遮掩掩越容易落人口舌,也许本来没有发生的事情被这么一“拦”反而有理也说不清了。在后续的事件中,大家的愤怒情绪也很容易被调动,就像2月9日事件一出,大家本能的愤怒情绪又逐渐累积。
  • 至于害怕、焦虑也是同理,这种害怕、焦虑的心情一方面是来自于对疫情的恐惧,另一方面来自于看到“疫区”同胞的感同身受。
  • 而厌恶情绪与其他情绪走势有些不同,可以看到五种情绪里面厌恶情绪的累积值在2月9日是最大的。并且,厌恶情绪在2月9日新增数量也是最大,而这一日恰好是下令彻查的日子,事情发生后的一系列举措没有让网友看到想要的满意答复,于是期望慢慢变成失望,到最后说要严查时大家并没有点赞而是持怀疑与不信的态度。那么这次到底能否给出一个满意的答复呢?“狼来了”的故事是否还在继续书写呢?我们姑且拭目以待。
以上就是我们基于红十字会事件网友在微博上的评论所开展的文本分析与挖掘。据说,“互联网是没有记忆的”。但“一朝被蛇咬,十年怕井绳”的道理我们更知道,郭女神的反复出现就是最有力的证明。对于此次事件,大家的负面情绪一直被积累,无法释放,遗憾的是,直至事件的末期,一直没有出现一个“最佳策略”,令公众的新增负面情绪降到0。事实证明,官方灭火和红会辩解+道歉,并没有完全解决公众的怀疑,只是暂时降低了愤怒。

*请注意:由于微博网友的年龄偏年轻化,故此样本具有一定的偏向性,不能一概而论代表总体。但偏态的样本也能说明一些问题,希望给大家一些启发与参考。文本挖掘作为近年来颇受欢迎的非结构化数据分析方法之一,被JMP拿来与传统的数据挖掘、消费者洞察建模等相对传统的高级模型和分析方法结合,大大加强了数据分析在社交、消费者体验、竞争对手分析、舆情、社会管理、心理学等领域的必要性。

同样,无论你因为产品和服务质量问题导致消费者的投诉与返修居高不下,还是你想了解产品在电商平台海量数据中的真实反馈,抑或你的企业正面临着铺天盖地的负面评论而公关部门却回天乏力,无法快速识别网友的真实情绪和诉求,那么,JMP的文本分析与挖掘平台都将助你一臂之力,帮助你在茫茫评论中快速获取与分析所需的重要信息,从而从根本上帮助你迅速拿出公关和舆情策略,扑灭怒火,消除质疑,平复负面情绪,建立信任,最终改善用户关系,提升用户满意度。
更多数据分析相关干货、JMP实用技巧、JMP最新活动,敬请关注JMP官方微信公众号:




回复

使用道具 举报

发表于 2020-2-21 06:58:41 | 显示全部楼层
郭美美到武汉,你看到那些进步和改善?不可想象在信息社会之前或被和谐之后的世界...继续做瞎子,聋子或者鸵鸟...
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603 )  

GMT+8, 2020-8-15 19:48 , Processed in 0.309665 second(s), 16 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表