数据变多 看媒体如何借助算法优化内容分析

来源:2020-06-28 20:13:49

信息大爆炸时代,丰富的数据资源是有待挖掘的宝藏之地,却也很可能变成压力之源。

随着媒体越来越多地进行内容创新和产品探索,能够反映用户情感态度的数据调查,已成为检验创新效果的重要标准。

Maass Media是《卫报》美国分部的移动创新实验室(the Guardian US Mobile Innovation Lab)引入的数据分析合作机构,致力于帮助《卫报》深入了解用户。

此前,一篇名为《零基准分析:衡量移动创新项目的测量方法》(Analysis Without Benchmarks: An Approach forMeasuring the Success of Mobile Innovation Projects)的文章介绍了Maass Media和实验室共同合作进行用户调查分析的具体操作。比如,在2016年,为了测试用户对手机端的不同新闻格式的态度,他们以总统大选为契机,展开了用户对实时结果推送反应的实验。

在用户调查中,Maass Media的一个特色是提供了很多开放式问题,这些开放式问题能帮助调查者更好地洞察用户深层心理,避免了封闭式问题的一些弊端。但是,开放式问题会带来巨量的反馈信息,如果通过人工方式进行分析,效率会非常低。那该如何解决这个问题呢?

本期全媒派(ID:quanmeipai)独家编译Medium最新文章,一起来看,如何借助算法解决包含大量非标准数据的分析难题。

答案在此:自然语言算法

为了更准确地衡量新实验的效果,Maass Media和实验室十分重视用户的情绪和感觉,想通过对实验对象的反馈调查来发现用户反馈的态度积极与否。

因此,除了客观选择题外,在用户调查表的结尾会有一个开放式问题:“关于这次实验,你还有什么想告诉我们的吗?”

通过鼓励开放式回答,用户可以为调查提供更多形式的反馈,从而补充封闭式问题的不足。可以说,开放式问题为用户调查提供了用户反馈的盲点补充。

早期,在移动端的调查数据收集时,由于调查数量比较小,Maass Media通过人工阅读和手动分类就能完成分析。但是,随着用户人数的增加,开放式问题的回复达到成千上万时,这种方式就显得太低效。同时,由于主观性的存在,每个人对答案的理解和分类也存在很大差异。

Maass Media提出,需要找到一种新的分析方法,既能加速数据分析处理过程,也能让处理标准一致。

“我们的解决方案是用自然语言处理(NLP)开发一个情感分析算法。” Maass Media高级数字分析师Lynette Chen说道。

手工5小时,算法5分钟

自然语言处理是计算机程序分析定性数据的有效方法之一。有了合适的模型后,基于大量的文本数据,调查者就可通过算法进行情绪分析,迅速完成受访者对某个特定主题的情绪反应与观点的分析。

“为内容分析提供可靠的NLP解决方案,不仅可以减少人工处理的时间和精力,还可以有效减少以往分析中存在的主观性偏差。” Chen说道。

虽然已有不少成熟的模型可供借鉴,Maass Media和实验室决定从头构建独立的模型,随后,他们依据不同的数据集训练模型来对比分析模型的成功率。在经过了三次模型迭代后,他们得到了相对完美的解决方案。

模型创建过程

依据自有模型,对自有数据集和公开数据集进行对比检验后,研究者发现,第一次迭代的算法在公开数据集上的表现并不理想,因为内外数据集对情感词汇打标签的方式并不相同,经过第二、三次迭代后,他们借鉴了VADER算法模型,获得了良好效果。

“VADER算法由佐治亚理工学院的研究人员创建,并通过众包(Crowdsourcing: 指从一广泛群体,特别是在线社区,获取所需想法、服务或内容贡献的实践。)不断进行再培训。这一模型所训练的数据集更加广泛,包含了用户对一系列单词、表情符号、俚语和首字母缩略词的评分数据。” Lynette Chen介绍道,“经过分析,我们决定改用这一算法框架,而不是使用我们自己的原始基算法,因为它可以让我们准确地分析更大范围的单词。”

在这一算法稳定成熟后,通过使用自然语言处理,大大减少了标记和统计用户非标准化回答所需的时间。“如果由我们自己人工阅读和手动标记一份用户关于大选期间媒体推送的情感态度数据,这项工作可能将花费大约5小时。”Chen表示,但通过自然语言处理算法,可以在不到5分钟的时间内完成这项工作。

虽然历经了各种“痛苦”的磨难,但是Maass Media认为,开发NLP解决方案是一项富有价值的投资,这一过程的构建虽然耗时,但是从结果来看,可以显著减少数据分析所需的时间。

“不过这需要一支具备相当技能的团队,并且还要对算法进行不断迭代,来提高兼容性和准确率。” Chen说道。

原文链接:https://medium.com/the-guardian-mobile-innovation-lab/more-data-less-work-experimenting-with-natural-language-processing-for-faster-survey-analysis-d1665200d8e4

责任编辑:焦旭

铁岭资讯网