【墩墩舆情课】第十七课:如何选取舆情样本?

系列舆情课摘要】:自墩墩舆情课首篇开序后,作者将系列舆情课大致分为政务篇、舆情篇、案例篇及建模篇四大类,目前正在更新舆情篇,敬请关注,欢迎分享点评。

PS:训练舆情,就是在训练你的媒介素养!



要写好一份舆情报告,并由报告分析出可能的现实原因,从而对线下具体工作产生指导性作用,舆情样本的选取与偏性筛选至关重要,除了要有足够的舆情样本,还需要有对无效样本的甄别与偏性矫正,否则所推论出的结论必然存在偏差。

【舆情样本】

要形成一份有质量的舆情报告,样本选取是首要。一般情况下,舆情机构较为普遍的做法是通过设置“关键字”来筛选出若干项具有代表意义的舆论观点,高级点的机构还会根据地域、性别、年龄、职业等标签制作成系列图表,来表现观点支持比率、地域分布特点、性别占比等一系列舆情特征,以此形成能推论舆情总体的舆情样本。

然而,舆情毕竟不是现实,账号真伪、评论灌水等现实存在的舆情现象都让舆情样本存在着被操控的可能。这就需要舆情分析师、舆情技术人员额外甄别。

从目前情况来看,舆情样本的偏性主要有以下几个方面:

一、账号的真实性。

这个偏性情况较为普遍,舆情样本作为民意收集的最主要方式,账号背后是不是一个真实的人至关重要。如果一群账号背后只有一个人,甚至只是一台机器,那么这样的民意采集就毫无意义,还容易误导决策者,采取错误的应对措施。一个偶然的机会,作者了解了国内某个知名舆情研究机构采集舆情样本的方式方法,采样方法粗暴、简单。从网易新闻评论中选取前两百条,或从新浪微博评论中取前两百条、中间两百条以及最后两百条。事实上,这种舆情样本的选取方式存在非常大的漏洞,且不论网易新闻存在已久的“标题党”行为已经多次背离新闻真实的主旨导向,让民意的舆情观点掺入过多的情绪抵触,单说选取新闻跟帖前两百条评论作为民意样本来说,就存在账号虚假的可能性。在海量信息的网络社会,舆情样本完全用人工采集不现实,也不客观,当然同样也会受人为的主观干预,这就需要舆情分析师和机器选取之间达成某种默契,在机器选取后,给予人工甄别,剔除其中的水军账号和恶意灌水的账号。

二、观点的“量”导致的偏性。

有的舆情机构在撰写舆情报告时,对于舆情观点的陈述往往没有“量”及“权重”,这导致了一些呼声大、比重高的观点与呼声低、比重低的观点在舆情报告中的体现没有差别,忽视了舆情的民意表达有着“权重比例高低”的概念。这种舆情偏性也很常见。还是那个例子:一名执法队员被抗法者捅伤。5%的人认为“该捅”与40%的人认为“该捅”所表达的民意肯定不同,5%很有可能是个体的情绪波动,而40%则背后可能是人为操纵、现实积怨、舆论标签等多种原因的综合结果。如果我们的舆情研究机构写给社会管理者的舆情报告忽略了“量及比例”,很容易让决策者采取错误的应对措施,或一味迎合舆论,或忽略真实民意。

三、人为操纵

这种偏性很难被发现,也最能被矫正。账号背后可能是一个人,也可能是一个机器,最为典型的例子就是《穹顶之下》形成全网性舆情时,网上出现了许多以“梁静”发言的帖文,经仔细核验,才发现原来是一些公关公司在设定关键字时误将“柴静”输成了“梁静”。这就需要从相同IP来源、短时间内出现高度相仿的评论口径这样的疑点入手去甄别。

【该如何选取舆情样本?】

一、优化样本选取方式,让随机真的随机。

统计学上关于样本选取的方式很多,作者同样适用于舆情产品的样本选择,除了热度最高的舆情帖文下评论选取方式需要进一步优化外,还应不断开拓媒体载体的扩散面,论坛、网站、微博、微信发布的原创评论文章也应列入选择之列,以此提高样本代表总体的可信度。

二、人工审核,剔除无效样本。

舆情产品样本选取后,需要加一道人工审核关。通过分析其中可疑账号、可疑评论,并通过查源头、查账号的原发帖文数量等方法,将高度可疑的无效样本剔除,保证样本的真实性。

三、找到最权威解读,把握大方向,避免被无效评论误导。

社会任何一个舆情事件都有线下的真实投影,那么只有了解了线下的具体事件,才能对事件在网上该有怎样的舆情曲线有一个大概了解,也有了研判舆情形势的能力,避免被一些无效评论所误导。

墩墩总结:舆情是门学问,门道多多,可千万别被伪民意蒙蔽了眼睛!


更多舆情文章尽在@墩墩看新闻

(0)

相关推荐