2021国际万维网大会Seoul Test-of-Time Award公布:《推特信息可信度》






基于消息的特征:包括 「Twitter 相关的特征」与「Twitter 无关的特征」。Twitter 无关的特征包括消息的长度、文本是否包含某些感叹词或问题、一条消息中表达积极 / 消极情绪的单词数。Twitter 相关的特征包括推特帖子是否包含某种标签,该帖子是否是转发帖。
基于用户的特征:发帖用户的年龄、粉丝数、关注的人数、以往的发帖数。
基于话题的特征:根据前两项特征整合而来。例如,包含 URL 链接的帖子比例,带有标签的帖子比例,以及集合中积极语义和消极语义的比例。
基于传播的特征:与根据转发情况构建的传播树相关的特征,包括转发树的深度、某个主题的初始推特帖子数。







基于话题的特征:包含 URL 链接的推文为决策树的根。基于情感的特征(例如,负面情感的比重或包含感叹词的推文的比重)与树的根非常接近,它们是很重要的特征。具体而言,我们发现,不包含 URL 的推文可能与不可信的新闻相关;另一方面,包含负面情感的推文与可信的新闻相关。当用户使用积极情感词语时也是如此:只有很少一部分带有积极情感词的推文与不可信的新闻相关。
基于用户的特征:值得注意的是,具有低可信度的新闻往往由之前很少撰写推文的用户传播。用户的朋友数量也是与决策树根距离很近的特征。
基于传播的特征:具有大量转发数的推文与可信的新闻相关。
文本特征子集:推文平均长度、基于情感的特征、与 URL 相关 的特征、与标签计数相关的特征等 20 种特征。
网络特征子集:与消息作者相关的特征(粉丝数或朋友数)等 7 种特征。
传播特征子集:基于传播的特征、转发比重、推文总数等 6 种特征。
热门元素特征子集:分别包含最频繁出现的 URL、标签、提及的用户、作者共 4 中特征。


赞 (0)