一个等了十年的奖:历经时间检验,字节跳动科学家获国际顶会荣誉
在瞬息万变的时代,一篇文章可以经历多长时间的检验?
最近,国际数据挖掘与知识发现大会KDD 2021公布奖项,一篇关于协同主题模型推荐算法的论文获得“时间检验研究奖”。这个奖项专门颁给10年前发表的重要论文。
论文发表于2011年,第一作者来自字节跳动应用机器学习团队(AML)。10年前,他还是普林斯顿大学的博士研究生。
这个“等”了10年的奖项,可以说是推荐算法领域发展的缩影。如今,推荐系统在资讯、搜索、购物、社交等领域得到广泛应用,帮助人们更好地获取信息,看见更大的世界。
获奖公示截图
8月14日至18日,KDD 2021大会在线上举办。这是世界数据科学领域最高级别的学术会议。大会共有1541篇论文投递,最终接收其中238篇论文。
会议原计划在新加坡举行,因疫情原因转为线上。组织方仿照新加坡城市风格,上线了名为Virtual World的虚拟场景,包括唐人街、滨海湾等景点。来自世界各地的作者们聚集在这座像素风格的虚拟城市,在论文海报面前向同行们介绍研究成果。虚拟会场里还设有各大互联网公司的线上展台。
唐人街论文展区(左)和字节跳动展台(右)
由字节跳动AI科学家王崇(Chong Wang)参与撰写的论文最终获得“时间检验研究奖”。这篇文章解决的是科技类文本推荐问题。作者结合传统的基于矩阵分解的推荐算法和主题模型,提出了协同主题回归算法(简称CTR)。这一思路能有效提高推荐系统的冷启动效率,并为推荐算法的可解释性和可探索性作出贡献。
这篇获奖论文发表于2011年,推荐算法正处于关键发展节点。当时,移动互联网浪潮已经来临,信息传播环境发生变化。用户获取信息的痛点包括:小屏幕、海量信息、碎片化时间。为了解决这些痛点,技术从业者开始探索将智能推荐应用到信息分发领域。
2012年,在北京锦秋家园的一间四居民宅里,字节跳动创始团队希望打造真正的个性化信息平台。当时今日头条初始版本已经上线,但距离智能推荐还很远。团队通过上网查资料,自学写出了第一版推荐引擎,并于当年9月上线。今日头条由此成为世界范围内最早在信息分发领域应用人工智能的平台。
9年来,今日头条推荐系统经历了多次改版,并扩展出微头条、问答、视频、搜索等功能,成为一个通用信息平台。
关于今日头条的推荐系统,我们曾在2018年1月公开过。相比于新闻网站和搜索引擎,今日头条信息体量更加庞大,算法模型包含几百亿原始特征和数十亿向量特征。
今日头条在线训练示意图
这意味着推荐算法模型处理的是更复杂的问题,推荐内容文本分析常常涉及机器学习和自然语言处理,并需要综合考虑环境等多维度因素。在移动互联网时代,用户的使用环境变得多元,在工作场合、通勤、旅游等不同场景,信息偏好会有所偏移。
除了文本分析和环境因素,今日头条推荐系统更看重用户因素。这其中,协同过滤扮演着重要作用,可以有效解决信息窄化,拓展用户获取信息的范围。协同不是根据用户自身阅读历史,而是通过分析不同用户间的相似性,比如点击、兴趣分类、主题、兴趣词,甚至向量相似,从而扩展模型的探索能力。
经过将近10年的发展,推荐系统已经在资讯、搜索、购物、社交等领域得到广泛应用。无论是这篇获奖论文,还是今日头条的实践,都在推荐算法的发展历史中留下了印迹。越来越多的技术人才加入字节跳动,探索着新的可能性。