华为、人大、清华和港中文联合发布推荐系统的Benchmarking

2024-08-04 14:38:16

| 作者：YEN

| 单位：东北大学

| 研究方向：推荐系统、计算广告

推荐系统的Benchmarking：BARS（BenchmArking for Recommender Systems）

论文标题：Towards Open Benchmarking for Recommender Systems（论文投稿到(NeurIPS 2021 Track on Datasets and Benchmarks)）
论文地址：https://openreview.net/forum?id=9jkFflx6Q6U
项目地址：https://openbenchmark.github.io/BARS/

尽管推荐系统近年来发展迅速，但一个普遍的关键问题是，仍然缺乏一个标准的基准，以鼓励严格的评估和量化在这个研究领域取得的真正进展。在本文中，作者提出了一个开放的推荐基准，它涵盖了现代推荐系统中两个最重要的阶段，即匹配和排序。特别是，它包含了各种数据集上的大量推荐模型之间的全面比较结果，以及每个结果对应的详细的可重复脚本。还提供了一个用户友好的基准测试工具包，以方便模型实现。作者的基准测试结果表明，该领域的评估不够严格(例如，忽略重要的基线)，迫切需要建立统一的基准测试。因此，本研究旨在为推荐系统的健康发展提供肥沃的土壤，以激发更坚实和可重复的研究。

本文目录

项目简介
推荐系统排序阶段Benchmarking

数据集
实验结果

推荐系统匹配阶段Benchmarking

数据集
实验结果

模型复现步骤

官网也说明了希望各位开发者积极参与到该项目的贡献！！

项目简介

科学的开放性是促进进步的关键。BARS是一个旨在为推荐系统开放 Benchmarking 的项目，允许更好的定量研究的可重复性和可重复性。BARS的最终目标是在推荐系统的开发中推动更多可重复的研究。BARS具有以下主要功能：

开放数据集：BARS 收集了一组广泛使用的公共数据集用于推荐研究，并分配唯一的数据集ID来跟踪每个数据集的特定数据分割。这允许以统一的方式共享和试验数据集。
开源代码：BARS 支持开源原则，并为推荐研究提供开源模型实现列表。
基准测试pipeline：BARS 构建了一个开放的基准测试pipeline，以确保每个步骤产生的所有工件的透明度和可用性。
综合结果：BARS提供了迄今为止最全面的基准测试结果，涵盖了数十个 SOTA模型和数十个数据集分割。这些结果可以很容易地重复用于未来的研究。
重现步骤：BARS 的核心是通过详细记录重现步骤，遵循开放的基准测试管道，确保每个基准测试结果的可重现性。
任何人均可编辑：BARS 对社区开放。任何人都可以通过 Github 上的拉取请求贡献新的数据集、新模型或新的基准测试结果。

通过设置开放的基准测试标准，以及免费提供的数据集、源代码和复制步骤，作者希望 BARS 项目可以使社区中的所有研究人员、从业人员和教育工作者受益。

benchmark_pipeline.jpg

模型复现步骤

官网给了详细的复现参数配置以及训练日志，例如：

2020-08-09 23:28:47,581 P587 INFO {

    'batch_norm': 'False',

    'batch_size': '10000',

    'data_format': 'h5',

    'data_root': '../data/Criteo/',

    'dataset_id': 'criteo_x4_5c863b0f',

    ...

    

2020-08-09 23:28:47,583 P587 INFO Set up feature encoder...

2020-08-09 23:28:47,583 P587 INFO Load feature_map from json: ../data/Criteo/criteo_x4_5c863b0f/feature_map.json

2020-08-09 23:28:47,583 P587 INFO Loading data...

2020-08-09 23:28:47,588 P587 INFO Loading data from h5: ../data/Criteo/criteo_x4_5c863b0f/train.h5

2020-08-09 23:28:52,372 P587 INFO Loading data from h5: ../data/Criteo/criteo_x4_5c863b0f/valid.h5

2020-08-09 23:28:54,189 P587 INFO Train samples: total/36672493, pos/9396350, neg/27276143, ratio/25.62%

2020-08-09 23:28:54,315 P587 INFO Validation samples: total/4584062, pos/1174544, neg/3409518, ratio/25.62%

2020-08-09 23:28:54,315 P587 INFO Loading train data done.

2020-08-09 23:29:13,705 P587 INFO Start training: 3668 batches/epoch

2020-08-09 23:29:13,705 P587 INFO ************ Epoch=1 start ************

2020-08-10 02:08:56,236 P587 INFO [Metrics] logloss: 0.445034 - AUC: 0.806660

2020-08-10 02:08:56,238 P587 INFO Save best model: monitor(max): 0.361626

2020-08-10 02:08:57,906 P587 INFO --- 3668/3668 batches finished ---

2020-08-10 02:08:57,976 P587 INFO Train loss: 0.462868

2020-08-10 02:08:57,976 P587 INFO ************ Epoch=1 end ************

2020-08-10 04:48:54,593 P587 INFO [Metrics] logloss: 0.442922 - AUC: 0.808947

2020-08-10 04:48:54,594 P587 INFO Save best model: monitor(max): 0.366025

2020-08-10 04:48:56,825 P587 INFO --- 3668/3668 batches finished ---

2020-08-10 04:48:56,898 P587 INFO Train loss: 0.457419

...

官网也说明了希望大家积极参与到该项目的贡献！！

双重差分法 | PSM - DID

这次推文的内容主要是介绍选择偏差及其导致的内生性问题,以及缓解这种内生性问题的倾向得分匹配法(Propensity Score Matching,PSM),并且用一实例介绍一下如何将PSM与DID结合 ...
实验一：数据读取与几何校正

实验目的 1.学习遥感图像的几何校正方法. 2.学会遥感影像的数据读取 3. 学会用 ENVI 软件采集遥感图像的控制点. 4. 学会用 ENVI 软件对遥感图像进行几何校正. 一.数据读取显示遥感 ...
大数据属于什么专业? 大数据专业课程设置

2.课程设置,大数据专业将从大数据应用的三个主要层面(即数据管理.系统开发.海量数据分析与挖掘)系统地帮助企业掌握大数据应用中的各种典型问题的解决办法,包括实现和分析协同过滤算法.运行和学习分类算法. ...
联发科处理器被抓跑分“作弊”：P95性能比天玑1000L还高

对于智能手机在跑分当中作弊这样的事情,相信大家都已经见怪不怪了.在早两年的时间里,这个事情被讨论得十分激烈,当时有手机厂商在系统里插入了相关代码,在运行跑分测试软件的时候开启"高性能&quo ...
SAP MM 工厂级别的批次管理？

SAP MM 工厂级别的批次管理? 在项目上的物料主数据里,笔者突然发现采购视图的'Batch Management'字段下面多了一个字段,叫做'Batch Management (plant)的,如 ...
国家工业信息安全发展研究中心与华为联合发布《数据安全白皮书》

[环球网智能综合报道]5月27日,国家工业信息安全发展研究中心和华为公司在贵阳2021中国国际大数据产业博览会现场联合发布了<数据安全白皮书>.白皮书以国家工业信息安全发展研究中心和华为公 ...
广东省提前批投档线公布，北大第一，清华第二，港中深超过港中文

广东省提前批的投档线全部公布了.前几天,我写了广东省的警校有各种捡漏,尤其考政治的,省内排名8万多就能上公安大学.今天看看普通高校的提前批有什么特点. 北大.清华为TOP2 今年提前批里的普通学校少了 ...
全国最具优势！三部委联合发布海南自贸港重大利企政策

日前,财政部.海关总署.税务总局联合印发<财政部海关总署税务总局关于海南自由贸易港试行启运港退税政策的通知>,将出口退税环节提前,缩短企业退税周期,退税渠道和模式更加多元,进一步加快洋 ...
清华与百度联合发布了一份白皮书，2万字解答“产业智能化”的三个基本问题

无论是叫产业AI.产业互联网,或者AI to B,以及今年<政府工作报告>中提到的"智能+",种种提法的背后是同样的实质:AI技术必须与千行万业.多种产业实体相结合,像 ...
18位医生联合发布：最不希望你做的一件事

小事不注意,大病染上身! 我们给大家收集了, 18个科室医生的金玉良言, 一定要牢记哦, 现在知道还不晚! 18个科室医生总结 1 血液病科医生不希望你经常染发染发是否会致癌还没有明确定论, 不 ...
18位医生联合发布“最不希望你做的一件事”，朋友圈都火了！

来源:人民日报,一路风景一路歌(ID:cozydream) 小事不注意,大病染上身! 我们给大家收集了, 18个科室医生的金玉良言, 一定要牢记哦, 现在知道还不晚!! 18个科室医生总结 01 ...
CVPR2021(Oral) 商汤、港中文实现单目人脸重建新突破：基于生成网络的渲染器！几何形状更精准！渲染效果更真实！

近日,商汤-港中文联合实验室提出基于风格化对抗生成器的人脸渲染器,用于取代传统图形学基于栅格化的渲染器来进行3D模型的重建.该方法构建了一种从输入3D模型到生成图像的平滑梯度,同时可以以低精度建模获得 ...
2021中国品牌日，航空文创与森宝积木联合发布重磅新品！

引言此次对外发布的航空文创新品--直20科技组玩具是航空文创与森宝实业联合开发的正版授权拼插科技组玩具. 5月10日,由国家发改委联合中宣部.工信部.农业农村部.商务部.市场监督总局.知识产权总局和 ...
微链联合发布《2021杭州创业创新地图》，一览杭州创新沃土

近年来,杭州全面贯彻落实中央关于人才强国战略和创新驱动发展战略,以建设人才生态最优城市为目标,高水平打造"数智杭州宜居天堂",千万创客在这里落地生根,蓬勃发展,茁壮成长. 为展示 ...

华为、人大、清华和港中文联合发布推荐系统的Benchmarking

项目简介

推荐系统排序阶段Benchmarking

数据集

实验结果

推荐系统匹配阶段Benchmarking

数据集

实验结果

模型复现步骤

相关推荐