王喆:深度学习推荐系统实战
推荐系统从来没像现在这样,影响着我们的生活。当你上网购物时,天猫、京东会为你推荐商品;想了解资讯,头条、知乎会为你准备感兴趣的新闻和知识;想消遣放松,抖音、快手会为你奉上让你欲罢不能的短视频。
而驱动这些巨头进行推荐服务的,就是基于深度学习的推荐模型。
2019 年,阿里的千人千面系统,促成了天猫”双 11“ 2684 亿的成交额。假设通过改进天猫的商品推荐功能,使平台整体的转化率提升 1%,就能在 2684 亿元成交额的基础上,再增加 26.84 亿元。这就是推荐工程师支撑起百万年薪的主要原因。
但是,要在一个成熟的推荐系统上,找到提升的突破点或短板并不容易。不能仅仅满足于协同过滤、矩阵分解这类传统方法,而要建立起完整的深度学习推荐系统知识体系,加深对深度学习模型的理解和大数据平台的熟悉程度,才能实现整体效果上的优化。
今年上半年,因为疫情抽空看了本书叫《深度学习推荐系统》,对我启发很大,豆瓣评分也挺高的,9.3。作者是王喆,他是 Roku 资深机器学习工程师,推荐系统架构负责人,从业这些年,他一直深耕于推荐系统、计算广告领域,经验非常丰富。
最近,得知他和极客时间合作,开设了新的专栏《深度学习推荐系统实战》,我第一时间就订阅了,跟了学了几节,很想把这个专栏推荐给你。
在专栏中,他讲解了深度学习推荐系统的经典架构设计,带你掌握 Embedding 技术的主要实现方法,构建完整的推荐系统评估体系路径,搭建出一个工业级的深度学习推荐系统。
他是如何讲解这门课程的?
在课程设置上,他遵循了经典推荐系统的框架,将课程分为 6 个部分,每节课重点解决一个技术难点,通过 30+ 深度学习推荐系统问题,带你串联起深度学习推荐系统的知识体系,并收获了一套他实践过的深度学习推荐系统开源代码,实现一个工业级的深度学习推荐系统。
这是专栏里的学习图谱,方便你了解这门课程的课程设计以及所用到的技术。
基础架构篇:从推荐系统要解决的主要问题入手,讲解我们要从 0 开始实现的推荐系统, Sparrow RecSys 的主要功能和技术架构,也会用到 Spark、Flink、TensorFlow 等业界最流行的机器学习和大数据框架。
特征工程篇:他会和你讨论推荐系统会用到的特征,以及主要的特征处理方式,并且把它们都实践在 Spark 上。除此之外,还会讲解深度学习中非常流行的 Embedding、Graph Embedding 技术,并带你实现 Sparrow Recsys 中的相似电影推荐功能。
线上服务篇:在这一部分,他会带你实打实地搭建一个推荐服务器,包括服务器、存储、缓存、模型服务等模块和相关知识,涉及 Jetty Server, Spark、Redis 的使用,带你初步掌握推荐工程师在工程领域的核心技能。
推荐模型篇:这一部分是整门课程的重点,带你学习深度学习推荐模型的原理和实现方法,主要包括 Embedding+MLP ,Wide&Deep,PNN 等深度学习模型的架构和 TensorFlow 实现,以及注意力机制、序列模型、增强学习等相关领域的前沿进展。
效果评估篇:重点学习效果评估的主要方法和指标,建立起包括线下评估、线上 AB 测试、评估反馈闭环等整套的评估体系,真正能够用业界的方法而不是实验室的指标来评价一个推荐系统。
前沿拓展篇:将业界巨头们的深度学习推荐系统方案进行融汇贯通,重点讲解 YouTube、阿里巴巴、微软、Pinterest 等一线公司的深度学习应用,帮你追踪业界发展的最新趋势,并找到自己技术道路的方向。