电商推荐式搜索方法论---2022搜索玩法的方向。

今后大家玩搜索的过程中地位越来越重要,就如当年的七天螺旋做为核心基础;我说了向量不是我造的词,向量召回算法也是实实在在的存在的,不要被无知限制你的思考。多问下度娘或者读一些我推荐给大家的书,慢慢就知道怎么回事了,你跟不上时代变化,并不代表时代不变。@瓜爷

浅谈搜索的发展,第一代搜索就是类目的发展,只要你产品放对类目放对叶子类目就有流量。

第二代开始以关键词为主发展,主要是机器统计时代,每个关键词背后挂靠坑产,谁的坑产大,排名就高。

第三代搜索以统计的机器学习方法为主,基于用户查询,召回,L2R这三个过程,一定程度上提升了用户获取的效率,但是这种服务模式仍然是把一系列信息抛给用户,用户最终还是需要数据进行筛选甄别才能拿到自己最需要的信息,因此第三代搜索服务在效率角度上都有缺陷。

伴随着Web技术的发展,人类先后经历了以网页的链接为主要特征的Web1.0时代到以数据的链接为主要特征的Web2.0时代,目前Web技术正向Web之父BernersLee在2001年提出的基于知识互联的语义网络也就是向Web3.0时代迈进。

正文

什么是语义网络:

语义网络的目标是构建一个人与机器都可以理解的万维网,使得网络更加智能化,解析用户查询的基础上,提高更加精准和快速的服务。

做到这一点,就需要把所有在线的文档构成的数据都进行处理并存放在一起,形成一个大,可用的数据库。

做到这些就需要强大的数据能力和Web内容智能分析能力,首先就要对这些Web数据进行语义标注,但是由于Web数据体量巨大和异质异构,领域范围大特点,所以如何自动给web的网页内容添加合适的标签就成了技术痛点之一,加上对已经标注过的Web数据,机器如何进行思考和推理也是迫切解决的问题。

由于上述技术问题的存在,所有在语义网络提出来的10年前并没有大的应用,但是随着算法的强大加上数据处理的能力大大提高,加上10年的研究过程中的积累沉淀了成熟的本体模型建模和形式化知识表达方法和万维网本体语言为后续知识图谱的出现奠定了基础。

知识图谱的概述:

知识图谱是结构化的语义知识库,用于以符号形式表述物理世界中的概念及其的关系。

其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属值对,实体间通过关系相互链接,构成网状的知识结构。

从定义中可以看到,知识图谱是一个语义知识库,具备足够的领域知识,其最主要的成分就是三元组。

三元组是表示实体之间的语义关系,关系都是带方向和明确语义的。

上述概念引用于《阿里巴巴B2B电商算法实战》一书,作者是阿里巴巴官方CBU技术部。

为什么一直强调搜索逻辑已经彻底变了,变在于不在是单一的关键词权重排名,不再是单一的坑产权重。

搜索的核心从文本相关性匹配,行为数据匹配,到语义向量召回和场景召回。

背后就是消费者对货品的需求逐渐转化为对场景的需求。

通过场景重新定义货品的需求产生,这就需要对用户和行为数据及商品知识的深度挖掘,

这可能很难理解,我给大家举个例子:

以前搜索系统搭建的数据库都是基于关键词和商品的,现在语义网络的产生就是通过知识图谱搭建语义知识库和商品的数据库。

也就是说现在的搜索背后具有两个数据库的,一个是关键词统计的机器学习算法,另一个是语义知识数据库,根据语义召回推荐。

语义知识库,肯定又有很多同学懵逼了。

愤怒的同学可能又说我胡谝乱造“词”。

不妨去买本我上述提到的《阿里巴巴B2B电商算法实战》一书看看。

看不懂是另一回事,但是足以证明官方就是那么做的,你理解或者看不懂那是你自己:“知识面”的问题,所以多看看书,多学习一下,不要天天先射箭再标靶给自己瞎编一套理论出来。

也就是说当我们搜索关键词的时候核心就是识别意图的精准性,以前就是基于用户身份和行为数据偏好来,但是召回的商品还是需要用户自己通过数据进行筛选甄别并没有完全做到“精准识别购物意图”,但是搭建语义知识库数据库后就不一样了,根据语义召回就是向量召回。

向量就是标签的延续,标签的存在就是还原消费者的真实购物意图。

向量解决的是语义相似度的问题。

所以语义相似度,其实就是向量的问题。

向量召回是一种算法,算法的背后就是语义相似度,解决的问题就是识别用户精准需求。

咱们最熟悉的补关键词坑产只能解决词召回的问题

也就是符合了分词权重和相关性问题,但是解决不了语义的问题,所以召回的人群不精准,这个时候如果碰关键词太多,系统就把刷手当作用户进行身份识别,根据行为轨迹数据进行判断偏好进行召回推荐。

你补来的流量都是和刷手相似的人群知道为什么越刷越不精准了嘛?特别是现在是实时购物链条推荐,会根据实时的行为数据偏好进行推荐。

原始人群不精准,推荐的人群会更不精准就就进入了死循环。

很多同学说我看到有很多人刷关键词坑产也刷起来了啊,这个我不否认,能做到的基本都是对爆款数据模型理解非常透彻的,加上一般前期会开车,用开车主动给单品打标入池,用刷非搜的方式坑产倒逼搜索被动给单品打标入池,如果用这种两种入池方式入池比较精准,加上后面的真实访客点击大于虚假访客的点击量,行为数据的偏好就会改变。

其实就是一个占比问题,如果真实的访客很难大于虚假的,然后推荐式搜索流量又没有打开刷递增支付买家人数就是形式上的数据好看,基本第四周开始掉慢慢会掉完。

这背后还是真实点击量的正反馈的占比问题。

要解决这个核心就要布局好“语义向量词”就要刷对关键词的结构,要打开推荐搜索访客。

说到底刷什么关键词真的不重要,刷对语义和结构才是根本。

就拿直通车来说,直通车是最讲究文本相关性的,

可是现在你把半标题和全标题写进去或者同义词,错别字的关键词放进去也会有展现。

这就充分说明现在的直通车给展现,不只单单讲究相关性匹配,更注重语义推荐。

只要有文字,系统就会从语义知识库数据库给推荐相似的语义进行召回。

这是以往不可能发生的事情,以前是只要这个关键词没有人搜索就不会有展现。

有的同学说这个账户权重有关,这点确实也有,但是最根本的是现在构建了语义网络知识画谱的语义知识库,才会根据语义进行召回推荐,

说其根本是这几十年算法的升级和沉淀的历史行为数据的体量足够大,才会让系统升级发展到语义召回。

现在真的是已经到了从货品需求到场景的需求。

从统计的机器学习算法到真正的智能化场景语义推荐甚至跨类目商品搭配和推荐。

所以大家不要只停留在以往的搜索认知体系里。

为什么一直强调搜索底层逻辑彻底改变,但是大家就是感觉不出来,只是感觉难做。

难做的背后就是对底层逻辑的不理解。

我自己也想为什么大家感觉不到变化。

其实从运营操作端,你底层逻辑再怎么改变,我的运营手段还是那几招。

刷,开车,优化关键词,如何写标题基本就这几点,所以你将底层逻辑怎么变还是需要通过这几个手段去做,确实不假。

操作手段没变,将什么底层逻辑改变就显得苍白,还不如你告诉我怎么刷,怎么开车,怎么优化标题和优化关键词来的实在。

我总结了一下搜索底层逻辑改变我从运营端做的一些改变。

第一:产品布局和打商品的节奏不一样了,以前以单链接推爆款为主,现在是多链接分层拿流量运作。

第二:标题的写法上确实有了很大的改变,以前是把属性尽可能堆积,让分词丰富尽可能拿多关键词流量,现在基本都是以词系布局,玩一个向量或者锁定展现范围聚焦一个向量来成交,让系统推荐。所以短标题,还有其他结构形式的标题开始出现。

第三:关键词优化,以前优化围绕着关键词搜索人气来,结合在线商品数玩弱竞关键词,现在优化的是关键词的组合结构和关键词背后的语义精准度。

第四:最大的感触就是节点问题,以前玩爆款讲究什么权重更新点,3,5,7,现在的节点更多,更细大部分同学就死在节点的处理上没有引导对。

第五:直通车,以前直通车为搜索服务做方向性一直词系,关键词越多越好,拉升搜索;现在是关键词越少越好更看重给单品主动“打标”,和引导“向量”的问题。

以上是没有付费搜索很难涨,现在这个局面被打破这样可能只是暂时性的你会发现很多链接不开车也会来很大的搜索流量了。

但是我的观点是,是好品付费越来越少是必然方向,好产品就应该减少推广费。第六:高流量价值闭环体系会更深入人心,解决好向量问题就解决了流量的方向性,精准性,语义精准度的问题,高流量价值,价值会更高。

我写这篇文章可能又有相当同学看不懂,2018年我们开始讲标签何尝不是一样境地呢?

但事实又如何?

你可以怀疑,但是不要放弃验证和学习的勇气。

愤怒往往来自于无知,或者无形中碰触了别人的利益。

仁者见仁智者见智,认同我观点的不妨参与下我们9月15号的线下课,彻底搞明白向量召回和语义向量词布局是怎么回事。

还怀疑有语义召回推荐这回事,看看你家有没有“小度”和“小爱”,它们是怎么识别和推荐的。

如果喜欢我的文章转发就是最大的支持。


(0)

相关推荐

  • 中文文本分析相关资源汇总

    中文文本数据逻辑性分析库 中文文本数据(挖掘)分析相关资源汇总一.Python中文数据处理库项目地址简介jieba分词https://github.com/fxsjy/jieba中文分词库中文复杂事件 ...

  • 知识图谱应用研究

    同济大学 zhou xiaohan对知识图谱的应用情况进行了系统性研究,发表在CCEAI2020的会议上,这里是个简单的翻译. 摘要: 知识图谱,将信息表示为语义图,已经引起了工业界和学术界的广泛关注 ...

  • 重磅|一文彻底读懂智能对话系统!当前研究综述和未来趋势

    选择"星标"公众号 重磅干货,第一时间送达! 笔者在最近的研究中发现了一篇非常好的有关对话系统的论文,<A Survey on Dialogue Systems:Recent ...

  • 知识增强的文本生成研究进展

    ©作者|李军毅 机构|中国人民大学高瓴人工智能学院 研究方向 | 自然语言生成与知识融合 本文梳理近些年在知识增强的文本生成领域的一系列研究进展,其主要内容参考以下这篇论文. A Survey of ...

  • 知识图谱的系统工程观

    知识图谱的系统工程观

  • 终于有人把知识图谱讲明白了

    导读:知识图谱的概念诞生于2012年,由Google公司首先提出.知识图谱的提出是为了准确地阐述人.事.物之间的关系,最早应用于搜索引擎.知识图谱是为了描述文本语义,在自然界建立实体关系的知识数据库. ...

  • 干货分享 | 那些火遍各大电商平台的「爆单」玩法你都知道吗?

    预 | 约 | 人 | 间 | 干 | 货 直播电商的未来在哪? 2020年,受疫情影响,网购成为了许多人的常态.出国游.节目录制.演唱会被纷纷叫停后,那百无聊赖的人靠什么打发时间呢? 此时,线上平台 ...

  • 搜索的样式之美:以电商平台为例 小白学搜索(中)

    自动补全.自动纠错.特殊词定制.空白页引导.浮窗问卷......这些电商平台的搜索交互样式,是平平无奇,还是匠心独具? 杭一白的第十三篇原创 '小白学搜索'第二篇 全文2900字,阅读约9分钟 在探究 ...

  • 电商借力“欧洲杯” 赛事周边搜索近万次

    据阿里巴巴的大数据显示,短短几个月来,阿里巴巴国际站关于欧洲杯相关产品的搜索量近万次,询盘量逾7000次. 作者 | 知之 都说欧洲杯牵动了中国亿万球迷的神经,其实在这场绿茵盛宴中,无数中国中小企业的 ...

  • 【调查】电商预付式消费存五大“隐忧” 你我如何避免“中枪”?

    导读: 以超低价预售为营业模式的"布拉旅行"涉嫌骗取客户1.8亿预付款:小黄单车"ofo"超过1000多万户的消费者在线排队退押金:近日,杭州本地鲜花电商平台& ...

  • 阿里巴巴电商推荐之十亿级商品embedding

    Overall 本文是论文[1]的阅读笔记,论文[1]是阿里在KDD 2018上的论文. 2018年,淘宝上有10亿用户,以及200亿种商品,2017年的GMV成交总额则是3.7万亿.如何帮助用户找到 ...

  • 服装类每月50万搜索流量,这些玩法你都了解吗!

    突然来袭的冷空气席卷了整个北方地区,有广东的朋友肯定要说热的还在穿半袖,千万不要着急,广东的冷空气马上就到了,好奇的朋友可以搜一下,广东发布了寒冷橙色预警信号,对于突然的降温,可能广东更严重. 因为冷 ...

  • 桂林摄影团常走摄影线路5日推荐(老法师的新玩法)。

    桂林摄影团常走摄影线路5日推荐(老法师的新玩法). 背景:最近有不少玩摄影的法师叫我写写一个比较常规桂林摄影线路,以前写过不少线路,有些偏小众了,今天写写桂林摄影团常走摄影线路. 第一天:桂林市区 往 ...

  • 电竞到底是体育还是游戏?玩法小变化,成就天与地

    不得不说,仅仅对比福布斯以传统体育俱乐部的标准而进行的排名,电竞战队与传统体育豪门相比较,落后了不止一星半点,毕竟,这个项目也还未满而立之年. 但换一个角度来思考,何苦一定要和传统体育较一日之长短呢? ...

  • 推荐湖北的6个自驾游玩法,我们终于回来了

    摘自<汽车自驾游>杂志2020年12月刊 2020 年我们遇到的突发事件 在人类发展过程中是"史无前例"的 无论大到官方新闻平台 还是小到朋友圈都在 @湖北.@武汉 曾 ...