Transformer中的相对位置编码

2024-06-16 12:26:29

最近要开始使用Transformer去做一些事情了，特地把与此相关的知识点记录下来，构建相关的、完整的知识结构体系。

以下是要写的文章，本文是这个系列的第二十二篇，需要前面文章的同学点击链接进入文章列表。

Overall

今天看一篇稍微简单的知识，那就是相对位置编码，虽然知识内容比较简单，但是确是Transformer中不可或缺的一个知识点。

最初是的Transformer使用的是三角函数进行位置编码，生成的都是固定的编码。这些固定编码被当做位置编码传送给模型。

这些固定的编码有两个缺点：

固定，所以capacity可能不如学习到的embedding大。
无法发现相对关系，假设A和B有相关关系，A和B的相对位置不变，但绝对位置发生了变化，那么用固定编码则无法发现这个关系。

回顾Transformer

在Transformer中，经过attention层的值计算方式如下:

其中α_ij是权重，计算方式：

上面三个公式和原始的Transformer中的公式是等价的。

相对位置编码

相对位置编码为每个不同的位置对都定义了两个向量，分别是α_ij^V和α_ij^K。在计算的时候，将上面的公式进行修改。

为每个位置对定义两个向量还是无法完成提取相对位置信息的，而且，空间复杂度也是N^2，所以，为了泛化和节省时间复杂度，将每个位置对用位置的差来代替。

对应的公式如下:

k对应着窗口大小，超过窗口就按照窗口最远的那个值进行计算。

实验效果

在翻译任务上，尤其是EN-DE上效果有明显的提升。

赞 (0)

【NLP】聊聊NLP中的attention机制

本篇介绍在NLP中各项任务及模型中引入相当广泛的Attention机制.在Transformer中,最重要的特点也是Attention.首先详细介绍其由来,然后具体介绍了其编解码结构的引入和原理,最后 ...
论文解读 | Transformer 原理深入浅出

Attention 机制由 Bengio 团队于 2014 年提出,并广泛应用在深度学习的各个领域.而 Google 提出的用于生成词向量的 Bert 在 NLP 的 11 项任务中取得了效果的大幅提 ...
墨家《小取》补释义（4-2）

正文 *注:本节侧重"最字-描述事件"具足的"比附"比附结构视角下展开论述主客体技术构成机制. 作为墨家主客体技术论述机制,务必是要从<经上>到&l ...
旷视孙剑团队提出Anchor DETR：基于Transformer的目标检测新网络

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 214篇原创内容 Official A ...
搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（四）

作者丨科技猛兽审稿|邓富城编辑丨极市平台极市导读本文为详细解读Vision Transformer的第四篇,主要包括2种vision Transformer的内部机制,即:1. 如何更好地利用 ...
【NLP】TransformerXL：因为XL，所以更牛

前面介绍过Transformer作为一种特征抽取器的强大之处.那么,它有没有弱点呢?能不能改进呢? 本文介绍Transformer的改进版,TransformerXL.看看它用了什么方法,改进了Tra ...
面经：什么是Transformer位置编码？

Datawhale干货作者:陈安东,中央民族大学,Datawhale成员过去的几年里,Transformer大放异彩,在各个领域疯狂上分.它究竟是做什么,面试常考的Transformer位置编 ...
【Transformer】从零详细解读

本文是对B站视频"transformer从零详细解读"的笔记,视频:https://www.bilibili.com/video/BV1Di4y1c7Zm?p=1 一.概述 TRM ...
ICCV 2021 | 视觉Transformer中的相对位置编码

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 204篇原创内容 Official A ...
视频超分，Transformer再下一城之VSR-Transformer

论文:https://arxiv.org/pdf/2106.06847.pdf 代码:https://github.com/caojiezhang/VSR-Transformer 编者言:ETHz(苏 ...