简单理解LSTM神经网络

递归神经网络
在传统神经网络中,模型不会关注上一时刻的处理会有什么信息可以用于下一时刻,每一次都只会关注当前时刻的处理。举个例子来说,我们想对一部影片中每一刻出现的事件进行分类,如果我们知道电影前面的事件信息,那么对当前时刻事件的分类就会非常容易。实际上,传统神经网络没有记忆功能,所以它对每一刻出现的事件进行分类时不会用到影片已经出现的信息,那么有什么方法可以让神经网络能够记住这些信息呢?答案就是Recurrent Neural Networks(RNNs)递归神经网络。

递归神经网络的结果与传统神经网络有一些不同,它带有一个指向自身的环,用来表示它可以传递当前时刻处理的信息给下一时刻使用,结构如下:

其中, 为输出。

为了更容易地说明递归神经网络,我们把上图展开,得到:

这样的一条链状神经网络代表了一个递归神经网络,可以认为它是对相同神经网络的多重复制,每一时刻的神经网络会传递信息给下一时刻。如何理解它呢?假设有这样一个语言模型,我们要根据句子中已出现的词预测当前词是什么,递归神经网络的工作原理如下:

其中,W为各类权重,x表示输入,y表示输出,h表示隐层处理状态。

递归神经网络因为具有一定的记忆功能,可以被用来解决很多问题,例如:语音识别、语言模型、机器翻译等。但是它并不能很好地处理长时依赖问题。

长时依赖问题
长时依赖是这样的一个问题,当预测点与依赖的相关信息距离比较远的时候,就难以学到该相关信息。例如在句子”我出生在法国,……,我会说法语“中,若要预测末尾”法语“,我们需要用到上下文”法国“。理论上,递归神经网络是可以处理这样的问题的,但是实际上,常规的递归神经网络并不能很好地解决长时依赖,好的是LSTMs可以很好地解决这个问题。

LSTM 神经网络
Long Short Term Mermory network(LSTM)是一种特殊的RNNs,可以很好地解决长时依赖问题。那么它与常规神经网络有什么不同?
首先我们来看RNNs具体一点的结构:

所有的递归神经网络都是由重复神经网络模块构成的一条链,可以看到它的处理层非常简单,通常是一个单tanh层,通过当前输入及上一时刻的输出来得到当前输出。与神经网络相比,经过简单地改造,它已经可以利用上一时刻学习到的信息进行当前时刻的学习了。

LSTM的结构与上面相似,不同的是它的重复模块会比较复杂一点,它有四层结构:

其中,处理层出现的符号及表示意思如下:

LSTMs的核心思想
理解LSTMs的关键就是下面的矩形方框,被称为memory block(记忆块),主要包含了三个门(forget gate、input gate、output gate)与一个记忆单元(cell)。方框内上方的那条水平线,被称为cell state(单元状态),它就像一个传送带,可以控制信息传递给下一时刻。

这个矩形方框还可以表示为:

这两个图可以对应起来看,下图中心的 分别为遗忘门、输入门、输出门,用sigmoid层表示。上图中的两个tanh层则分别对应cell的输入与输出。

LSTM可以通过门控单元可以对cell添加和删除信息。通过门可以有选择地决定信息是否通过,它有一个sigmoid神经网络层和一个成对乘法操作组成,如下:

该层的输出是一个介于0到1的数,表示允许信息通过的多少,0 表示完全不允许通过,1表示允许完全通过。

逐步解析LSTM
LSTM第一步是用来决定什么信息可以通过cell state。这个决定由“forget gate”层通过sigmoid来控制,它会根据上一时刻的输出通过或部分通过。如下:

举个例子来说就是,我们在之前的句子中学到了很多东西,一些东西对当前来讲是没用的,可以对它进行选择性地过滤。

第二步是产生我们需要更新的新信息。这一步包含两部分,第一个是一个“input gate”层通过sigmoid来决定哪些值用来更新,第二个是一个tanh层用来生成新的候选值相加,得到了候选值。

一二步结合起来就是丢掉不需要的信息,添加新信息的过程:

举个例子就是,在前面的句子中我们保存的是张三的信息,现在有了新的李四信息,我们需要把张三的信息丢弃掉,然后把李四的信息保存下来。

最后一步是决定模型的输出,首先是通过sigmoid层来得到一个初始输出,然后使用tanh将
值缩放到-1到1间,再与sigmoid得到的输出逐对相乘,从而得到模型的输出。

这显然可以理解,首先sigmoid函数的输出是不考虑先前时刻学到的信息的输出,tanh函数是对先前学到信息的压缩处理,起到稳定数值的作用,两者的结合学习就是递归神经网络的学习思想。至于模型是如何学习的,那就是后向传播误差学习权重的一个过程了。

上面是对LSTM一个典型结构的理解,当然,它也会有一些结构上的变形,但思想基本不变,这里也就不多讲了。

转载来源:https://blog.csdn.net/shijing_0214/article/details/52081301

(0)

相关推荐

  • 循环神经网络 RNN、LSTM、GRU

    与传统的前向神经网络和卷积神经网络 (CNN) 不同,循环神经网络 (Recurrent Neural Networks,RNN)是一种擅于处理序列数据的模型,例如文本.时间序列.股票市场等.本文主要 ...

  • DAY2 导学

    第二天导学: 2.为什么要用激活函数? 如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合,这种情况就是最原始的感知机(Perceptron).没有激活函 ...

  • 一万字纯干货|机器学习博士手把手教你入门LSTM(附代码资料)

    LSTM是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件.在自然语言处理.语言识别等一系列的应用上都取得了很好的效果. <Long Short Term Memor ...

  • 关于价值投资的简单理解

    这是一个大的话题,几乎从入市到现在,一直有人在讨论这个话题,譬如很多人聊巴菲特,我们的股神,几乎人人都在看他,学他,所有人都在说他的价值投资.巴菲特曾有句名言:"价值投资就是买入有价值公司的 ...

  • 如何简单理解、认识MRI图像

    来源:熊猫放射 浅析核磁共振里的T1,T2参数   1.T1观察解剖结构较好. 2.T2显示组织病变较好. 3.水为长T1长T2,脂肪为短T1长T2. 4.长T1为低信号(暗),短T1为高信号(亮). ...

  • 【如何简单理解、认识MRI图像】

    前 言 部分同仁不太熟悉MRI,并且有学习的渴望和需求,本次内容应运而生,主要根据一些个人经验集成,不想大谈高深的MRI原理,那会吓跑一大部分人的学习积极性,只想用简单.易懂.实用的方法让您理解和认识 ...

  • 文华财经-精准突袭启动点简单理解为一个转折点开始准备拉升的点

    文华财经-精准突袭启动点简单理解为一个转折点开始准备拉升的点

  • 【实施经验】简单理解NC查询引擎中左连接、右连接、内连接、全连接的区别

    NC的查询引擎中,有左连接(left outer  join).右连接(right outer  join).内连接(inner join)和全连接(full outer join)四种连接方式,区别 ...

  • 财管|简单理解期权估价及实物期权

    不仅是财管,会计上也经常会碰到期权价格确定,比如股份支付授予期权的公允价值确定等都会用到期权定价模型,这里换一个简单的思路,让你轻松深刻理解它. 一.期权价格的确定 (一)复制原理 即,确定一个股票和 ...

  • 穷人门诊跟诊日记—— 对武氏针法的简单理解

    在纪录片里看师傅行针,潇洒.迅捷.出神入化,但那时还是基于在对传统针灸认知.理解的基础上来看师傅的行针,心想熟能而后就有巧了,当然,看过纪录片的人应该能看出,师傅是一位非常睿智的人,否则,怎能有定力二 ...

  • 破洞牛仔裤中的几何学:简单理解万有覆叠问题

    数学算法俱乐部 日期 : 2021年06月05日 正文共 :3514字 来源 :机器之心 对于特定宽度的几何形状,我们是否可以找到一个面积最小的能覆盖所有可能形状的特定形状?这个名为「万有覆叠」问题的 ...

  • 微软(中国)CTO韦青:很多人把AI简单理解成能代替人,这是很片面的

    凤凰网财经讯(记者 鲁婧涵)3月20日,以"迈上现代化新征程的中国"为主题的"中国发展高层论坛2021年会"在北京线上线下同步举行.凤凰网财经全程报道. 当数字 ...