在学习GRU之前应该先学习LSTM的原理,因为GRU就是Lstm的变体,而GRU以轻便简洁的优势应用于更多的场合。原论文

GRU结构

Image for post

和LSTM不同,GRU主要由两个门组成:重置门,更新门。大概思路和LSTM相似,主要是将需要的信息获取,而舍弃不需要的信息。但GRU的结构更加简单,参数相比与LSTM要少很多。

preview

r用来重置,z用来更新(同样使用sigmoid激活函数):

将重置分类r与h相乘与x拼接后得到重置的新信息~h:

更新分类控制新信息中需要加入多少旧信息,相加后得到最后的信息h:

总结:

与lstm不同,gru比lstm少了一个记忆的参数,他直接对前一层输出进行记忆控制,所以运行速度比lstm要快不少。gru相对与lstm对短距离记忆的效果要好,lstm也以它具有更强大的记忆模式为优势,所以实际应用中需要尝试。

 
目前共有1条评论
    • 暂无Trackback
    你目前的身份是游客,评论请输入昵称和电邮!