博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
深度学习笔记
阅读量:6961 次
发布时间:2019-06-27

本文共 548 字,大约阅读时间需要 1 分钟。

RNN,LSTM,GRU都是序列学习的基本构建,GRU是对LSTM的简化,一般而言效果不如LSTM
 
在翻译这种场景下,seq2seq,也就是encoder-decoder的模式,encoder输出一个向量C作为decoder的输入
在sequence比较长的时间丢失信息严重,因此attention做了一个类似对encoder的每一个时间步做加权平均,获得对当前最有用的焦点信息;
作为decoder的每一步输出的一部分输入,其他的输入包括上一个时间步的隐状态,前一个输出;attention机制对序列学习是一个重要的方法和完善。
attention的加权平均机制中的权重怎么学习到? 实际上你可以理解为一个函数,这个函数的输入1)encoder的每个时间步的状态s1 2)decoder的当前状态h1
将这两个s, h输入一个单层神经网络(W矩阵就是权重),通过sigmoid或者tanh变换得到一个0-1的概率值aij;BP的时候这个aij就会被反馈并更新;
也可以设计一些更复杂的函数,但基本逻辑都是类似的 
 
体会:对于不懂得技术点,一定要多找,多搜,总有人能够搞明白并share到网上;
 

 

转载于:https://www.cnblogs.com/painmoth/p/8275984.html

你可能感兴趣的文章
All you should know about NUMA in VMware!
查看>>
java 版本SQLHelper
查看>>
Hyper-V中的VM如何使用Pass-through Disk
查看>>
黑马程序员—Java动态代理详解
查看>>
PHP发送HEAD方法请求
查看>>
OracleHelper[.Net 连接Oracle数据库的封装类]
查看>>
.net微信公众号开发——消息与事件
查看>>
动态网站维护基本命令
查看>>
透视表提取不反复记录(2)-每一个物品的全部分类
查看>>
基于jQuery/CSS3实现拼图效果的相册插件
查看>>
【问题解决】小数点前面不显示0的问题
查看>>
ios学习笔记(二)第一个应用程序--Hello World
查看>>
Maven学习总结(四)——Maven核心概念——转载
查看>>
怎么用CIFilter给图片加上各种各样的滤镜_2
查看>>
android:关于主工程和library project
查看>>
CodeForces 2A Winner
查看>>
Window环境配置Mongodb
查看>>
制作和unity调用动态链接库dll文件
查看>>
exsi6.0远程修改密码
查看>>
Header和Cookie相关内容
查看>>