李宏毅机器学习笔记P51——attention
Attention
视频坐标24:00
Dynamic Conditional Generation
让Decode再每一个时间点的input都是不一样的
好处:
1.Encoder没法只用一个Vector来描述
2.Decoder考虑比较需要的Information
例子:
- Machine Translation
Attention-basd model
计算z0和h1有多match
z1可以是c0在RNN里的输出,也可以是丢进隐藏层后的输出
然后继续把z1再算一次match,算softmax
Speech Recognition
Image Caption Generation
经过卷积层的输出当做RNN的输入Memory Network
更复杂的版本:抽取information和match的vector是不同的Neural Turing Machine
可以读memory的内容,也可以改memory的内容
function的输出是三个vector:k,e,a
k的作用是产生attention
e的作用是去除旧的memory
a的作用是写入新的memory
Tips for Generation
attention regularization
关注视频的每一帧Scheduled Sampling
train的时候随机产生下一时间的inputBeam Search
Object level v.s. Component level
如果采用交叉熵定义loss,那么从一个loss较小的错误的结果训练到正确的结果可能很困难,所以需要采用另一种定义loss的方法。但这种方法可能是不可微分的
- Reinforcement learning
性能比较
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 星辰の博客!
评论
WalineTwikoo