Attention

视频坐标24:00

Dynamic Conditional Generation

让Decode再每一个时间点的input都是不一样的
Alt text
好处:
1.Encoder没法只用一个Vector来描述
2.Decoder考虑比较需要的Information

例子:

  • Machine Translation

Attention-basd model
Alt text
计算z0和h1有多match

Alt text
z1可以是c0在RNN里的输出,也可以是丢进隐藏层后的输出
然后继续把z1再算一次match,算softmax

alt text

  • Speech Recognition
    alt text

  • Image Caption Generation
    alt text
    经过卷积层的输出当做RNN的输入

  • Memory Network
    alt text
    更复杂的版本:抽取information和match的vector是不同的
    alt text
    alt text

  • Neural Turing Machine
    可以读memory的内容,也可以改memory的内容
    alt text
    alt text
    function的输出是三个vector:k,e,a
    k的作用是产生attention
    e的作用是去除旧的memory
    a的作用是写入新的memory
    alt text
    alt text

Tips for Generation

  • attention regularization
    关注视频的每一帧
    alt text

  • Scheduled Sampling
    train的时候随机产生下一时间的input
    alt text

  • Beam Search
    alt text
    alt text

Object level v.s. Component level

alt text
如果采用交叉熵定义loss,那么从一个loss较小的错误的结果训练到正确的结果可能很困难,所以需要采用另一种定义loss的方法。但这种方法可能是不可微分的

  • Reinforcement learning
    alt text

性能比较

alt text
alt text