Attention机制整理

Attention的定义与作用

按照Stanford大学课件上的描述,attention的通用定义如下:

  • 给定一组向量集合values,以及一个向量query,attention机制是一种根据该query计算values的加权求和的机制。
  • attention的重点就是这个集合values中的每个value的“权值”的计算方法。
  • 有时候也把这种attention的机制叫做query的输出关注了原文的不同部分。(Query attends to the values)

换句话说,attention机制就是一种根据某些规则或者某些额外信息(query)从向量表达集合(values)中抽取特定的向量进行加权组合(attention)的方法。简单来讲,只要我们从部分向量里面搞了加权求和,那就算用了attention。

Attention-based Model其实就是一个相似性的度量,当前的输入与目标状态越相似,那么在当前的输入的权重就会越大,说明当前的输出越依赖于当前的输入。

参考资料