深度学习-李沐-第十节-注意力评分函数
注意力评分函数
- 使用高斯核来对查询和键之间的关系建模
- 高斯核指数部分视为注意力评分函数(attention scoring function), 简称评分函数(scoring function)
- 把这个函数的输出结果输入到softmax函数中进行运算。
- 通过上述步骤,我们将得到与键对应的值的概率分布(即注意力权重)
- 最后,注意力汇聚的输出就是基于这些注意力权重的值的加权和。
掩蔽softmax操作
softmax操作用于输出一个概率分布作为注意力权重,在某些情况下,并非所有的值都应该被纳入到注意力汇聚中。
为了仅将有意义的词元作为值来获取注意力汇聚, 我们可以指定一个有效序列长度(即词元的个数), 以便在计算softmax时过滤掉超出指定范围的位置。 其中任何超出有效长度的位置都被掩蔽并置为0。
1 | #@save |
附加注意力

1 | #@save |
缩放点积注意力

1 | #@save |
小结
将注意力汇聚的输出计算可以作为值的加权平均,选择不同的注意力评分函数会带来不同的注意力汇聚操作。
当查询和键是不同长度的矢量时,可以使用可加性注意力评分函数。当它们的长度相同时,使用缩放的“点-积”注意力评分函数的计算效率更高。
- 标题: 深度学习-李沐-第十节-注意力评分函数
- 作者: moye
- 创建于 : 2022-08-16 15:00:46
- 更新于 : 2025-12-11 14:39:48
- 链接: https://www.kanes.top/2022/08/16/深度学习-李沐-第十节-注意力评分函数/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论