注意力评分函数
使用高斯核来对查询和键之间的关系建模
高斯核指数部分视为注意力评分函数(attention scoring function), 简称评分函数(scoring function)
把这个函数的输出结果输入到softmax函数中进行运算。
通过上述步骤,我们将得到与键对应的值的概率分布(即注意力权重)
最后,注意力汇聚的输出就是基于这些注意力权重的值的加权和。
掩蔽soft...
自身位置和注意力编码有了注意力机制之后,我们将词元序列输入注意力池化中, 以便同一组词元同时充当查询、键和值。 具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。 由于查询、键和值来自同一组输入,因此被称为 自注意力(self-attention)也被称为内部注意力(intra-attention)
自注意力
比较卷积神经网络、循环神经网络和自注意力让我们比较下面几个架构,目标都...
Dropout暂退法暂退法的思想是在隐藏层中丢弃某些单元,以减少模型对某些特征的依赖。删除了h2和h5,因此输出的计算不再依赖于h2或h5,并且它们各⾃的梯度在执⾏反向传播时也会消失。这样,输出层的计算不能过度依赖于h1, . . . , h5的任何⼀个元素。
实现神经元的丢弃假设某个神经元被丢弃的概率为p,那么该神经元的输出可以表示为:计算h{}’期望值:
这种插入方式使得在插入了...
前向传播、反向传播前向传播前向传播过程,即神经网络从输入层到输出层的计算过程。前向传播过程
反向传播反向传播(backward propagation或backpropagation)指的是计算神经网络参数梯度的方法。该方法根据微积分中的链式规则,按相反的顺序从输出层到输入层遍历网络。 该算法存储了计算某些参数梯度时所需的任何中间变量(偏导数)。神经网络经过前向传播之后,接下来就可以计算其损...
数值稳定性与参数初始化神经网络的梯度
数值稳定性常见两个问题
梯度爆炸:梯度是一个大于1的数,一百层求梯度之后会是一个很大的数字
梯度消失:与上面相反,当梯度小于1的时候……
123456789101112131415from matplotlib.pyplot import figure%matplotlib inlineimport torchfrom d2l import tor...
权重衰退一种常见的处理过拟合的方法。
使用均方范数作为硬性限制控制模型容量的两种方式:参数的数量、参数的选择范围。该方法是通过限制参数值的选择范围,来控制模型容量的。∥w∥^2 代表权重中每一项的平方和。通常不限制偏移b,小的θ意味着更强的正则项。这种方法很少用,一般转化为下面这种柔性限制。
使用均方范数作为柔性限制
参数更新法则一般来说,ηλ比1要小,和之前参数更新公式相比,每次更新的时候...
模型选择、⽋拟合和过拟合训练误差与泛化误差
训练误差(training error)是指模型在训练数据集上计算得到的误差。即为模型在训练数据上的误差
泛化误差(generalization error)是指模型应用在同样从原始样本的分布中抽取的无限多数据样本时,模型误差的期望。即为模型在新数据上的误差
验证数据集和测试数据集
验证数据集:一个用于评估模型好坏的数据集
测试数据集:只用...