Moye的日常

深度学习-李沐-第十节-注意力评分函数

注意力评分函数使用高斯核来对查询和键之间的关系建模高斯核指数部分视为注意力评分函数（attention scoring function），简称评分函数（scoring function）把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤，我们将得到与键对应的值的概率分布（即注意力权重）最后，注意力汇聚的输出就是基于这些注意力权重的值的加权和。掩蔽soft...

2022-08-16

深度学习

阅读全文深度学习-李沐-第十节-注意力评分函数

深度学习-李沐-第十节-自身位置和注意力编码

自身位置和注意力编码有了注意力机制之后，我们将词元序列输入注意力池化中，以便同一组词元同时充当查询、键和值。具体来说，每个查询都会关注所有的键－值对并生成一个注意力输出。由于查询、键和值来自同一组输入，因此被称为自注意力（self-attention）也被称为内部注意力（intra-attention）自注意力比较卷积神经网络、循环神经网络和自注意力让我们比较下面几个架构，目标都...

2022-08-16

深度学习

阅读全文深度学习-李沐-第十节-自身位置和注意力编码

深度学习-李沐-第四节-Dropout暂退法

Dropout暂退法暂退法的思想是在隐藏层中丢弃某些单元，以减少模型对某些特征的依赖。删除了h2和h5，因此输出的计算不再依赖于h2或h5，并且它们各⾃的梯度在执⾏反向传播时也会消失。这样，输出层的计算不能过度依赖于h1, . . . , h5的任何⼀个元素。实现神经元的丢弃假设某个神经元被丢弃的概率为p，那么该神经元的输出可以表示为：计算h{}’期望值: 这种插入方式使得在插入了...

2022-08-16

深度学习

深度学习

阅读全文深度学习-李沐-第四节-Dropout暂退法

深度学习-李沐-第四节-前向传播、反向传播

前向传播、反向传播前向传播前向传播过程，即神经网络从输入层到输出层的计算过程。前向传播过程反向传播反向传播（backward propagation或backpropagation）指的是计算神经网络参数梯度的方法。该方法根据微积分中的链式规则，按相反的顺序从输出层到输入层遍历网络。该算法存储了计算某些参数梯度时所需的任何中间变量（偏导数）。神经网络经过前向传播之后，接下来就可以计算其损...

2022-08-16

深度学习

阅读全文深度学习-李沐-第四节-前向传播、反向传播

深度学习-李沐-第四节-数值稳定性与参数初始化

数值稳定性与参数初始化神经网络的梯度数值稳定性常见两个问题梯度爆炸：梯度是一个大于1的数，一百层求梯度之后会是一个很大的数字梯度消失：与上面相反，当梯度小于1的时候…… 123456789101112131415from matplotlib.pyplot import figure%matplotlib inlineimport torchfrom d2l import tor...

2022-08-16

深度学习

阅读全文深度学习-李沐-第四节-数值稳定性与参数初始化

深度学习-李沐-第四节-权重衰退

权重衰退一种常见的处理过拟合的方法。使用均方范数作为硬性限制控制模型容量的两种方式：参数的数量、参数的选择范围。该方法是通过限制参数值的选择范围，来控制模型容量的。∥w∥^2 代表权重中每一项的平方和。通常不限制偏移b，小的θ意味着更强的正则项。这种方法很少用，一般转化为下面这种柔性限制。使用均方范数作为柔性限制参数更新法则一般来说，ηλ比1要小，和之前参数更新公式相比，每次更新的时候...

2022-08-16

深度学习

阅读全文深度学习-李沐-第四节-权重衰退

深度学习-李沐-第四节-模型选择、⽋拟合和过拟合

模型选择、⽋拟合和过拟合训练误差与泛化误差训练误差(training error)是指模型在训练数据集上计算得到的误差。即为模型在训练数据上的误差泛化误差(generalization error)是指模型应用在同样从原始样本的分布中抽取的无限多数据样本时，模型误差的期望。即为模型在新数据上的误差验证数据集和测试数据集验证数据集：一个用于评估模型好坏的数据集测试数据集：只用...

2022-08-16

深度学习

测试
| 深度学习

阅读全文深度学习-李沐-第四节-模型选择、⽋拟合和过拟合

Moye活着的记录

Moye活着的记录

深度学习-李沐-第十节-注意力评分函数

深度学习-李沐-第十节-自身位置和注意力编码

深度学习-李沐-第四节-Dropout暂退法

深度学习-李沐-第四节-前向传播、反向传播

深度学习-李沐-第四节-数值稳定性与参数初始化

深度学习-李沐-第四节-权重衰退

深度学习-李沐-第四节-模型选择、⽋拟合和过拟合