Dropout暂退法暂退法的思想是在隐藏层中丢弃某些单元,以减少模型对某些特征的依赖。删除了h2和h5,因此输出的计算不再依赖于h2或h5,并且它们各⾃的梯度在执⾏反向传播时也会消失。这样,输出层的计算不能过度依赖于h1, . . . , h5的任何⼀个元素。
实现神经元的丢弃假设某个神经元被丢弃的概率为p,那么该神经元的输出可以表示为:计算h{}’期望值:
这种插入方式使得在插入了...
前向传播、反向传播前向传播前向传播过程,即神经网络从输入层到输出层的计算过程。前向传播过程
反向传播反向传播(backward propagation或backpropagation)指的是计算神经网络参数梯度的方法。该方法根据微积分中的链式规则,按相反的顺序从输出层到输入层遍历网络。 该算法存储了计算某些参数梯度时所需的任何中间变量(偏导数)。神经网络经过前向传播之后,接下来就可以计算其损...
数值稳定性与参数初始化神经网络的梯度
数值稳定性常见两个问题
梯度爆炸:梯度是一个大于1的数,一百层求梯度之后会是一个很大的数字
梯度消失:与上面相反,当梯度小于1的时候……
123456789101112131415from matplotlib.pyplot import figure%matplotlib inlineimport torchfrom d2l import tor...
权重衰退一种常见的处理过拟合的方法。
使用均方范数作为硬性限制控制模型容量的两种方式:参数的数量、参数的选择范围。该方法是通过限制参数值的选择范围,来控制模型容量的。∥w∥^2 代表权重中每一项的平方和。通常不限制偏移b,小的θ意味着更强的正则项。这种方法很少用,一般转化为下面这种柔性限制。
使用均方范数作为柔性限制
参数更新法则一般来说,ηλ比1要小,和之前参数更新公式相比,每次更新的时候...
模型选择、⽋拟合和过拟合训练误差与泛化误差
训练误差(training error)是指模型在训练数据集上计算得到的误差。即为模型在训练数据上的误差
泛化误差(generalization error)是指模型应用在同样从原始样本的分布中抽取的无限多数据样本时,模型误差的期望。即为模型在新数据上的误差
验证数据集和测试数据集
验证数据集:一个用于评估模型好坏的数据集
测试数据集:只用...