感知机单层感知机什么是感知机
感知机为二分类,非黑即白
softmax多分类,输出可能为某类别的概率
感知机训练算法这里的判断负负得正、正正得正。得正说明训练正常。同时也引出了异或的问题
收敛定理
异或问题可用多层感知机解决此问题
多层感知机解决异或问题蓝黄两个分类器,先蓝后黄
隐藏层
每个图层都可以应用您想要的任何函数到前一层(通常是线性变换,然后是压缩非线性)。
隐藏层...
线性回归难点、疑点
梯度下降
线性回归的代码实现
定义回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域,回归经常用来表示输入和输出之间的关系。y = w1x1 + w2x2 + w3x3 + b
损失评估
梯度下降
序列到序列学习(seq2seq)循环神经网络编码器使用长度可变的序列作为输入, 将其转换为固定形状的隐状态。 为了连续生成输出序列的词元, 独立的循环神经网络解码器是基于输入序列的编码信息 和输出序列已经看见的或者生成的词元来预测下一个词元。
为了采用一个接着一个词元的方式预测输出序列, 每个解码器当前时间步的输入都将来自于前一时间步的预测词元。 与训练类似,序列开始词元(“”) 在...
束搜索逐个预测输出序列, 直到预测序列中出现特定的序列结束词元“”
小结
序列搜索策略包括贪心搜索、穷举搜索和束搜索。
贪心搜索所选取序列的计算量最小,但精度相对较低。
穷举搜索所选取序列的精度最高,但计算量最大。
束搜索通过灵活选择束宽,在正确率和计算代价之间进行权衡。
编码器-解码器结构机器翻译是序列转换模型的一个核心问题, 其输入和输出都是长度可变的序列。 为了处理这种类型的输入和输出, 我们可以设计一个包含两个主要组件的架构: 第一个组件是一个编码器(encoder): 它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。 第二个组件是解码器(decoder): 它将固定形状的编码状态映射到长度可变的序列。
架构
代码实现12345...
长短期记忆网络(LSTM)长短期存储器(long short-term memory,LSTM) 是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。
门控记忆元
为了控制记忆元,我们需要许多门。
其中一个门用来从单元中输出条目,我们将其称为输出门(output gate)
一个门用来决定何时将数...
门控循环单元(GRU)GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。
GRU输入输出结构GRU的输入输出结构与普通的RNN是一样的。
GRU的内部结构首先,我们先通过上一个传输下来的状态 h( t-1) 和当前节点的输入xt来获取两个门控状态。其中 r 控制重置的门控(reset gate), z为控制更新...
数据操作及数据预处理定义n维数组,也称为张量(tensor)。张量类(在MXNet中为ndarray,在PyTorch和TensorFlow中为Tensor) 都与Numpy的ndarray类似。但深度学习框架⼜⽐Numpy的ndarray多⼀些重要功能:⾸先,GPU很好地⽀持加速计算,⽽NumPy仅⽀持CPU计算;其次,张量类⽀持⾃动微分。这些功能使得张量类更适合深度学习。
数据操作创造张...
线性代数、微积分、概率线性代数标量标量变量由普通⼩写字⺟表⽰(例如,x、y和z)定义两个标量与标量的运算
向量将向量视为标量值组成的列表。标量的值称为向量的元素(element)或分量(component)。例如:x = torch.arange(4)
⻓度、维度和形状
向量只是⼀个数字数组,就像每个数组都有⼀个⻓度⼀样,每个向量也是如此。向量的⻓度通常称为向量维度(dimension)。
...
线性回归难点、疑点
梯度下降
线性回归的代码实现
定义回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域,回归经常用来表示输入和输出之间的关系。y = w1x1 + w2x2 + w3x3 + b
损失评估
梯度下降