锚框以每个像素为中心,生成多个缩放比和宽高比(aspect ratio)不同的边界框。 这些边界框被称为锚框(anchor box)
生成多个锚框
指定输入图像、尺寸列表和宽高比列表,然后此函数将返回所有的锚框
1234567891011121314151617181920212223242526272829303132333435363738#@savedef multibox_prior...
多GPU训练方法
第一种方法,在多个GPU之间拆分网络。 也就是说,每个GPU将流入特定层的数据作为输入,跨多个后续层对数据进行处理,然后将数据发送到下一个GPU。 与单个GPU所能处理的数据相比,我们可以用更大的网络处理数据。 此外,每个GPU占用的显存(memory footprint)可以得到很好的控制,虽然它只是整个网络显存的一小部分。
第二种方法,拆分层内的工作。 例如,将问题分...
硬件、CPU、GPU概念
一个处理器(也被称为CPU),它除了能够运行操作系统和许多其他功能之外,还能够执行我们给它的程序,通常由8个或更多个核心组成。
内存(随机访问存储,RAM)用于存储和检索计算结果,如权重向量和激活参数,以及训练数据。
一个或多个以太网连接,速度从1GB/s到100GB/s不等。在高端服务器上可能用到更高级的互连。
高速扩展总线(PCI...
BERT来自Transformers的双向编码器表示
在预训练之后,输出可以被认为是一个矩阵,其中每一行都是一个表示预定义词表中词的向量。事实上,这些词嵌入模型都是与上下文无关的。
BERT 是“Bidirectional Encoder Representations from Transformers”的首字母缩写,整体是一个自编码语言模型(Autoencoder LM),并且其设计了两...
微调BERT
一方面,在提出时,BERT改进了各种自然语言处理任务的技术水平。
另一方面,原始BERT模型的两个版本分别带有1.1亿和3.4亿个参数。
因此,当有足够的计算资源时,我们可以考虑为下游自然语言处理应用微调BERT。
单文本分类单文本分类将单个文本序列作为输入,并输出其分类结果。语言可接受性语料库(Corpus of Linguistic Acceptability,COLA)...
Bahdanau注意力一个没有严格单向对齐限制的可微注意力模型。在预测词元时,如果不是所有输入词元都相关,模型将仅对齐(或参与)输入序列中与当前预测相关的部分。这是通过将上下文变量视为注意力集中的输出来实现的。
模型
定义注意力解码器以下AttentionDecoder类定义了带有注意力机制解码器的基本接口。
123456789#@saveclass AttentionDecoder(d2l...
Transformertransformer模型完全基于注意力机制,没有任何卷积层或循环神经网络层,transformer最初是应用于在文本数据上的序列到序列学习,但现在已经推广到各种现代的深度学习中,例如语言、视觉、语音和强化学习领域。
模型架构transformer的编码器和解码器是基于自注意力的模块叠加而成的,源(输入)序列和目标(输出)序列的嵌入(embedding)表示将加上位置编...
注意力提示生物学中的注意力提示非自主性提示和自主性提示
非自主性提示是基于环境中物体的突出性和易见性。 想象一下,假如你面前有五个物品: 一份报纸、一篇研究论文、一杯咖啡、一本笔记本和一本书, 所有纸制品都是黑白印刷的,但咖啡杯是红色的。 换句话说,这个咖啡杯在这种视觉环境中是突出和显眼的, 不由自主地引起人们的注意。 所以你把视力最敏锐的地方放到咖啡上。
喝咖啡后,你会变得兴奋并想读书。...
注意力汇聚:Nadaraya-Watson核回归注意力机制的主要成分:查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚, 注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出。
生成数据集
1234567891011121314151617n_train = 50 # 训练样本数x_train, _ = torch.sort(torch.rand(n_train) * 5) ...