Moye的日常

深度学习-李沐-第十三节-锚框

锚框以每个像素为中心，生成多个缩放比和宽高比（aspect ratio）不同的边界框。这些边界框被称为锚框（anchor box）生成多个锚框指定输入图像、尺寸列表和宽高比列表，然后此函数将返回所有的锚框 1234567891011121314151617181920212223242526272829303132333435363738#@savedef multibox_prior...
2022-08-16
深度学习
Python

| 计算机视觉

| PyTorch
阅读全文深度学习-李沐-第十三节-锚框
深度学习-李沐-第十二节-参数服务器-分布式计算

参数服务器-分布式计算
2022-08-16
深度学习
深度学习
阅读全文深度学习-李沐-第十二节-参数服务器-分布式计算
深度学习-李沐-第十二节-多GPU训练

多GPU训练方法第一种方法，在多个GPU之间拆分网络。也就是说，每个GPU将流入特定层的数据作为输入，跨多个后续层对数据进行处理，然后将数据发送到下一个GPU。与单个GPU所能处理的数据相比，我们可以用更大的网络处理数据。此外，每个GPU占用的显存（memory footprint）可以得到很好的控制，虽然它只是整个网络显存的一小部分。第二种方法，拆分层内的工作。例如，将问题分...
2022-08-16
深度学习
Python

| PyTorch

| 深度学习
阅读全文深度学习-李沐-第十二节-多GPU训练
深度学习-李沐-第十二节-硬件、CPU、GPU

硬件、CPU、GPU概念一个处理器（也被称为CPU），它除了能够运行操作系统和许多其他功能之外，还能够执行我们给它的程序，通常由8个或更多个核心组成。内存（随机访问存储，RAM）用于存储和检索计算结果，如权重向量和激活参数，以及训练数据。一个或多个以太网连接，速度从1GB/s到100GB/s不等。在高端服务器上可能用到更高级的互连。高速扩展总线（PCI...
2022-08-16
深度学习
性能优化

| 算法

| 机器学习
阅读全文深度学习-李沐-第十二节-硬件、CPU、GPU
深度学习-李沐-第十四节-BERT_ Bidirectional Encoder Representations from Transformers

BERT来自Transformers的双向编码器表示在预训练之后，输出可以被认为是一个矩阵，其中每一行都是一个表示预定义词表中词的向量。事实上，这些词嵌入模型都是与上下文无关的。 BERT 是“Bidirectional Encoder Representations from Transformers”的首字母缩写，整体是一个自编码语言模型（Autoencoder LM），并且其设计了两...
2022-08-16
深度学习
Transformer

| NLP

| 深度学习
阅读全文深度学习-李沐-第十四节-BERT_ Bidirectional Encoder Representations from Transformers
深度学习-李沐-第十四节-微调BERT

微调BERT 一方面，在提出时，BERT改进了各种自然语言处理任务的技术水平。另一方面，原始BERT模型的两个版本分别带有1.1亿和3.4亿个参数。因此，当有足够的计算资源时，我们可以考虑为下游自然语言处理应用微调BERT。单文本分类单文本分类将单个文本序列作为输入，并输出其分类结果。语言可接受性语料库（Corpus of Linguistic Acceptability，COLA）...
2022-08-16
深度学习
数据结构

| Transformer

| NLP
阅读全文深度学习-李沐-第十四节-微调BERT
深度学习-李沐-第十节-BahdanauAttention

Bahdanau注意力一个没有严格单向对齐限制的可微注意力模型。在预测词元时，如果不是所有输入词元都相关，模型将仅对齐（或参与）输入序列中与当前预测相关的部分。这是通过将上下文变量视为注意力集中的输出来实现的。模型定义注意力解码器以下AttentionDecoder类定义了带有注意力机制解码器的基本接口。 123456789#@saveclass AttentionDecoder(d2l...
2022-08-16
深度学习
Python

| 神经网络

| 深度学习
阅读全文深度学习-李沐-第十节-BahdanauAttention
深度学习-李沐-第十节-TransformerModel

Transformertransformer模型完全基于注意力机制，没有任何卷积层或循环神经网络层，transformer最初是应用于在文本数据上的序列到序列学习，但现在已经推广到各种现代的深度学习中，例如语言、视觉、语音和强化学习领域。模型架构transformer的编码器和解码器是基于自注意力的模块叠加而成的，源（输入）序列和目标（输出）序列的嵌入（embedding）表示将加上位置编...
2022-08-16
深度学习
Transformer

| 神经网络

| 深度学习
阅读全文深度学习-李沐-第十节-TransformerModel
深度学习-李沐-第十节-注意力提示

注意力提示生物学中的注意力提示非自主性提示和自主性提示非自主性提示是基于环境中物体的突出性和易见性。想象一下，假如你面前有五个物品：一份报纸、一篇研究论文、一杯咖啡、一本笔记本和一本书，所有纸制品都是黑白印刷的，但咖啡杯是红色的。换句话说，这个咖啡杯在这种视觉环境中是突出和显眼的，不由自主地引起人们的注意。所以你把视力最敏锐的地方放到咖啡上。喝咖啡后，你会变得兴奋并想读书。...
2022-08-16
深度学习
PyTorch

| 深度学习
阅读全文深度学习-李沐-第十节-注意力提示
深度学习-李沐-第十节-注意力汇聚：Nadaraya-Watson核回归

注意力汇聚：Nadaraya-Watson核回归注意力机制的主要成分：查询（自主提示）和键（非自主提示）之间的交互形成了注意力汇聚，注意力汇聚有选择地聚合了值（感官输入）以生成最终的输出。生成数据集 1234567891011121314151617n_train = 50 # 训练样本数x_train, _ = torch.sort(torch.rand(n_train) * 5) ...
2022-08-16
深度学习
Python

| 测试

| 机器学习
阅读全文深度学习-李沐-第十节-注意力汇聚：Nadaraya-Watson核回归

1…16 171819

Moye活着的记录

Moye活着的记录

深度学习-李沐-第十三节-锚框

深度学习-李沐-第十二节-参数服务器-分布式计算

深度学习-李沐-第十二节-多GPU训练

深度学习-李沐-第十二节-硬件、CPU、GPU

深度学习-李沐-第十四节-BERT_ Bidirectional Encoder Representations from Transformers

深度学习-李沐-第十四节-微调BERT

深度学习-李沐-第十节-BahdanauAttention

深度学习-李沐-第十节-TransformerModel

深度学习-李沐-第十节-注意力提示

深度学习-李沐-第十节-注意力汇聚：Nadaraya-Watson核回归