DL small knowledge
Created|Updated|学习
|Post Views:
BLEU: Bilingual Evaluation Understudy 机器翻译与文本生成中最常用的自动评价指标之一,用来衡量模型生成的句子与参考答案(人类写的正确句子)之间的相似度。
Author: GTY
Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.
Related Articles
2025-11-23
Pytorch
记录一些乱七八糟的pytorch知识 1nn.Linear(in_features, out_features, bias=True) 创建一个线性变换层(y=Wx+b),输入维度是in_features,输出维度是out_features,bias表示是否使用偏置项,默认为True。 e.g. 1linear = nn.Linear(10, 5) 创建一个输入维度为10,输出维度为5的线性层。 123torch.matmul(A,B) #matrix multiplicationtorch.matmul(a,b) #vector dot producttorch.matmul(A,scalar) #matrix multiply scalar 矩阵乘法,自动选择维度,可以进行向量点积,矩阵乘法,矩阵乘标量。 1K.transpose(-1, -2) #transpose last two dimensions 转置K的最后两个维度,-1代表最后一个维度,-2代表倒数第二个维度。为什么只转置张量K的最后两个维度? K是一个四...
2025-12-13
Meta-learning
元学习(Meta-learning)元学习,顾名思义,就是学习如何学习。传统的机器学习方法通常需要大量的数据和时间来训练模型,而元学习旨在通过少量的数据和快速的适应能力,使模型能够更高效地学习新任务。 MAML(Model-Agnostic Meta-Learning)详解一句话版(先记住这个) MAML = 学一个“参数初始化”,使模型在遇到新任务时,只需极少步梯度下降就能学好。 关键词: 学的不是最终模型 学的是 初始化 目标是 快速适应新任务 一、为什么需要 MAML?(直觉)我们经常面对一族相关任务,例如: 不同但相似的分类任务 多个强化学习环境 不同类型的数学题、推理任务 传统方法的问题: 每个任务重新训练,成本高 训练一个统一模型,泛化能力有限 我们真正想要的是: 来一个新任务,只需要少量数据和少量梯度更新就能学好 这就是 Meta-Learning(学会学习) 的核心动机。
2025-11-16
Transformer
TransformerWord Embedding每一个单词都可以表示成n维向量的形式,这样我们就可以用计算机来处理文本了。因此通俗来说,word embedding就是一个把输入文本转化成词向量矩阵的一个操作。 假设我们有一个句子:”I love machine learning”,经过tokenizer处理后,得到4个token,分别是”I”、”love”、”machine”、”learning”。然后我们就可以利用word embedding把四个token转化成四个词向量拼接而成的矩阵。假设每个token的词向量维度是512,那么经过word embedding后,我们会得到一个512x4的矩阵X 在预处理的时候,我们会通过学习得到一个vocabulary embedding的矩阵作为词表,然后利用 X=ΩeT X = \Omega_e T X=ΩeT 得到最终的word embedding矩阵X. 这个矩阵操作就相当于在vocabulary embedding里面寻找input token的位置,然后提取出来再拼接成矩阵X.(在上面的例子中,就是找I,love,mac...
2025-11-11
Intialization and parameterization
神经网络权重初始化简介在训练神经网络时,权重的初始化非常关键。如果初始化不合理,可能出现: 梯度消失(vanishing gradient):深层网络梯度太小,无法更新权重, 一般因数据方差太小导致 梯度爆炸(exploding gradient):梯度太大,训练不稳定,一般因数据方差太大导致 因此需要一些特殊的初始化来解决这些问题. Xavier 初始化(Xavier Initialization)Xavier 的目标是: 保持每一层输出的方差 ≈ 输入的方差 假设: 全连接层权重矩阵 W 的维度为 nout×ninn_\text{out} \times n_\text{in} nout×nin 输入 x,输出 y = Wx Xavier 希望: Var(y)≈Var(x) \text{Var}(y) \approx \text{Var}(x) Var(y)≈Var(x) Xavier 初始化公式3.1 均匀分布Wi,j∼U[−6nin+nout,6nin+nout] W_{i,j} \sim \mathcal{U}\Big[-\sqrt{\...
2025-12-07
optimizer
这篇blog是阅读prince Chapter6 之后的一些感想与困惑的解答 从梯度下降到 AdamW:常见优化算法全解(GD / SGD / Momentum / NAG / Adam / AdamW)在机器学习与深度学习中,优化算法(Optimizer)决定了模型如何根据损失函数不断更新参数。一个好的优化器不仅可以让模型收敛更快,还可以提高最终性能与稳定性。 本文将系统介绍以下六种经典优化方法,并给出直观解释与数学公式: Gradient Descent(GD) Stochastic Gradient Descent(SGD) SGD with Momentum Nesterov Accelerated Gradient(NAG) Adam AdamW 1. Gradient Descent(GD, 梯度下降)基本思想GD 在每一次参数更新时使用全部训练数据来计算梯度。 更新公式设损失函数为 L(θ)L(\theta)L(θ),学习率为 η\etaη: θt+1=θt−η∇θL(θt) \theta_{t+1} = \t...
2025-12-04
Neural network
这篇blog是阅读prince Chapter3&4 之后的一些感想与困惑的解答 Terminologyshallow neural networks: hidden layer层数为1的神经网络 deep neural networks: hidden layer层数大于1的神经网络 shallow nn和deep nn 都属于MLP(multiple linear perceptron). feed forward network: 信息只向前流动,没有循环. 从input->output是单向的。没有 RNN/LSTM 那种 feedback,没有自循环。e.g. CNN,ResNet, MLP都是FFN fully connected network: 相邻两层的每个神经元都相连的nn universal approximation theorem定理内容:一个含有足够多hidden units的single hidden layer neural network可以近似任意连续函数 single hidden layer nn 的输入输出可以写...
Announcement
Welcome to my Blog