Personal Knowledge Publishing
唐宇涵的个人知识站
体系结构——权衡的艺术,性能的诗歌
最新文章
-
triosim 模拟器 (一)
triosim 模拟器(一)
-
Transformer 模型 GPU 显存分析(一):训练
transformer 模型的 GPU 显存使用分析:训练阶段分析
-
Transformer 模型 GPU 显存分析(二):推理
transformer 模型的 GPU 显存使用分析:推理阶段分析
-
Transformer 模型 GPU 显存分析(三):反向传播需要保存哪些中间结果?
为了实现反向传播,前向传播时需要计算并保存一些必要的“中间值”[1]。 本文将详细讨论在 Transformer 架构的前向传播过程中,具体需要保存哪些中间值。 基本原则 核心原则:反向传播时,某个梯度公式如果要用到前向里的某个“中间值”,这个“中间值”就要暂存。 以线性层举例。对于 $$ y = xW $$ 反向传播: $$ \frac{\partial...
-
Pipeline-Parallelism流水线并行(一)
Model Parallelism 之 Pipeline Parallelism: Naive Pipeline Parallelism, Gpipe, PipeDream
-
Data-Parallelism数据并行(二)
Model Parallelism 之 Data Parallelism: Naive Data Parallelism, Distributed Data Parallelism (DDP), ZeRO Data Parallelism
-
Data-Parallelism数据并行(一)
Model Parallelism 之 Data Parallelism: Naive Data Parallelism, Distributed Data Parallelism (DDP), ZeRO Data Parallelism
-
Tensor Parallelism张量并行(二)
这是一篇基于 Megatron-LM Tensor Parallelism (TP) 核心逻辑的源码解析文章。 代码路径:Megatron-LM/megatron/legacy/model/transformer.py 前言 在大模型训练中,Tensor Parallelism (张量并行,TP) 是最核心的并行策略之一。它不仅仅是简单的分片训练,而是将一个...
-
Tensor Parallelism张量并行(三)
在分布式大模型训练(如 GPT-3, Llama 3, DeepSeek)中,张量并行 (Tensor Parallelism, TP) 是处理超大规模参数的核心技术。而 Megatron-LM 的 TP 源码设计充满了系统工程的智慧。 今天我们将深入 Megatron-LM 剖析其最基础的组件——ColumnParallelLinear(列并行线性层)。我...
-
Tensor Parallelism张量并行(一)
论文来自 Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism。 什么是 Tensor Parallelism(张量并行) 大模型训练通常面临两个核心问题: 显存压力大:当模型参数规模达到数十亿甚至更高时,在每张 GPU 上都完整保存一份模...
-
Sequence Parallelism序列并行(一)
原始论文 Reducing Activation Recomputation in Large Transformer Models 序列并行 序列并行是在张量并行的基础上进行的进一步深度优化,旨在减少“中间值”带来的显存占用^1。 关于 Transformer 各层的显存占用分析,请参考我的文章: Transformer 模型 GPU 显存分析(三):反...
-
网页语法
写网页的一些语法介绍
-
gdb-dashboard-工具
gdb dashboard 工具指南
-
互联网络(一)
AI 加速卡的互联介绍
-
互联网络(二)
介绍通信算子和伴随通信算子