Home

GPU 内存子系统分析--延迟分析

2026-05-15 · 17 min read

分析GPU 的 L1/Shared Memory，L2，DRAM 的访问延迟

triosim 模拟器（一）

2026-05-10 · 1 min read

triosim 模拟器（一）

Transformer 模型 GPU 显存分析（一）：训练

2026-05-03 · 4 min read

transformer 模型的 GPU 显存使用分析：训练阶段分析

Transformer 模型 GPU 显存分析（二）：推理

2026-05-11 · 5 min read

transformer 模型的 GPU 显存使用分析：推理阶段分析

Transformer 模型 GPU 显存分析（三）：反向传播需要保存哪些中间结果？

2026-05-12 · 5 min read

为了实现反向传播，前向传播时需要计算并保存一些必要的“中间值”[1]。本文将详细讨论在 Transformer 架构的前向传播过程中，具体需要保存哪些中间值。基本原则核心原则：反向传播时，某个梯度公式如果要用到前向里的某个“中间值”，这个“中间值”就要暂存。以线性层举例。对于 $$ y = xW $$ 反向传播： $$ \frac{\partial...

Pipeline-Parallelism流水线并行（一）

2026-05-03 · 5 min read

Model Parallelism 之 Pipeline Parallelism: Naive Pipeline Parallelism, Gpipe, PipeDream

Data-Parallelism数据并行（二）

2026-05-03 · 3 min read

Model Parallelism 之 Data Parallelism: Naive Data Parallelism, Distributed Data Parallelism (DDP), ZeRO Data Parallelism

Data-Parallelism数据并行（一）

2026-05-03 · 3 min read

Model Parallelism 之 Data Parallelism: Naive Data Parallelism, Distributed Data Parallelism (DDP), ZeRO Data Parallelism

Tensor Parallelism张量并行（二）

2026-05-13 · 2 min read

这是一篇基于 Megatron-LM Tensor Parallelism (TP) 核心逻辑的源码解析文章。代码路径：Megatron-LM/megatron/legacy/model/transformer.py 前言在大模型训练中，Tensor Parallelism (张量并行，TP) 是最核心的并行策略之一。它不仅仅是简单的分片训练，而是将一个...

Tensor Parallelism张量并行（三）

2026-05-13 · 2 min read

在分布式大模型训练（如 GPT-3, Llama 3, DeepSeek）中，张量并行 (Tensor Parallelism, TP) 是处理超大规模参数的核心技术。而 Megatron-LM 的 TP 源码设计充满了系统工程的智慧。今天我们将深入 Megatron-LM 剖析其最基础的组件——ColumnParallelLinear（列并行线性层）。我...

Tensor Parallelism张量并行（一）

2026-05-13 · 2 min read

论文来自 Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism。什么是 Tensor Parallelism（张量并行）大模型训练通常面临两个核心问题：显存压力大：当模型参数规模达到数十亿甚至更高时，在每张 GPU 上都完整保存一份模...

Sequence Parallelism序列并行（一）

2026-05-14 · 3 min read

原始论文 Reducing Activation Recomputation in Large Transformer Models 序列并行序列并行是在张量并行的基础上进行的进一步深度优化，旨在减少“中间值”带来的显存占用(“中间值”是反向传播所必需的。如果不保存这些中间值，在反向传播过程中就必须重新执行前向计算来生成它们，这会显著增加训练的时间开销)。...

网页语法

2026-05-01 · 1 min read

写网页的一些语法介绍

gdb-dashboard-工具

2026-05-01 · 1 min read

gdb dashboard 工具指南

互联网络（一）

2026-04-30 · 4 min read

AI 加速卡的互联介绍

互联网络（二）

2026-05-14 · 2 min read

介绍通信算子和伴随通信算子

唐宇涵的个人知识站

最新文章

GPU 内存子系统分析--延迟分析

triosim 模拟器（一）

Transformer 模型 GPU 显存分析（一）：训练

Transformer 模型 GPU 显存分析（二）：推理

Transformer 模型 GPU 显存分析（三）：反向传播需要保存哪些中间结果？

Pipeline-Parallelism流水线并行（一）

Data-Parallelism数据并行（二）

Data-Parallelism数据并行（一）

Tensor Parallelism张量并行（二）

Tensor Parallelism张量并行（三）

Tensor Parallelism张量并行（一）

Sequence Parallelism序列并行（一）

网页语法

gdb-dashboard-工具

互联网络（一）

互联网络（二）