Personal Knowledge Publishing

唐宇涵的个人知识站

体系结构——权衡的艺术,性能的诗歌

最新文章

  • triosim 模拟器 (一)

    · 1 min read

    triosim 模拟器(一)

  • Transformer 模型 GPU 显存分析(一):训练

    · 4 min read

    transformer 模型的 GPU 显存使用分析:训练阶段分析

  • Transformer 模型 GPU 显存分析(二):推理

    · 5 min read

    transformer 模型的 GPU 显存使用分析:推理阶段分析

  • Transformer 模型 GPU 显存分析(三):反向传播需要保存哪些中间结果?

    · 5 min read

    为了实现反向传播,前向传播时需要计算并保存一些必要的“中间值”[1]。 本文将详细讨论在 Transformer 架构的前向传播过程中,具体需要保存哪些中间值。 基本原则 核心原则:反向传播时,某个梯度公式如果要用到前向里的某个“中间值”,这个“中间值”就要暂存。 以线性层举例。对于 $$ y = xW $$ 反向传播: $$ \frac{\partial...

  • Pipeline-Parallelism流水线并行(一)

    · 5 min read

    Model Parallelism 之 Pipeline Parallelism: Naive Pipeline Parallelism, Gpipe, PipeDream

  • Data-Parallelism数据并行(二)

    · 3 min read

    Model Parallelism 之 Data Parallelism: Naive Data Parallelism, Distributed Data Parallelism (DDP), ZeRO Data Parallelism

  • Data-Parallelism数据并行(一)

    · 3 min read

    Model Parallelism 之 Data Parallelism: Naive Data Parallelism, Distributed Data Parallelism (DDP), ZeRO Data Parallelism

  • Tensor Parallelism张量并行(二)

    · 2 min read

    这是一篇基于 Megatron-LM Tensor Parallelism (TP) 核心逻辑的源码解析文章。 代码路径:Megatron-LM/megatron/legacy/model/transformer.py 前言 在大模型训练中,Tensor Parallelism (张量并行,TP) 是最核心的并行策略之一。它不仅仅是简单的分片训练,而是将一个...

  • Tensor Parallelism张量并行(三)

    · 2 min read

    在分布式大模型训练(如 GPT-3, Llama 3, DeepSeek)中,张量并行 (Tensor Parallelism, TP) 是处理超大规模参数的核心技术。而 Megatron-LM 的 TP 源码设计充满了系统工程的智慧。 今天我们将深入 Megatron-LM 剖析其最基础的组件——ColumnParallelLinear(列并行线性层)。我...

  • Tensor Parallelism张量并行(一)

    · 2 min read

    论文来自 Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism。 什么是 Tensor Parallelism(张量并行) 大模型训练通常面临两个核心问题: 显存压力大:当模型参数规模达到数十亿甚至更高时,在每张 GPU 上都完整保存一份模...

  • Sequence Parallelism序列并行(一)

    · 2 min read

    原始论文 Reducing Activation Recomputation in Large Transformer Models 序列并行 序列并行是在张量并行的基础上进行的进一步深度优化,旨在减少“中间值”带来的显存占用(“中间值”是反向传播所必需的。如果不保存这些中间值,在反向传播过程中就必须重新执行前向计算来生成它们,这会显著增加训练的时间开销)。...

  • 网页语法

    · 1 min read

    写网页的一些语法介绍

  • gdb-dashboard-工具

    · 1 min read

    gdb dashboard 工具指南

  • 互联网络(一)

    · 4 min read

    AI 加速卡的互联介绍

  • 互联网络(二)

    · 2 min read

    介绍通信算子和伴随通信算子