Personal Knowledge Publishing
唐宇涵的个人知识站
系统结构、并行计算、工程实践。聚焦严谨表达与长期可维护写作。
最新文章
-
tang
tang asd
-
triosim 模拟器 (一)
triosim 模拟器(一)
-
transformer模型的GPU显存使用分析(一):训练
transformer 模型的 GPU 显存使用分析:训练阶段分析
-
transformer 模型的 GPU 显存使用分析(二):推理
transformer 模型的 GPU 显存使用分析:推理阶段分析
-
transformer模型的GPU显存使用分析(三):反向传播到底需要哪些中间结果
本文旨在梳理训练阶段前向传播中必须保留的中间结果(如激活值、掩码、统计量等),以正确支持反向传播
-
Pipeline-Parallelism流水线并行(一)
Model Parallelism 之 Pipeline Parallelism: Naive Pipeline Parallelism, Gpipe, PipeDream
-
Data-Parallelism数据并行(二)
Model Parallelism 之 Data Parallelism: Naive Data Parallelism, Distributed Data Parallelism (DDP), ZeRO Data Parallelism
-
Data-Parallelism数据并行(一)
Model Parallelism 之 Data Parallelism: Naive Data Parallelism, Distributed Data Parallelism (DDP), ZeRO Data Parallelism
-
Tensor Parallelism张量并行(二)
这是一篇基于 Megatron-LM Tensor Parallelism (TP) 核心逻辑的源码解析文章。 代码路径:Megatron-LM/megatron/legacy/model/transformer.py 前言 在大模型训练中,Tensor Parallelism (张量并行,TP) 是最核心的并行策略之一。它不仅仅是简单的分片训练,而是将一个...
-
Tensor Parallelism张量并行(三)
在分布式大模型训练(如 GPT-3, Llama 3, DeepSeek)中,张量并行 (Tensor Parallelism, TP) 是处理超大规模参数的核心技术。而 Megatron-LM 的 TP 源码设计充满了系统工程的智慧。 今天我们将深入 Megatron-LM 剖析其最基础的组件——ColumnParallelLinear(列并行线性层)。我...
-
Tensor Parallelism张量并行(一)
论文来自 Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism。 什么是 Tensor Parallelism(张量并行) 大模型训练通常面临两个核心问题: 显存压力大:当模型参数规模达到数十亿甚至更高时,在每张 GPU 上都完整保存一份模...
-
网页语法
写网页的一些语法介绍
-
gdb-dashboard-工具
gdb dashboard 工具指南
-
互联网络
AI 加速卡的互联介绍