使用accelerate和deepseed替代torchrun

2025-05-12 13:11:39 +00:00 · 2025-05-12 13:11:39 +00:00 · caa9c23bc5
commit caa9c23bc5
parent 83f5cfe6ca
5 changed files with 586 additions and 0 deletions
--- a/README_accelerate.md
+++ b/README_accelerate.md
@ -0,0 +1,126 @@
 # 使用Accelerate+DeepSpeed进行分布式训练
 本文档介绍如何使用Accelerate和DeepSpeed进行MiniMind模型的分布式训练。
 ## 环境准备
 首先，确保安装了必要的依赖：
 ```bash
 pip install accelerate deepspeed
 ```
 ## 配置文件说明
 ### 1. DeepSpeed配置文件 (ds_config.json)
 DeepSpeed配置文件定义了优化器、学习率调度器和ZeRO优化等参数。主要配置包括：
 - **ZeRO优化**：使用ZeRO-2进行优化，可以减少GPU内存使用
 - **优化器设置**：使用AdamW优化器
 - **混合精度训练**：支持FP16和BF16
 - **梯度累积**：通过"auto"自动设置，与训练脚本参数保持一致
 ### 2. Accelerate配置文件 (accelerate_config.yaml)
 Accelerate配置文件定义了分布式训练的基本设置，包括：
 - **分布式类型**：使用DeepSpeed
 - **混合精度**：使用BF16
 - **进程数量**：设置为4（可根据GPU数量调整）
 - **DeepSpeed配置**：指向ds_config.json文件
 ## 训练脚本说明
 新的训练脚本`train_pretrain_accelerate.py`基于原有的`train_pretrain.py`修改而来，主要变化包括：
 1. 使用Accelerator替代了PyTorch原生的分布式功能
 2. 移除了torchrun相关的分布式初始化代码
 3. 使用Accelerator的API进行模型、优化器和数据加载器的准备
 4. 使用Accelerator的API进行反向传播和梯度裁剪
 5. 处理了位置编码和未使用参数的问题
 ## 启动训练
 有两种方式启动训练：
 ### 方法1：使用预先配置的accelerate配置文件
 ```bash
 accelerate launch --config_file accelerate_config.yaml train_pretrain_accelerate.py \
    --epochs 3 \
    --batch_size 24 \
    --learning_rate 2e-4 \
    --dtype bfloat16 \
    --accumulation_steps 32 \
    --grad_clip 1.0 \
    --log_interval 100 \
    --save_interval 10000 \
    --dim 1024 \
    --n_layers 32 \
    --max_seq_len 1024 \
    --use_flash_attn \
    --profile \
    --profile_interval 10
 ```
 ### 方法2：使用命令行参数直接配置accelerate
 ```bash
 CUDA_VISIBLE_DEVICES=0,1,2,3 accelerate launch \
    --multi_gpu \
    --num_processes=4 \
    --mixed_precision=bf16 \
    --main_process_port=29500 \
    --deepspeed_config_file ds_config.json \
    train_pretrain_accelerate.py \
    --epochs 3 \
    --batch_size 24 \
    --learning_rate 2e-4 \
    --dtype bfloat16 \
    --accumulation_steps 32 \
    --grad_clip 1.0 \
    --log_interval 100 \
    --save_interval 10000 \
    --dim 1024 \
    --n_layers 32 \
    --max_seq_len 1024 \
    --use_flash_attn \
    --profile \
    --profile_interval 10
 ```
 也可以直接使用提供的脚本：
 ```bash
 bash run_accelerate.sh
 ```
 ## Accelerate与DeepSpeed配置的关系
 1. **Accelerate**是一个高级API，用于简化分布式训练的设置和启动，它可以与多种分布式训练后端（如DeepSpeed、FSDP等）一起使用。
 2. **DeepSpeed**是一个优化库，专注于大规模模型训练的内存优化和性能提升，提供了ZeRO优化等功能。
 3. **配置关系**：
   - Accelerate配置文件（YAML）定义了使用哪种分布式后端以及基本的分布式设置
   - DeepSpeed配置文件（JSON）定义了DeepSpeed特有的优化参数
   - Accelerate通过`deepspeed_config_file`参数引用DeepSpeed配置文件
 ## 注意事项
 1. **位置编码处理**：
   - 在模型中，`pos_cis`是一个复数张量，在分布式训练中需要特别处理
   - 在新的训练脚本中，我们使用Accelerator的API来处理这个问题，不再需要`_ddp_params_and_buffers_to_ignore`
 2. **未使用参数处理**：
   - 原代码中使用`find_unused_parameters=True`来处理未使用的参数
   - 在新的训练脚本中，我们直接使用Accelerator的API，它会自动处理这个问题
 3. **混合精度训练**：
   - DeepSpeed配置文件中的`fp16`和`bf16`设置为`"auto"`
   - 实际使用的精度由Accelerate的`--mixed_precision`参数决定
 4. **梯度累积**：
   - DeepSpeed配置文件中的`gradient_accumulation_steps`设置为`"auto"`
   - 实际的梯度累积步数由训练脚本的`--accumulation_steps`参数决定
--- a/accelerate_config.yaml
+++ b/accelerate_config.yaml
@ -0,0 +1,17 @@
 compute_environment: LOCAL_MACHINE
 deepspeed_config:
  deepspeed_config_file: ds_config.json
  zero3_init_flag: false
 distributed_type: DEEPSPEED
 downcast_bf16: 'no'
 machine_rank: 0
 main_training_function: main
 mixed_precision: bf16
 num_machines: 1
 num_processes: 4
 rdzv_backend: static
 same_network: true
 tpu_env: []
 tpu_use_cluster: false
 tpu_use_sudo: false
 use_cpu: false
--- a/ds_config.json
+++ b/ds_config.json
@ -0,0 +1,49 @@
 {
    "train_batch_size": "auto",
    "train_micro_batch_size_per_gpu": "auto",
    "gradient_accumulation_steps": "auto",
    "gradient_clipping": "auto",
    "zero_optimization": {
        "stage": 2,
        "offload_optimizer": {
            "device": "cpu",
            "pin_memory": true
        },
        "allgather_partitions": true,
        "allgather_bucket_size": 5e8,
        "overlap_comm": true,
        "reduce_scatter": true,
        "reduce_bucket_size": 5e8,
        "contiguous_gradients": true
    },
    "fp16": {
        "enabled": "auto",
        "loss_scale": 0,
        "loss_scale_window": 1000,
        "initial_scale_power": 16,
        "hysteresis": 2,
        "min_loss_scale": 1
    },
    "bf16": {
        "enabled": "auto"
    },
    "optimizer": {
        "type": "AdamW",
        "params": {
            "lr": "auto",
            "betas": "auto",
            "eps": "auto",
            "weight_decay": "auto"
        }
    },
    "scheduler": {
        "type": "WarmupLR",
        "params": {
            "warmup_min_lr": "auto",
            "warmup_max_lr": "auto",
            "warmup_num_steps": "auto"
        }
    },
    "steps_per_print": 100,
    "wall_clock_breakdown": false
 }
--- a/run_accelerate.sh
+++ b/run_accelerate.sh
@ -0,0 +1,48 @@
 #!/bin/bash
 # 激活conda环境
 source $(conda info --base)/etc/profile.d/conda.sh
 conda activate ycz_accelerate
 # 设置环境变量以帮助调试
 export NCCL_DEBUG=INFO
 export PYTHONFAULTHANDLER=1
 # 方法1: 使用预先配置的accelerate配置文件
 # accelerate launch --config_file accelerate_config.yaml train_pretrain_accelerate.py \
 #     --epochs 3 \
 #     --batch_size 24 \
 #     --learning_rate 2e-4 \
 #     --dtype bfloat16 \
 #     --accumulation_steps 32 \
 #     --grad_clip 1.0 \
 #     --log_interval 100 \
 #     --save_interval 10000 \
 #     --dim 1024 \
 #     --n_layers 32 \
 #     --max_seq_len 1024 \
 #     --use_flash_attn \
 #     --profile \
 #     --profile_interval 10
 # 方法2: 使用命令行参数直接配置accelerate
 CUDA_VISIBLE_DEVICES=0,1,2,3 accelerate launch \
    --multi_gpu \
    --num_processes=4 \
    --mixed_precision=bf16 \
    --main_process_port=29500 \
    train_pretrain_accelerate.py \
    --epochs 3 \
    --batch_size 24 \
    --learning_rate 2e-4 \
    --dtype bfloat16 \
    --accumulation_steps 32 \
    --grad_clip 1.0 \
    --log_interval 100 \
    --save_interval 10000 \
    --dim 1024 \
    --n_layers 32 \
    --max_seq_len 1024 \
    --use_flash_attn \
    --profile \
    --profile_interval 10
--- a/train_pretrain_accelerate.py
+++ b/train_pretrain_accelerate.py
@ -0,0 +1,346 @@
 import os
 # 设置环境变量
 os.environ["WANDB_MODE"] = "offline"  # 或者使用 "dryrun"
 import platform
 import argparse
 import time
 import math
 import warnings
 import pandas as pd
 import torch
 from torch import optim, nn
 from torch.utils.data import DataLoader
 from contextlib import nullcontext
 from typing import Optional
 from accelerate import Accelerator
 from accelerate.utils import set_seed
 from accelerate.utils import DeepSpeedPlugin
 from accelerate.utils import DistributedDataParallelKwargs
 from transformers import AutoTokenizer, get_cosine_schedule_with_warmup
 from model.model import MiniMindLM
 from model.LMConfig import LMConfig
 from model.dataset import PretrainDataset
 warnings.filterwarnings('ignore')
 # 日志记录函数
 def Logger(msg, accelerator=None):
    # 如果没有提供accelerator，则只在主进程打印
    if accelerator is None or accelerator.is_main_process:
        print(f"[{time.strftime('%Y-%m-%d %H:%M:%S')}] {msg}")
 # 获取学习率函数
 def get_lr(it, num_iters, learning_rate):
    # 余弦学习率衰减
    return learning_rate * 0.5 * (1.0 + math.cos(math.pi * it / num_iters))
 # 初始化模型函数
 def init_model(lm_config, pretrained_embedding_path=None):
    tokenizer = AutoTokenizer.from_pretrained('./model/minimind_tokenizer')
    model = MiniMindLM(lm_config)
    # 如果提供了预训练的嵌入权重，加载它们
    if pretrained_embedding_path:
        Logger(f"Loading pretrained token embeddings from {pretrained_embedding_path}")
        pretrained_embeddings = torch.load(pretrained_embedding_path)
        model.tok_embeddings.weight.data.copy_(pretrained_embeddings)
        model.output.weight.data.copy_(pretrained_embeddings)  # 共享权重
    Logger(f'LLM总参数量：{sum(p.numel() for p in model.parameters() if p.requires_grad) / 1e6:.3f} 百万')
    return model, tokenizer
 def train_epoch(epoch, accelerator, model, train_loader, optimizer, scheduler, args, ctx):
    loss_fct = nn.CrossEntropyLoss(reduction='none')
    start_time = time.time()
    # 在函数开始处定义moe_path，避免在异常处理中引用未定义变量
    moe_path = '_moe' if args.use_moe else ''
    # 添加CUDA事件来分析性能
    if args.profile and accelerator.is_main_process:
        data_start = torch.cuda.Event(enable_timing=True)
        data_end = torch.cuda.Event(enable_timing=True)
        forward_start = torch.cuda.Event(enable_timing=True)
        forward_end = torch.cuda.Event(enable_timing=True)
        backward_start = torch.cuda.Event(enable_timing=True)
        backward_end = torch.cuda.Event(enable_timing=True)
        optimizer_start = torch.cuda.Event(enable_timing=True)
        optimizer_end = torch.cuda.Event(enable_timing=True)
    # 预取数据
    prefetch_factor = 2  # 预取的批次数
    data_iter = iter(train_loader)
    prefetch_batches = []
    # 预取初始批次
    for _ in range(min(prefetch_factor, len(train_loader))):
        try:
            batch = next(data_iter)
            prefetch_batches.append(batch)
        except StopIteration:
            break
    for step in range(len(train_loader)):
        try:
            # 计时数据加载
            if args.profile and accelerator.is_main_process:
                data_start.record()
            # 使用预取的数据
            if prefetch_batches:
                X, Y, loss_mask = prefetch_batches.pop(0)
            else:
                # 如果预取队列为空，直接加载
                X, Y, loss_mask = next(data_iter)
            # 异步预取下一批数据
            if step + prefetch_factor < len(train_loader):
                try:
                    batch = next(data_iter)
                    prefetch_batches.append(batch)
                except StopIteration:
                    pass
            if args.profile and accelerator.is_main_process:
                data_end.record()
            # 更新学习率
            if scheduler is not None:
                scheduler.step()
            # 计时前向传播
            if args.profile and accelerator.is_main_process:
                forward_start.record()
            # 前向传播
            with ctx:
                res = model(X)
                loss = loss_fct(
                    res.logits.view(-1, res.logits.size(-1)),
                    Y.view(-1)
                ).view(Y.size())
                loss = (loss * loss_mask).sum() / loss_mask.sum()
                # 添加辅助损失，如果存在的话
                try:
                    aux_loss = sum(l.feed_forward.aux_loss for l in model.module.layers
                                  if hasattr(l.feed_forward, 'aux_loss'))
                    loss += aux_loss
                except Exception as e:
                    Logger(f"Warning: Could not add auxiliary loss: {e}")
                    # 如果出错，不添加辅助损失
                loss = loss / args.accumulation_steps
            if args.profile and accelerator.is_main_process:
                forward_end.record()
            # 计时反向传播
            if args.profile and accelerator.is_main_process:
                backward_start.record()
            # 反向传播
            # 当使用DeepSpeed时，它会自动处理梯度累积和梯度裁剪
            accelerator.backward(loss)
            if args.profile and accelerator.is_main_process:
                backward_end.record()
            # 计时优化器步骤
            if args.profile and accelerator.is_main_process:
                optimizer_start.record()
            # 优化器步骤 - 当使用DeepSpeed时，它会自动处理梯度累积和梯度裁剪
            # 只有在达到累积步数时才会执行优化器步骤
            # 注意：当使用DeepSpeed时，它会自动处理梯度累积，所以我们不需要检查step % accumulation_steps
            optimizer.step()
            # 当使用DeepSpeed时，zero_grad()会在step()之后自动调用
            # 但为了安全起见，我们仍然显式调用它
            optimizer.zero_grad()
            if args.profile and accelerator.is_main_process:
                optimizer_end.record()
            # 打印训练信息
            if (step + 1) % args.log_interval == 0 and accelerator.is_main_process:
                # 计算性能指标
                if args.profile:
                    torch.cuda.synchronize()
                    data_time = data_start.elapsed_time(data_end) if step > 0 else 0
                    forward_time = forward_start.elapsed_time(forward_end)
                    backward_time = backward_start.elapsed_time(backward_end)
                    optimizer_time = optimizer_start.elapsed_time(optimizer_end) if (step + 1) % args.accumulation_steps == 0 else 0
                    total_time = data_time + forward_time + backward_time + optimizer_time
                    # 打印性能分析
                    if (step + 1) % (args.log_interval * args.profile_interval) == 0:
                        Logger(f"性能分析 - 数据加载: {data_time:.2f}ms ({data_time/total_time*100:.1f}%), "
                              f"前向传播: {forward_time:.2f}ms ({forward_time/total_time*100:.1f}%), "
                              f"反向传播: {backward_time:.2f}ms ({backward_time/total_time*100:.1f}%), "
                              f"优化器: {optimizer_time:.2f}ms ({optimizer_time/total_time*100:.1f}%)", accelerator)
                # 计算当前学习率
                current_lr = optimizer.param_groups[0]['lr']
                # 计算训练速度
                elapsed_time = time.time() - start_time
                tokens_per_sec = (step + 1) * args.batch_size * args.max_seq_len / elapsed_time
                Logger(f"Epoch {epoch+1}/{args.epochs}, Step {step+1}/{len(train_loader)}, "
                      f"Loss: {loss.item()*args.accumulation_steps:.4f}, "
                      f"LR: {current_lr:.6f}, "
                      f"Speed: {tokens_per_sec:.2f} tokens/sec", accelerator)
            # 保存模型
            if (step + 1) % args.save_interval == 0 and accelerator.is_main_process:
                # 使用函数开始处定义的moe_path变量
                ckp = f'{args.save_dir}/pretrain_{args.dim}{moe_path}.pth'
                # 获取解包后的模型
                unwrapped_model = accelerator.unwrap_model(model)
                # 保存模型参数
                accelerator.save(unwrapped_model.state_dict(), ckp)
                Logger(f"Model saved to {ckp}", accelerator)
        except Exception as e:
            Logger(f"Error in training step: {e}", accelerator)
            import traceback
            Logger(traceback.format_exc(), accelerator)
 def main():
    parser = argparse.ArgumentParser(description="MiniMind Pretraining with Accelerate")
    parser.add_argument("--out_dir", type=str, default="out")
    parser.add_argument("--epochs", type=int, default=3)
    parser.add_argument("--batch_size", type=int, default=24)
    parser.add_argument("--learning_rate", type=float, default=2e-4)
    parser.add_argument("--dtype", type=str, default="bfloat16")
    parser.add_argument("--use_wandb", default=True, action="store_true")
    parser.add_argument("--wandb_project", type=str, default="MiniMind-Pretrain")
    parser.add_argument("--num_workers", type=int, default=48)
    parser.add_argument("--accumulation_steps", type=int, default=32)
    parser.add_argument("--grad_clip", type=float, default=1.0)
    parser.add_argument("--warmup_iters", type=int, default=0)
    parser.add_argument("--log_interval", type=int, default=100)
    parser.add_argument("--save_interval", type=int, default=10000)
    parser.add_argument('--dim', default=1024, type=int)
    parser.add_argument('--n_layers', default=32, type=int)
    parser.add_argument('--max_seq_len', default=1024, type=int)
    parser.add_argument('--use_moe', default=False, type=bool)
    parser.add_argument('--disable_db', action='store_true', help="禁用数据库功能，使用固定值1e-4替代")
    parser.add_argument("--data_path", type=str, default="./dataset/pretrain_hq.jsonl")
    parser.add_argument("--pretrained_embedding_path", type=str, default=None, help="Path to pretrained token embedding weights (.pth file)")
    parser.add_argument("--profile", action="store_true", default=True, help="启用性能分析")
    parser.add_argument("--profile_interval", type=int, default=10, help="性能分析打印间隔（步数）")
    parser.add_argument("--use_flash_attn", action="store_true", default=True, help="启用FlashAttention")
    args = parser.parse_args()
    # 初始化accelerator
    # 设置ddp_kwargs以处理未使用的参数
    ddp_kwargs = DistributedDataParallelKwargs(find_unused_parameters=True)
    # 创建DeepSpeedPlugin对象
    ds_plugin = DeepSpeedPlugin(
        gradient_accumulation_steps=args.accumulation_steps,
        gradient_clipping=args.grad_clip,
        zero_stage=2,  # 使用ZeRO-2优化
        offload_optimizer_device="cpu",  # 将优化器状态卸载到CPU
        offload_param_device="none",  # 不将参数卸载到CPU
    )
    accelerator = Accelerator(
        kwargs_handlers=[ddp_kwargs],
        deepspeed_plugin=ds_plugin,
        mixed_precision="bf16" if args.dtype == "bfloat16" else "fp16" if args.dtype == "float16" else "no"
    )
    # 设置随机种子
    set_seed(1337 + accelerator.process_index)
    # 配置模型
    lm_config = LMConfig(
        dim=args.dim,
        n_layers=args.n_layers,
        max_seq_len=args.max_seq_len,
        use_moe=args.use_moe,
        disable_db=args.disable_db,
        flash_attn=args.use_flash_attn
    )
    # 创建保存目录
    args.save_dir = os.path.join(args.out_dir)
    if accelerator.is_main_process:
        os.makedirs(args.save_dir, exist_ok=True)
        os.makedirs(args.out_dir, exist_ok=True)
    # 计算每次迭代的token数量
    tokens_per_iter = args.batch_size * lm_config.max_seq_len
    Logger(f"tokens_per_iter: {tokens_per_iter}", accelerator)
    # 设置数据类型
    pt_dtype = {'float32': torch.float32, 'bfloat16': torch.bfloat16, 'float16': torch.float16}[args.dtype]
    # 设置wandb运行名称
    args.wandb_run_name = f"MiniMind-Pretrain-Epoch-{args.epochs}-BatchSize-{args.batch_size}-LearningRate-{args.learning_rate}"
    # 设置自动混合精度上下文
    ctx = nullcontext() if accelerator.device.type == "cpu" else torch.cuda.amp.autocast(dtype=pt_dtype)
    # 初始化模型和tokenizer
    model, tokenizer = init_model(lm_config, args.pretrained_embedding_path)
    # 将accelerator传递给init_model函数中的Logger调用
    Logger(f'模型初始化完成', accelerator)
    # 处理pos_cis复数张量问题
    # 方法1：将pos_cis转换为实数张量（两个实数张量表示实部和虚部）
    # 这里我们采用方法2：告诉accelerate忽略pos_cis
    # 在DeepSpeed模式下，我们需要设置DeepSpeed的参数
    if hasattr(model, "pos_cis"):
        Logger(f'检测到pos_cis复数张量，将其设置为不参与分布式训练', accelerator)
        # 设置模型的_ddp_params_and_buffers_to_ignore属性
        model._ddp_params_and_buffers_to_ignore = {"pos_cis"}
    # 创建数据集和数据加载器
    train_ds = PretrainDataset(args.data_path, tokenizer, max_length=lm_config.max_seq_len)
    train_loader = DataLoader(
        train_ds,
        batch_size=args.batch_size,
        pin_memory=True,
        drop_last=False,
        shuffle=True,
        num_workers=args.num_workers,
        persistent_workers=True if args.num_workers > 0 else False,
        prefetch_factor=2 if args.num_workers > 0 else None
    )
    # 创建优化器
    optimizer = optim.AdamW(model.parameters(), lr=args.learning_rate)
    # 创建学习率调度器
    total_steps = len(train_loader) * args.epochs
    warmup_steps = args.warmup_iters if args.warmup_iters > 0 else int(0.1 * total_steps)
    scheduler = get_cosine_schedule_with_warmup(
        optimizer,
        num_warmup_steps=warmup_steps,
        num_training_steps=total_steps
    )
    # 准备训练
    model, optimizer, train_loader, scheduler = accelerator.prepare(
        model, optimizer, train_loader, scheduler
    )
    # 初始化wandb
    if args.use_wandb and accelerator.is_main_process:
        import wandb
        wandb.init(project=args.wandb_project, name=args.wandb_run_name, config=args)
    else:
        wandb = None
    # 训练循环
    for epoch in range(args.epochs):
        train_epoch(epoch, accelerator, model, train_loader, optimizer, scheduler, args, ctx)
    # 关闭wandb
    if args.use_wandb and accelerator.is_main_process:
        wandb.finish()
 if __name__ == "__main__":
    main()