Minimind/4-lora_sft.py

import os
import platform
import argparse
import time
import math
import warnings
import torch
import pandas as pd
import torch.nn.functional as F
from contextlib import nullcontext

from torch import optim
from transformers import AutoTokenizer
from transformers import AutoModelForCausalLM
from peft import get_peft_model, LoraConfig, TaskType
from torch.utils.data import DataLoader
from model.LMConfig import LMConfig
from model.dataset import SFTDataset
from model.model import Transformer

warnings.filterwarnings('ignore')


def Logger(content):
    print(content)


def get_lr(it, all):
    warmup_iters = args.warmup_iters
    lr_decay_iters = all
    min_lr = args.learning_rate / 10

    if it < warmup_iters:
        return args.learning_rate * it / warmup_iters
    if it > lr_decay_iters:
        return min_lr
    decay_ratio = (it - warmup_iters) / (lr_decay_iters - warmup_iters)
    assert 0 <= decay_ratio <= 1
    coeff = 0.5 * (1.0 + math.cos(math.pi * decay_ratio))
    return min_lr + coeff * (args.learning_rate - min_lr)


def train_epoch(epoch, wandb):
    start_time = time.time()
    for step, (X, Y, loss_mask) in enumerate(train_loader):
        X = X.to(args.device)
        Y = Y.to(args.device)
        loss_mask = loss_mask.to(args.device)

        lr = get_lr(epoch * iter_per_epoch + step, args.epochs * iter_per_epoch)
        for param_group in optimizer.param_groups:
            param_group['lr'] = lr

        with ctx:
            logits = model(X, Y).logits
            loss = F.cross_entropy(logits.view(-1, logits.size(-1)), Y.view(-1), ignore_index=0, reduction='none')
            loss_mask = loss_mask.view(-1)
            loss = torch.sum(loss * loss_mask) / loss_mask.sum()
            loss = loss / args.accumulation_steps

        scaler.scale(loss).backward()

        if (step + 1) % args.accumulation_steps == 0:
            scaler.unscale_(optimizer)
            torch.nn.utils.clip_grad_norm_(model.parameters(), args.grad_clip)

            scaler.step(optimizer)
            scaler.update()

            optimizer.zero_grad(set_to_none=True)

        if step % args.log_interval == 0:
            spend_time = time.time() - start_time
            Logger(
                'Epoch:[{}/{}]({}/{}) loss:{:.3f} lr:{:.7f} epoch_Time:{}min:'.format(
                    epoch,
                    args.epochs,
                    step,
                    iter_per_epoch,
                    loss.item() * args.accumulation_steps,
                    optimizer.param_groups[-1]['lr'],
                    spend_time / (step + 1) * iter_per_epoch // 60 - spend_time // 60))
            if wandb is not None:
                wandb.log({"loss": loss.item() * args.accumulation_steps,
                           "lr": optimizer.param_groups[-1]['lr'],
                           "epoch_Time": spend_time / (step + 1) * iter_per_epoch // 60 - spend_time // 60})

        if (step + 1) % args.save_interval == 0:
            model.save_pretrained(args.save_dir)


def find_all_linear_names(model):
    cls = torch.nn.Linear
    lora_module_names = set()
    for name, module in model.named_modules():
        if isinstance(module, cls):
            names = name.split('.')
            lora_module_names.add(names[0] if len(names) == 1 else names[-1])

    return list(lora_module_names)


def init_model():
    model_name_or_path = "./minimind-v1-small"
    tokenizer_name_or_path = "./minimind-v1-small"
    tokenizer = AutoTokenizer.from_pretrained(tokenizer_name_or_path, trust_remote_code=True, use_fast=False)
    model = AutoModelForCausalLM.from_pretrained(model_name_or_path, trust_remote_code=True).to(args.device)

    target_modules = find_all_linear_names(model)
    peft_config = LoraConfig(
        r=8,
        target_modules=target_modules
    )
    model = get_peft_model(model, peft_config)
    model.print_trainable_parameters()
    model = model.to(args.device)
    return model, tokenizer


if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="MiniMind LoRA Fine-tuning")
    parser.add_argument("--out_dir", type=str, default="out", help="Output directory")
    parser.add_argument("--epochs", type=int, default=20, help="Number of epochs")
    parser.add_argument("--batch_size", type=int, default=32, help="Batch size")
    parser.add_argument("--learning_rate", type=float, default=1e-4, help="Learning rate")
    parser.add_argument("--device", type=str, default="cuda:0" if torch.cuda.is_available() else "cpu", help="Device to use")
    parser.add_argument("--dtype", type=str, default="bfloat16", help="Data type")
    parser.add_argument("--use_wandb", action="store_true", help="Use Weights & Biases")
    parser.add_argument("--wandb_project", type=str, default="MiniMind-LoRA", help="Weights & Biases project name")
    parser.add_argument("--num_workers", type=int, default=0, help="Number of workers for data loading")
    parser.add_argument("--accumulation_steps", type=int, default=1, help="Gradient accumulation steps")
    parser.add_argument("--grad_clip", type=float, default=1.0, help="Gradient clipping threshold")
    parser.add_argument("--warmup_iters", type=int, default=1000, help="Number of warmup iterations")
    parser.add_argument("--log_interval", type=int, default=100, help="Logging interval")
    parser.add_argument("--save_interval", type=int, default=1000, help="Model saving interval")

    args = parser.parse_args()

    lm_config = LMConfig()
    max_seq_len = lm_config.max_seq_len
    args.save_dir = os.path.join(args.out_dir)
    os.makedirs(args.save_dir, exist_ok=True)
    os.makedirs(args.out_dir, exist_ok=True)
    tokens_per_iter = args.batch_size * max_seq_len
    torch.manual_seed(1337)
    device_type = "cuda" if "cuda" in args.device else "cpu"

    args.wandb_run_name = f"MiniMind-LoRA-Epoch-{args.epochs}-BatchSize-{args.batch_size}-LearningRate-{args.learning_rate}"

    ctx = nullcontext() if device_type == "cpu" else torch.cuda.amp.autocast()

    if args.use_wandb:
        import wandb
        wandb.init(project=args.wandb_project, name=args.wandb_run_name)
    else:
        wandb = None

    model, tokenizer = init_model()

    df = pd.read_csv('./dataset/sft_data_single.csv')
    df = df.sample(frac=1.0)
    train_ds = SFTDataset(df, tokenizer, max_length=max_seq_len)
    train_loader = DataLoader(
        train_ds,
        batch_size=args.batch_size,
        pin_memory=True,
        drop_last=False,
        shuffle=False,
        num_workers=args.num_workers,
    )

    scaler = torch.cuda.amp.GradScaler(enabled=(args.dtype in ['float16', 'bfloat16']))
    optimizer = optim.Adam(
        filter(lambda p: p.requires_grad, model.parameters()),
        lr=args.learning_rate
    )

    if False and platform.system() != 'Windows' and float(torch.__version__.split('.')[0]) >= 2:
        Logger("compiling the model... (takes a ~minute)")
        unoptimized_model = model
        model = torch.compile(model)

    iter_per_epoch = len(train_loader)
    for epoch in range(args.epochs):
        train_epoch(epoch, wandb)
MiniMind first open source 2024-08-28 16:41:44 +08:00			`import os`
			`import platform`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`import argparse`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`import time`
			`import math`
			`import warnings`
			`import torch`
			`import pandas as pd`
			`import torch.nn.functional as F`
			`from contextlib import nullcontext`

			`from torch import optim`
			`from transformers import AutoTokenizer`
			`from transformers import AutoModelForCausalLM`
			`from peft import get_peft_model, LoraConfig, TaskType`
			`from torch.utils.data import DataLoader`
			`from model.LMConfig import LMConfig`
			`from model.dataset import SFTDataset`
update lora-sft 2024-10-11 17:43:52 +08:00			`from model.model import Transformer`
MiniMind first open source 2024-08-28 16:41:44 +08:00
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`warnings.filterwarnings('ignore')`
MiniMind first open source 2024-08-28 16:41:44 +08:00

添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`def Logger(content):`
			`print(content)`


			`def get_lr(it, all):`
			`warmup_iters = args.warmup_iters`
			`lr_decay_iters = all`
			`min_lr = args.learning_rate / 10`
MiniMind first open source 2024-08-28 16:41:44 +08:00
			`if it < warmup_iters:`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`return args.learning_rate * it / warmup_iters`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`if it > lr_decay_iters:`
			`return min_lr`
			`decay_ratio = (it - warmup_iters) / (lr_decay_iters - warmup_iters)`
			`assert 0 <= decay_ratio <= 1`
			`coeff = 0.5 * (1.0 + math.cos(math.pi * decay_ratio))`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`return min_lr + coeff * (args.learning_rate - min_lr)`
MiniMind first open source 2024-08-28 16:41:44 +08:00

添加了wandb 2024-09-23 20:11:45 +08:00			`def train_epoch(epoch, wandb):`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`start_time = time.time()`
			`for step, (X, Y, loss_mask) in enumerate(train_loader):`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`X = X.to(args.device)`
			`Y = Y.to(args.device)`
			`loss_mask = loss_mask.to(args.device)`

			`lr = get_lr(epoch * iter_per_epoch + step, args.epochs * iter_per_epoch)`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`for param_group in optimizer.param_groups:`
			`param_group['lr'] = lr`

			`with ctx:`
			`logits = model(X, Y).logits`
			`loss = F.cross_entropy(logits.view(-1, logits.size(-1)), Y.view(-1), ignore_index=0, reduction='none')`
			`loss_mask = loss_mask.view(-1)`
			`loss = torch.sum(loss * loss_mask) / loss_mask.sum()`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`loss = loss / args.accumulation_steps`
MiniMind first open source 2024-08-28 16:41:44 +08:00
			`scaler.scale(loss).backward()`

添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`if (step + 1) % args.accumulation_steps == 0:`
			`scaler.unscale_(optimizer)`
			`torch.nn.utils.clip_grad_norm_(model.parameters(), args.grad_clip)`
MiniMind first open source 2024-08-28 16:41:44 +08:00
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`scaler.step(optimizer)`
			`scaler.update()`
MiniMind first open source 2024-08-28 16:41:44 +08:00
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`optimizer.zero_grad(set_to_none=True)`
MiniMind first open source 2024-08-28 16:41:44 +08:00
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`if step % args.log_interval == 0:`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`spend_time = time.time() - start_time`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`Logger(`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`'Epoch:[{}/{}]({}/{}) loss:{:.3f} lr:{:.7f} epoch_Time:{}min:'.format(`
			`epoch,`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`args.epochs,`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`step,`
			`iter_per_epoch,`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`loss.item() * args.accumulation_steps,`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`optimizer.param_groups[-1]['lr'],`
			`spend_time / (step + 1) * iter_per_epoch // 60 - spend_time // 60))`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`if wandb is not None:`
			`wandb.log({"loss": loss.item() * args.accumulation_steps,`
			`"lr": optimizer.param_groups[-1]['lr'],`
			`"epoch_Time": spend_time / (step + 1) * iter_per_epoch // 60 - spend_time // 60})`

			`if (step + 1) % args.save_interval == 0:`
			`model.save_pretrained(args.save_dir)`
MiniMind first open source 2024-08-28 16:41:44 +08:00

			`def find_all_linear_names(model):`
			`cls = torch.nn.Linear`
			`lora_module_names = set()`
			`for name, module in model.named_modules():`
			`if isinstance(module, cls):`
			`names = name.split('.')`
			`lora_module_names.add(names[0] if len(names) == 1 else names[-1])`

			`return list(lora_module_names)`


			`def init_model():`
update wandb monitor 2024-09-23 22:14:52 +08:00			`model_name_or_path = "./minimind-v1-small"`
			`tokenizer_name_or_path = "./minimind-v1-small"`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`tokenizer = AutoTokenizer.from_pretrained(tokenizer_name_or_path, trust_remote_code=True, use_fast=False)`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`model = AutoModelForCausalLM.from_pretrained(model_name_or_path, trust_remote_code=True).to(args.device)`
MiniMind first open source 2024-08-28 16:41:44 +08:00
			`target_modules = find_all_linear_names(model)`
			`peft_config = LoraConfig(`
			`r=8,`
			`target_modules=target_modules`
			`)`
			`model = get_peft_model(model, peft_config)`
			`model.print_trainable_parameters()`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`model = model.to(args.device)`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`return model, tokenizer`


			`if __name__ == "__main__":`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`parser = argparse.ArgumentParser(description="MiniMind LoRA Fine-tuning")`
			`parser.add_argument("--out_dir", type=str, default="out", help="Output directory")`
			`parser.add_argument("--epochs", type=int, default=20, help="Number of epochs")`
update lora-sft 2024-10-11 17:43:52 +08:00			`parser.add_argument("--batch_size", type=int, default=32, help="Batch size")`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`parser.add_argument("--learning_rate", type=float, default=1e-4, help="Learning rate")`
			`parser.add_argument("--device", type=str, default="cuda:0" if torch.cuda.is_available() else "cpu", help="Device to use")`
			`parser.add_argument("--dtype", type=str, default="bfloat16", help="Data type")`
			`parser.add_argument("--use_wandb", action="store_true", help="Use Weights & Biases")`
			`parser.add_argument("--wandb_project", type=str, default="MiniMind-LoRA", help="Weights & Biases project name")`
			`parser.add_argument("--num_workers", type=int, default=0, help="Number of workers for data loading")`
			`parser.add_argument("--accumulation_steps", type=int, default=1, help="Gradient accumulation steps")`
			`parser.add_argument("--grad_clip", type=float, default=1.0, help="Gradient clipping threshold")`
			`parser.add_argument("--warmup_iters", type=int, default=1000, help="Number of warmup iterations")`
			`parser.add_argument("--log_interval", type=int, default=100, help="Logging interval")`
			`parser.add_argument("--save_interval", type=int, default=1000, help="Model saving interval")`

			`args = parser.parse_args()`

MiniMind first open source 2024-08-28 16:41:44 +08:00			`lm_config = LMConfig()`
			`max_seq_len = lm_config.max_seq_len`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`args.save_dir = os.path.join(args.out_dir)`
			`os.makedirs(args.save_dir, exist_ok=True)`
			`os.makedirs(args.out_dir, exist_ok=True)`
			`tokens_per_iter = args.batch_size * max_seq_len`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`torch.manual_seed(1337)`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`device_type = "cuda" if "cuda" in args.device else "cpu"`

			`args.wandb_run_name = f"MiniMind-LoRA-Epoch-{args.epochs}-BatchSize-{args.batch_size}-LearningRate-{args.learning_rate}"`
添加了wandb 2024-09-23 20:11:45 +08:00
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`ctx = nullcontext() if device_type == "cpu" else torch.cuda.amp.autocast()`

			`if args.use_wandb:`
添加了wandb 2024-09-23 20:11:45 +08:00			`import wandb`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`wandb.init(project=args.wandb_project, name=args.wandb_run_name)`
添加了wandb 2024-09-23 20:11:45 +08:00			`else:`
			`wandb = None`

MiniMind first open source 2024-08-28 16:41:44 +08:00			`model, tokenizer = init_model()`

update lora-sft 2024-10-11 17:43:52 +08:00			`df = pd.read_csv('./dataset/sft_data_single.csv')`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`df = df.sample(frac=1.0)`
			`train_ds = SFTDataset(df, tokenizer, max_length=max_seq_len)`
			`train_loader = DataLoader(`
			`train_ds,`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`batch_size=args.batch_size,`
			`pin_memory=True,`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`drop_last=False,`
			`shuffle=False,`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`num_workers=args.num_workers,`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`)`

fix dtype bug 2024-09-25 10:07:30 +08:00			`scaler = torch.cuda.amp.GradScaler(enabled=(args.dtype in ['float16', 'bfloat16']))`
update lora-sft 2024-10-11 17:43:52 +08:00			`optimizer = optim.Adam(`
			`filter(lambda p: p.requires_grad, model.parameters()),`
			`lr=args.learning_rate`
			`)`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00
MiniMind first open source 2024-08-28 16:41:44 +08:00			`if False and platform.system() != 'Windows' and float(torch.__version__.split('.')[0]) >= 2:`
添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`Logger("compiling the model... (takes a ~minute)")`
MiniMind first open source 2024-08-28 16:41:44 +08:00			`unoptimized_model = model`
			`model = torch.compile(model)`

添加了argparse，方便命令行输入参数 2024-09-24 12:41:58 +08:00			`iter_per_epoch = len(train_loader)`
			`for epoch in range(args.epochs):`
添加了wandb 2024-09-23 20:11:45 +08:00			`train_epoch(epoch, wandb)`