Minimind

Author	SHA1	Message	Date
Yu Chengzhang	44fe6259ec	Experiment 1.4.7: Memory Bank文本初始化 + 部分冻结机制 ## 主要改进 - 🔥 Memory Bank文本初始化：使用sentence_trex_data.json真实文本数据 - 🔥 部分冻结机制：新增freeze_ratio=0.2，保护20%重要记忆条目 - 📊 性能提升：推理Loss改善5.5% (2.4699 vs 2.6142) ## 核心变更 ### model/LMConfig.py - 新增freeze_ratio参数，支持Memory Bank条目冻结控制 ### model/model_memory.py - 实现freeze_mask机制，随机冻结20%记忆条目 - EMA更新过滤：只更新未冻结条目，保护重要知识 - 统计信息增强：新增冻结条目数量和比例监控 ### train_pretrain_accelerate.py - model_memory完整初始化支持：文本数据处理、缓存机制 - sentence_trex_data.json文本tokenization和长度处理 - memory_bank_init缓存优化，提升重复实验效率 ### 实验文档 - experiment/EXPERIMENT_1_4_7.md：完整实验记录和结果分析 - run_file/experiment_1_4_7.sh：实验执行脚本 - CLAUDE.md：架构设计防护规则和模型版本管理规范 ## 实验结果 ✅ 文本初始化效果验证：Loss性能改善5.5% ✅ 冻结机制技术实现：209,715/1,048,576条目成功冻结 ❌ 生成连贯性仍需改进：架构级问题待解决 ## 下一步优化 - EOS token控制修复 - Cross-attention权重优化 - 生成参数调优(temperature/top_p) 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com>	2025-08-19 19:32:52 +08:00
Yu Chengzhang	cf9acb2064	Experiment 1.4.6: Token-based Memory架构实现完成实验1.4.6的Token-based Memory架构，实现以下改进： - 记忆库从连续特征向量存储改为离散token ID存储 - 实现双向编解码机制（embedding→特征→output→token） - 优化EMA更新参数：ema_decay=0.9, ema_update_freq=5 - 显著降低GPU显存使用：从23GB降至13GB（-43%） - 推理Loss从2.6382降至2.6142（改善0.9%）技术亮点： - 有效表示维度从128提升至4096（32x增强） - 稀疏缓存机制避免内存爆炸 - 立即压缩策略平衡显存和性能 - 人类可解释的记忆内容 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com>	2025-08-14 23:04:52 +08:00
Yu Chengzhang	a7fe947a35	Experiment 1.4.5:使用VQ-VAE的EMA来更新数据库	2025-08-09 10:47:35 +08:00
Yu Chengzhang	fcab661af9	更新了配置文件	2025-06-30 19:51:07 +08:00
iomgaa	770c34f0e3	DynamicKV-LLM Pretrain v1.2.1	2025-06-08 02:20:36 +00:00
iomgaa	000e17a93f	修正了key分解、负载均衡等错误	2025-06-06 11:25:59 +08:00
Gary	d7fe504e1e	update	2025-05-16 08:38:59 +00:00
iomgaa	089afd6728	DynamicKV-LLM Pretrain v1.1.0	2025-05-14 00:01:40 +08:00

8 Commits