Minimind

Author	SHA1	Message	Date
Yu Chengzhang	cf9acb2064	Experiment 1.4.6: Token-based Memory架构实现完成实验1.4.6的Token-based Memory架构，实现以下改进： - 记忆库从连续特征向量存储改为离散token ID存储 - 实现双向编解码机制（embedding→特征→output→token） - 优化EMA更新参数：ema_decay=0.9, ema_update_freq=5 - 显著降低GPU显存使用：从23GB降至13GB（-43%） - 推理Loss从2.6382降至2.6142（改善0.9%）技术亮点： - 有效表示维度从128提升至4096（32x增强） - 稀疏缓存机制避免内存爆炸 - 立即压缩策略平衡显存和性能 - 人类可解释的记忆内容 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com>	2025-08-14 23:04:52 +08:00
Yu Chengzhang	a7fe947a35	Experiment 1.4.5:使用VQ-VAE的EMA来更新数据库	2025-08-09 10:47:35 +08:00
Yu Chengzhang	e61d92c4bc	Experiment 1.4.4:负载平衡有效	2025-08-07 11:43:23 +08:00
Yu Chengzhang	fcdbd220a8	Experiment 1.4.3:极度过拟合	2025-08-06 11:55:36 +08:00
Yu Chengzhang	57d6d768e1	Experiment 1.4.2: 门控MLP融合串型连接验证连接方式对记忆库性能的影响 ## 实验目标验证连接方式是否是导致实验1.4.1性能下降的主要原因，通过将跳接（交叉注意力）改为串型连接（门控MLP融合）来测试记忆库机制的有效性。 ## 核心改进 - 保留Product Key Memory记忆选择机制 - 使用串型连接替代跳接连接 - 门控MLP融合替代交叉注意力 - 拼接h_attn和选中记忆进行处理 ## 实验结果 - 训练Loss: 2.75 (vs 1.4.1的2.84, 1.4.0的2.43) - 评估Loss: 2.33 (vs 1.4.1的7.68, 1.4.0的1.99) - 生成质量: 6.2/10 (vs 1.4.1的2.0/10, 1.4.0的7.5/10) - 训练时间: 15.4小时，GPU内存: ~22GB ## 关键发现 ✅ 连接方式确实是性能差异的关键因素 ✅ 门控MLP融合显著优于交叉注意力 ✅ 记忆库机制本身可行，但需要优化记忆质量 ## 技术实现 - 实现GatedMemoryFusion类替代CrossAttentionMemory - 使用类SwiGLU的门控MLP结构 - 拼接输入维度: dim + num_selected * knowledge_dim - 门控激活函数: SiLU + 元素级乘法 ## 文件变更 - model/model_memory.py: 实现门控MLP融合机制 - run_file/experiment_1_4_2.sh: 实验执行脚本 - experiment/EXPERIMENT_1_4_2.md: 完整实验记录和分析 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com>	2025-08-04 20:12:00 +08:00
Yu Chengzhang	bba325ef7e	Experiment 1_4_1	2025-08-03 14:25:26 +08:00

6 Commits