Yu Chengzhang
57d6d768e1
Experiment 1.4.2: 门控MLP融合串型连接验证连接方式对记忆库性能的影响
## 实验目标
验证连接方式是否是导致实验1.4.1性能下降的主要原因,通过将跳接(交叉注意力)
改为串型连接(门控MLP融合)来测试记忆库机制的有效性。
## 核心改进
- 保留Product Key Memory记忆选择机制
- 使用串型连接替代跳接连接
- 门控MLP融合替代交叉注意力
- 拼接h_attn和选中记忆进行处理
## 实验结果
- 训练Loss: 2.75 (vs 1.4.1的2.84, 1.4.0的2.43)
- 评估Loss: 2.33 (vs 1.4.1的7.68, 1.4.0的1.99)
- 生成质量: 6.2/10 (vs 1.4.1的2.0/10, 1.4.0的7.5/10)
- 训练时间: 15.4小时,GPU内存: ~22GB
## 关键发现
✅ 连接方式确实是性能差异的关键因素
✅ 门控MLP融合显著优于交叉注意力
✅ 记忆库机制本身可行,但需要优化记忆质量
## 技术实现
- 实现GatedMemoryFusion类替代CrossAttentionMemory
- 使用类SwiGLU的门控MLP结构
- 拼接输入维度: dim + num_selected * knowledge_dim
- 门控激活函数: SiLU + 元素级乘法
## 文件变更
- model/model_memory.py: 实现门控MLP融合机制
- run_file/experiment_1_4_2.sh: 实验执行脚本
- experiment/EXPERIMENT_1_4_2.md: 完整实验记录和分析
🤖 Generated with [Claude Code](https://claude.ai/code)
Co-Authored-By: Claude <noreply@anthropic.com>
2025-08-04 20:12:00 +08:00
..
2025-06-25 20:27:28 +08:00
2025-05-22 10:05:31 +08:00
2025-08-01 15:54:21 +08:00
2025-08-03 14:25:26 +08:00
2025-08-04 20:12:00 +08:00
2025-07-17 00:05:34 +08:00
2025-07-13 21:28:46 +08:00
2025-07-13 21:28:46 +08:00
2025-07-17 12:06:28 +08:00
2025-08-01 15:54:21 +08:00