29 Commits

Author SHA1 Message Date
fcdbd220a8 Experiment 1.4.3:极度过拟合 2025-08-06 11:55:36 +08:00
57d6d768e1 Experiment 1.4.2: 门控MLP融合串型连接验证连接方式对记忆库性能的影响
## 实验目标
验证连接方式是否是导致实验1.4.1性能下降的主要原因,通过将跳接(交叉注意力)
改为串型连接(门控MLP融合)来测试记忆库机制的有效性。

## 核心改进
- 保留Product Key Memory记忆选择机制
- 使用串型连接替代跳接连接
- 门控MLP融合替代交叉注意力
- 拼接h_attn和选中记忆进行处理

## 实验结果
- 训练Loss: 2.75 (vs 1.4.1的2.84, 1.4.0的2.43)
- 评估Loss: 2.33 (vs 1.4.1的7.68, 1.4.0的1.99)
- 生成质量: 6.2/10 (vs 1.4.1的2.0/10, 1.4.0的7.5/10)
- 训练时间: 15.4小时,GPU内存: ~22GB

## 关键发现
 连接方式确实是性能差异的关键因素
 门控MLP融合显著优于交叉注意力
 记忆库机制本身可行,但需要优化记忆质量

## 技术实现
- 实现GatedMemoryFusion类替代CrossAttentionMemory
- 使用类SwiGLU的门控MLP结构
- 拼接输入维度: dim + num_selected * knowledge_dim
- 门控激活函数: SiLU + 元素级乘法

## 文件变更
- model/model_memory.py: 实现门控MLP融合机制
- run_file/experiment_1_4_2.sh: 实验执行脚本
- experiment/EXPERIMENT_1_4_2.md: 完整实验记录和分析

🤖 Generated with [Claude Code](https://claude.ai/code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-08-04 20:12:00 +08:00
bba325ef7e Experiment 1_4_1 2025-08-03 14:25:26 +08:00
c0424644f5 Experiment_1_4_0 2025-08-01 15:54:21 +08:00
d9d281967e 修复了一些bug 2025-07-17 12:06:28 +08:00
d701003f8a pretrain过程中会打印10个token以方便观察 2025-07-17 00:05:34 +08:00
2797b76939 experiment_1.3.0-1.3.2 2025-07-13 21:28:46 +08:00
5e464bbd3f 添加了对于多种模型的支持 2025-07-12 18:00:53 +08:00
75265f6652 使用分类来获取谓词 2025-07-05 22:18:32 +08:00
fcab661af9 更新了配置文件 2025-06-30 19:51:07 +08:00
31eff0e3de 更新了两个模型 2025-06-30 18:54:42 +08:00
74e9293c9a DynamicKV-LLM Extra v1.0.0 2025-06-29 16:01:36 +08:00
d6617702a5 DynamicKV-LLM Pretrain v1.2.2:新数据集;使用uv;消除内存泄漏 2025-06-25 20:27:28 +08:00
770c34f0e3 DynamicKV-LLM Pretrain v1.2.1 2025-06-08 02:20:36 +00:00
1678e739b6 DynamicKV-LLM Pretrain v1.2.0 2025-06-07 02:41:45 +00:00
000e17a93f 修正了key分解、负载均衡等错误 2025-06-06 11:25:59 +08:00
64e92473c3 数据初始化使用了缓存 2025-05-29 20:29:45 +08:00
6932e5fa8e 使用TREx数据集生成数据库初始化问题 2025-05-29 19:30:19 +08:00
c5d0a3aba3 更新了忽视列表 2025-05-29 19:28:39 +08:00
67c632d010 update 2025-05-27 11:46:18 +08:00
c96a9c35d5 对数据库进行了初始化 2025-05-26 23:09:03 +08:00
c09cd63794 基于trex数据集构建知识库单初始值预处理 2025-05-23 15:47:17 +08:00
Jax922
45da3b383b DynamicKV-LLM Pretrain v1.1.2 2025-05-23 01:18:08 +08:00
00d3c24e03 构建了数据库解码模型 2025-05-22 11:32:15 +08:00
Jax922
feeccf733c DynamicKV-LLM Pretrain v1.1.1 2025-05-22 10:05:31 +08:00
Jax922
42e3d38a3f 使用变量代替固定值 2025-05-21 08:14:36 +00:00
Gary
d7fe504e1e update 2025-05-16 08:38:59 +00:00
Jax922
5841f8b4e5 DynamicKV-LLM Pretrain v1.1.0 2025-05-14 00:42:50 +08:00
089afd6728 DynamicKV-LLM Pretrain v1.1.0 2025-05-14 00:01:40 +08:00