update readme

This commit is contained in:
gongjy 2024-09-05 13:37:12 +08:00
parent 4e859bf3a5
commit 5ec12510e0

View File

@ -554,9 +554,7 @@ MobileLLM提出架构的深度比宽度更重要「深而窄」的「瘦长
* minimind-MoE(0.16B)表现很差甚至不如它同配置的dense模型minimind(0.05B)
其实这并非MoE的锅。同样是因为偷懒提前kill腾出资源给小模型但是MoE模型多专家模式需要的训练轮次本来就需要酌情更高在epochs设置为2时训练的极其不充分。minimind不久前实验阶段在Yi
tokenizer上试验过MoE的充分训练版本可以做到比dense表现肉眼可见的好。现在先这样了hh日后腾出服务器再训练更新v2 v3版本。
*
F模型的回答看起来是这里最完美的尽管存在些许幻觉瞎编的情况。但GPT-4o和kimi的评分都一致认为它“信息过度冗长且有重复内容存在幻觉”。其实这种评价太严格了100个字中有10个字是幻觉就很容易把它归到0分。由于F模型训练文本默认长度更长数据集大得多所以回答的看起来很完备在体积近似的情况下数据比模型更重要得多。
* F模型的回答看起来是这里最完美的尽管存在些许幻觉瞎编的情况。但GPT-4o和kimi的评分都一致认为它“信息过度冗长且有重复内容存在幻觉”。其实这种评价太严格了100个字中有10个字是幻觉就很容易把它归到0分。由于F模型训练文本默认长度更长数据集大得多所以回答的看起来很完备在体积近似的情况下数据比模型更重要得多。
> 🙋个人主观评价F>D>A≈B>C>E