From fa6dd96e9320059552d0cf5e817c5c76ce1b84be Mon Sep 17 00:00:00 2001 From: gongjy <2474590974@qq.com> Date: Wed, 28 Aug 2024 18:08:00 +0800 Subject: [PATCH] update readme's error --- README.md | 6 ++---- README_en.md | 2 +- 2 files changed, 3 insertions(+), 5 deletions(-) diff --git a/README.md b/README.md index 9d61ddc..276baf8 100644 --- a/README.md +++ b/README.md @@ -498,9 +498,7 @@ MobileLLM提出架构的深度比宽度更重要,「深而窄」的「瘦长 * minimind-MoE(0.16B)表现很差,甚至不如它同配置的dense模型minimind(0.05B) ,其实这并非MoE的锅。同样是因为偷懒提前kill腾出资源给小模型,但是MoE模型多专家模式需要的训练轮次本来就需要酌情更高,在epochs设置为2时训练的极其不充分。minimind不久前实验阶段在Yi tokenizer上试验过MoE的充分训练版本,可以做到比dense表现肉眼可见的好。现在先这样了hh,日后腾出服务器再训练更新v2 v3版本。 -* - -F模型的回答看起来是这里最完美的,尽管存在些许幻觉瞎编的情况。但GPT-4o和kimi的评分都一致认为它“信息过度冗长,且有重复内容,存在幻觉”。其实这种评价太严格了,100个字中有10个字是幻觉,就很容易把它归到0分。由于F模型训练文本默认长度更长,数据集大得多,所以回答的看起来很完备,在体积近似的情况下,数据比模型更重要得多。 +* F模型的回答看起来是这里最完美的,尽管存在些许幻觉瞎编的情况。但GPT-4o和kimi的评分都一致认为它“信息过度冗长,且有重复内容,存在幻觉”。其实这种评价太严格了,100个字中有10个字是幻觉,就很容易把它归到0分。由于F模型训练文本默认长度更长,数据集大得多,所以回答的看起来很完备,在体积近似的情况下,数据比模型更重要得多。 > 🙋‍♂️个人主观评价:F>D>A≈B>C>E @@ -515,7 +513,7 @@ C-Eval评测代码见:`./eval_ceval.py`, 而直接判断`A`,`B`,`C`,`D`四个字母对应token预测概率,取最大的作为回答答案,与标准答案计算正确率。 minimind模型本身没有使用较大的数据集训练,也没有针对回答选择题的指令做微调,测评结果可以当个参考。 -* 例如minimind-small的结果细项: +> 例如minimind-small的结果细项: | 类别 | 正确数量/总题数 | 正确率 | |---------------------------------|----------------|------------| diff --git a/README_en.md b/README_en.md index 4c32a2f..cb34b2b 100644 --- a/README_en.md +++ b/README_en.md @@ -598,7 +598,7 @@ four tokens `A`, `B`, `C`, `D`, and choose the one with the highest probability against the standard answer. Note that minimind models were not trained on larger datasets or fine-tuned for question answering, so results should be considered as reference only. -* For example, detailed results for minimind-small: +>For example, detailed results for minimind-small: | category | Correct/Total | Accuracy | |----------------------------------------------|---------------|----------|