update readme's error

2024-08-28 18:08:00 +08:00 · 2024-08-28 18:08:00 +08:00 · fa6dd96e93
commit fa6dd96e93
parent 6d6510eefc
2 changed files with 3 additions and 5 deletions
--- a/README.md
+++ b/README.md
@ -498,9 +498,7 @@ MobileLLM提出架构的深度比宽度更重要，「深而窄」的「瘦长
    * minimind-MoE(0.16B)表现很差，甚至不如它同配置的dense模型minimind(0.05B)
      ，其实这并非MoE的锅。同样是因为偷懒提前kill腾出资源给小模型，但是MoE模型多专家模式需要的训练轮次本来就需要酌情更高，在epochs设置为2时训练的极其不充分。minimind不久前实验阶段在Yi
      tokenizer上试验过MoE的充分训练版本，可以做到比dense表现肉眼可见的好。现在先这样了hh，日后腾出服务器再训练更新v2 v3版本。
-*
-
-F模型的回答看起来是这里最完美的，尽管存在些许幻觉瞎编的情况。但GPT-4o和kimi的评分都一致认为它“信息过度冗长，且有重复内容，存在幻觉”。其实这种评价太严格了，100个字中有10个字是幻觉，就很容易把它归到0分。由于F模型训练文本默认长度更长，数据集大得多，所以回答的看起来很完备，在体积近似的情况下，数据比模型更重要得多。
+* F模型的回答看起来是这里最完美的，尽管存在些许幻觉瞎编的情况。但GPT-4o和kimi的评分都一致认为它“信息过度冗长，且有重复内容，存在幻觉”。其实这种评价太严格了，100个字中有10个字是幻觉，就很容易把它归到0分。由于F模型训练文本默认长度更长，数据集大得多，所以回答的看起来很完备，在体积近似的情况下，数据比模型更重要得多。

 > 🙋‍♂️个人主观评价：F>D>A≈B>C>E

@ -515,7 +513,7 @@ C-Eval评测代码见：`./eval_ceval.py`，
 而直接判断`A`,`B`,`C`,`D`四个字母对应token预测概率，取最大的作为回答答案，与标准答案计算正确率。
 minimind模型本身没有使用较大的数据集训练，也没有针对回答选择题的指令做微调，测评结果可以当个参考。

-* 例如minimind-small的结果细项：
+> 例如minimind-small的结果细项：

 | 类别                            | 正确数量/总题数 | 正确率      |
 |---------------------------------|----------------|------------|
--- a/README_en.md
+++ b/README_en.md
@ -598,7 +598,7 @@ four tokens `A`, `B`, `C`, `D`, and choose the one with the highest probability
 against the standard answer. Note that minimind models were not trained on larger datasets or fine-tuned for question
 answering, so results should be considered as reference only.

-* For example, detailed results for minimind-small:
+>For example, detailed results for minimind-small:

 | category                                     | Correct/Total | Accuracy |
 |----------------------------------------------|---------------|----------|