diff --git a/README.md b/README.md index c08314c..b8e788c 100644 --- a/README.md +++ b/README.md @@ -1158,7 +1158,6 @@ DPO和在线PPO的区别在于reject和chosen都是离线准备的,和minimind | 7 | E | 22 | 23 | 15 | 14 | 74 | | 8 | G | 10 | 12 | 10 | 10 | 42 | ---- ### 👉主观效果总结 @@ -1172,6 +1171,8 @@ DPO和在线PPO的区别在于reject和chosen都是离线准备的,和minimind * 再复诵一遍经久不衰的Scaling Law: 参数越大,训练数据越多模型的性能越强。 +--- + ## Ⅲ Objective Benchmark 下面就到喜闻乐见的benchmark刷榜测试环节,就不找乐子和qwen、glm级别的中文模型做对比了。