update images
This commit is contained in:
parent
f475e4e407
commit
45c0d12049
@ -1158,7 +1158,6 @@ DPO和在线PPO的区别在于reject和chosen都是离线准备的,和minimind
|
||||
| 7 | E | 22 | 23 | 15 | 14 | 74 |
|
||||
| 8 | G | 10 | 12 | 10 | 10 | 42 |
|
||||
|
||||
---
|
||||
|
||||
### 👉主观效果总结
|
||||
|
||||
@ -1172,6 +1171,8 @@ DPO和在线PPO的区别在于reject和chosen都是离线准备的,和minimind
|
||||
|
||||
* 再复诵一遍经久不衰的Scaling Law: 参数越大,训练数据越多模型的性能越强。
|
||||
|
||||
---
|
||||
|
||||
## Ⅲ Objective Benchmark
|
||||
|
||||
下面就到喜闻乐见的benchmark刷榜测试环节,就不找乐子和qwen、glm级别的中文模型做对比了。
|
||||
|
Loading…
x
Reference in New Issue
Block a user