update rlhf

This commit is contained in:
gongjy 2024-10-15 15:04:38 +08:00
parent 11d5cadb9c
commit c59b8b3e26

View File

@ -299,7 +299,7 @@ streamlit run fast_inference.py
> 第2种选择[SkyPile-150B数据集](https://hf-mirror.com/datasets/Skywork/SkyPile-150B/tree/main/data)
的可公开访问部分包含约2.33亿个独立网页每个网页平均包含1000多个汉字。数据集包括大约1500亿个令牌和620GB的纯文本数据。
**如果着急的话**可以尝试只挑选SkyPile-150B的部分jsonl下载并在./data_process.py中对文本tokenizer生成*
.bin文件),以便快速跑通预训练流程。
.csv文件),以便快速跑通预训练流程。
---