From c59b8b3e26ff63441f69ba0fa7eb0bf56977830f Mon Sep 17 00:00:00 2001 From: gongjy <2474590974@qq.com> Date: Tue, 15 Oct 2024 15:04:38 +0800 Subject: [PATCH] update rlhf --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 951ff6e..e219825 100644 --- a/README.md +++ b/README.md @@ -299,7 +299,7 @@ streamlit run fast_inference.py > 第2种选择:[SkyPile-150B数据集](https://hf-mirror.com/datasets/Skywork/SkyPile-150B/tree/main/data) 的可公开访问部分包含约2.33亿个独立网页,每个网页平均包含1000多个汉字。数据集包括大约1500亿个令牌和620GB的纯文本数据。 **如果着急的话**,可以尝试只挑选SkyPile-150B的部分jsonl下载(并在./data_process.py中对文本tokenizer生成* - .bin文件),以便快速跑通预训练流程。 + .csv文件),以便快速跑通预训练流程。 ---