From 288ab3ccb8042a4fc3e2d8c93546e52ab8ffb37b Mon Sep 17 00:00:00 2001 From: gongjy <2474590974@qq.com> Date: Fri, 6 Sep 2024 10:48:30 +0800 Subject: [PATCH] update readme --- README.md | 44 +++++++++++++++++++------------------------- README_en.md | 3 ++- 2 files changed, 21 insertions(+), 26 deletions(-) diff --git a/README.md b/README.md index 3981458..4f571e2 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,3 @@ - -
![logo](./images/logo.png) @@ -35,14 +33,13 @@ ---
- - https://github.com/user-attachments/assets/88b98128-636e-43bc-a419-b1b1403c2055 - [Bilibili视频链接](https://www.bilibili.com/video/BV12dHPeqE72/?share_source=copy_web&vd_source=670c2504f88726f8cf4a21ef6147c0e8) - +https://github.com/user-attachments/assets/88b98128-636e-43bc-a419-b1b1403c2055 + +[Bilibili视频链接](https://www.bilibili.com/video/BV12dHPeqE72/?share_source=copy_web&vd_source=670c2504f88726f8cf4a21ef6147c0e8) +
- # 📌 Introduction 大语言模型(LLM)领域,如 GPT、LLaMA、GLM 等,虽然它们效果惊艳, @@ -85,10 +82,10 @@ 2024-09-01 (new🎉) - 更新MiniMind-V1 (108M)模型,采用minimind_tokenizer,预训练轮次3 + SFT轮次10,更充分训练,性能更强。 - + - 项目已部署至ModelScope创空间,可以在此网站上体验: -- [ModelScope在线体验](https://www.modelscope.cn/studios/gongjy/minimind) +- [ModelScope在线体验](https://www.modelscope.cn/studios/gongjy/minimind) @@ -116,7 +113,7 @@ Hugging Face [MiniMind (HuggingFace)](https://huggingface.co/collections/jingyaogong/minimind-66caf8d999f5c7fa64f399e5) - + Hugging Face Logo [MiniMind (ModelScope)](https://www.modelscope.cn/models/gongjy/MiniMind-V1) @@ -132,11 +129,14 @@ git clone https://huggingface.co/jingyaogong/minimind-v1 # step 2 python 2-eval.py ``` + 或者启动streamlit,启动网页聊天界面 + ```bash # or step 3, use streamlit streamlit run fast_inference.py ``` + ![](./images/streamlit.png)
@@ -214,7 +214,7 @@ streamlit run fast_inference.py 强大的开源模型例如01万物、千问、chatglm、mistral、Llama3等,它们的tokenizer词表长度如下: | Tokenizer 模型 | 词表大小 | 来源 | - |--------------------|---------|------------| + |--------------------|---------|------------| | yi tokenizer | 64,000 | 01万物(中国) | | qwen2 tokenizer | 151,643 | 阿里云(中国) | | glm tokenizer | 151,329 | 智谱AI(中国) | @@ -230,7 +230,8 @@ streamlit run fast_inference.py --- -- 📙【Pretrain数据】:[seq-monkey通用文本数据集](https://github.com/mobvoi/seq-monkey-data/blob/main/docs/pretrain_open_corpus.md) +- +📙【Pretrain数据】:[seq-monkey通用文本数据集](https://github.com/mobvoi/seq-monkey-data/blob/main/docs/pretrain_open_corpus.md) 是由多种公开来源的数据(如网页、百科、博客、开源代码、书籍等)汇总清洗而成。 整理成统一的JSONL格式,并经过了严格的筛选和去重,确保数据的全面性、规模、可信性和高质量。 总量大约在10B token,适合中文大语言模型的预训练。 @@ -376,7 +377,7 @@ CPU: Intel(R) Core(TM) i9-10980XE CPU @ 3.00GHz | minimind-small | 56M | d_model=640
n_layers=8 | [链接](https://pan.baidu.com/s/1nJuOpnu5115FDuz6Ewbeqg?pwd=6666) | [链接](https://pan.baidu.com/s/1lRX0IcpjNFSySioeCfifRQ?pwd=6666) | [链接](https://pan.baidu.com/s/1LzVxBpL0phtGUH267Undqw?pwd=6666) | | minimind | 218M | d_model=1024
n_layers=16 | [链接](https://pan.baidu.com/s/1jzA7uLEi-Jen2fW5olCmEg?pwd=6666) | [链接](https://pan.baidu.com/s/1Hvt0Q_UB_uW2sWTw6w1zRQ?pwd=6666) | [链接](https://pan.baidu.com/s/1fau9eat3lXilnrG3XNhG5Q?pwd=6666) | | minimind-MoE | 166M | d_model=1024
n_layers=8
share+route=2+4 | [链接](https://pan.baidu.com/s/11CneDVTkw2Y6lNilQX5bWw?pwd=6666) | [链接](https://pan.baidu.com/s/1fRq4MHZec3z-oLK6sCzj_A?pwd=6666) | [链接](https://pan.baidu.com/s/1HC2KSM_-RHRtgv7ZDkKI9Q?pwd=6666) | -| minimind-V1 | 108M | d_model=768
n_layers=16 | - | [链接](https://pan.baidu.com/s/1p713loS7EfwHQf3G9eYI3Q?pwd=6666) | [链接](https://pan.baidu.com/s/12iHGpAs6R0kqsOnGtgK6vQ?pwd=6666) | +| minimind-V1 | 108M | d_model=768
n_layers=16 | - | [链接](https://pan.baidu.com/s/1p713loS7EfwHQf3G9eYI3Q?pwd=6666) | [链接](https://pan.baidu.com/s/12iHGpAs6R0kqsOnGtgK6vQ?pwd=6666) | --- @@ -554,7 +555,8 @@ MobileLLM提出架构的深度比宽度更重要,「深而窄」的「瘦长 * minimind-MoE(0.16B)表现很差,甚至不如它同配置的dense模型minimind(0.05B) ,其实这并非MoE的锅。同样是因为偷懒提前kill腾出资源给小模型,但是MoE模型多专家模式需要的训练轮次本来就需要酌情更高,在epochs设置为2时训练的极其不充分。minimind不久前实验阶段在Yi tokenizer上试验过MoE的充分训练版本,可以做到比dense表现肉眼可见的好。现在先这样了hh,日后腾出服务器再训练更新v2 v3版本。 -* F模型的回答看起来是这里最完美的,尽管存在些许幻觉瞎编的情况。但GPT-4o和kimi的评分都一致认为它“信息过度冗长,且有重复内容,存在幻觉”。其实这种评价太严格了,100个字中有10个字是幻觉,就很容易把它归到0分。由于F模型训练文本默认长度更长,数据集大得多,所以回答的看起来很完备,在体积近似的情况下,数据比模型更重要得多。 +* +F模型的回答看起来是这里最完美的,尽管存在些许幻觉瞎编的情况。但GPT-4o和kimi的评分都一致认为它“信息过度冗长,且有重复内容,存在幻觉”。其实这种评价太严格了,100个字中有10个字是幻觉,就很容易把它归到0分。由于F模型训练文本默认长度更长,数据集大得多,所以回答的看起来很完备,在体积近似的情况下,数据比模型更重要得多。 > 🙋‍♂️个人主观评价:F>D>A≈B>C>E @@ -673,7 +675,8 @@ minimind模型本身没有使用较大的数据集训练,也没有针对回答 * [./export_model.py](./export_model.py)可以导出模型到transformers格式,推送到huggingface -* MiniMind的huggingface集合地址:[MiniMind](https://huggingface.co/collections/jingyaogong/minimind-66caf8d999f5c7fa64f399e5) +* +MiniMind的huggingface集合地址:[MiniMind](https://huggingface.co/collections/jingyaogong/minimind-66caf8d999f5c7fa64f399e5) --- @@ -725,24 +728,18 @@ minimind模型本身没有使用较大的数据集训练,也没有针对回答 ![images](./images/fastgpt.png) - - - - # 📌 Acknowledge > [!NOTE] > 如果您觉得 `MiniMind`对您有所帮助,请在 GitHub 上给一个⭐
> 您的支持是我们持续改进项目的动力!篇幅不短水平有限难免纰漏,欢迎在issue交流和指正。 - - ## 🤝贡献者
- + ## 🫶感谢支持! @@ -751,11 +748,8 @@ minimind模型本身没有使用较大的数据集训练,也没有针对回答 [![Forkers repo roster for @jingyaogong/minimind](https://reporoster.com/forks/jingyaogong/minimind)](https://github.com/jingyaogong/minimind/network/members) - ![Star History Chart](https://api.star-history.com/svg?repos=jingyaogong/minimind&type=Date) - - # License This repository is licensed under the [Apache-2.0 License](LICENSE). diff --git a/README_en.md b/README_en.md index c4c61c8..d6bcd9c 100644 --- a/README_en.md +++ b/README_en.md @@ -816,8 +816,9 @@ This suggests that the model performs well in logical reasoning, foundational sc ## 🤝Contributors
+ - +