update readme

This commit is contained in:
gongjy 2024-09-06 10:55:52 +08:00
parent 288ab3ccb8
commit ddf5b3d271

View File

@ -213,14 +213,14 @@ streamlit run fast_inference.py
因为LLM体积非常小为了避免模型头重脚轻词嵌入embedding层参数占整个LLM比太高所以词表长度需要选择比较小。
强大的开源模型例如01万物、千问、chatglm、mistral、Llama3等它们的tokenizer词表长度如下
| Tokenizer 模型 | 词表大小 | 来源 |
|--------------------|---------|------------|
| yi tokenizer | 64,000 | 01万物中国 |
| qwen2 tokenizer | 151,643 | 阿里云(中国) |
| glm tokenizer | 151,329 | 智谱AI中国 |
| mistral tokenizer | 32,000 | Mistral AI法国 |
| llama3 tokenizer | 128,000 | Meta美国 |
| minimind tokenizer | 6400 | 自定义 |
| Tokenizer 模型 | 词表大小 | 来源 |
|------------------------|---------------|------------|
| yi tokenizer | 64,000 | 01万物中国 |
| qwen2 tokenizer | 151,643 | 阿里云(中国) |
| glm tokenizer | 151,329 | 智谱AI中国 |
| mistral tokenizer | 32,000 | Mistral AI法国 |
| llama3 tokenizer | 128,000 | Meta美国 |
| minimind tokenizer | 6400 | 自定义 |
> 尽管Mistral中文词语占比很少编解码效率弱于qwen2、glm等中文友好型分词器。
但MiniMind这里选择了mistral tokenizer作为分词器以保持整体参数轻量避免头重脚轻因为mistral的词表大小只有32,000。
@ -230,11 +230,10 @@ streamlit run fast_inference.py
---
-
📙【Pretrain数据】[seq-monkey通用文本数据集](https://github.com/mobvoi/seq-monkey-data/blob/main/docs/pretrain_open_corpus.md)
是由多种公开来源的数据(如网页、百科、博客、开源代码、书籍等)汇总清洗而成。
整理成统一的JSONL格式并经过了严格的筛选和去重确保数据的全面性、规模、可信性和高质量。
总量大约在10B token适合中文大语言模型的预训练。
- 📙【Pretrain数据】
[seq-monkey通用文本数据集](https://github.com/mobvoi/seq-monkey-data/blob/main/docs/pretrain_open_corpus.md)
是由多种公开来源的数据如网页、百科、博客、开源代码、书籍等汇总清洗而成。整理成统一的JSONL格式并经过了严格的筛选和去重确保数据的全面性、规模、可信性和高质量。总量大约在10B
token适合中文大语言模型的预训练。
---
@ -555,8 +554,10 @@ MobileLLM提出架构的深度比宽度更重要「深而窄」的「瘦长
* minimind-MoE(0.16B)表现很差甚至不如它同配置的dense模型minimind(0.05B)
其实这并非MoE的锅。同样是因为偷懒提前kill腾出资源给小模型但是MoE模型多专家模式需要的训练轮次本来就需要酌情更高在epochs设置为2时训练的极其不充分。minimind不久前实验阶段在Yi
tokenizer上试验过MoE的充分训练版本可以做到比dense表现肉眼可见的好。现在先这样了hh日后腾出服务器再训练更新v2 v3版本。
*
F模型的回答看起来是这里最完美的尽管存在些许幻觉瞎编的情况。但GPT-4o和kimi的评分都一致认为它“信息过度冗长且有重复内容存在幻觉”。其实这种评价太严格了100个字中有10个字是幻觉就很容易把它归到0分。由于F模型训练文本默认长度更长数据集大得多所以回答的看起来很完备在体积近似的情况下数据比模型更重要得多。
* F模型的回答看起来是这里最完美的尽管存在些许幻觉瞎编的情况。但GPT-4o和kimi的评分都一致认为它“信息过度冗长且有重复内容存在幻觉”。
其实这种评价太严格了100个字中有10个字是幻觉就很容易把它归到0分。由于F模型训练文本默认长度更长数据集大得多所以回答的看起来很完备在体积近似的情况下数据比模型更重要得多。
> 🙋个人主观评价F>D>A≈B>C>E
@ -675,15 +676,15 @@ minimind模型本身没有使用较大的数据集训练也没有针对回答
* [./export_model.py](./export_model.py)可以导出模型到transformers格式推送到huggingface
*
MiniMind的huggingface集合地址[MiniMind](https://huggingface.co/collections/jingyaogong/minimind-66caf8d999f5c7fa64f399e5)
* MiniMind的huggingface集合地址
[MiniMind](https://huggingface.co/collections/jingyaogong/minimind-66caf8d999f5c7fa64f399e5)
---
### API推理
[./my_openai_api.py](./my_openai_api.py)完成了openai_api的聊天接口方便将自己的模型接入第三方UI
例如fastgpt、OpenWebUI等
* [my_openai_api.py](./my_openai_api.py)完成了openai_api的聊天接口方便将自己的模型接入第三方UI
例如fastgpt、OpenWebUI等
* 从[Huggingface](https://huggingface.co/collections/jingyaogong/minimind-66caf8d999f5c7fa64f399e5)下载模型权重文件
```