update readme's error

This commit is contained in:
gongjy 2024-08-28 18:05:42 +08:00
parent 79a616ac15
commit 6d6510eefc
2 changed files with 3 additions and 3 deletions

View File

@ -162,8 +162,8 @@ python 2-eval.py
因为LLM体积非常小为了避免模型头重脚轻词嵌入embedding层参数占整个LLM比太高所以词表长度需要选择比较小。
强大的开源模型例如01万物、千问、chatglm、mistral、Llama3等它们的tokenizer词表长度如下
| Tokenizer 模型 | 词表大小 | 来源 |
|--------------------|---------|------------|
| Tokenizer 模型 | 词表大小 | 来源 |
|--------------------|---------|------------|
| yi tokenizer | 64,000 | 01万物中国 |
| qwen2 tokenizer | 151,643 | 阿里云(中国) |
| glm tokenizer | 151,329 | 智谱AI中国 |

View File

@ -192,7 +192,7 @@ git clone https://github.com/jingyaogong/minimind.git
sizes:
| Tokenizer Model | Vocabulary Size | Source |
|----------------------|------------------|-----------------------|
|----------------------|------------------|-----------------------|
| yi tokenizer | 64,000 | 01-AI (China) |
| qwen2 tokenizer | 151,643 | Alibaba Cloud (China) |
| glm tokenizer | 151,329 | Zhipu AI (China) |