本文通过实测数据揭示了不同大模型对中文和英文的 Token 消耗差异,深入分析了 Tokenizer 算法、BPE 分词原理以及 Unicode 编码对中文处理效率的影响,并探讨了「中文税」背后的技术根源与历史巧合。
📝 详细摘要
文章从 Claude Opus 4.7 发布后用户对 Token 消耗激增的抱怨切入,引出关于「中文税」的讨论。作者通过 22 段平行文本在 5 个 Tokenizer(Claude 4.6/4.7、GPT-4o、Qwen 3.6、DeepSeek-V3)上的实测,验证了三个核心结论:在 Claude 和 GPT 上中文比英文更费 Token,而在国产模型上中文反而更省;Opus 4.7 的 Tokenizer 升级主要影响英文,中文几乎不受影响;古文确实比现代汉语更省 Token。文章深入解释了 BPE 算法的原理,指出 Tokenizer 的词表设计决定了中文处理效率——以英文为默认值的模型将中文视为「外来者」,而国产模型从设计之初就为中文优化。文章还引用 MIT 论文揭示了 Token 切分粒度与汉字部首信息保留之间的微妙关系:切碎汉字虽成本高,但保留了部首线索;合并为整字虽效率高,却可能丢失部分语义信息。最后,文章将「中文税」问题与林语堂的明快打字机历史联系起来,指出中文始终面临「如何接入一套为罗马字母设计的基础设施」这一结构性挑战。
💡 主要观点
- 中文在 Claude 和 GPT 上比英文更费 Token,在国产模型上反而更省。 实测数据显示,Claude 旧 Tokenizer 下中文 Token 消耗比英文高 11%-64%,GPT-4o 稍好但仍偏高;而 Qwen 和 DeepSeek 的中文 Token 消耗比英文低,DeepSeek 最低可节省约三分之一。
💬 文章金句
- 模型不是中性的,它内置了语言偏好。
- 每一种 tokenizer 都在为某个默认值优化,代价藏在了别处。
- 中文始终面对着一个问题:如何接入一套罗马字母形成的基础设施。
- 有些能力是设计出来的,有些只是碰巧没有被删掉。
- 你能优化你设计过的部分,但你没法优化你不知道自己拥有的部分。
📊 文章信息
AI 初评:88
来源:极客公园
作者:极客公园
分类:人工智能
语言:中文
阅读时间:26 分钟
字数:6345
标签: 中文税, Tokenizer, BPE, 大语言模型, Token 消耗