AI 大模型的「中文税」：中文比英文更费 Token，为什么？

📌 一句话摘要

本文通过实测数据揭示了不同大模型对中文和英文的 Token 消耗差异，深入分析了 Tokenizer 算法、BPE 分词原理以及 Unicode 编码对中文处理效率的影响，并探讨了「中文税」背后的技术根源与历史巧合。

📝 详细摘要

文章从 Claude Opus 4.7 发布后用户对 Token 消耗激增的抱怨切入，引出关于「中文税」的讨论。作者通过 22 段平行文本在 5 个 Tokenizer（Claude 4.6/4.7、GPT-4o、Qwen 3.6、DeepSeek-V3）上的实测，验证了三个核心结论：在 Claude 和 GPT 上中文比英文更费 Token，而在国产模型上中文反而更省；Opus 4.7 的 Tokenizer 升级主要影响英文，中文几乎不受影响；古文确实比现代汉语更省 Token。文章深入解释了 BPE 算法的原理，指出 Tokenizer 的词表设计决定了中文处理效率——以英文为默认值的模型将中文视为「外来者」，而国产模型从设计之初就为中文优化。文章还引用 MIT 论文揭示了 Token 切分粒度与汉字部首信息保留之间的微妙关系：切碎汉字虽成本高，但保留了部首线索；合并为整字虽效率高，却可能丢失部分语义信息。最后，文章将「中文税」问题与林语堂的明快打字机历史联系起来，指出中文始终面临「如何接入一套为罗马字母设计的基础设施」这一结构性挑战。

💡 主要观点

- 中文在 Claude 和 GPT 上比英文更费 Token，在国产模型上反而更省。 实测数据显示，Claude 旧 Tokenizer 下中文 Token 消耗比英文高 11%-64%，GPT-4o 稍好但仍偏高；而 Qwen 和 DeepSeek 的中文 Token 消耗比英文低，DeepSeek 最低可节省约三分之一。

Token 消耗差异的根源在于 Tokenizer 词表设计，BPE 算法以英文语料频率为默认值。 BPE 算法根据训练语料中字符组合的频率合并 Token。英文主导的语料下，中文字符因出现频率低而被拆成多个字节 Token；国产模型则从设计之初就将常用汉字和词组作为整词纳入词表。

Token 切分粒度与汉字部首信息保留之间存在微妙权衡。 MIT 论文发现，当汉字被切碎为多个 Token 时，模型识别共享部首的准确率更高；合并为整字 Token 后，部首信息被封装在不透明的编号中，模型失去了通过字节序列获取这一线索的能力。

古文比现代汉语更省 Token，但推理负担并未减轻。 古文用字精炼，高频字符在词表中都有独立位置，编码效率高。但模型需要从更少的字符中推断更复杂的语义，推理消耗反而上升，理解准确度也可能下降。

💬 文章金句

- 模型不是中性的，它内置了语言偏好。

每一种 tokenizer 都在为某个默认值优化，代价藏在了别处。
中文始终面对着一个问题：如何接入一套罗马字母形成的基础设施。
有些能力是设计出来的，有些只是碰巧没有被删掉。
你能优化你设计过的部分，但你没法优化你不知道自己拥有的部分。

📊 文章信息

AI 初评：88

来源：极客公园

作者：极客公园

分类：人工智能

语言：中文

阅读时间：26 分钟

字数：6345

标签：中文税, Tokenizer, BPE, 大语言模型, Token 消耗

阅读完整文章

AI 大模型的「中文税」：中文比英文更费 Token，为什么？

🤖 問 AI