← 回總覽

AI 大模型的「中文税」:中文比英文更费 Token,为什么?

📅 2026-05-03 12:05 极客公园 人工智能 2 分鐘 1703 字 評分: 88
中文税 Tokenizer BPE 大语言模型 Token 消耗
📌 一句话摘要 本文通过实测数据揭示了不同大模型对中文和英文的 Token 消耗差异,深入分析了 Tokenizer 算法、BPE 分词原理以及 Unicode 编码对中文处理效率的影响,并探讨了「中文税」背后的技术根源与历史巧合。 📝 详细摘要 文章从 Claude Opus 4.7 发布后用户对 Token 消耗激增的抱怨切入,引出关于「中文税」的讨论。作者通过 22 段平行文本在 5 个 Tokenizer(Claude 4.6/4.7、GPT-4o、Qwen 3.6、DeepSeek-V3)上的实测,验证了三个核心结论:在 Claude 和 GPT 上中文比英文更费 Token,而

📌 一句话摘要

本文通过实测数据揭示了不同大模型对中文和英文的 Token 消耗差异,深入分析了 Tokenizer 算法、BPE 分词原理以及 Unicode 编码对中文处理效率的影响,并探讨了「中文税」背后的技术根源与历史巧合。

📝 详细摘要

文章从 Claude Opus 4.7 发布后用户对 Token 消耗激增的抱怨切入,引出关于「中文税」的讨论。作者通过 22 段平行文本在 5 个 Tokenizer(Claude 4.6/4.7、GPT-4o、Qwen 3.6、DeepSeek-V3)上的实测,验证了三个核心结论:在 Claude 和 GPT 上中文比英文更费 Token,而在国产模型上中文反而更省;Opus 4.7 的 Tokenizer 升级主要影响英文,中文几乎不受影响;古文确实比现代汉语更省 Token。文章深入解释了 BPE 算法的原理,指出 Tokenizer 的词表设计决定了中文处理效率——以英文为默认值的模型将中文视为「外来者」,而国产模型从设计之初就为中文优化。文章还引用 MIT 论文揭示了 Token 切分粒度与汉字部首信息保留之间的微妙关系:切碎汉字虽成本高,但保留了部首线索;合并为整字虽效率高,却可能丢失部分语义信息。最后,文章将「中文税」问题与林语堂的明快打字机历史联系起来,指出中文始终面临「如何接入一套为罗马字母设计的基础设施」这一结构性挑战。

💡 主要观点

- 中文在 Claude 和 GPT 上比英文更费 Token,在国产模型上反而更省。 实测数据显示,Claude 旧 Tokenizer 下中文 Token 消耗比英文高 11%-64%,GPT-4o 稍好但仍偏高;而 Qwen 和 DeepSeek 的中文 Token 消耗比英文低,DeepSeek 最低可节省约三分之一。

Token 消耗差异的根源在于 Tokenizer 词表设计,BPE 算法以英文语料频率为默认值。 BPE 算法根据训练语料中字符组合的频率合并 Token。英文主导的语料下,中文字符因出现频率低而被拆成多个字节 Token;国产模型则从设计之初就将常用汉字和词组作为整词纳入词表。
Token 切分粒度与汉字部首信息保留之间存在微妙权衡。 MIT 论文发现,当汉字被切碎为多个 Token 时,模型识别共享部首的准确率更高;合并为整字 Token 后,部首信息被封装在不透明的编号中,模型失去了通过字节序列获取这一线索的能力。
古文比现代汉语更省 Token,但推理负担并未减轻。 古文用字精炼,高频字符在词表中都有独立位置,编码效率高。但模型需要从更少的字符中推断更复杂的语义,推理消耗反而上升,理解准确度也可能下降。

💬 文章金句

- 模型不是中性的,它内置了语言偏好。

  • 每一种 tokenizer 都在为某个默认值优化,代价藏在了别处。
  • 中文始终面对着一个问题:如何接入一套罗马字母形成的基础设施。
  • 有些能力是设计出来的,有些只是碰巧没有被删掉。
  • 你能优化你设计过的部分,但你没法优化你不知道自己拥有的部分。

📊 文章信息

AI 初评:88

来源:极客公园

作者:极客公园

分类:人工智能

语言:中文

阅读时间:26 分钟

字数:6345

标签: 中文税, Tokenizer, BPE, 大语言模型, Token 消耗

阅读完整文章

查看原文 → 發佈: 2026-05-03 12:05:00 收錄: 2026-05-03 18:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。