Roblox 如何利用 AI 在 100 毫秒内翻译 16 种语言

📌 一句话摘要

Roblox 通过统一的混合专家（MoE）模型和高度优化的推理流水线，实现了 16 种语言的实时翻译，延迟低于 100 毫秒。

📝 详细摘要

本文深入探讨了 Roblox 的实时聊天翻译系统，该系统每秒处理超过 5，000 条跨 16 种语言的聊天信息。为了克服维护 256 个独立语言对模型带来的可扩展性问题，Roblox 实施了一个基于混合专家（MoE）架构的 10 亿参数 Transformer 模型。为满足严格的延迟要求，他们采用了知识蒸馏技术将模型压缩至 6.5 亿参数，并结合了量化和模型编译技术。该系统的效率还通过复杂的推理基础设施得到了进一步提升，其中包括动态批处理、用于精确匹配的翻译缓存，以及一种特殊的嵌入缓存，该缓存避免了在将同一消息同时翻译成多种目标语言时的冗余编码。

💡 主要观点

- 用于可扩展性的统一 MoE 架构 通过使用单一的混合专家模型而非 256 个独立模型对，Roblox 降低了维护成本，并使模型能够利用跨语言的相似性来提高翻译质量。

用于实时性能的知识蒸馏 为了达到 100 毫秒的延迟目标，一个 10 亿参数的“教师”模型被蒸馏为 6.5 亿参数的“学生”模型，在保持准确性的同时显著提高了推理速度。

多层缓存策略 该系统使用翻译缓存来处理重复短语，并使用嵌入缓存来重用编码器输出（当将一条源消息翻译成多种目标语言时），从而大幅降低了 GPU 负载。

无参考质量评估 Roblox 开发了一种自定义机器学习模型，无需人工提供的“真值”即可评估翻译质量，从而实现了对所有 256 个语言方向的自动化监控。

💬 文章金句

- Roblox 真正的工程挑战不在于构建一个能够翻译的模型，而在于构建一个能够以对话速度进行翻译，且不破坏用户体验的系统。

如果是 16 种语言，那就是 16 乘以 16，即 256 个独立模型……这种方法呈二次方增长，在投入生产之前，它就会因自身负担过重而崩溃。
有了嵌入缓存，编码过程只发生一次，中间表示被缓存起来，解码器则基于这单一的编码生成所有三种翻译。
质量与延迟之间存在永恒的张力。蒸馏后的学生模型在本质上不如教师模型准确。

📊 文章信息

AI 评分：88

来源：ByteByteGo Newsletter

作者：ByteByteGo

分类：人工智能

语言：英文

阅读时间：8 分钟

字数：1890

标签：机器翻译, 混合专家模型, 模型蒸馏, 延迟优化, 系统架构

阅读完整文章

Roblox 如何利用 AI 在 100 毫秒内翻译 16 种语言

🤖 問 AI