Uber 发布 IngestionNext：流式优先的数据湖将延迟和计算成本降低了 25%

📌 一句话摘要

Uber 的 IngestionNext 平台利用 Flink 和 Hudi 将数据湖摄取从批处理转变为流式优先模式，将延迟降低至分钟级，并将计算成本降低了 25%。

📝 详细摘要

Uber 通过推出 IngestionNext 重构了其数据湖摄取基础设施，从基于 Spark 的批处理转向了持续流式处理模型。通过利用 Apache Kafka、Flink 和 Hudi，该平台将数据摄取延迟从小时级降低至分钟级，显著提升了用于分析和机器学习的数据新鲜度。该架构通过 Parquet 的行组级合并解决了流式处理中常见的小文件问题，并管理了复杂的模式演变。除了性能提升外，系统通过随数据量动态扩展作业，实现了 25% 的计算资源节省。

💡 主要观点

- 从定时批处理转向流式优先架构。 通过用基于 Flink 的持续流取代 Spark 批处理作业，Uber 将摄取延迟从小时级降低至分钟级，并将数据新鲜度视为数据质量的一个主要维度。

存储效率和查询性能优化。 为了解决流式处理中固有的“小文件问题”，团队在 Apache Hudi 中实现了 Parquet 文件的行组级合并和压缩机制。

计算和资源开销显著降低。 与传统的批处理工作负载相比，转向随数据量动态扩展的持续运行作业，使计算使用量减少了 25%。

端到端可靠性和区域故障转移。 专用的控制平面可自动化作业生命周期和健康监控，而区域回退策略确保了中断期间的数据连续性。

💬 文章金句

- 此举的核心在于将数据新鲜度视为数据质量的一个关键维度。

IngestionNext 持续处理事件流，将摄取延迟从小时级降低至分钟级，从而使分析和机器学习工作负载能够更快地获取数据。
通过用随数据量动态扩展的持续运行流式作业取代定时批处理工作负载，系统将计算使用量减少了约 25%。
这实现了一个完全端到端的实时数据栈，涵盖了从摄取到转换再到分析的全过程。

📊 文章信息

AI 评分：88

来源：InfoQ

作者：Leela Kumili

分类：软件编程

语言：英文

阅读时间：2 分钟

字数：434

标签：数据湖, 流式摄取, Apache Flink, Apache Hudi, Uber 工程

阅读完整文章

Uber 发布 IngestionNext：流式优先的数据湖将延迟和计算成本降低了 25%

🤖 問 AI