Uber 的 IngestionNext 平台利用 Flink 和 Hudi 将数据湖摄取从批处理转变为流式优先模式,将延迟降低至分钟级,并将计算成本降低了 25%。
📝 详细摘要
Uber 通过推出 IngestionNext 重构了其数据湖摄取基础设施,从基于 Spark 的批处理转向了持续流式处理模型。通过利用 Apache Kafka、Flink 和 Hudi,该平台将数据摄取延迟从小时级降低至分钟级,显著提升了用于分析和机器学习的数据新鲜度。该架构通过 Parquet 的行组级合并解决了流式处理中常见的小文件问题,并管理了复杂的模式演变。除了性能提升外,系统通过随数据量动态扩展作业,实现了 25% 的计算资源节省。
💡 主要观点
- 从定时批处理转向流式优先架构。 通过用基于 Flink 的持续流取代 Spark 批处理作业,Uber 将摄取延迟从小时级降低至分钟级,并将数据新鲜度视为数据质量的一个主要维度。
💬 文章金句
- 此举的核心在于将数据新鲜度视为数据质量的一个关键维度。
- IngestionNext 持续处理事件流,将摄取延迟从小时级降低至分钟级,从而使分析和机器学习工作负载能够更快地获取数据。
- 通过用随数据量动态扩展的持续运行流式作业取代定时批处理工作负载,系统将计算使用量减少了约 25%。
- 这实现了一个完全端到端的实时数据栈,涵盖了从摄取到转换再到分析的全过程。
📊 文章信息
AI 评分:88
来源:InfoQ
作者:Leela Kumili
分类:软件编程
语言:英文
阅读时间:2 分钟
字数:434
标签: 数据湖, 流式摄取, Apache Flink, Apache Hudi, Uber 工程