GitHub 2026 年 3 月可用性报告详细介绍了影响 Actions、Copilot 和 API 服务的四起重大事故,原因涉及缓存错误、Redis 配置错误及凭据问题。
📝 详细摘要
本报告透明地分析了 2026 年 3 月发生的四起服务中断事件。主要事故包括 3 月 3 日因大规模缓存过期错误导致 github.com 出现 40% 的故障率,以及 3 月 5 日因 Redis 负载均衡器配置错误导致 95% 的 GitHub Actions 工作流延迟。其他问题还涉及 Copilot Coding Agent 的身份验证失败,以及影响 Microsoft Teams 集成的上游依赖项中断。GitHub 概述了缓解措施,包括缓存机制的架构隔离、改进负载均衡器自动化以及自动化的凭据监控。
💡 主要观点
- 缓存机制错误引发了跨多个服务的级联故障。 一次旨在减少写入负载的部署意外导致所有用户缓存同时过期,引发了重新计算风暴和复制延迟,影响了 40% 的 Web 流量。
💬 文章金句
- 在部署旨在减轻这些写入负担的更改时,一个错误导致每个用户的缓存过期、被重新计算并被重写。
- 这些更新将一组错误的配置更改引入了我们的 Redis 负载均衡器,导致内部流量被路由到了错误的主机。
- 我们正在将缓存机制迁移到专用主机,以确保未来的任何问题只会影响依赖于它的服务。
📊 文章信息
AI 评分:84
来源:The GitHub Blog
作者:Jakub Oleksy
分类:软件编程
语言:英文
阅读时间:4 分钟
字数:842
标签: GitHub, 可用性报告, 事后分析, 站点可靠性工程, 基础设施