← 回總覽

GitHub 可用性报告:2026 年 3 月

📅 2026-04-09 10:21 Jakub Oleksy 软件编程 1 分鐘 1103 字 評分: 84
GitHub 可用性报告 事后分析 站点可靠性工程 基础设施
📌 一句话摘要 GitHub 2026 年 3 月可用性报告详细介绍了影响 Actions、Copilot 和 API 服务的四起重大事故,原因涉及缓存错误、Redis 配置错误及凭据问题。 📝 详细摘要 本报告透明地分析了 2026 年 3 月发生的四起服务中断事件。主要事故包括 3 月 3 日因大规模缓存过期错误导致 github.com 出现 40% 的故障率,以及 3 月 5 日因 Redis 负载均衡器配置错误导致 95% 的 GitHub Actions 工作流延迟。其他问题还涉及 Copilot Coding Agent 的身份验证失败,以及影响 Microsoft Team

📌 一句话摘要

GitHub 2026 年 3 月可用性报告详细介绍了影响 Actions、Copilot 和 API 服务的四起重大事故,原因涉及缓存错误、Redis 配置错误及凭据问题。

📝 详细摘要

本报告透明地分析了 2026 年 3 月发生的四起服务中断事件。主要事故包括 3 月 3 日因大规模缓存过期错误导致 github.com 出现 40% 的故障率,以及 3 月 5 日因 Redis 负载均衡器配置错误导致 95% 的 GitHub Actions 工作流延迟。其他问题还涉及 Copilot Coding Agent 的身份验证失败,以及影响 Microsoft Teams 集成的上游依赖项中断。GitHub 概述了缓解措施,包括缓存机制的架构隔离、改进负载均衡器自动化以及自动化的凭据监控。

💡 主要观点

- 缓存机制错误引发了跨多个服务的级联故障。 一次旨在减少写入负载的部署意外导致所有用户缓存同时过期,引发了重新计算风暴和复制延迟,影响了 40% 的 Web 流量。

Redis 的基础设施更新导致 GitHub Actions 性能显著下降。 Redis 负载均衡器中的错误配置更改将内部流量路由到了错误的主机,导致 95% 的工作流在预期时间内发生故障。
凭据生命周期管理问题导致 Copilot Agent 停机。 系统身份验证失败导致服务无法连接到数据存储,需要手动轮换凭据,这也凸显了对更好的自动化监控的需求。

💬 文章金句

- 在部署旨在减轻这些写入负担的更改时,一个错误导致每个用户的缓存过期、被重新计算并被重写。

  • 这些更新将一组错误的配置更改引入了我们的 Redis 负载均衡器,导致内部流量被路由到了错误的主机。
  • 我们正在将缓存机制迁移到专用主机,以确保未来的任何问题只会影响依赖于它的服务。

📊 文章信息

AI 评分:84

来源:The GitHub Blog

作者:Jakub Oleksy

分类:软件编程

语言:英文

阅读时间:4 分钟

字数:842

标签: GitHub, 可用性报告, 事后分析, 站点可靠性工程, 基础设施

阅读完整文章

查看原文 → 發佈: 2026-04-09 10:21:20 收錄: 2026-04-09 12:00:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。