全部 未讀 (11742) ★ 收藏 (0) 🤖 人工智能 (7549) 📊 商业科技 (1777) 💻 软件编程 (1189) 📁 个人成长 (733) 🎨 产品设计 (207) 📁 生活文化 (104) 📁 投资财经 (71) 📁 媒体资讯 (68) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 可靠性工程 共 6 篇 ✕ 清除篩選
11744
全部文章
11742
未讀
61
今日新增
0
收藏
📡 Poller 最後抓取: 19 分鐘前 (04-16 08:00)
BestBlogs 精選 (11725)

🏷️ 熱門標籤

AI Agent 1312 AI 智能体 732 Claude Code 641 Anthropic 620 LLM 563 OpenClaw 497 AI 编程 491 开源 438 AI 396 AI 安全 394 Claude 380 OpenAI 360 软件工程 353 开发者工具 339 生产力 308 GitHub 248 自动化 238 AI 基础设施 227 AI 开发 224 MCP 223
GitHub 可用性报告:2026 年 3 月
📌 一句话摘要 GitHub 2026 年 3 月可用性报告详细介绍了影响 Actions、Copilot 和 API 服务的四起重大事故,原因涉及缓存错误、Redis 配置错误及凭据问题。 📝 详细摘要 本报告透明地分析了 2026 年 3 月发生的四起服务中断事件。主要事故包括 3 月 3
📅 2026-04-09 10:21 (6 天前) Jakub Oleksy 软件编程 1 分鐘 ★ 84
GitHub 可用性报告 事后分析 站点可靠性工程
信任但要灰度:大规模配置安全性
📌 一句话摘要 本期来自 Meta 工程团队的播客探讨了在大规模环境下确保配置安全发布的策略与自动化系统,包括灰度发布、渐进式发布以及 AI 驱动的故障响应。 📝 详细摘要 在本期 Meta 技术播客中,Meta 的工程师们讨论了管理大规模配置发布背后的关键基础设施。对话涵盖了如何通过实施灰度部
📅 2026-04-09 02:25 (7 天前) Engineering at Meta 软件编程 1 分鐘 ★ 80
配置管理 灰度部署 站点可靠性工程 SRE
将故障作为构建弹性软件系统的手段:与 Lorin Hochstein 的对话
📌 一句话摘要 本次对话探讨了现实世界的软件故障如何揭示系统真相,区分了针对已知问题的鲁棒性与针对未知问题的弹性,并强调了可靠性工程中的复杂性悖论。 📝 详细摘要 本文总结了一期播客,邀请了来自 Airbnb 和 Netflix 的可靠性专家 Lorin Hochstein,探讨了构建弹性系统的
📅 2026-03-31 17:00 (15 天前) Michael Stiefel 软件编程 2 分鐘 ★ 91
可靠性工程 软件架构 弹性 事件管理
配置即控制平面:大规模系统的安全与可靠性设计
📌 一句话摘要 本文探讨了配置管理向动态控制平面的演变,分析了为何它已成为大规模故障的主要诱因,以及超大规模云厂商如何实施安全模式以确保可靠性。 📝 详细摘要 本文指出,在现代云原生环境中,配置已从静态部署工件转变为实时决定系统行为的动态控制平面。由于配置变更的传播速度和范围通常超过应用程序代码
📅 2026-03-20 17:00 (26 天前) Karthiek Maralla 软件编程 2 分鐘 ★ 89
配置管理 站点可靠性工程(SRE) 云原生 控制平面
HipChat 的衰落与 Uber 的关键服务中断
📌 一句话摘要 Gergely Orosz 反思了 HipChat 错失的潜力,以及它在 Uber 高峰流量期间的不稳定性如何迫使 Uber 做出改变。 📝 详细摘要 这条推文探讨了 HipChat 与 Slack 更广阔的市场背景,以及 Uber 遇到的具体运营痛点。它强调了 HipChat
📅 2026-03-14 23:26 (03-14 23:26) Gergely Orosz 软件编程 3 分鐘 ★ 81
产品战略 可靠性工程 Uber HipChat
应对 GitHub 近期的可用性问题
📌 一句话摘要 GitHub 针对近期发生的重大停机事件,分析了架构耦合和数据库过载等根本原因,并概述了以迁移至 Azure 和服务解耦为核心的恢复策略。 📝 详细摘要 这份来自 GitHub 的官方事后分析报告探讨了 2024 年初发生的一系列重大可用性问题。工程团队确定了导致不稳定的三个主要
📅 2026-03-12 05:41 (03-12 05:41) Vlad Fedorov 软件编程 8 分鐘 ★ 82
网站可靠性工程 云基础设施 事后分析报告 可扩展性