

编者按:在数字时代,我们享受着互联网带来的便捷,却很少注意到那些支撑这一切的隐形支柱。从域名解析到身份验证,从电子邮件到安全防护,这些关键服务正日益集中在少数全球平台手中。看似高效集中的背后,隐藏着系统性风险的阴影——一次小小的配置错误,就可能让成千上万的网站瞬间“消失”,让企业的运营陷入瘫痪。当互联网的“心脏”由少数巨头掌控,我们是否正在走向一个脆弱的新时代?本文揭示了这一令人不安的趋势,并提醒我们:真正的韧性不在于追求完美,而在于保持选择与冗余。以下为编译全文:
当大多数人想到互联网时,他们脑海中浮现的可能是网站和应用。但他们很少看到那些让这些体验成为可能的隐形服务:那些将名称转换为数字、验证你的身份、传递信息并阻挡恶意流量的系统。
例如,DNS(域名系统)已悄然成为互联网的单一故障点。DNS是互联网的电话簿。当它失效时,互联网的大部分实际上就消失了,即使服务器仍在运行。
DNS并非孤例。过去十年间,四项核心互联网服务——DNS、身份验证、电子邮件和安全基础设施——已经整合到少数全球平台中。作为一名网络安全研究员,我看到这种集中化从根本上改变了故障的发生方式。过去可能只是局部故障,现在却常常演变成系统性事件,同时影响成千上万的组织。
互联网的设计初衷是允许故障存在。邮件服务器、DNS解析器、身份验证系统和安全监控本应是分布式和本地控制的。如今,出于经济上的合理性,许多公司和组织将这四项服务都外包给了同一小撮供应商。一家云服务监控机构甚至将2025年称为“全球云中断之年”。
DNS、身份验证、电子邮件与安全
服务中断不再是罕见的例外,而是全球规模效率带来的可预见的副产品。当你审视影响这四项服务的几次重大中断时,这种模式就变得显而易见。
DNS中断是系统性风险的典型例子。如果DNS无法解析一个名称,一个网站就相当于不存在。全球DNS解析的份额越来越依赖于少数供应商。这种集中化意味着,一次配置错误、路由问题或攻击,就能波及网络的大部分区域。
身份验证中断对公众来说不太明显,但在组织内部往往更具破坏性。
例如,2025年10月29日,微软Azure发生重大中断,导致全球数百万用户的身份验证和访问中断超过五个小时。另一家身份验证提供商Okta也在10月3日遭遇了服务中断。
身份验证已成为一个通用的守门人。当身份服务失效时,现代组织不会优雅地降级;它们会直接停摆。
尽管几十年来一直有人预言其衰落,但电子邮件仍然是雇主运作方式的核心组成部分。密码重置、发票、法律通知、紧急通知和事件响应协调都依赖于它。当大型云电子邮件提供商遭遇中断时,公司和组织不仅会失去通信能力,还会难以有效恢复账户和协调恢复工作。2025年,雅虎和微软的电子邮件服务都曾发生中断。
由于许多公司和组织不再运营独立的邮件系统,电子邮件中断正日益同时影响整个行业。在紧急情况下,人们赖以响应的系统可能无法使用。
安全即服务是一个快速增长的市场。网络安全基础设施,包括分布式拒绝服务攻击缓解、防火墙和机器人防护,旨在保持服务在线。当这些基础设施失效时,可能会产生相反的效果。
全球安全提供商的错误配置安全规则和路由错误,已多次大规模地阻挡了合法流量。在2024年一起有详细记录的事件中,网络安全公司CrowdStrike的一次常规配置更改,导致数千个无关网站大面积中断。
为何中断的代价越来越高
行业数据表明,虽然中断事件可能变得不那么频繁,但其代价却越来越高。
专业服务机构Uptime Institute报告称,现在超过一半的重大中断造成的损失超过10万美元,大约五分之一的中断损失超过100万美元。这些估计成本反映了收入损失、运营停滞、声誉损害,在某些情况下还包括对健康和公共安全的风险。
集中化放大了这些成本。现在,一次单一的故障会同时影响更多的用户、雇主和关键服务。曾经的IT问题,已经演变成一个多方面的经济和社会问题。
集中化才是真正的风险。
监管机构开始认识到这种模式。在美国,联邦指导方针现在强调清点云依赖关系和减少对单一供应商依赖的重要性。这些努力反映了一种日益增长的认识:最大的风险不是任何一次中断,而是那种使得这些中断不可避免且影响广泛的依赖结构。
互联网的设计本是为了绕开损坏。在追求便利和规模的过程中,科技行业围绕少数全球信任中介(负责名称、身份、消息传递和安全)重建了其关键部分。结果是云服务商业模式的副产品,即常规故障演变成系统性事件。
公司和组织不需要放弃云来解决这个问题。但我认为,重要的是要衡量集中化程度,为多样性进行设计,并演练当共享服务失效时会发生什么。韧性并非来自完美。它源于选择、冗余,以及能够在局部而非同时在所有地方发生故障的能力。
道格·雅各布森是爱荷华州立大学电气与计算机工程学大学教授。