一个软件更新引发的“全球宕机”
观察者网 2024-07-20 08:02

7月19日,美国科技巨头微软公司爆发重大服务中断事件,全球范围内众多用户反映搭载Windows系统的企业电脑出现“蓝屏”故障,无法正常启动。多国上千航班停飞、银行停业、媒体停播……从美洲、欧洲到亚洲,该问题影响到了包括交通、金融、媒体、医疗等在内的各行各业。

据微软日本子公司确认,此次故障与第三方美国网络安全企业CrowdStrike旗下软件更新有关。微软方面最新回应称,“根本起因”已解决,但也表示残余影响会继续影响某些微软365程序和服务。美联社19日称,这一“全球性技术故障”凸显了对少数供应商软件的依赖。

英国《卫报》19日引述知名网络安全顾问特洛伊·亨特(Troy Hunt)的分析认为,这可能是“历史上规模最大的IT故障”。“我认为现在下结论并不为时过早:这将是历史上规模最大的IT故障。”他社交媒体平台X(原推特)上写道,“这基本上就是我们所有人对Y2K问题的担忧,只不过这次真的发生了。”

专家表示,恢复可能需要几天时间,因为每台受影响的电脑可能都必须手动修复。事件发生后,微软美股盘前跌幅扩大至近2%,CrowdStrike盘前跌超20%。

微软365方面最新回应X

上千个航班取消,涉及欧美亚洲多国

微软此前发布的初步分析表示,故障始于美国中部的Azure区域数据中心,“部分Azure后端工作负载的配置更改导致存储和计算资源之间中断,从而导致连接故障,影响依赖这些连接的下游微软365服务”。据报道,大多数宕机都与云端存储服务OneDrive、服务器连接和邮件服务Outlook有关。

微软365相关故障报告热力图(美国)DownDetector网站截图

CrowdStrike首席执行官乔治·库尔茨(George Kurtz)在X上称,公司“正积极与受Windows主机单一内容更新中发现的缺陷影响的客户合作”,相关问题已被识别并部署修复程序。他强调:“这不是一起安全事件或网络攻击。”

CrowdStrike是总部位于美国加利福尼亚州森尼韦尔的电脑安全技术公司,提供端点安全、情报威胁等信息。据悉,许多受影响的Windows电脑与CrowdStrike一款名为“Falcon传感器”(Falcon sensor)的用于收集安全数据的软件有关。

微软365在X上发布消息称,公司“正在努力将受影响的流量重新路由到备用系统,以更便捷的方式减轻影响”,并称已“观察到服务可用性呈积极趋势”。不过,美联社指出,在技术方表示正在逐步修复故障后数小时,各地的服务中断情况仍在不断升级。

受影响最严重的可能是航空、交通领域。英国广播公司(BBC)引述航空分析公司Cirium的数据说,全球已有1000多个航班被取消。美国联合航空、达美航空、美国航空和忠实航空(Allegiant Air)等一度实行全球停飞令。

英国廉价航空公司瑞安航空(Ryanair)以及火车运营商TransPennine Express和Govia Thameslink Railway也受到了影响。欧洲最大的航空公司瑞安航空称:“由于全球第三方IT出现故障,我们的整个网络目前都处于中断状态,这超出了我们的控制范围。我们建议所有乘客至少提前三小时到达机场。”

7月19日,在德国汉堡,旅客在汉堡机场1号航站楼等待办理登机手续 视觉中国

由于机场的在线值机服务和自助值机服务瘫痪,排队人数增加,许多人被困在机场。多家航司在X上发表声明说,正采用人工办理登机手续和登机程序。印度私营低成本航空公司靛蓝航空(IndiGo)表示,故障给数千名乘客带来了不便。

从各地报道来看,香港、台湾、东京、德里、柏林、苏黎世、罗马、阿姆斯特丹等地的机场也都受到影响。在洛杉矶国际机场,由于航班延误,一些旅客不得不用背包和行李当枕头席地而睡。

印度德里国际机场,一名乘客正在查看出现故障的机场大屏 欧新社

据央视新闻报道,从国航、东航、南航等多家航空公司了解到,截至目前航班未受到大范围系统技术故障影响,航班运行正常。北京首都机场和大兴机场出发的国际航班目前也运行正常。

银行、医院系统宕机,巴黎奥运也未“幸免”

BBC指出,澳大利亚受到的影响似乎尤其严重。

跟踪用户报告的互联网中断情况的DownDetector网站显示,包括澳最大的商业银行澳大利亚国民银行(NAB)、澳大利亚联邦银行、本迪戈银行在内的金融机构,澳大利亚维珍航空(Virgin)、捷星航空(Jetstar)等航司,以及Telstra等互联网和电话供应商都报告了故障。

据美联社,澳大利亚的新闻机构,包括澳大利亚广播公司(ABC)和天空新闻(Sky News),都无法在其电视和广播频道上进行广播,并报告了Windows系统计算机突然关闭的情况。一些新闻主播在显示“蓝屏死机 ”的电脑前,从黑暗的办公室进行在线直播。

新西兰的奥克兰储蓄银行和新西兰邮政银行(Kiwibank)也表示其服务出现故障。

此事惊动澳大利亚和新西兰政府部门出面回应。新西兰代理首相西摩在X上表示,该国官员正在“按部就班地了解 ”这一全球性问题的“潜在影响”。澳网络安全监管机构则表示,没有任何信息表明出现了恶意攻击,“我们目前拥有的信息是,这次中断与受影响公司使用的第三方软件平台的技术问题有关”。

银行系统宕机也影响到许多日常支付。据社媒用户报告说,在英国的面包店和咖啡连锁店Gail's和澳大利亚零售店Woolworths付款时遇到问题。在南非,至少有一家大银行表示正在经历“全国性的服务中断”,因为有客户报告无法在杂货店和加油站使用银行卡付款。

7月19日,澳大利亚悉尼一家超市的自助结账终端,一名顾客在蓝屏前结账 视觉中国

在日本,环球影城的结帐系统也受到影响。从当地时间下午2时左右开始,园区内餐厅和纪念品商店的收银机出现“蓝屏”无法使用,所有店铺宣布暂停营业。有人指出,日本麦当劳今天上午有约3成店铺暂停营业,可能也是受到微软故障的影响。

西日本旅客铁道公司(JR西日本)则是在下午2时20分左右,无法在官网和应用程式确认列车运行位置。JR西日本表示,目前神户线、京都线等近畿地区列车,有部分列车无法显示位置,尚未确定何时恢复。

此次危机还波及公共医疗设施。据报道,美国阿拉斯加州官员表示,许多911和非紧急呼叫中心都无法正常工作。英国国民医疗服务体系(NHS)下的几家诊所则报告说,院内用于保存医疗记录、制作排班表的临床系统受到影响。

“我们无法访问病人的临床记录,因此无法预约或提供信息。”位于英格兰北部布里格豪斯的Church Lane Surgery在X上写道,“这是一个全国性的问题,正在作为高度优先事项进行处理。”

在德国北部,在基尔和吕贝克都设有分院的石勒苏益格-荷尔斯泰因大学医院(Schleswig-Holstein University Hospital)表示,已经取消了原定于19日进行的所有选择性手术,但病人和急诊护理不受影响。

此外,下周即将开幕的巴黎奥运会亦未能“幸免”。巴黎奥运会组委会表示,其IT系统受到影响,但已充分动员技术团队减轻影响,并已启动应急计划。不过,有消息人士告诉法新社,IT故障影响了奥运会认证系统,部分运动员可能无法在下周五的开幕典礼前领到徽章。

为何一次小小更新,就能影响全球?

当前,CrowdStrike已经发布了修复程序。但BBC说,据知情人士称,该程序必须单独应用于受影响的每个设备,每台机器都需要在安全模式下手动重启,这将给各地的IT部门带来巨大的工作量。英国萨里大学网络安全教授艾伦·伍德沃德(Alan Woodward)表示,修复可能需要几天的时间。

伍德沃德指出,导致本轮中断的“Falcon传感器”软件通常用于拥有大量个人电脑的大型机构,以确保所有电脑都受到监控。“拥有大量电脑的大型组织使用该产品来确保一切都受到监控。遗憾的是,如果他们失去了所有电脑,他们就无法运行,或者只能以大大降低的服务水平运行。”

美东时间19日早晨,CrowdStrike首席执行官库尔茨首度接受媒体访问回应此次“全球宕机”事件,并致歉:“对于我们给客户、旅客和任何受此影响的人造成的影响,我们深表歉意。”

他承认,事件是由公司旗下软件更新导致,“该更新存在软件错误,导致微软操作系统出现问题……我们很快就发现了这个问题并进行了补救”,但对于“某些无法自动恢复的系统”,修复可能还需要一些时间,他也无法确定这需要多久。

为何仅仅是一次第三方软件的内容更新就导致了全球范围内航空系统、支付系统、医疗系统等的瘫痪?为什么一个软件错误就能产生如此深远而直接的影响?此次与美国全国广播公司(NBC)的最新访问中,库尔茨也被问到这一问题。

对此,库尔茨告诉NBC主持人,网络安全问题“非常复杂”,“要始终领先于(发动网络攻击的)对手无疑是一项艰巨的任务”,因此需要不断更新。至于到底哪里发生了“不良反应”,他必须“回去看看发生了什么”。

库尔茨于宕机风波后首度接受采访NBC“今日秀”截图

“一次IT更新是如何引发全球灾难的”,BBC科技编辑佐伊·克莱因曼(Zoe Kleinman)19日以此为题写道,这次事故“令人深思,世界已经变得多么依赖由大公司远程管理的设备,而当这些设备出现故障时,我们又是多么无能为力”。

克莱因曼说,事情发生后,一名计算机科学家对她双手抱头感叹:“永远不要在周五推送更新。”她说,这也是为什么许多大公司倾向于在周中发布软件更新,因为一旦出现问题,修复起来需要时间,公司在周末工作的人员通常较少,解决起来必然需要更长的时间。

编辑/樊宏伟

最新评论