对很多客户产生重大影响,阿里云承认香港机房故障信息披露不及时
观察者网 2022-12-26 17:37

“此次香港Region可用区C服务中断事件,对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。”

12月25日,阿里云在官方微信发布《关于阿里云香港Region可用区C服务中断事件的说明 》。其中提到,12月18日,由于香港Region可用区C机房冷却系统失效,包间温度逐渐升高,导致一机房包间温度达到临界值触发消防系统喷淋,电源柜和多列机柜进水,部分机器硬件损坏。整个处置过程超过10小时。

阿里云官方微信截图

阿里云披露,12月18日09:23,香港Region可用区C部分ECS服务器开始出现停机,触发同可用区内宕机迁移。随着温度继续升高,受影响的服务器停机数量持续增加,客户业务开始受到影响,影响面扩大到香港可用区C的EBS、OSS、RDS等更多云服务。阿里云香港可用区C的故障,没有直接影响客户在香港其他可用区运行的业务,但影响了香港Region ECS管控服务(Control Plane)的正常使用。

12月18日10:17开始,阿里云香港Region可用区C部分RDS实例出现不可用的报警。随着该可用区受故障影响的主机范围扩大,出现服务异常的实例数量随之增加,工程师启动数据库应急切换预案流程。10:37,阿里云香港可用区C的部分存储服务OSS开始受到停机影响,此时客户暂不会感知,但持续高温会导致磁盘坏道,影响数据安全,工程师对服务器进行停机操作,从11:07至18:26中断了服务。

彼时,澳门特区司法警察局曾发布公告,由于阿里云的香港机房节点发生故障,导致澳门金融管理局、澳门银河、莲花卫视、澳门水泥厂等关键基础设施营运者的网站、澳觅和MFood等外卖平台、以及澳门日报等本地传媒应用程式,自当日中午开始暂时无法访问使用。

图/微博@澳门司法警察局

据阿里云介绍,此次事故出现的问题包括冷机系统故障恢复时间过长等。由于机房冷却系统缺水进气形成气阻,影响水路循环导致4台主冷机服务异常,启动4台备冷机时因主备共用的水路循环系统气阻导致启动失败。水盘补水后,因机房冷却系统的群控逻辑,无法单台独立启动冷机,手工修改冷机配置,将冷机从群控调整为独立运行后,陆续启动冷机,影响了冷却系统的恢复时长。整个过程中,原因定位耗时3小时34分钟,补水排气耗时2小时57分钟,解锁群控逻辑启动4台冷机耗时3小时32分钟。

值得一提的是,阿里云提到,此次制冷设备故障的机房属于香港电讯盈科公司,该公司成立于2000年,是香港最大的通信服务供应商,李嘉诚儿子李泽楷是电讯盈科主席兼执行董事。

实际上,云服务中心出现故障并不罕见。今年7月,因遭遇极端高温天气,甲骨文和谷歌在伦敦的数据中心也曾因冷却系统出现问题而发生运行故障,导致部分网站瘫痪。在国内,今年6月,由于华为云部分区域网络出问题,“同花顺APP崩了”等新闻登上热搜,部分时段出现无法交易,行情等界面出现卡顿现象。

但在此次事故中,阿里云的故障信息更新速度遭到质疑。有站长发文介绍,在12月18日机房发生故障后,“至少在5个小时内阿里云都没有更新状态监控,Status Page(健康状态页面)还保持着绿色状态。”

阿里云也在说明中提到,随着机房冷却系统失效,包间温度逐渐升高,导致一机房包间温度达到临界值触发消防系统喷淋,电源柜和多列机柜进水,部分机器硬件损坏,增加了后续恢复难度和时长。故障发生后阿里云启动对客钉群、公告等通知手段,由于现场冷机处理进展缓慢,有效信息不够。Status Page页面信息更新不及时引发客户困惑。

“我们要向所有受到故障影响的客户公开致歉,并尽快处理赔偿事宜。”阿里云提到,稳定性是云服务的生命线,将提升故障影响和客户影响的快速评估和识别拉取能力。尽快上线新版的阿里云服务健康状态页面(Status Page),提高信息发布的速度,让客户可以更便捷地了解故障事件对各类产品服务的影响。

今年上半年,国内公有云市场出现增长放缓、竞争压力加剧的态势。市场调研机构IDC发布的数据显示,2022上半年中国公有云服务市场整体规模(IaaS/PaaS/SaaS)达到165.8亿美元,其中IaaS市场同比增长27.3%,PaaS市场同比增速为45.4%。从IaaS+PaaS市场来看,2022上半年同比增长30.7%,与2021上半年增速(48.7%)相比下滑18%。

从具体厂商来看,如果仅统计中国企业或MNC使用国内公有云资源的业务,阿里云、华为云、天翼云、腾讯云、移动云分别占据中国国内公有云IaaS市场的37.2%、12.4%、11.9%、11.1%和5.0%;如果仅统计中国企业使用海外公有云资源,且计收在中国的业务,亚马逊AWS占据了3/4以上的市场份额(所有数据均为四舍五入)。

数据来源:IDC 下同

IDC报告提到,在疫情、供应链短缺、宏观经济增长动力不足等诸多不稳定因素的影响下,中国公有云市场压力加剧,发展态势逐渐从高增长趋于较快稳定增长。2022上半年,国内IaaS市场以及IaaS+PaaS市场竞争格局呈现一定变化,虽然排名前五的云厂商一直占据70%以上的市场份额,但在其他竞争对手的强烈攻势下,前五厂商的集中度比2021上半年略有下降。

“阿里云在强化数据中心、芯片、数据库、大数据和 AI 等核心技术能力构建的同时,深耕产业互联网解决方案的挖掘和落地,并不断扩大海内外区域的覆盖以及全方位生态能力的建设;华为云持续深耕行业数字化转型,在保持金融、政府等传统行业优势的同时,不断在游戏、电商、汽车等领域发力,并加速了海外扩张的步伐;腾讯云更加聚焦PaaS和SaaS产品的研发,推进自身可持续化高质量发展,赋能产业数实融合。”报告称。

财报显示,阿里云2022财年(2021年3月30日-2022年3月30日)营收1002亿元,其中通过为阿里自身提供服务收入约256亿元,对外提供服务获得的收入约为746亿元;阿里云EBITA(税息折旧及摊销前利润)利润从上一财年的亏损22.51亿元改善为盈利11.46亿元。这也是阿里云13年来首次实现年度盈利。

但阿里云近期的增速呈放缓趋势。2020年三季度,阿里云的营收同比增速为62%,但到了2021年三季度则直接下降到33%,而最新一季财报显示,2023财年第二财季(自然年为2022年三季度),阿里云营收207.57亿元,同比增长仅4%。

编辑/樊宏伟

最新评论