【美国航空公司系统宕机】
7月19日,微软“蓝屏宕机”(Blue Screen of Death,BSOD)迅速登上热搜榜,成了全球焦点。众多用户在社交媒体上分享了电脑屏幕变蓝的截图,赫然显示“设备遇到问题,需要重启”的提示。之后,此事件被确认为一次全球性的IT系统故障,波及范围广泛,对多个国家和地区的航班系统、银行系统、超市系统等造成了严重影响,导致其陷入瘫痪状态。
微软官方迅速做出回应,经调查,蓝屏问题被证实与网络安全公司CrowdStrike,即众击的一次软件更新有关,CrowdStrike已在全球范围内紧急撤销了相关更新,然而这一事件还是对全球用户造成了不可估量的损失,尤其是对美国航空业造成了严重冲击,有超过2000架次美国境内、入境或出境美国的航班被取消,另外有超过5300架次航班发生延误。美国联合包裹运送服务公司(UPS)和联邦快递(FedEx)都受到了波及。除了航空业,微软的技术故障还波及了多个国际重大活动和媒体机构,导致巴黎奥运会证件的激活流程服务暂停。
此外,澳大利亚广播公司也遭遇了重大技术故障,英国天空新闻台也出现了无法直播的问题,英国最大的铁路运营商GTR和西日本旅客铁道公司(JR西日本)也面临技术问题,影响了列车的正常运行。
还有,在金融领域,以色列、南非等国的银行系统以及澳大利亚超市的自动收银机也受到了技术故障影响,伦敦证券交易所更是未能幸免。
【网友发的F-35战机的“蓝屏宕机”,虚实无法核实】
昨天,我看到一位叫刘晓骞的网友抱怨自己在美国旅行期间遇到“蓝屏宕机”,飞机停飞,非常绝望,而凤凰网的著名驻美记者王冰汝在评论区留言说,她去医院体检,系统也崩溃了。我真想在他们后面留一句:中国没事,但又觉得对同胞这样评论似乎是幸灾乐祸。
“蓝屏宕机”让全世界20多个国家的交通、金融、医疗、零售等行业或公共服务的业务系统受到影响,使用CrowdStrike终端安全产品的Windows操作系统的主机大面积发生系统崩溃,而且,出现故障的终端并不止限于桌面终端,还覆盖了大量的服务器和云节点,包括导致了多个重要的微软和AWS的云服务和租户服务中断。相关主机重新启动后依然会自动进入蓝屏,形成了反复崩溃闭环。
此事件是今年以来全球波及范围最广的信息系统灾难性事件,也是由安全产品自身导致的最大规模安全灾难,带来的影响远超过了2007年的赛门铁客误杀中文版Windows导致系统蓝屏事件等历史上由安全产品带来的安全事件。
中国著名的网络安全公司安天公司的一个分析小组发布了一份分析报告,从纯技术角度对这次“蓝屏宕机”进行了专业分析,值得听一听。
说CrowdStrike是美国主要的云和终端安全厂商之一,2024年6月它的市值一度接近千亿美元,也是全球市值最大的网络安全上市公司之一。就本次事件,CrowdStrike给出的解释是,该公司的终端安全软件猎鹰传感器(Falcon Sensor)推送的错误配置更新与Windows系统发生了兼容性问题,导致安装了该安全软件的计算机出现蓝屏。
【受到影响的行业领域、国家地区与相关机构】
【事件说明及解决方案】
【安天公司推出的临时处置工具CrowdStrike_Crash_Fix】
安天小组经过专业判断,认为该事件的直接原因比较清晰,就是广泛安装于大量Windows主机上的CrowdStrike一个产品(CSAgent.sys)的模块所加载利用数据配置文件C-00000291*.sys存在问题,才导致系统崩溃。
CrowdStrike已经承认问题来自于UTC时间(即协调世界时)7月19日04:09发布了用于管控命名管道的配置更新即C-*291.sys导致了微软蔚蓝(Azure)云上的Windows虚拟机开始发生此类重启和崩溃。至UTC时间05:27,CrowdStrike撤销了此更新,此后启动的主机将不受影响。基于上述时间过程,整体上可以认为CrowdStrike方面已经确认了事件来自其自身。
虽然CrowdStrike给出了对本事件的官方解释是,这不是一起网络安全事件,而是一起质量事故。但安天小组依然认为,仅凭现有信息不能排除这是一严重的安全软件供应链攻击事件。
安天小组认为,由于安全产品在防御体系中往往处于关键位置,因此攻击安全软件,特别是攻击安全软件的供应链体系,有可能产生比攻击应用软件或应用软件供应链更为严重的后果,本次事件从后果上昭示出了利用安全软件供应链达成大范围崩溃瘫痪的风险。
此次事件是CrowdStrike在全球庞大的装机规模与Windows系统作用耦合的结果,所谓耦合,物理学上是指两个或两个以上的体系或两种运动形式之间通过相互作用而彼此影响,以至联合起来的现象,即安天公司小组认为,此事件是CrowdStrike和Windows这两大系统相互作用之后的联合现象。随着数字化转型、资产云化、泛在接入和加密协议的普遍使用,防火墙、网闸等传统访问控制边界或数据交换边界都已全面塌陷,安全基石正在重回主机系统一侧。
还有,安全软件为了对抗威胁,对抗部署后的能力衰减,需要更高频度地升级,病毒库需要高频地升级,策略库、漏洞库也需要更新迭代。由于这些升级,基本上都在后台自动化运行,往往容易成为自身测试的盲点;由于安全产品容易给用户带来信任感,但安全产品的安全功能和安全产品本身的安全并不等价,如果安全厂商不重视自身产品的安全性,越多的功能则会带来更大的不安全。
安天小组下面的这段话格外有份量,说我们没有心存侥幸的资本:美国寡头资本和政客竭力在网络安全问题上反复抹黑中国,推动中美脱钩,持续在中美网信产业间制造裂痕,这使网络安全产业已经不可逆地走向阵营化。特别是CrowdStrike也反复参与抹黑中国,在面对本次重大全球事件中,CrowdStrike显示出冷漠和傲慢,让我们对其有很大的反感情绪。但是,我们依然认为,虽然发生了如此严重事件,不能掩盖CrowdStrike在产品研发和运营层面有着超强实力,依然是全球最优秀的安全企业之一。面对国际同行发生重大事件,我们没有幸灾乐祸的资本,而必须将本次事件视为产业的共同教训。对中国网络安全产业来说,这一次灾难发生于身外,并非说明我们通过了“大考”,只能说真正需要我们应对的风险,还潜伏在不远的未来。
换句话说,其实关于这次微软系统的“蓝屏宕机”,到底是什么原因造成的?仍然没有准确答案,正像安天的报告所说,CrowdStrike在产品研发和运营层面有着超强实力,依然是国际最优秀的安全企业之一——这是话里有话的,亦存在CrowdStrike故意不揭示真正原因的可能性,甚至也有可能这次“蓝屏宕机”就是CrowdStrike干的,是一种网络打击测试,但没办法,当它成为全世界技术最顶尖公司的时候,就拥有了玩弄世界的资本。
所以,有些人可能看了安天公司的这份报告,还以为是在赞美CrowdStrike,那是你没看到本质。
关于此事的另一本质是,微软“蓝屏宕机”事件即使真的发生在另外一些领域,比如在军用场景中,肯定是秘而不宣的,这次有20多个国家的公共操作系统被涉及,却没有这些国家的军事系统受到攻击和损害的新闻,这正常吗?当然不正常,只不过是即使军用系统受到攻击和损害,也不会被公布出来罢了。
CrowdStrike,中文名是什么意思?人群罢工!全世界那么多国家使用的关键安全系统,会掌握在一个叫“人群罢工”的公司手上。
现在,关于此次“蓝屏宕机”,中国的一个初步结论已经出来,即国内政企机构虽有庞大的Windows主机用户基数,能在这样的大规模事件中几乎未受到波及,说明中国网络安全产业和技术自立自强的重大意义。
中国内地的航空公司和机场都没有购买和部署CrowdStrike,所以当天的航班运行和进出港都基本正常。国有航司使用的安全产品以国产为主,国有航司在运行过程中需要使用的一些系统,大部分已实现国产替代了,而且我们的一些关键系统都是双系统同时跑的,比如飞行计划,国产自研和国外的系统并行使用。
习近平总书记在2014年2月27日主持召开的中央网络安全和信息化领导小组第一次会议上曾经有过一个重要讲话,强调:“网络安全和信息化是事关国家安全和国家发展、事关广大人民群众工作生活的重大战略问题,要从国际国内大势出发,总体布局,统筹各方,创新发展,努力把我国建设成为网络强国。”
那么什么叫网络强国?UTC时间7月19号这一波全球“蓝屏宕机”不就给你证明过了吗?10年前的目标,10年后已经实现。
关于这次“蓝屏宕机”的说法还有很多,我觉得跟中国关系最大的其实就是能够反证网络强国10年战略的伟光正,其实当中国的网安产业体系在市场尚未充分发育时,也同样是陷入过低水平、过饱和竞争的焦灼状态,那就是一个字:卷。而到UTC时间7月19号,中国人算是卷出来了,卷成了网络强国。
否则,7月19号这一天,对其他国家来说可能只是一次意外,对中国来说就是一场大浩劫。
【文/司马平邦,红歌会网专栏学者。本文原载于公众号“司马平邦说”】