亚马逊云科技:韧性是现代云服务至关重要的组成部分

【环球网科技报道 记者 李文瑶】当前,越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成为企业急需解决的问题。

对此,亚马逊云科技大中华区解决方案架构总经理代闻认为,韧性是现代云服务至关重要的组成部分。

据了解,韧性是指应用程序抵御中断或从中恢复的能力,包括与基础设施、依赖服务、错误配置、网络问题和负载激增相关的中断。

因此,在云计算的韧性技术实现中,亚马逊云科技关注基础设施、架构设计和运营机制。据其介绍,目前亚马逊云科技在其云服务的设计与实现中,始终将韧性作为核心考量因素之一。例如,通过将服务的控制面和数据面分离设计,即使控制面发生故障,数据面也能继续运行,这类似于出行系统中的指挥中心与车辆运行的关系。

“控制面和数据面的隔离,类似于叫车软件和打车,两者其实是相对独立的。当你坐上车以后,如果一段时间叫车软件没有信号无法响应了,也不影响司机将你送到预定的目的地。很多故障失效的情况关键在于没有把数据面和控制面做到很好的隔离。”代闻说道。

此外,亚马逊云科技还采用了“单元架构”设计模式,将服务分割为多个独立的单元,每个单元间不共享资源,从而进一步降低了故障发生时的影响范围。

韧性是一个持续的过程,而非一次性工作,需要在业务需求、可靠性、成本和系统复杂度之间找到平衡点。基于经验分解, 亚马逊云科技开发了韧性系统建设生命周期框架, 该框架包含五个关键阶段, 并强调韧性是一个持续的生命周期,需要不断重复五个阶段,以应对不断变化的环境和需求。

2022 年,奇瑞捷豹路虎选择将关键的 SAP 系统迁移至亚马逊云科技上,成功地迈出了数字化转型的关键一步。通过将 SAP 系统所有模块平移上云,奇瑞捷豹路虎的业务敏捷性、人员工作效率大幅提升。其中,利用亚马逊云科技独有的一个区域三个可用区特性,并在亚马逊云科技特有的自适应跨可用区高可用集群进行整体切换基础上,创新性提出高可用和同城灾备融合方案,使用云上三个可用区及引入仲裁方案使集群可靠性、稳定性得到增强,最大限度地减少了停机时间和保障零数据丢失,故障切换时间从半小时缩短至 3 分钟。

此外,代闻还强调了将韧性工程与软件开发周期相结合的重要性,以确保系统在开发初期就具备韧性的特质。为了帮助客户构建端到端的韧性,亚马逊云科技提供了一系列服务和工具,如Amazon Resilience Analysis Framework、Amazon Aurora、Amazon DynamoDB、Amazon Fault Injection Simulator等,并通过五大阶段的方法论指导客户进行韧性的建设。