杜郎俊赏 - dujun.io

阿里云故障之后

昨天的阿里云故障带来的一个影响是,有人在建议多云和下云自建。我的建议是不要听信这些建议。

当然这个讨论的场景发生在小公司。以我曾经的公司举例,技术团队有二十几位开发、测试和一位运维,主要产品是几款 APP,共有 12 台云服务器(多数为 4 核 8G,阿里云、腾讯云都有)。我是技术负责人,代入这个问题场景说一下我的看法。

自建

先说自建,我肯定不会同意,最大的问题是无法保证可用性。换句话说,要保障足够的可用性,需要多大的运维团队、需要找什么样的机房托管、需要多少硬件冗余,这个成本肯定会劝退老板,并且我还不敢跟他打保票保障服务。从私心来说自建就是自己的责任,没办法往平台甩锅。

多云

然后再说多云,宽泛的说法是使用了超过一家云厂商的服务就属于多云架构。这个提法当然没有讨论的意义,因为购买多家云服务很常见,很可能是哪个便宜用哪个。比如我们接口放在阿里云,数据库在腾讯云,纯粹是折扣的原因。

我想具体讨论的是多云热切这个层面的问题,就是当一家云服务发生故障时,整体切换到另一家,保障服务连贯性。这个当然特别美好,但我们做不到,绝大多数小公司不可能做到。

首先还是成本,多云意味着冗余部署,成本翻倍;其次是技术人员的应变能力达不到。以实际情况来说,昨晚阿里云故障持续了两个多小时。而我从接到报警,组织人员处理,判定故障原因,缓存灌数据,执行业务迁移,线上验证,这一系列做下来大概率要通宵,绝不是两个小时能搞定的。

所以,小公司要做的是无条件信任云计算供应商,把精力放在自己的业务上。平台的服务波动,远小于自己瞎搞造成的损失。

日期:2023-11-13