文章详情
高可用这个问题,加机器就能解决?
腾讯云开发者
2662
2024-11-25
互联网服务的可用性问题是困扰企业IT人员的达摩克利斯之剑:防于未然,体现不出价值。已然发生,又面临P0危机。就更别提稳定性建设背后显性的IT预算问题与隐性的人员成本问题。

目录

1 互联网服务的高可用之殇

2 高可用问题的解法

3 万事不决加机器!但是性价比那种!

互联网服务的可用性问题是困扰企业IT人员的达摩克利斯之剑:防于未然,体现不出价值。已然发生,又面临P0危机。就更别提稳定性建设背后显性的IT预算问题与隐性的人员成本问题。

虽有一套万事不决加机器的法门,却仍有丝丝顾虑存在,这机器保不保真?顶不顶?贵不贵?

01

互联网服务的高可用之殇

墨菲定律有言,任何可能出错的事情最终都会出错。

03377E41-FC4D-41BF-BE36-39251ED95E20.png

互联网后台服务的宿命就是在某一天挂掉,然后等着被修复。

挂掉的原因可能是某地域IDC冷冻系统故障,升级工具Bug导致服务器被误下线,K8s版本升级导致容器全部宕机,机房被雷劈了、光缆被鲨鱼咬断了等等千奇百怪的理由。

修复时长可能需要半小时,一小时,两小时,甚至半天、一天,然后研发团队全员喜提草台班子称号,被互联网记录在案,流传下去。

没有人能构建出永不宕机的系统,因为墨菲定律之所以为定律,就是问题一定会出现。更别提互联网系统的另一条铁律——熵增定律,在一个孤立的系统里,如果没有外力做功,其总混乱度会不断增大,最后达到一个无序状态。

再加上,只要是系统,就需要人维护。而当维护的人开始流动,老旧系统的维护就更像十级大风下的摩天大楼,摇摇欲坠。

6D8B351C-ABF6-464D-989E-59A8DFE09180.png

02

高可用问题的解法

腾讯前CTO Tony张志东曾经对海量互联网服务下过一个定义:

在线超过千万;

索引超过百亿;

数据超过百P。

按照这个定义去检测,在这个拥有着14亿人口、春晚红包发到宕机、动辄电商大促的试验田里,峰值交易量超50万笔、数据总量近千PB的流量将成为新常态,这对技术能力带来的压榨是全方位的。

这样的海量系统背后,低成本的平衡扩展性需求成为了高优先级的目标。

不同量级的服务,需要不同的系统架构进行应对,同时每增加一个量级,都会有无数的需要优化的地方。

高可用系统的架构设计,需要有一套比较科学的工程管理套路。要从产品、开发、运维、基建等全方位去考量和设计。高可用系统的架构设计思想包括但不限于:

做好研发规范。系统都是研发人员设计和编码写出来的,因此首先要对研发层面有一个规范和标准。

做好容量规划和评估。主要是让开发人员对系统要抗住的量级有一个基本认知,方便进行合理的架构设计和演进。

做好服务层面的高可用。主要是负载均衡、弹性扩缩容、异步解耦、故障容错、过载保护等。

做好存储层面的高可用。主要是冗余备份(热备,冷备)、失效转移(确认,转移,恢复)等。

做好运维层面的高可用。主要是发布测试、监控告警、容灾、故障演练等。

做好产品层面的高可用。主要是兜底策略等。

做好应急预案。主要是要思考在出现问题后怎样快速恢复,不至于让我们的异常事态扩大。

但并不是所有的企业都面临跟腾讯一样的用户体量考验,不同规模的企业和行业对软件架构健壮性的要求、自身系统运维能力都存在较大差异,且在IT预算支出日渐吃紧的当下对成本的顾虑,导致了很难用一套万金油方案解决各行业的服务问题。

怎么办?

03

万事不决加机器!但是性价比那种!

正如后台服务架构遇到问题,零帧起手先上一套微服务架构一样。

在互联网后台架构中,提升高可用能力的一个零帧起手的办法就是加机器。

可别小瞧了这简简单单的三个字,互联网系统的性能瓶颈,要么在于机器资源没有得到充分的利用,要么在于没有充分的机器资源。

而在互联网服务中,对于那些可并行的计算,增加机器节点可以加快单次请求的速度,提高性能。对于利用了虚拟化和容器化的云上服务,它的机器资源利用度更高,系统的成本自然也就更低。

通过增加服务器节点,可以实现负载均衡和高可用性,确保在部分服务器发生故障时,系统仍然能够正常运行。

所以,你需要的,是一款真正具备高性能,且性价比极高的云服务器——SA5。

SA5的核心能力,总结下来主要有以下几项:

支撑高并发场景的高性能算力

腾讯云SA核心数翻倍,单实例提升至512vCPU的规格。这背后是第四代AMD EPYC处理器的澎湃动力,以AMD EPYC 9754(Bergamo)为首,构成了SA5强大的计算心脏。整机性能相比云服务器SA3实例提升120%以上。

极致的性价比

在整机性能提升如此之大的同时,SA5通过技术上的探索突破,充分释放技术红利,整机性价比相比业内通用计算方案提升30%以上!

超强存储、网络性能

具备低时延、高性能、高可靠的存储能力。IOPS达100万,低至40us存储时延,在大型数据库等IO密集型业务场景表现优异。

SA5采用2 100G高带宽网络架构,整机可提供4500万PPS(包/秒)、时延低至5us,在视频直播等高网络收发包场景,带来超低时延体验。

访存延时减半

得益于高密度的服务器设计,星星海SA5将访存延时缩减约50%,所有客户应用均可部署在一致性访存环境中。

虚拟化损耗,零!

基于腾讯云自研银杉DPU,将虚拟化损耗降到0,云服务器的全部算力都能为用户所用。

在KVM开源贡献榜上,腾讯云也是中国唯一连续七年入围的云厂商,实力无需多言。

腾讯云SA5支撑了刚刚过去的电商大促的算力高峰,故障0发生;同时SA5也被大规模运用在腾讯内部自研业务,通过其极致性价比服务内部业务日常运营,为业务创造更多价值。

如果你遇到了加机器才能解决的问题,不妨试试SA5。

如果你遇到了机器性能、成本方面的顾虑,不妨试试SA5。

腾讯云 云服务
版权说明
本文内容来自于腾讯云开发者,本站不拥有所有权,不承担相关法律责任。文章内容系作者个人观点,不代表快出海对观点赞同或支持。如有侵权,请联系管理员(zzx@kchuhai.com)删除!
企业推荐
更多
Cloudflare
CloudFlare是一家国际CDN及网络安全服务商,CloudFlare提供有独特技术,能提高任何互联网应用的性能和安全性。
AdsPower 指纹浏览器
AdsPower 是一款专为跨境人打造的指纹浏览器,致力于解决出海账号矩阵安全管理问题,目前已通过所有网站检测。平台提供独特的指纹配置、专业的浏览器自动化、高效的团队协作功能,为您的账号环境保驾护航!
福瑞笙
FRS福瑞笙是提供多种专业接入方式的云通信服务公司,支持企业的通信需求,提供包括营销短信、通知短信、验证码短信、私人短信、语音提醒、语音播报、语音验证、私人语音、邮件服务、社交媒体服务等等,我们致力于为客户提供个性化的专属服务,拥有多样化的通信产品可供客户自主选择,多类型的需求在FRS都能得到满足。
TopOn
全球领先的移动广告聚合变现平台
甲骨文
甲骨文公司 (NYSE:ORCL) 创立于 1977 年,总部位于美国德克萨斯州。甲骨文公司是一家全球性的企业云技术提供商,致力于赋能各种规模的企业的数字化转型。甲骨文公司提供自治数据库、大数据、分析及机器学习等高科技产品,及在销售、服务、市场营销、人力资源、财务、供应链和生产制造等基于云技术平台的集成应用。
活动推荐
更多
出海成本节约90%,AI 如何助力营销「破圈」?
出海成本节约90%,AI 如何助力营销「破圈」?
2025-01-20 14:00 至 16:00
线上直播
已结束
第九届GGCC全球对接会
第九届GGCC全球对接会
2024-11-06 09:00 至 17:30
广州
已结束
腾讯云
腾讯云
腾讯云倾力打造的云计算品牌,以卓越科技能力助力各行各业数字化转型,为全球客户提供领先的云计算、大数据、人工智能服务,以及定制化行业解决方案。
+ 关注