加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

腾讯:3亿人次实战演习验证异地容灾架构与快速调度能力

发布时间:2021-01-08 02:35:36 所属栏目:站长百科 来源:网络整理
导读:《腾讯:3亿人次实战演习验证异地容灾架构与快速调度能力》要点: 本文介绍了腾讯:3亿人次实战演习验证异地容灾架构与快速调度能力,希望对您有用。如果有疑问,可以联系我们。 作者介绍: 李光 现就职于腾讯SNG社交网络运营部,负责SNG移动类产品的业务运维

如上图所示 演习也是一个节点较多的闭环流程,生命周期主要分为以下三部分

  • 演习前期规划与准备;
  • 演习实施,过程监控;
  • 演习结束,整体质量评估与问题跟踪;

3. 演习的目标

要通过演习生产出我们所需的数据与检验我们的业务质量,双平台是服务于海量用户,全网业务链路复杂,我们期望能从下面三个维度检验我们的能力.

验证业务质量与容量:

  • 通过实战演习验证三地条带化容量建设是否符合预期?
  • 每增加千万用户时整体与关键业务链路负载是否可控?
  • 短时间内因千万用户集中登录与关联行为所产生的压力后台是否能抗的住?
  • 柔性控制是否符合预期?

量化调度能力:

  • 异地调度时每分钟能迁移走多少用户?
  • 异地调度1000W用户需要多少时间?
  • 清空一个城市的用户需要多少时间?
  • 调度速率是否均衡稳定?

运营平台:

  • 现有的平台能力(实时容量、地区容量、调度平台、业务质量监控)是否能较好的支撑到演习与实际场景调度;
  • 发现平台能力的短板,以容量指标来及时度量调度的效果;

4. 演习效果

我们坚持月度/季度的实际演习调度,并在业务峰值实施调度演习.整个演习期间用户“零感知”,业务质量无损,无一例用户投诉.如此量级的演习在双平台的历史上也属于首次.演习也是灰度逐步递进的节奏,下面图例展示了,我们对一个城市持续三次的调度演习,用户量级也是逐步增多 2000W?4000W?清空一个城市.

如上图所示 演习也是一个节点较多的闭环流程,用户量级也是逐步增多 2000W?4000W?清空一个城市.

  • 调度质量
    • 调度效率是否符合预期:例如计划10分钟迁移多少用户量;
    • 调度速率是否可控:调度的用户量细化到分钟粒度应该是基本均等,不能忽快忽慢;
    • 调度量级是否符合预期:整体迁移用户量级稳定可控;
  • 业务质量
    • 调度期间是否有用户共性投诉反馈;
    • 后台服务质量是否可控;
    • 监控系统是否有批量告警;
    • 业务负载增长是否符合预期;

6. 演习流程的闭环跟踪

演习的目的就是在于发现问题而不是秀肌肉,暴露的问题越多越好,每个问题都要完全闭环,帮助业务架构和运维能力持续优化与完善.

总结

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读