0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

质量视角下的系统稳定性保障--稳定性保障常态化自动化实践

京东云 来源:京东物流 翁美婷 作者:京东物流 翁美婷 2024-11-19 11:19 次阅读

作者:京东物流 翁美婷

一、前言

随着系统数量增多,复杂度提高,线上应急问题时有发生;加之需投入大量人力进行服务治理和验证,为了减少日常应急问题及提前排除风险,发起对生产系统的持续综合性治理,实现常态化稳定性治理。在常态化治理过程中我们将识别问题等重复性有规律的工作实现自动化,技术人员更专注于解决问题。

wKgaoWc8A6SAY9UtAAB1kYm656o378.png

二、稳定性治理常态化

wKgZoWc8A6eACij3AAH7IfdLMRI455.png

保障稳定性治理常态化,部门组建了一支由研发团队、测试团队、架构师组成的稳定性治理队伍,对部门核心应用,核心服务风险、服务器资源风险、日志风险、性能防劣化、以及技术专项等多维度持续风险识别和治理。

1、核心服务风险:重点关注服务响应时间TP99跳点、响应时间max跳点、可用率小于100%、秒级调用量1500次以上TP99性能等。

2、服务器资源风险:巡检的服务器有应用服务器、DB、MDC、ES、Redis、Tidb、ClickHouse等;关注指标:CPU、内存、磁盘、网络……;注意不同的服务器关注的指标侧重点不同。

3、性能防劣化:针对服务和资源的性能指标分析峰值、趋势、对比及偏差情况识别系统的劣化发生。服务维度:UMP调用量、响应时间、可用率;资源维度:主机CPU、内存、磁盘,数据库慢SQL、QPS;其他中间件:JVM等。

4、日志风险治理:日志问题包含异常日志治理、日志规范性、日志清理及磁盘监控、日志级别动态配置等方面。

5、其他专项常态化:性能测试覆盖日常架构升级、重点项目需求,安全测试针对代码安全、组件安全、敏感接口、数据安全的专项测试,数据库慢SQL、数据结转、主从延迟等,针对内部外的应急问题架构和质量复盘借鉴,识别自身系统可以改进提升项。

此外,应急薄弱点专项、应急演练、接口限流风险等各类稳定性保障专项持续推进。

三、稳定性治理自动化

常态化治理的痛点:部门应用多,覆盖全部应用耗费大量时间人力,当增加review项时,工作量大幅增加,落地难度增大。如何提升review效率和可落地性?

自动化解决问题

1、线上问题巡检自动化,降低重复性人力工作,研发更专注于问题优化和高可用建设。

2、丰富风险项检测,风险项扩充不会额外增加大量人力排查

3、部门全盘稳定性监控,问题检测能力复用,从核心服务review复制到全量不需要增加人力。

wKgaoWc8A6eAWjEzAAEoKD5kVKI274.png

自动化过程

1、定义问题:明确指标,确定异常规则。在稳定性常态治理过程沉淀了一套覆盖核心服务风险、服务器资源风险、日志风险、性能防劣化、以及其他专项的风险项和识别方法,这部分是问题的来源。

2、自动识别:自动巡检,识别线上异常。数据来源于两部分,已有的UMP、Logbook、MDC,此外来源还有压测数据、SLA定义等。

3、闭环问题:工单跟进,提升闭环效率,通过问题线上报表跟踪治理进度,每日/每周的定时巡检,回归验证,检验修复效果。

四、治理实践

从UMP异常、资源异常、性能防劣化、logbook异常关键字、等维度线上服务稳定性治理实践案例。

1、UMP异常-可用率<100%

案例:

1、定义问题:可用率<100%

2、自动识别问题:获取T+1的UMPkey监控数据,获取可用率小于100异常点信息,统计可用率小于100的次数,最低可用率及对应的时间为辅助排查问题的依据。

3、问题跟进:UMP监控XXXServiceImpl.buildBusinessSummary可用率经常小于100%,排查因为正常业务问题未从方法监控ump可用率中剔除,通过主动上报提高报警精准度。

wKgZoWc8A6iASahzAAPqZQajJag676.png

2、资源异常-磁盘使用率风险

案例:

1、定义问题:磁盘使用率>80%

2、自动识别问题:获取T+1的资源监控数据,获取磁盘/和/export的磁盘使用率>80%信息,统计出现次数,最高利用率及对应的时间。

3、问题跟进:0级应用服务器磁盘使用超过80%,优化log4j配置,补充监控报警。

wKgaoWc8A6mAaIhpAAMZ19CfQGE644.png

3、Logbook关键字-空指针异常

案例:

1、定义问题:

log关键字分为程序类异常和业务类异常关键字:

(1)业务类异常:业务异常时主动输出的错误日志,例如“下单失败”,各系统根据需要自行打印和配置

(2)程序类异常:程序出现预期外的异常,自动抛出的错误日志,例如:NullPointerException

2、识别问题:某应用日志报空指针异常。

wKgZoWc8A6qAK41YAALpvu2aROc143.png


4、 性能防劣化-CPU劣化

案例:CPU劣化案例

2月5日11:00-19:20之间核心鉴权服务分组机器12台服务器CPU使用率先后峰值13%到27%异常增长,并持续高于日常值,对外提供服务无明显异常,客户无感知。对服务JVM分析发现,频繁FullGC引起CPU升高,打印堆栈信息某中间件占用内存1.4G(JVM共4G),经与中间件团队沟通当前版本存在线程池资源无法释放问题。

wKgZoWc8A6uANZS2AAJB--UnzJQ710.png

五、结语

通过自动化的方式每日对线上核心UMP、Logbook、主机、数据库、ES、Redis风险进行巡检,降低人工review工作量。稳定性治理重在持续,过程中可能会遇到痛点和艰难,值得技术人用技术不断提升。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动化
    +关注

    关注

    29

    文章

    5570

    浏览量

    79264
  • 系统稳定性
    +关注

    关注

    0

    文章

    8

    浏览量

    6904
收藏 人收藏

    评论

    相关推荐

    智能测径仪:高稳定性成就高精测量之选!

    环境保持稳定的测量性能。它以其高度的准确性和可靠性,为生产过程中的直径测量提供了坚实的保障。 精准测量是高稳定性智能测径仪的核心优势之一。无论是微小的零件还是大型的工件,它都能够快速
    发表于 06-05 17:30

    系统开环判断闭环稳定性

    闭环系统的开环传递函数可以用来判断闭环系统稳定性,也就是奈奎斯特稳定性判据。第一种说法:如果开环传递函数稳定(S复平面不存在右极点),若频
    发表于 09-05 17:04

    阿里巴巴测试环境稳定性提升实践

    摘要: 测试环境是研发/测试同学最常用的功能,稳定性直接影响到研发效率,那如何提升测试环境的稳定性?阿里巴巴应用与基础运维平台高级开发工程师张劲,通过阿里内部实践,总结了一套测试环境稳定性
    发表于 03-07 17:18

    如何提高lwip的稳定性

    如题、如何提高lwip的稳定性,目前用的是f107+lwip1.4.1目前系统运行一段时间后lwip就挂掉啦(时间很不固定)问题;应主要从那几个方面来提高稳定性,恳请大家指点一二,小弟在此不胜感激
    发表于 07-09 23:36

    电力系统中的电压稳定性介绍

      电力系统中的电压稳定性定义为电力系统在正常条件和受到干扰后在系统中的所有总线上保持可接受电压的能力。在正常工作条件
    发表于 04-21 16:14

    电感的稳定性

    电感的稳定性 稳定性是表示电感线圈参数随环境条件变化而改变的程度。通常用电感温度系数αL 来评定线圈的稳定程度,它表示电感量相对泪度的稳定
    发表于 08-22 14:33 1562次阅读

    系统稳定性

    现代控制理论-5.系统稳定性
    发表于 12-13 22:20 0次下载

    电力系统中电压稳定性与攻角稳定性问题的研究及综述

    稳定性问题是电力系统中一个复杂的问题。随着大系统互联方兴未艾,同时市场之后的电力系统在经济性的驱动
    发表于 11-08 16:39 10次下载

    整流威廉希尔官方网站 交流输电系统稳定性的简单分析与提高稳定性的措施

    输电系统运行的稳定性,是输电系统安全可靠运行的重要因数 随着输电系统规模的扩大,输电距离和输送容量大大增大,系统
    发表于 12-06 04:22 2227次阅读

    什么是热电偶稳定性?如何检测热电偶稳定性

    在规定的条件,热电特性变化大即表明稳定性差,变化小则表明稳定性良好。热电偶的稳定性好坏会直接影响到热电偶测量的准确性,因此,稳定性是衡量热
    发表于 12-31 09:19 2637次阅读
    什么是热电偶<b class='flag-5'>稳定性</b>?如何检测热电偶<b class='flag-5'>稳定性</b>?

    如何测试ERP系统稳定性

    一个软件的稳定性对企业的工作产生着重要的影响,ERP系统如果在使用过程中安全性出现问题的,可能会导致数据的缺失,这将会影响决策。那么如何测试ERP系统稳定性呢?下面一起来了解一
    发表于 05-13 17:00 1033次阅读

    怎么分析威廉希尔官方网站 的稳定性

    怎么分析威廉希尔官方网站 的稳定性?  威廉希尔官方网站 的稳定性是指威廉希尔官方网站 在不同条件保持稳定的能力。稳定性是威廉希尔官方网站 设计中十分重要的一个方面,因为
    的头像 发表于 09-17 16:44 1960次阅读

    如何在电压不稳的情况保障SSD的稳定性能?

    如何在电压不稳的情况保障SSD的稳定性能?
    的头像 发表于 11-24 15:50 648次阅读
    如何在电压不稳的情况<b class='flag-5'>下</b><b class='flag-5'>保障</b>SSD的<b class='flag-5'>稳定性</b>能?

    自动控制原理怎么判断系统稳定性

    自动控制原理是研究控制系统行为和性能的科学。稳定性是控制系统的一个重要性能指标,它描述了系统在受到扰动后能否恢复到平衡状态的能力。 1.
    的头像 发表于 07-29 10:28 1844次阅读

    反射内存卡是如何保障数据传输的稳定性

    反射内存卡数据传输稳定性保障
    的头像 发表于 11-14 10:21 162次阅读
    反射内存卡是如何<b class='flag-5'>保障</b>数据传输的<b class='flag-5'>稳定性</b>的