
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
无论是软件开发安全性问题还是系统运行稳定性的问题都是需要软件运维程序员长期关注的一个编程问题,今天我们就通过案例分析来简单了解一下,软件开发稳定性概念与监控类型分析。
1、何谓稳定性?
系统稳定性,从字面上来看,就是让系统尽可能稳定,不要出问题。但业务是变化的,系统肯定也是一直变化的,有可能新加了个功能就把系统搞挂了,也有可能突然业务流量暴增把系统搞挂了。所以,要保障系统稳定性可谓非常之难。但即使再难,也还是得去做。
2、系统稳定性监控哪些方面?
监控报警,指的是我们需要对应用做好运行数据的收集,监控好系统的运行状态。当系统状态异常时,我们需要及时地发现并报警,从而让研发人员快速地解决问题。一般来说,监控报警分为系统级别的监控报警和业务级别的监控报警。系统级别的监控报警包括CPU、内存、磁盘等服务器资源的监控,而业务级别的报警则需要根据业务情况自行定义。
故障管理,就是当发生故障时,我们需要遵循的整套处理规范。团队小的时候可能无所谓,但是当团队大了的时候,我们就需要统一大家的故障处理流程,从而可以更快速地解决故障。此外,在故障解决完成之后还需要进行复盘,产出对应的故障报告。
CaseStudy机制指的是定期学习其他团队的高可用或者线上故障进行学习,从而提高团队的系统设计能力,避免踩坑。
容灾演练,其实就是模拟某些中间件或者服务故障,然后看看系统是否能按照之前设计的高可用方案实施。容灾演练是提升系统稳定性的一把利器,很多时候即使我们设计得很完美,但实际上却没发挥作用,究其根本就是没有实践过。是驴是马,得拉出来溜溜才知道。
紧急处理预案,简单就是要想到各种可能发现的情况,然后做好预案。之后结合容灾演练不断进行优化,从而形成一套很好的处理预案。这样当线上发生类似故障时,就可以轻松应对了。
全链路压测,指的是对整个链路进行压测。不同公司可能会采用不同的方案,有些会直接在线上进行压测,然后用流量标记的方式识别测试流量。有些则是进行流量录制,之后重新搭建一套与线上非常类似的系统进行压测。一般来说,一种效果肯定会更好,成本也更低,但是对研发人员要求也更高,风险也更大。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。