首页
美图
服务
付费
树洞
云主机
推荐
邻居
支付
开发
书单
更多
我的足迹
罗盘时钟
圈小猫
工作打分
给我留言
本站统计
推荐
M商城
欣悦云店
txt阅读器
VPS监控
证书监控
网址导航
在线工具
Search
1
docker和docker-compose一键安装脚本
5,130 阅读
2
采用Prometheus+Grafana 监控H3C交换机状态
4,600 阅读
3
WooCommerce对接第三方支付插件开发
4,224 阅读
4
grafana的Dashboard面板添加阈值报警
2,879 阅读
5
服务器(vps)性能测试脚本汇总
2,824 阅读
虚拟化
数据库
运维
基础知识
监控预警
数据展示
运维工具
web安全
系统服务
开发
python
php
java
shell
go
项目
博客
电商
工具
娱乐
综合
VPS相关
规范文档
知识总结
经验分享
读书笔记
关于
Search
标签搜索
django
python
运维工具
支付对接
电商平台
Joe主题
docker
wordpress
woocommerce
支付通道
zabbix
蓝鲸智云
运维
grafana
监控
运维知识
typecho
php
mysql
nginx
行云流水
累计撰写
324
篇文章
累计收到
362
条评论
首页
栏目
虚拟化
数据库
运维
基础知识
监控预警
数据展示
运维工具
web安全
系统服务
开发
python
php
java
shell
go
项目
博客
电商
工具
娱乐
综合
VPS相关
规范文档
知识总结
经验分享
读书笔记
关于
页面
美图
服务
树洞
云主机
邻居
支付
书单
给我留言
本站统计
推荐
M商城
txt阅读器
网址导航
搜索到
2
篇与
的结果
2022-07-22
运维故障分级及响应流程
前言业务系统提供7*24小时服务,而因人为操作、程序BUG等原因导致服务不可用是影响服务持续运行的重要原因,为了提高各业务系统的运行稳定性和服务水平,需要规范各业务系统的服务、故障响应、升级流程。故障分级标准系统运行中,对非不可抗力所造成的故障归类为“故障”。故障分级如下表,由于故障可能在多方面体现影响,所以故障的综合等级评定原则,取各个方面中严重等级最高者为该故障综合严重等级。业务可用类等级故障描述一级故障业务非计划中断8小时一上二级故障业务非计划中断2-8小时三级故障业务非计划中断1-2小时,业务核心功能无法使用四级故障业务非计划中断1小时一下,业务核心功能受到影响五级故障业务非计划中断1小时一下,业务次要功能无法使用业务安全类等级故障描述一级故障系统入侵:核心业务受到入侵,核心用户数据等受到入侵,或者系统文件给恶意窜改,容易引发入侵扩散;二级故障系统入侵:核心业务受到入侵,未危及重要数据,仅造成扩散隐患但是并未发现有以外的机器系统受入侵的;三级故障系统入侵:核心业务存在高危端口或者系统漏洞;四级故障系统入侵:非核心业务存在高危端口或者系统漏洞;五级故障隐患:自身有漏洞,但无重大后果;故障响应升降级标准故障升降级的处理是根据相关责任对故障响应、处理、完成结果等因素来对故障处理情况进行综合评定。该评定只适用于运维部门内部进行故障响应、处理、升降级。和公司层面的故障定责奖惩无关。评定项降级标准升级标准响应时间第一时间响应,包括故障的痛追,处理,善后事宜相关人员一再催促下,责任人仍没有及时对故障进行处理准备度对故障的发生原因已有充分的预防机制对已有发生的问题,或避免低价错误没有进行干预或规避处理态度在最快时间内处理故障,并积极配合其他相关人员的故障处理工作对故障不重视,态度怠慢、敷衍处理能力遇到技术问题积极寻求解决办法和资源支持没有足够技能进行故障处理处理结果系统在最短时间内完全恢复,故障影响降到了最低故障没有完全解决;由于处理过程不及时或不完善导致故障影响(范围、金额、投诉量、恶性舆论等)有所扩大后续措施对故障发生的原因进行总结,制定同类故障预防规避措施拒绝对故障原因(除不可抗力因素以外)进行总结和制定预防/规避措施运维响应级别运维响应级别是规范运维日常工作,故障应急响应方面的标准流程。针对业务部门的请求进行分类,并对运维相关人员作出相关约束。所有运维工作尽量在计划内处理,尽量避免计划外操作情况发生。运维级别内容计划内计划外一级运维常规工作:正常的业务系统升级,备份,监控状态查看,值班巡检,查看及简单修改等不影响业务系统运行的操作。提前三天申请排期工作时间响应处理二级运维非紧急情况:发现常规bug,不修复不影响数据和结果。并且短期内不会造成严重问题。提前一天申请排期工作时间响应处理三级运维紧急情况:严重bug,设备故障。不操作会造成严重后果之类的情况。提前一小时申请24小时响应处理四级运维非常规操作,重装系统,硬件升级。网络割接等,必须暂停业务的情况。提前一周偶申请尽量避免计划外实施,出现后根据事情缓急程度由领导制定。运维应急响应流程以外情况应尽量避免但无法完全避免,规范应急响应流程是有必要的。流程如下所示。{card-default label="流程" width="90%"}{/card-default}
2022年07月22日
1,471 阅读
1 评论
0 点赞
2022-05-14
系统管理及安全规范
测试环境和生产环境网络从物理上隔离;系统端口/应用端口段规范;对外提供web服务的机器和核心应用数据环境的分离
2022年05月14日
400 阅读
0 评论
0 点赞