首页
AI导航
美图
服务
付费
树洞
留言
云主机
推荐
邻居
更多
我的书单
我的足迹
罗盘时钟
圈小猫
工作打分
本站统计
版本历史
推荐
txt阅读器
主机监控
M商城
网址导航
在线工具
证件照制作
Search
1
docker和docker-compose一键安装脚本
824 阅读
2
docker下运行grafana和grafana Image Renderer
664 阅读
3
grafana的Dashboard面板添加阈值报警
632 阅读
4
WooCommerce对接第三方支付插件开发
503 阅读
5
基于docker的部署fecmall开源电商系统
442 阅读
ChatGPT
虚拟化
数据库
运维
基础知识
监控预警
数据展示
运维工具
web安全
系统服务
开发
python
php
java
shell
go
html5
项目
博客
电商
工具
娱乐
影视
读书
读书笔记
综合
VPS报告
规范文档
知识总结
经验分享
关于本站
登录
Search
标签搜索
python
django
电商平台
运维工具
Joe主题
docker
zabbix
蓝鲸智云
运维
监控
typecho
grafana
wordpress
运维知识
mysql
php
elk
nginx
web安全
VPS测试
IT不难
累计撰写
245
篇文章
累计收到
209
条评论
首页
栏目
ChatGPT
虚拟化
数据库
运维
基础知识
监控预警
数据展示
运维工具
web安全
系统服务
开发
python
php
java
shell
go
html5
项目
博客
电商
工具
娱乐
影视
读书
读书笔记
综合
VPS报告
规范文档
知识总结
经验分享
关于本站
页面
美图
服务
留言
邻居
我的足迹
本站统计
版本历史
推荐
M商城
网址导航
搜索到
2
篇与
的结果
2022-07-22
运维故障分级及响应流程
前言业务系统提供7*24小时服务,而因人为操作、程序BUG等原因导致服务不可用是影响服务持续运行的重要原因,为了提高各业务系统的运行稳定性和服务水平,需要规范各业务系统的服务、故障响应、升级流程。故障分级标准系统运行中,对非不可抗力所造成的故障归类为“故障”。故障分级如下表,由于故障可能在多方面体现影响,所以故障的综合等级评定原则,取各个方面中严重等级最高者为该故障综合严重等级。业务可用类等级故障描述一级故障业务非计划中断8小时一上二级故障业务非计划中断2-8小时三级故障业务非计划中断1-2小时,业务核心功能无法使用四级故障业务非计划中断1小时一下,业务核心功能受到影响五级故障业务非计划中断1小时一下,业务次要功能无法使用业务安全类等级故障描述一级故障系统入侵:核心业务受到入侵,核心用户数据等受到入侵,或者系统文件给恶意窜改,容易引发入侵扩散;二级故障系统入侵:核心业务受到入侵,未危及重要数据,仅造成扩散隐患但是并未发现有以外的机器系统受入侵的;三级故障系统入侵:核心业务存在高危端口或者系统漏洞;四级故障系统入侵:非核心业务存在高危端口或者系统漏洞;五级故障隐患:自身有漏洞,但无重大后果;故障响应升降级标准故障升降级的处理是根据相关责任对故障响应、处理、完成结果等因素来对故障处理情况进行综合评定。该评定只适用于运维部门内部进行故障响应、处理、升降级。和公司层面的故障定责奖惩无关。评定项降级标准升级标准响应时间第一时间响应,包括故障的痛追,处理,善后事宜相关人员一再催促下,责任人仍没有及时对故障进行处理准备度对故障的发生原因已有充分的预防机制对已有发生的问题,或避免低价错误没有进行干预或规避处理态度在最快时间内处理故障,并积极配合其他相关人员的故障处理工作对故障不重视,态度怠慢、敷衍处理能力遇到技术问题积极寻求解决办法和资源支持没有足够技能进行故障处理处理结果系统在最短时间内完全恢复,故障影响降到了最低故障没有完全解决;由于处理过程不及时或不完善导致故障影响(范围、金额、投诉量、恶性舆论等)有所扩大后续措施对故障发生的原因进行总结,制定同类故障预防规避措施拒绝对故障原因(除不可抗力因素以外)进行总结和制定预防/规避措施运维响应级别运维响应级别是规范运维日常工作,故障应急响应方面的标准流程。针对业务部门的请求进行分类,并对运维相关人员作出相关约束。所有运维工作尽量在计划内处理,尽量避免计划外操作情况发生。运维级别内容计划内计划外一级运维常规工作:正常的业务系统升级,备份,监控状态查看,值班巡检,查看及简单修改等不影响业务系统运行的操作。提前三天申请排期工作时间响应处理二级运维非紧急情况:发现常规bug,不修复不影响数据和结果。并且短期内不会造成严重问题。提前一天申请排期工作时间响应处理三级运维紧急情况:严重bug,设备故障。不操作会造成严重后果之类的情况。提前一小时申请24小时响应处理四级运维非常规操作,重装系统,硬件升级。网络割接等,必须暂停业务的情况。提前一周偶申请尽量避免计划外实施,出现后根据事情缓急程度由领导制定。运维应急响应流程以外情况应尽量避免但无法完全避免,规范应急响应流程是有必要的。流程如下所示。{card-default label="流程" width="90%"}{/card-default}
2022年07月22日
156 阅读
1 评论
0 点赞
2022-05-14
系统管理及安全规范
{card-default label="运维管理" width="70%"}{/card-default}整体规划{message type="success" content="如测试环境和生产环境网络从物理上隔离;系统端口/应用端口段规范;对外提供web服务的机器和核心应用数据环境的分离;"/}{callout color="#f0ad4e"} 1.测试机集中管理,在物理机上采用虚拟机方式部署测试环境,与核心生产环境隔离。 2.类似于web服务,邮件服务器这种对外服务的业务环境,与核心业务线上环境隔离,集中管理并使用虚拟机部署 3.网关这类需要面向所有用户开放的服务器,严格控制WEB服务的IP访问许可,不允许部署完全开放的WEB服务。 4.所有核心业务的WEB服务从根目录开始必须配置IP访问控制,针对特定需求对子目录配置权限白名单。 5.核心业务的数据库服务器在配置完成后即只能通过指定的IP连接,需要WEB管理的后台,严格限制IP访问许可。 6.当在服务器上安装系统时,如果服务器是业务部门申请使用的机器,则根据业务部门的申请,确认审批后开放适当的端口,并且必须限制访问IP。否则一律只开ssh登陆端口和监控端口。SSH远程连接仅限公司堡垒机。 7.每台服务器系统禁止root用户远程登陆,并开通仅供系统部门服务器管理人员使用的管理账号,远程连接必须密钥登陆,使用sudo来执行管理命令,每次连接服务器第一次执行sudo相关命令时,需要输入密码。 8.如果服务器是给指定项目使用,则此服务器上存在仅供项目负责人使用的账号,这个账号可以启动关闭应用服务,可以对应用服务所在的目录进行数据的增删改查。如果项目内其他人需要有开启关闭服务的权限。{/callout}服务器标准{message type="success" content="服务器是业务平稳运行的基石,需要统一管理。"/}{callout color="#f0ad4e"}1.系统版本2.分区方式3.目录使用规范4.默认防火墙规则5.默认账号权限6.ssh远程连接7.新软件的安装8.新应用申请流程{/callout}分区方式{message type="success" content="分区:根据磁盘大小分成n个分区,分区名字为datan"/}目录规范{callout color="#f0ad4e"}项目目录用/opt/project/系统脚本目录/opt/scripts/静态网站数据/opt/www数据目录 + 项目名称/data//data/mysql/日志目录 +项目名称/data/log/{/callout}防火墙{message type="success" content="默认只对特定IP开放ssh端口"/}数据库标准mysql数据库{callout color="#f0ad4e"}1.统一版本信息2.统一安装方式3.安全机制4.统一服务端口5.系统管理权限6.备份策略{/callout}应用服务器{callout color="#f0ad4e"}1.统一版本信息2.安全机制3.统一服务端口{/callout}其他{callout color="#f0ad4e"}1.定期更新密码2.定期对业务系统进行安全扫描{/callout}
2022年05月14日
42 阅读
0 评论
0 点赞