承载IT运维成功之梦:精准运维
《承载IT运维成功之梦:精准运维》要点:
我们都知道,IT运维服务是对IT基础设施(网络系统、主机系统、存储/备份系统、终端系统、安全系统、机房动力及环境等)以及软件应用等进行服务的.一般情况,我们运维信息系统,信息系统支撑企业业务,而实际情况是,业务受各种因素影响,不断起伏变化,而没人及时告诉我们详情,只要求我们以不变应万变的方式维稳,而再牛的公司资源都是有限的,如果运维缺乏一个反馈,既不符合《控制论》的思想,也很难让运维做到有针对性,更不要说精准了,当然也别提运维的价值了. 那么,能不能在运维过程中引入业务需求这一变量,让运维更加精准,实现信息系统与业务的心跳同步呢?答案显然是肯定的.将业务需求和业务变化作为变量,主动将其反馈到运维过程中,让运维工作以业务需求为导向、以信息系统为对象,通过一系列措施实现信息系统与业务的心跳同步,促进业务效率、业务效益或用户体验的提升.我们将这种采取新兴技术提供预防性维护实现IT系统与业务精确匹配的运维方法统称为精准运维. 精准运维及其意义 1. 什么是精准运维? 大家都熟悉《三国演义》草船借箭的故事,诸葛亮的成功是有几个要素的:首先他熟悉业务,其次是及时交流发现业务薄弱环节和需求,主动提出解决方案,并以意想不到的方式完成.总结起来,故事的关键点有熟悉业务、交流反馈、主动服务、执行实施. 精准运维是一种IT服务方法,它是要让IT运维服务工作围绕被服务对象的业务来展开,从而进行心跳同步式的服务,最大限度地利用资源,提升业务体验,实现服务价值,而不仅仅是围绕信息系统本身(软硬件)来服务. 因此,精准运维的理论体系架构本质上是以客户为导向的服务体系,是以业务的心跳为基准的服务思想理念.精准运维是通过一系列方法掌握服务对象所使用信息系统的特性、业务特点,以及该信息系统所服务的企业业务特性,找准目标,通过业务部门及时把用户的真实体验反馈给运维,这样,运维工作就能通过掌控信息系统运行风险、运行特点、资源调配情况和业务部门反馈的意见来优化信息系统,从而精准的预测服务要求并开展服务计划,提供和建议使用较小的代价有效展开主动服务和快速响应服务做到信息系统与业务心跳同步. 总结起来,精准运维的基础是熟悉被服务对象,知己知彼,并建立风控模型(该风控模型与信息安全风控不同,见下),其要素是主动服务与预测,其关键是掌握业务需求与变化;与精准运维密切相关的是业务所有者、信息系统、环境等.同时,精准运维的行动离不开PDCA的方法.下面,我们可以看看精准运维的框架图: 精准运维的框架模型就犹如汽车的发动机,要求油门通过不断循环往复提供动力支撑. 从图上我们可以看到,上层对下层是要求,下层对上层是支撑,影响业务的变化主要有六因素;风控模型是精准运维的定海神针;与运维工作关系密切的是业务所有者、信息系统与环境;技术实力是运维工作的支撑.以业务目标为导向,业务所有者(操作人员、维护人员、管理人员等)以及环境在信息系统运行过程中所面临的作业风险、业务风险、政策风险、管理风险和安全风险,按照PDCA的方法进行风险评估、识别、规划、执行、回顾、改进等,从而保持信息系统与业务需求的精确匹配,达到心跳同步. 2. 精准运维的特点与意义 (1) 精准运维的特点 精准运维有别于传统运维,概括起来,有以下五大特点: (2)精准运维的意义 使运维服务过程更重视用户体验,促进DevOps落地 让运维服务的价值更得以突显,并由“人天”来衡量转变为以其产生的价值来衡量 增强了运维的主动性,使运维更加有计划性、条理性、预见性,工作不至于被动 实现资源优化配置、提升资源利用率 让运维更加向运营靠拢,成为运营的一部分 精准运维该怎么做? 1. 精准运维的初始化—建立风控模型 了解运维系统的业务特点,根据业务和系统运行情况与业务所有者一起着手建立风控模型.风控模型需要体现业务所有者(操作人员、维护人员、管理人员等)以及环境在信息系统运行过程中所面临的作业风险、业务风险、政策风险、管理风险和安全风险,这些数据来源于信息系统运行数据、历史运维数据、用户访谈信息及客户体验信息等.通过综合各方面信息,结合业务,从而建立风控模型,梳理出风险清单.建立风控模型的过程也就是进行信息系统与业务的匹配度分析过程,匹配度高的项必然风险小,匹配度低的项势必风险高. 要素:风控模型的初步建立完成标志是与业务所有者达成共识. 2. 精准运维日常运行之信息采集与反馈 首先,以风控模型为基准,及时了解业务所有者的具体要求并将系统的情况与所有者交流,得到有价值的服务信息;其次,可以利用自动化监控技术采集到用户端的用户体验数据,如访问网站人数、登录系统效率、页面响应速度、访问流量等;也可以利用大数据及最新的ELK技术的方式采集系统日常运行的业务数据、资源使用情况数据、业务运行效率日志数据等.此外,还可以不断与业务部门进行沟通协调,采集用户的反馈与需求. 要素:双方都了解对方的意图,并形成共识. 3. 精准运维日常运行之预测及计划编制 根据采集信息进行预测与计划的编制,所谓预测,就是对尚未发生或目前还不确切的失误进行预先的估计和推断,是现时对事物将要发生的结果进行探讨和研究.科学预测是建立在客观事物发展规律基础之上的科学推断.系统预测的实质就是充分分析、理解系统状况发展变化的规律.用相关性、数据趋势分析法及大数据分析技术对采集的数据进行挖掘分析,分析出业务需求与资源之间的相关性、与运维人员之间的相关性,分析出应用系统使用的历史与未来趋势,根据趋势与现有资源的匹配性来实时优化系统资源和人力资源,并编制详细的系统优化实施方案对系统进行优化.计划即是根据预测和业务所有者要求编制的行动方案. 要素:计划要得到所有者的认可,如需要可优化风控模型. 4. 精准运维日常运行之系统优化执行与实施 根据编制的优化实施方案精心组织实施,且与业务方充分沟通,在不影响业务的基础上完成系统优化、应急演练、风险措施改进的实施服务工作. 要素:注意行为规范. 5. 精准运维日常运行之校验与评估 根据实施结果与业务运行情况及对系统运行情况的采集,不断的校验实施效果,再进一步评估改进,通过PDCA循环往复直至达到系统与业务的精确匹配与心跳同步. 要素:结果要进入下一个环节,即反馈给所有者,如有必要可修改风控模型. 精准运维实例 这里我们拿一个经典案例来说.大家最为熟悉的微信红包,在除夕前后会产生业务高峰,大量用户在同一时间摇红包,瞬间产生每秒千万级的请求,这个量级的请求如果不加以疏导处理直接到达后台,必定会导致后端服务过载甚至崩溃.因2014年春节以后,微信红包业务量呈现快速增长,微信后台运维团队预测2015年春节的业务量将爆发式增长,对系统产生巨大压力. 为应对2015年的春节业务高峰,微信后台运维团队开展了一系列准备工作,首先是针对业务建立风控模型,以风控模型为基础展开下面的工作: 事实上,按照上述步骤,微信后台运维团队在业务高峰期到来前完成了后台和APP应用在微信红包功能上的升级,硬件进行了相当规模的扩容,对系统运行环境进行了全面整改,对微信红包模块支持人员数量进行了补充和技能提升,这对于最终系统稳定高效运行提供了有力保障.最终的结果也表明,精准运维产生了积极的效果.2015年微信发红包,除夕摇一摇总次数110亿次,峰值1400万次/秒,8.1亿次每分钟,微信红包收发达10.1亿次!惊人数字再次让人们好奇,2015年微信红包方式与去年用户与用户之间互发红包相比,摇红包的方式对业务量来说是一个极大的爆发,光是除夕10:30送出的一波红包就达到了1.2亿个,已经是2014年除夕夜峰值的4800倍之巨(2014年峰值每分钟被拆开红包数量仅2.5W个)! 我们在惊叹腾讯再次创造奇迹的同时,仔细想想,微信摇红包是个业务,实现这个业务的是它的信息系统,就是说配什么样的员工、用什么样的硬件、怎样的应用更合理,需要什么样的环境,这些决策都需要基于预测用户的群体意识和需求,以此为目标导向进行大数据分析和匹配度分析,进行资源的优化配置,从而实现微信红包业务的高效运行. 作者:李鹏,《IT运维之道》作者. (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |