业务运维系统(精选八篇)
业务运维系统 篇1
近年来,伴随着SG186 工程和SG-ERP建设的顺利实施,国家电网公司信息化建设取得了突飞猛进的发展和翻天覆地的变化。在总部、分部、各省公司SG186 工程和SG-ERP全面上线投运并完成实用化验收后,信息系统由大规模集中建设阶段全面转入业务集成、深化应用阶段。信息系统运行维护工作如何快速适应变化的形势成为运维单位面临的重要课题,信息系统业务运维工作与客户定制化服务相结合是解决上述问题的主要途径和发展趋势。
SG186 工程各信息系统建设大多采用统一设计开发、统一推广实施的模式推进,使得各单位的系统流程和功能完全一致,但各单位个性化需求在非标准模式下无法实现,与各单位原有系统界面和操作习惯存在较大差异,造成上线应用初期及功能更新后用户不适应、懒得用、不会用,难以满足同业对标的工作目标。为有效解决上述问题,帮助各业务处室开展信息系统深化应用工作,运维单位以信息技术基础架构库(Information Technology InfrastructureLibrary,ITIL)体系为依托,通过制度设计、信息支撑、团队建设等多维度推进业务运维服务,以高效便捷的信息化服务最大限度的减少信息系统深化应用障碍,本文提出了信息系统业务运维工作与客户定制化服务相结合的整体解决方案[1,2]。
1 运维现状
信息系统业务运维工作以提供标准统一的优质服务、全面提升客户满意度为目标,遵循并贯彻执行ITIL服务体系。ITIL是英国政府部门于20 世纪90 年代初组织研制发布的一套IT服务管理最佳实践指南,为企业的IT服务管理实践提供了客观、严谨、可量化的标准和规范。ITIL主要包括6 个模块,其中服务管理是其最核心的模块,该模块包括“服务提供”和“服务支持”2 个流程组。传统的ITIL服务体系以流程为导向,以客户满意和服务品质为核心,在各个模块下通过流程的落地实现ITIL的方法。文章的运维模式以传统ITIL为基准建立服务标准和操作规范,结合电网企业用户开展生产经营活动的实践需要,通过整合IT服务与企业业务,增加和补充客户定制化服务相关的内容,拓展客户体验的外延效果。
该体系采用以人为中心的理念,围绕客户个人信息做好运维服务事件、问题的记录跟踪,定期开展客户个性化需求收集整理并结合IT运维管理系统大数据分析结果,对运维工作将要面临的工作任务做到提前预判、心中有数,从容开展前期准备和业务布局,在服务过程中以高素质运维人员开展顾问式服务响应为保障,在执行规范允许范围内最大限度地保障和满足客户个性化需求得到解决,同时在执行过程中从更加专业的角度给出最合理高效的完整解决方案,将被动应对客户个性化需求转为主动引导客户执行标准化操作,使得定制化服务与客户需求之间产生良性互动和动态平衡,获得双赢局面。
为此将围绕制度设计、信息支撑、团队建设等3 个维度推进业务运维与客户定制化服务相结合的模式开展工作。
2 方法体系
2.1 制度设计
在国家电网公司总部、分部、省公司现有的信息系统运维规范和标准基础上,以ISO20000 4 层文件体系为蓝本,进一步规范和完善客户服务的标准化和规范化。在制度设计和规范优化的过程中,杜绝盲目照搬,过度迷信依赖咨询公司,求大求全、全盘按照ITIL的通用模式,对IT运维管理流程进行规划设计,否定信息化部门依旧继续充当灭火队的思维定式。“救火式”工作方式是效率最低的工作模式,因此依托ITIL体系解决这种低效的工作模式,同时做到理论和实践相结合,清楚知道哪个模块实用可用,每个流程对具体工作的影响和作用。因此专门针对实用性高的模块和流程经过筛选后再进行细化、完善,同时在定制化服务制度方面,开通VIP专线、落实客户经理制,完善定制化服务工作流程,增加一年为期2 次的定期客户回访和满意度调查,每个月按期开展客户服务情况月度分析,从业务方向、工作内容、服务对象、服务耗时等多维度进行统计分析,梳理出常见问题清单及规范性处理方案,将其模板化、工具化[3]。
2.2 信息支撑
以ITIL理论为指导,建立覆盖国家电网公司西北分部IT运维管理全面业务的IT服务统一软件平台,实现了服务台事件管理、问题管理、变更管理、配置管理、可用性管理、知识库管理、巡检计划管理等功能;基于工作流系统实施IT服务管理的各个流程,包括事件、问题、变更等规范流程,进行流程的可视化定义,实现各IT服务的记录和流程跟踪及监控;建立了统一的IT运维知识库,实现知识的统一管理,加强知识不断积累,同时通过集成搜索、智能提示等功能,实现了知识的高效应用;建立了统一的配置管理数据库用于识别、控制、维护、检查IT资源,从而高效控制与管理不断变化的信息基础架构与运维服务。基于ITIL的服务台及事件管理,目标是尽可能快速的处理运维事件,恢复IT资源的正常运行,避免业务中断,使事件对业务运营的影响降至最低,以保证IT资源的可用性水平与保持IT运维的最佳服务水平[4]。
信息系统运维管理系统的事件记录是业务运维工作分析的基础,以多年来积累的海量事件工单、问题记录的大数据分析为前提,采用问题措施分解法、月度趋势分析法、同期业务对比法,并通过提前收集汇总的各类业务年度月度工作计划安排,研究系统业务运维服务需求的发展态势及规律,建立分析模型,作为服务工作布局的指导依据,对运维服务工作将要面临的工作瓶颈和优势做到提前预判、心中有数,主动积极、从容不迫地开展前期准备。
2.3 团队建设
在运维团队建设和人才储备上需要投入大量精力,首先在各信息系统项目建设期间,运维人员全程参与并主动承担技术性工作,通过师徒传帮带、技能考核比武等形式,确保运维人员全面深入了解掌握系统功能特点、业务开展范围、技术实现方式等,具备独立处理各类应用问题的能力;其次在服务过程中,以高素质运维人员开展顾问式服务响应为保障,与客户进行面对面、点对点的服务内容交流与沟通,在执行规范允许范围内最大限度地保障和满足客户个性化需求得到解决;最后在持续服务改善阶段,从更加专业的角度给出最合理高效的完整解决方案,将被动应对客户个性化需求转为主动引导客户执行标准化操作,使得定制化服务与客户需求之间产生良性互动和动态平衡,有效满足并快速响应客户个性化、便利化的服务需求,同时促进同业对标等应用考核指标数据达标,从而提高工作质量和效率,提升优质服务水平,获得双赢局面。
3 运维流程
信息系统运维工作模式一般围绕人、工具、流程3 个基本元素展开。这3 个因素互相关联、互相制约,共同决定业务运作的成效。其中流程是指信息系统运行维护的各种业务过程,如投诉处理流程、业务需求响应流程等[5]。ITIL服务管理包括“服务提供”和“服务支持”两大部分,其中IT服务支持管理是基础性的管理流程,分为服务台、事件管理、问题管理、变更管理、发布管理、配置管理。在实践过程中,根据不同的服务对象和业务类型,将其进一步的组织细化和归类提炼,形成可落地执行的分类管理流程组,包括信息调度流程组、系统运检流程组、终端运检流程组、业务运检流程组、专项管理流程组等。信息系统运维流程总体架构如图1所示。
3.1 典型流程
以业务运检流程组为例,其中对应事件管理、问题管理、变更管理的业务流程分别有业务运维事件处理流程、用户业务需求变更管理流程、用户权限变更管理流程等。为规范业务运维事件处理工作,提高业务运检服务水平,依据业务运检工作管理规范结合工作实际,制订业务运维事件处理流程(见图2),该流程用于描述业务运维人员处理业务运维事件所依据的工作流程。
通过典型的业务运维事件处理流程可以看出,服务台集中受理用户事件并负责任务的记录、分派、跟踪及反馈;应用管理员负责具体运维事件的分析处理,当无法独立完成时,寻求三线厂商的技术支持。
用户业务需求变更管理流程、用户权限变更管理流程等管理流程的制定在保障满足客户个性化需求的同时,做到有据可查、有法可依,提升定制化服务的质量、效率,提高运维工作质量,保障运维工作安全。用户业务需求变更管理流程如图3 所示。
管理流程执行后,业务运维事件统一受理、分派,工单得以规范记录,用户对应用系统业务功能调整产生的需求变更及权限变更也通过不同的流程和单据进行申请、审批和流转。2015 年1 月至今,已产生信息系统业务需求变更25 起,用户权限变更57 起,涉及7 个信息系统,流程的顺畅、高效运转使用户需求第一时间得到响应与处理,事件平均响应时长由执行前的28 min提高到5 min,工单平均处理时长由执行前的147 min减少为执行后的51 min,极大地提高了工作效率与用户满意度。
3.2 流程优化
工作流程基于业务而设计,也伴随着业务的不断深化与变更而持续优化。首先是工作流程的纵向梳理,基于ARIS软件搭建运维流程管理平台,构建流程管理分层分类架构,明确定义流程运转的每一步骤,梳理该步骤所对应的相关岗位角色,使用何种信息系统,执行哪些业务操作,产生哪些工作记录。在梳理过程中发现流程执行不顺畅的环节,例如岗位职责不清晰、责任人不明确、流程接口关联不精准、执行方式多样化等,及时进行规范化调整。
其次是岗位职责的横向梳理,定义出流程中的关键岗位角色,梳理出关键岗位工作指导书。明确关键岗位工作参与的各个流程,在各流程中负责的工作步骤,针对每一步骤详细描述其工作方法和要求,用于指导关键岗位人员开展工作,加速新员工的培养和成长,为工作质量考核提供标准和依据。以服务台座席岗为例,明确工作范围包括接听热线电话、生成事件工单、维护管理知识库、编写质量报告等,制定其工作总流程,再细化分解各子流程,对每一个子流程中的步骤详细描述其工作要求,用于指导服务台座席开展工作。
通过纵向与横向2 个角度的梳理,信息系统运维流程清晰、执行顺畅,有迹可循;关键岗位人员定位准确、操作可控,有法可依;提高了信息系统运维标准化、专业化程度。
4 结语
以SG186 工程首批通过实用化验收和项目后评估为标志,国家电网公司西北分部各信息系统已安全稳定运行多年,各项应用考核指标始终名列前茅,这些成绩的取得与系统建设、运行维护等全过程中推进客户定制化服务满足不断变化的需求密不可分。以ITIL服务体系为核心的信息系统运维工作与客户定制化服务相结合是一套为IT服务部门有效解决信息系统深化应用难题的完整解决方案。通过追求“主动式管理”,作为一种最佳实践模式的借鉴,还有不断完善、持续改进的空间,每个企业都可以在自己的企业里走出满足自身需要的体系之路。
摘要:针对目前统一设计和建设的电力信息化系统无法满足企业的个性化业务需求的问题,提出了信息系统业务运维工作与客户定制化服务相结合的整体解决方案。方案以信息技术基础架构库(Information Technology Infrastructure Library,ITIL)体系为依托,通过制度设计、信息支撑、团队建设等多维度推进业务运维服务,提出了信息系统运维流程总体的架构,介绍了典型运维流程和流程优化的方法,提高了信息系统运维标准化、专业化程度,使业务运维与客户需求之间产生良性互动,获得双赢共进局面。
企业业务应急与运维保障建设报告 篇2
“业务应急与运维保障建设”
建设报告
移动支付业务平台作为公司的核心业务系统,支持公司支付业务,关系着公司与用户的切实利益。随着公司受众用户的不断增加,业务数据量不断增加,对公司移动支付业务平台的维护与管理提出了极大考验。移动支付业务平台数据关系着公司移动支付业务的运行,一旦出现数据丢失,不仅会对公司造成重大的经济损失,同时还会对公司造成不良的社会影响。一旦出现业务长时间中断或者数据丢失状况,都会对公司造成重大影响。
公司信息化系统现有的移动支付应用平台存在较大的业务中断风险,一旦出现应用服务器/数据库服务器出现系统、软件以及硬件等故障或者共享存储故障都极有可能造成公司移动支付业务的中断,甚至存在数据丢失风险。
企业移动支付应用系统架构主要由应用软件、数据库以及存储数据等几个部分组成,目前企业业务模式采用应用、数据库以及数据处于同一台服务器中运行,业务数据在600GB左右。随着业务需求不断增长,对于支付应用的数据安全性以及应用连续性的需求不断提高,传统的定时备份以及单机运行方式,存在极大的数据丢失以及业务长时间中断风险,需要增强对系统业务安全与数据安全的统一保障。
业务系统现有不足
1.缺乏服务器一体化实时备份保障
移动支付业务平台尚未实现存储的冗余保护机制,当前业务环境下,一旦出现存储阵列柜磁盘故障或者宕机状况,将造成业务的长时间中断,甚至极有造成数据的丢失。
企业现有移动支付业务服务器的操作系统和应用都没有实现实时备份。随着系统驱动以及程序配置更新,如果没有很好记录和备份,由于维护人员经常变动,这些应用出现故障后,很难重新安装部署,甚至无法重建。
2.业务连续性保障
目前系统状况仍存在单点故障风险,一旦服务器出现服务器硬件故障、数据的逻辑错误或者存储故障等故障,都有可能造成企业移动支付业务的中断,从而影响企业业务的正常运营。
另外,目前移动支付业务系统缺乏快速恢复能力,一旦出现服务器故障,往往需要投入大量的人力物力进行业务系统重建以及数据的重建导入。需要增强移动支付业务的业务系统与数据的快速恢复能力,从而实现整体移动支付业务系统的快速重建。3.服务器缺乏运维测试环境迁移工具
有些老的系统需要迁移到新的硬件平台,需要一个好用的系统迁移工具,非常担心老设备出现故障再也无法重建。
另外基于运维安全考虑,病毒补丁升级和应用版本升级需要测试环境才能打补丁或升级,每次测试或补丁测试都潜在很大风险,需要一套仿真系统提供测试需求。
4.信息化系统缺乏快速扩展性
当前公司信息化系统缺乏快速扩展性能力,一旦后续需要添加重要业务系统,都不可避免需要重新布置双机以及负载均衡,造成不必要的浪费与运维压力。
业务系统保障需求
“多业务应急与运维保障平台”系统,为企业用户信息化系统提供了完善的解决方式,帮助企业解决信息化系统机房数据安全与业务安全的一体化保障。平台可以解决移动支付业务平台现有的不足保障,维护公司业务与数据的安全。
1.实现服务器一体化实时备份保障
“多业务应急与运维保障平台”提供整机一体化实时备份,能覆盖到所有需要备份系统,而且改善了备份效率。A.实现对数据实现了实时数据保护; B.不仅备份了数据还备份整个系统环境及应用(实现对操作系统、应用及数据库环境以及生产数据一体化实时备份);C.系统能够改变以前数据备份无法验证不足,能够实现及时验证备份数据; D.恢复数据方式非常快和便捷,不仅几秒钟就能恢复单个数据,也可以几十分钟就可以完整恢复一个应用和数据,立即就可以使用,能可彻底改观传统恢复漫长局面。
2.业务连续性应急保障 “多业务应急与运维保障平台”提供在不影响前端业务性能的情况下,通过离线快照以及快速验证防止数据逻辑故障时,一旦出现硬件故障或者数据逻辑错误,都可以通过平台实现对业务系统的快速应急,接管业务系统对外服务,保障业务的连续性安全。
“多业务应急与运维保障平台”提供无缝恢复功能,可以实现对整机的快速迁移,还可以实现异构服务器的快速恢复,保障业务恢复快速有效。
3.提供系统仿真测试以及运维迁移工具
“多业务应急与运维保障平台”能提供了方便的各种操作系统和应用的迁移工具,为本单位一些老设备的应用提供迁移到新服务器的手段。也可以做虚拟化迁移工具,支持各种虚拟化系统。 “多业务应急与运维保障平台”能提供了原机多时间点的快照,提供了原机实时的仿真系统,能非常方便做各种应用系统测试。
4.增强信息化系统可扩展性
业务运维系统 篇3
2008年以来SG186工程已经进入“建设应用并重”、“着力深化应用”的阶段, 随着企业日常工作对信息系统的依赖程度不断加深, 对信息系统不间断安全运行的要求也越来越高, 地市层面的信息运维管理单位作为信息系统的运行检修部门和一体化平台的技术保障部门面临着巨大挑战:如何围绕国家电网公司和省公司的有关精神, 积极主动采取措施逐步实现精细化管理、提高运维能力、提高用户满意度, 从而更好地为企业信息化服务, 达到“建设和运行”双赢的局面是当前运维工作急需解决的问题。由此, 提出以建设信息运维管理系统为抓手, 加强信息专业自身的基础管理和业务流程的规范管理, 夯实技术保障基础, 为全面实现SG186工程服务。
1 信息运维管理现状
截至2008年底, 金华电业局本部运行的主要信息设备有:5个信息机房及其基础设施、网络设备288台、小型机服务器26台、PC服务器76台、存储备份设备6套、带库2套、负载均衡设备2台、SAN交换机4台、安全防护设备3套、台式机2061台 (包括便携机、打印机等) 。金华电力信息网络覆盖了金华电业局本部、局属各单位、110kV及以上变电所与集控站、11个县 (市) 局, 承载局本部和11个县级供电企业的诸如安全生产、农电SAP、配网生产、配网GIS、办公OA、门户系统、图档系统、PI、标准化作业等近50个业务系统的运行。金华电力信息网络覆盖率为100%, 系统年平均运行率为99.98%。
金华电业局信息运维管理部门在对上述如此大量的信息资产进行运行维护和管理时, 有接入控制和运行监视系统, 如:通过IP授权管理系统实现接入控制, 通过北塔综合监管系统实现网络设备和服务器设备的实时运行监视, 通过各专业监控工具软件实现应用系统的实时管理, 通过桌面标准化系统实现计算机终端管理等。但是缺乏一套具有科学合理的技术体系设计、功能方便实用的运维管理系统来支撑信息资产和业务流程的现代化管理, 信息专业生产过程的管理规范性不及电网专业。由此, 自主开发一套信息运维管理系统显得尤为迫切。
2 系统建设目标
2.1 系统技术路线
建设一套具有科学合理的技术体系设计、功能方便实用的运维管理系统, 系统的建成能规范现有业务处理流程、提高管理效率、实现业务闭环处理、加快事务处理过程。系统平台采用三层结构系统, 采用Oracle关系型数据库来实现数据的存储和管理。
采用数据建模技术建立完整的信息系统对象 (包括网络、主机、数据库、存储、备份、信息安全、机房基础设施等) , 实现设备分类自定义、设备属性自定义。
灵活的用户、角色、权限管理体系, 实现业务处理的权限设置与机构 (或部门) 变更的无关性。
基于工作流的处理机制, 实现各类业务流程的灵活调整和新增。
2.2 系统功能目标
建立信息设备管理体系, 实现标准化、规范化的信息设备管理;建立生产运行检修体系, 实现信息设备巡视、停复役申请、工作票和操作票、缺陷、操作日志、新系统上线、停复役公告、工作计划等业务的规范管理;建立良好的人机对话界面, 完善的数据查询、数据导出等功能, 操作使用简单、易学易用。系统建设分二期完成。
3 系统关键技术与实现
金华电业局信息运维管理系统采用的关键技术主要包括对象建模技术、工作流技术、权限控制技术等。
3.1 对象建模技术
信息运维管理系统属于管理信息系统的范畴, 系统需求的不确定因素很大, 系统数据结构难以稳定, 人机界面难以定型, 系统功能 (如查询、统计、汇总、报表、分析) 事先较难罗列齐全, 很多功能只有到系统试运行一段时间后才能提出或准确提出。因此, 对系统的灵活性、可扩充性、稳定性、响应速度、易维护性等方面都提出了很高的要求。针对以上特点和难点, 采用了面向对象的建模方法, 对象的形成过程也就是从系统调研、分析、设计、实施、试运行、投运的过程, 对象的属性并不是一次定型的, 而是伴随着系统生命周期不断完善的。基于对象的数据建模机制不但减轻了系统数据库维护工作量, 也为系统其他引擎设计提供了坚实基础。对象建模功能如图1所示。
3.2 工作流技术
工作流就是自动运作的业务过程, 表现为参与者对任务按照规定采取行动, 并令其在参与者之间传递。工作流管理的功能需求为包括:工作流定义、工作流委托、工作流监控、工作流考核等。
3.2.1 可视化流程定义
可视化的图形面:提供了一组标准的图符表达流程中各元素的意义, 可以自行定义、图标元素来改变工作流程的可视化效果。
灵活的流程设置:可为流程中每个活动节点定义启动条件、启动方式、执行角色和人员、退出条件、退出方式等。
内嵌式工作流平台:是嵌入在工作平台中的, 与工作单的数据在相同的数据库及相同的事务中处理, 保证了工作单数据与流程数据完全同步。可视化流程定义功能如图2所示。
3.2.2 主动式任务机制
主动式任务机制下, 用户是系统中的基本角色, 是直接的任务分派对象, 用户可以自动、方便、直接地在系统中看到针对自己列出的“任务清单”, 跟踪每一项任务的状态, 或继续一项任务。
3.2.3 可视化流程监控
在工作流管理系统中, 管理者可以通过工作流日志查询任何一项工作的日志情况, 包括该项工作由谁完成, 从什么时间开始到什么时候结束, 以便于对各项工作的分析与考核。同时, 管理者也可以对正在运行的流程实例进行监督, 查看工作执行的状态, 监督各项工作任务的执行。
3.3 权限控制技术
系统安全是系统应用生命力的重要保证, 本系统提供了全方位多层次的安全控制体系, 包括:角色授权、应用模块授权、特殊权限控制、工作流授权、站点访问控制等。
(1) 角色授权, 根据用户的工作内容与职责范围划分系统角色, 系统角色呈树形结构, 超级系统管理员是系统的根角色, 可分多级系统管理员, 任何父角色均可管理其子角色的权限, 如网络班长角色可为部门下的网络专职、电源专职角色进行相关功能模块的授权。这种结构大大减轻了系统管理员的工作量, 操作人员因工作需要工作岗位发生变迁时, 各级系统管理员只需对其赋予新的角色即可。
(2) 应用模块授权, 分全域维护、全域查询、局域维护、局域查询、模块分配等5种授权等级。全域维护:应用模块最高权限, 拥有全域维护权限者, 可在应用模块中操作任何部门数据;全域查询:应用模块最高查询权限, 可在应用模块中查询任何部门数据;局域维护:只能维护本部门的数据;局域查询:只能查询本部门的数据;模块分配:可以对子角色进行模块授权。
(3) 特殊权限控制, 对系统的关键模块或引擎进行授权, 如系统运行日志、工作流权限控制等。
(4) 工作流授权, 根据岗位职责, 对角色和人员的流程节点权限进行控制。
(5) 站点访问控制, 新增客户端要访问应用服务器, 系统管理员须将客户端IP加入应用服务器的IP地址访问表, 从而防止非法的IP地址访问。权限控制的系统实现如图3所示。
4 应用效果分析
信息运维管理系统于2009年6月建成并投入应用。该系统的建成和应用, 使信息运维部门理顺了管理流程, 巩固了基础管理, 加强了业务规范化, 提高了协同运作效率和管理透明度。
(1) 创新了管理理念, 优化了管理手段。信息运维管理系统的应用, 也是金华电业局信息运维管理标准化、规范化的过程, 通过需求分析、功能规范和关键业务流程的讨论, 提倡了标准化、规范化、流程化的运维管理理念, 理顺了管理流程, 建立了统一的信息运维管理平台, 实现了信息运维管理的跨越式发展, 使信息运维告别了传统的电子记录簿册、Word文档流转的手工时代。
(2) 巩固了基础管理, 加强了业务规范化。信息运维管理系统的应用, 为加强对信息专业的运维和建设管理提供了抓手。原先各管理人员从本职工作出发, 按自己的需求采集、存储信息, 数据信息采集传递渠道不一致, 口径不统一, 导致数据大量重复采集和存储, 准确率低, 数据处理难以规范, 信息资源不能共享。运维管理系统应用后, 设备和业务流程数据均以设定标准在系统中存储、获取, 打破了信息各专业间的时空限制, 实现了各类数据的唯一和共享。
(3) 改善了工作质量, 提高了工作效率。信息运维管理系统投入试运行后, 各专业人员感受到了系统的快捷与方便, 特别是停复役申请、工作票、缺陷、工作联系、设备变更等流程得到了迅速的应用, 加快了业务流程的流转, 降低了沟通成本和人员劳动强度, 促进信息专业工作效率的提高, 从而实现信息专业运维能力和用户服务满意度的提升。
(4) 提高了工作透明度, 增强了监控力度。信息运维管理系统流程机制的实现, 流程环节中的各级人员可方便快捷地查询任何一项工作的日志情况, 同时, 管理者也可以对正在运行的流程实例进行监督, 查看工作执行的状态, 监督各项工作任务的执行, 从而提高工作透明度和增强管理监控力度。
摘要:论述了金华电业局信息运维管理系统建设的必要性, 重点介绍了该系统建设过程中对象建模、业务流程、权限体系等技术设计思路以及实现方式。该系统的建成和应用使信息运维部门理顺了管理流程, 巩固了基础管理, 加强了业务规范化, 提高了协同运作效率和管理透明度。
信息系统运维浅谈 篇4
关键词:运维,信息技术,信息等级保护
0 引言
运维, 是运行维护的简称, 一般是指对一个组织内部已经建成或正在建设的某一套系统 (如空调系统、电路系统、广播系统等) 中的设备、环境、软件、人员、操作等各种要素, 按照一套标准的方法流程、技术手段和制度文档进行日常的操作/维修和综合管理, 确保它们能够正常运作。针对信息系统的运维就被称为信息系统运维, 亦被简称为IT运维。
IT运维诞生于信息化建设中, 且会与之相生相伴, 共同发展。无论单位规模大小, IT运维都会经历一个“运维内容从无到有, 运维对象从单一到混合, 运维广度从简单到复杂”的成长历程。
(1) 起步阶段:台式计算机的使用标志着IT运维工作的萌芽
我国绝大部分单位的信息化建设工作开始于20世纪90年代初, 在这之前对信息化知识的了解一片空白, 对信息化的认知是从认识台式计算机开始的。当时此类设备价格不菲, 所以购买数量稀少 (一般是一到两台, 极少有超过两位数的) , 用途也较单一 (主要用于文件资料打印) 。会操作该设备的员工极其有限, 而真正了解、熟悉计算机的就更少。一般由一名兼职 (由计算机操作员兼) 或专职 (外招计算机专业人士) 的员工负责该计算机及其配套设备的日常维护工作———主要是日常使用和故障维修。此时会相应拟定一个基本的管理制度, 作为确保该计算机及其配套设备平稳运行的依据和保障。
(2) 发展阶段:应用软件的部署开启了IT运维工作的成长之路
信息技术的发展推动了信息技术知识和信息产品的推广普及, 也促进了各单位开展信息化建设的需求和愿望。于是纷纷部署单个应用软件 (采购或委托研发) 使用, 拉开了正式的信息化建设工作。
这些应用软件是对单位内部某个业务流程进行信息化改造, 涉及该流程上的所有岗位和人员, 需要使用的设备和参与的人员都有较大增加, 依靠单个人员进行日常运维管理难度较大, 也不现实。成立一个由多名信息化专业人士组成的专职信息化管理部门来负责成为必然, 这个专职部门的核心工作就是对所有部署的应用软件及其附属设备进行日常维护管理。此时的IT运维工作, 不但管理对象从台式计算机扩展到服务器及交换机等设备, 而且工作内容从单台计算机使用扩展到应用软件操作、数据存储备份、设备维修保养、操作人员管理等方面, 管理难度和广度有了质的变化。
(3) 壮大阶段:全面网络化推动着IT运维工作走向成熟
随着越来越多的应用软件推广, 单位自身的信息化建设工作得到了进一步发展, 被覆盖的部门和员工在逐渐扩大, 甚至出现相互重叠的情况。为减少重复投资, 提高工作效率, 消除信息孤岛, 实现网络化成为必然———建立一个覆盖全部业务流程的内部局域网络。
这个内部网络的建立实现了信息的自动汇聚、数据的自动流通, 促进企业生产效率和经济利益的提升。但是同时也进一步增大了IT运维管理的难度和压力———扩充了如信息安全、网络管理等诸多运维内容和对象。
1 存在的问题
经过多年的持续建设, 截至目前, 绝大部分单位均已建立了一套基本的IT运维管理规范。这套规范从制度、设备、安全、数据、人员、网络等方面指导日常的IT运维工作。运行效果总体上是良好的, 但一些具有普遍性的“通病”依然存在, 未得到较好的解决。
1.1 信息化建设投入“不足”
信息化建设是一个循序渐进的、长期发展的过程, 需要不间断的、持续的投入 (包括知识技术、专业人才、专项资金等) 。但是这种投入不会产生“直接”效益, 只能通过其他部门的“收益”来间接体现, 直观上几乎感觉不到信息化投入带来的“好处”所在, 这就在很大程度上制约了对信息化投入的积极性和主动性。同时降低管理成本的压力始终存在, 使得信息化投入滞后的情况从信息化建设伊始就一直存在且从未彻底解决, 这在一定程度上影响了对IT运维建设的投入, 也妨碍了IT运维管理水平的提高。
1.2 信息化制度建设“不足”
众所周知, “没有规矩不成方圆”。所谓规矩, 就是为确保某一个事情能做成功而制定的规定、规则、做法, 进而演变成相应的制度规章来规范管理。信息化制度就是针对信息化工作制定的“规矩”。每个单位都会制定相应的信息化管理制度, 但执行效果不太理想, 仍存以下不足:
1.2.1 信息化制度执行力方面
由于我国自古以来的“人情社会”的特殊国情, “人情大于法治”思想还普遍存在, “法规遵从”意识还未完全建立起来。加之管理体制和机制的因素 (这点在行政事业单位和国有企业中表现特别显著) , 使得制定的信息化制度在实际执行过程中效果不佳, 特别是有关IT运维管理方面的规章制度执行到位程度不高。
1.2.2 信息化制度更新方面
信息化制度涉及面很广, 内容较多, 制定过程繁琐不易。而信息化人员的能力水平和时间精力是有限的, 已经制定完成的信息化制度普遍存在“高挂上墙、无人问津”的情况。与信息化技术的新发展、信息化管理的新要求同步程度不高, 更新不及时, 甚至出现“一个制度用终身”的情况, 使得制度的“有效”性存在不小的缺陷。
1.3 运维知识分享能力“不足”
基于成本等因素考虑, 单位内部的信息化工作人员鲜有按职数要求配备齐全的, 一人兼多岗的情况很普遍。日常IT运维工作内容较多, 而个人的精力和能力是有限的, 将工作内容分割成不同块, 交由不同人员分别管理是必然的。每个人的知识水平和工作方法各有千秋, 获得的运维知识和经验也不尽相同, 将这些运维知识汇总融合不仅有助于提高IT运维工作效率, 还有利于提升IT运维整体水平。但是由于认识不到位, 以及缺乏必要的投入, 运维知识共享能力建设未能及时开展, 造成了数量众多的“知识孤岛”。
1.4 信息数据备份校验建设“不足”
信息数据包括软件系统 (操作系统和应用系统) 自身的配置数据及其运行的数据, 硬件系统 (服务器、网络设备、计算机终端等) 自身的配置数据, 以及用户的私有数据。这些数据是一笔无形的财富, 它的重要性和价值与日俱增。任何单位的信息部门都应采取必要措施保证它们 (用户自身数据一般除外) 安全。除了采取措施确保存储这些重要数据的介质安全, 一般还会购置专业备份软件 (或利用最新备份技术) 实现对这些重要数据的自动备份。
这种自动备份机制的有效性和可靠性只有通过将备份的数据进行还原才能验证, 但这项验证工作开展情况不太理想, 主要是因为备份数据需要还原到一个与现行应用系统完全一致的环境中才能进行有效性校验, 而搭建这样一个环境所需的投入 (包括软硬件成本、现场环境等) 与建设它的成本相差无几, 这不是每个单位都能承受得了的。如果同时存在多个信息系统, 一旦它们的部署环境和硬件条件不相同, 则由此产生的投入将会是极其巨大的。
2 解决之道
IT运维管理作为保障IT系统业务正常、安全、有效运行的重要工具, 担负着“IT保护伞”的重任。只有及时完善IT运维管理, 才能有效保证信息系统平稳运行、安全有效。
2.1 增加信息化投入
信息化项目从建设开始到“消亡”结束的全生命周期内都需要不停的投入, 交付前是建设投入, 交付后则是运维投入, 而运维投入一般会占整个总额的60%以上。信息化建设是一把手工程, 用通俗易懂的文字、简洁直白的语言向高层领导介绍每一个信息化项目的必要性和必需性, 让他们听懂才会得到支持。有了充足的、充分的投入才能确保日常运维的效率和效果。
2.2 抓好制度建设
一个好的制度, 不仅要体现在内容文字上, 更要反映在执行效果上, 只有真正“落地”的制度才能激励员工的工作积极性。
要使制度真正落地, 可以:一则通过培训、交流等形式宣贯制度内容, 反复“潜移默化”每位员工, 促使制度内容入心入脑, 人人熟知;再则要建立切实可行的奖惩机制, 将奖励和惩罚措施明列于制度中, 并与员工个人的业绩考核挂钩, 通过经济杠杆来促进制度的落实;最后要根据信息化发展的现状, 通过修改稿等形式实时修订各项制度条款, 使其内容体现最新要求, 文字更加严谨, 操作更加规范, 管理更加严格。
2.3 建立知识分享体系
信息化工作人员在日常进行IT运维过程中所获得的知识其实是属于单位的“财产”。但由于人的个体独立性, 使得这份“财产”是保存在员工自己身上, 如不加以集中, 则会变成员工的“私有财产”, 造成单位“资产流失”。建立一个面向全体信息化工作人员的共享知识库可以将员工“私有”的知识转变成“共有”的, 进而成为企业的“知识财富”。
2.4 完善数据管理
数据是存储在介质上的, 故而对数据的管理包括对数据本身和存储介质两方面。日常运维中既要确保数据本身在产生过程中是“干净”的、有效的、真实的, 又要确保存储介质运行状态是稳定的、正常的、安全的。而保护数据安全最有效办法就是“安全防护+数据备份”, “安全防护”是前提和基础, “数据备份”是重点和核心。
“安全防护”通过部署信息安全产品和安全防护措施可以实现, “数据备份”则需借助自动备份机制完成。对于备份的数据进行有效性校验可以采取诸如虚拟化技术等最新信息化技术来实现。
2.5 用好信息等级保护制度
信息安全等级保护制度是一项以信息安全等级保护为核心的国家制度。信息安全等级保护是指对国家秘密信息、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信息系统分等级实行安全保护, 对信息系统中使用的信息安全产品实行按等级管理, 对信息系统中发生的信息安全事件分等级响应、处置。
信息等级保护从技术和管理两个方面提出了具体的措施要求。技术类安全要求, 主要是通过在信息系统中部署软硬件并正确地配置其安全功能来实现。包括物理安全、网络安全、主机系统安全、应用安全和数据安全及备份恢复等几个层面。管理类安全要求, 主要是通过控制各种角色的活动, 从政策、制度、规范、流程以及记录等方面作出规定来实现。包括安全管理机构、安全管理制度、人员安全管理、系统建设管理和系统运行维护管理等几个方面。
信息等级保护制度具有国家强制性的特点, 全国所有符合条件的单位都要遵照执行。参照制度规定中的技术和管理要求, 能弥补IT运维管理中的不足, 修正IT运维管理中的错误, 完善IT运维管理中的瑕疵, 有效地提升IT运维水平及运维管理能力。
3 结束语
信息技术仍在不断的更新和发展, 各单位自身的信息化建设仍处在不断推进发展的过程中, 伴随信息化的全生命周期的IT运维的好坏, 直接影响着信息系统的运行状态, 需要高度重视。
参考文献
[1]王仰富, 刘继承.中国企业的IT治理之道[M].北京:清华大学出版社, 2010.
[2]庞南.信息安全管理教程[M].北京:中国人民公安大学出版社, 2007.
[3]荆继武.信息安全技术教程[M].北京:中国人民公安大学出版社, 2007.
运维管理平台系统架构研究 篇5
本文从IT治理的全局需求进行规划, 并试图通过制定相关的接口规范及过程文档来提升运维管理平台项目在各种IT环境下整个开发实施过程的复用性。
2 各大运维管理平台产品存在的普遍性问题
虽然, 目前各大IT巨头公司在运维管理平台开发与实施方面取得了较好的成绩, 从一定程度上提升了IT治理过程中效率, 但由于业界各运维管理平台间没有明确的相关规范, 使得各IT治理的用户在选择运维管理平台软件时不得不面对几个共同的问题。
2.1 全局观问题
各IT巨头通过对各种客户所在的IT环境的项目实践并结合自身的技术优势开发出了各自的运维管理平台的功能模块, 一般为突出自身技术优势, 都会自觉或不自觉地对自己开发软硬产品的核心监控指标人为地设置技术壁垒, 让别的厂商无法获取该指标信息。本应由于市场竞争而获益的客户利益, 却由于在无技术规范的环境中, 各厂商的自我竞争行为而受损。因此, 以IT治理的客户利益为中心, 全局规划各厂商运维管理平台架构及交互接口规范至关重要。
2.2 IT 运维管理需求描述性问题
针对运维管理平台的功能需求来说, 此领域模型的术语主要由动词与名词组成。在与各大运维管理平台软件的技术人员进行业务需求调研过程中我们发现, 各软件提供商在描述运维管理需求时术语相对混乱, 不统一而导致对需求描述的随意性, 给最终用户之间、软件实施人员、软件技术开发人员, 在需求沟通及软件实现层面带来障碍和误解。如“事件过滤”这个术语厂商A认为对事件进行一个简单的重复筛选就完成了事件过滤的功能, 而厂商B则认为必须依据事件过滤规, 则对各事件进行一系列的复杂的逻辑判定, 才能完成事件过滤功能。如此不仅不能以一个统一的评比标准对各大运维管理平台软件进行指标评估, 也可能出现IT部门在购买运维管理平台软件后, 才发现其并没有达到自己的管理需求。因此, 全面收集运维管理需求, 防止运维管理描述的二义性, 是保障运维管理平台软件顺利上线运行的。
2.3 技术架构化, 接口兼容性问题
需求术语的统一为需求描述及软件评比打下了坚实的基础。运维管理平台主要的用户就是IT运维人员。各软件提供商的技术的兼容性是提升整体IT治理水平的关键, 只有各软件提供商的功能都模块化、松耦合, 但又可以通过规范接口进行信息交互, 从而实现信息共享才能真正实现让最擅长实现某一功能模块的厂商来完成其最擅长的功能点。这就要求必须设计一套类似于个人电脑的硬件组织架构, 显卡完成显示的图片处理、声卡完成声音信号的处理、网卡则专注处理网络包的处理, 而所有的信息都统一通过主板的各条数据总线及芯片的处理完成数据的有序正确处理。
2.4 运维管理流程化、制度化
任何一个管理型软件都必须要有一套与之适应配套的管理制度与操作流程。操作流程从运维一线人员的角度出发确保具体运维人员的技术可操作性, 而管理制度则从运维管理人员的角度出发确保所有运维过程都处于可追溯、可控制、可管理的状态下。
3 运维管理平台架构图
如图1所示, 展示了整个运维管理平台由三层构成, 从下自上分别为接入层, 处理层、展现层。接入层主要从相关的底层硬件设备或相关管理平台软件系统中收集所需的分析数据。处理层则通过不同类型的数据收集器对分析数据进行预处理后, 或通过事件探针或直接进入事件核心处理器, 并利用三大数据库保障各系统模块间的数据交互与共享, 这三大数据库分别为监控系统配置库、告警历史数据库和性能历史数据库。接入层的软件模块部分共享的监控对象以及监控对象间关系信息, 都统一存储维护在监控系统配置库。性能历史数据库主要是对各监控对象的性能监控指标进行归档存储用的, 告警历史数据库主要是存储所有经过事件核心处理器的告警信息。
本架构复用业界流行的ITIL流程标准, 一般生成工单可能直接由相关维护人员进行手工处理或直接发送至堡垒机设备, 堡垒机设备主要完成对后台维护人员的操作过程的记录及被管理设备的操作权限控制。如此在处理层完成了运维问题的事前发现、事中诊断定位、事后处理、经验总结的知识库等整个运维过程可以做到运维全程可操作、可控制、可管理。由于整个的运维管理平台本身可以由若干个公司在其各自擅长的领域处理模块拼装而成, 但要做到这类似于X86架构的PC机加插即用的灵活性必须建立如上图所描述的架构。用户统一管理模块位于处理层, 它作为公共功能模块被其他功能模块所引用, 只有统一了用户管理, 实现了界面展现的统一风格才能达到全部模块的无缝衔接。展现层则主要从运维管理平台的功能展现出发, 真正实现不同用户需求的配置化满足, 而不需要对底层的功能实现做大的代码变更。如里面展示的“告警展现”、“三维机房”主要是从大众需求出发加入的功能模块。
4 结束语
总之, 通过上述工作只是做了运维管理平台系统架构研究的前部分工作, 后期还有大量的系统接口标准制定及系统调用接口API的规范制定。只有通过运维管理平台系统架构图划分清晰了各自模块的功能职责界限, 同时规范各大模块的交互标准, 才可以实现各大运维管理系统平台厂商之间的技术兼容性。
摘要:本文从IT治理过程建模的视角入手, 重点分析了当前IT治理过程中需求模型, 并结合个人工作经验与规划思路从一定角度探讨了如何完整地搭建起服务于IT运维部门的运行维护管理平台系统。
信息系统运维探索与实践 篇6
1. 规范管理制度先行
为保证信息系统的稳定运行, 首先需要建立一整套的规章制度来规范运维工作, 并为运维工作的开展提供依据, 主要包括应急处置、需求变更、数据修改等管理规定。
1.1 应急处置规定
主要解决系统无法提供服务时, 用户如何办理业务;系统恢复后, 如何将业务数据补录到系统中;以及修复系统故障时导致的数据错误等。主要流程如下:接收故障报告—判定故障原因—确定修复时间—启动应急预案—手工办理业务—恢复系统故障—关闭应急预案—补录业务数据—编写处置报告。
1.2 数据修改规定。
所谓数据修改是指对系统基础数据和业务数据进行的修改;其中基础数据是指系统运行的基本数据参数, 基础数据的准确是保障系统正常使用的前提, 业务数据是指系统运行过程中产生的业务操作记录, 业务数据的准确是进行数据统计、数据分析和数据挖掘的前提。本规定首先明确各部门的数据维护权限和责任, 由责任部门负责对数据实施修改, 对未提供修改功能的数据, 由业务人员提交信息服务申请, 交由信息部门在数据库层面实施修改, 并记录备查;对于多次出现的数据修改需求, 需开发维护功能, 分配给业务部门权限进行修改, 以保证系统数据的有效性和数据质量。
1.3 需求变更规定。
所谓需求变更是指业务部门对已有系统增加、修改、删除某些功能的需求调整;随着系统应用的增加和业务模式的调整优化, 系统功能也需要随之进行修改和完善。为保证需求变更的及时准确, 防止频繁变更和需求膨胀, 需要信息部门做好对需求的把握和控制。“运维平台”为数据修改、需求变更等信息服务提供了有效的运维服务平台, 主要流程如下:业务人员提交信息服务申请—主管领导审批—信息办审批—业务部门会签—信息办实施—反馈业务人员。
2. 建立运维辅助系统, 完善运维体系建设
广义的系统运维不仅包括咨询答复、问题处理、运行保障, 还包括系统功能完善、系统开发等技术支持, 这是保证系统生命力的重要环节之一。所谓运维辅助系统, 是指除系统运维平台以外的相关功能系统, 如呼叫中心、问题反馈平台、运行监控平台等, 运维辅助系统的建立, 旨在进行问题收集、答复处理、问题反馈及系统监控等, 并实现与运维平台的有效对接, 实现运维体系的完整化。
2.1 呼叫中心
呼叫中心是直接面向用户的最直接、也是最快捷的咨询方式, 是进行问题收集的主要途径。建立呼叫中心, 让用户在使用系统遇到问题时, 及时得到帮助和解决, 给用户提供良好的使用体验。主要流程如下:接收问题咨询—问题分析—问题处理—答复反馈。其中对于简单的操作不熟等问题可直接进行答复, 并将咨询问题记入“问题反馈平台”备查和分析;对于复杂的问题需要在“问题反馈平台”上填写问题记录, 提交技术人员处理反馈。
2.2 问题反馈平台
问题反馈平台是收集问题的另一途径, 是对电话咨询的有效补充, 为用户提供多方式、多途径的帮助平台, 特别是对于一些非必须立即得到答复和相对复杂的问题, 可以通过问题反馈平台给用户提供更实用的问题提交和反馈方式, 减少电话咨询的压力。建立问题反馈平台一是搜集系统BUG, 解决用户使用遇到的问题;二是搜集改进意见, 为完善系统功能提供需求支撑, 确保系统功能准确、有效;三是对问题进行分类, 便于对问题进行统计分析, 进而为系统优化和服务优化提供数据参考。
2.3 系统监控平台
系统监控平台是信息部门内部加强系统监控管理的有效手段, 即针对应用系统的不同特点, 提出相应的监控方式, 开发系统监控流程, 并通过短信平台功能, 将系统问题以短信的方式发送至系统管理员手中, 使系统管理员第一时间收到问题信息, 进行问题处理和解决, 提高系统运维速度和效率。
3. 建立运维平台, 实现运维管理规范化、系统化
完整的运维体系不仅包括咨询答复、问题处理, 还包括需求变更、系统升级等运维管理全过程。建立运维平台, 实现对运维工作的持续跟踪与管理, 包括需求提交、需求分析、制定任务、开发管理等。
3.1 信息服务申请
由业务人员提出信息服务申请, 由主管部门领导审批, 再提交信息管理部门, 信息管理部门根据业务需要提请相关业务部门会签, 审批通过后交由技术部门实施。
3.2 需求分析管理
需求分析是把握需求的关键环节。随着系统的不断推广使用, 以及业务模式、业务流程的调整优化, 用户的需求会不断增加, 这其中包括对原有需求的调整以及新需求的提出, 为防止需求的盲目变更, 必须组织相关部门对需求进行评审, 把相关部门的意见进行整合, 避免需求不成熟或频繁变更的现象, 同时防止需求膨胀。
3.3 制定并下达任务
信息部门把需求内容转化为工作任务, 下达给技术部门 (或外协开发公司) , 对于权限调整、数据修改、简单的程序修改等任务, 由技术部门及时实施并反馈, 对于需要进行系统开发的需求, 由技术部门编写计划组织相关部门实施调研开发。
3.4 开发部署管理
对于通过审批的需求, 技术部门需重新进行需求调研和需求确认, 编写需求规格说明和详细设计, 分析工作量, 制定开发计划, 并组织开发人员按计划实施开发, 同时根据工作需要, 及时调整开发计划, 确保计划的有效性。
开发完成后, 由开发人员提出发版申请, 提交相关测试文档、发版说明、操作指南等技术文档, 由信息部门进行测试, 测试及审核通过后, 发布发版通知, 进行系统升级。
4. 结束语
业务运维系统 篇7
为了保证设备的安全、高效的运行,规范运维人员的操作,构建运维安全审计系统,成为信息化深化应用和建设的当务之急。国网山西电力运维审计系统2014年3月上线试运行,2014年10月通过国家电网公司正式验收,2015年1月在山西公司系统全面正式启用。
国网山西电力运维审计系统建设内容包括系统配置管理、安全策略管理、运维管理、命令审计管理、日志报表管理等功能模块。运维审计子系统采用物理旁路逻辑网关方式,在不更改原有网络拓扑结构、不影响设备的业务数据流、不需要在被保护服务器和终端上安装任何Agent的情况下,以集中管理为基础,单点登录为手段,实现对操作者在操作对象上的操作内容的集中管理、集中认证、实时控制和实时审计,审计信息不可更改、不可杜撰,最终实现人为操作风险最小化控制。
信息系统运维综合监管平台设计 篇8
1 建设需求
国家电网公司SG186工程建设内容全面覆盖了电网企业信息化工作内容, 具体对系统运维工作而言, 内容可以主要概括为4方面:一体化企业级信息集成平台、业务应用、桌面终端管理和信息安全管理。针对运维工作内容, 信息系统运维综合监管平台建设需求大体来说, 可包括以下几部分。
1.1 运行监控管理
(1) 一体化平台:一是硬件设备的监控, 包括查看设备的配置数据和实时性能数据;根据设备的当前性能数据值判断运行状况, 符合告警规则就发出告警;记录设备的历史变更情况和历史性能数据, 形成历史库;二是平台软件的监管, 主要是由软件提供的接口获得软件当前运行情况;三是网络监控, 主要包括查看网络当前的通断情况、链路当前负载、流量等数据;记录历史流量数据, 形成历史库。
(2) 业务应用:一是通过统一的接口和规范监测、统计和分析业务系统的运行数据;二是对业务系统故障产生的原因进行快速、准确定位;
(3) 桌面终端:一是针对桌面用户不同岗位的特点, 建立桌面管理规范和标准;二是和资产管理以及IP管理相结合, 对桌面进行全面管控;
(4) 统一、集中展现:一是原有的系统运维工具局限于各自所管对象的监控和管理, 缺乏灵活性;统一、集中的展现界面应该在原有展现模式的基础上更加宏观的展现信息, 能够从不同切面、视角展现;二是展现需要考虑业务和分析管理的角度;三是展现要直观, 通过图表等各种方式提供从细致到宏观数据的支持, 同时具备精细化的图档管理。
1.2 流程规范固化
(1) 体现分级运维, 分级负责, “谁运行谁负责”的管理思路, 适应“两级三线”的运行维护体系。
(2) 结合国家电网公司“两级三线”运行维护体系梳理工作流程, 根据实际工作要求, 通过统一的流程引擎为日常运维工作提供快速、方便、规范的流程;
(3) 建立一体化运维系统知识库, 通过知识库的积累, 为操作层和管理层提供问题分析的依据。
1.3 辅助分析决策
(1) 适应管理工作对分析需求的不断变化, 提供强有力的决策依据。在原始数据的基础上, 提供灵活的、不固定的分析手段和功能, 对数据进行深入、全面、细致的挖掘分析;
(2) 提供对各种监管对象的监控指标, 用于指导产品选型和采购;
(3) 提供自动化的指标和报表数据统计;
(4) 提供统一、完备的IT资产管理;
(5) 通过对历史数据进行趋势分析, 做到提前预警;
(6) 提供对整体的安全事件的分析和安全风险的管理。
1.4 一体化集成整合
信息系统运维综合监管平台的建设要突出“一体化”, 加强原有系统模块的关联度, 把原有割裂的东西整合起来, 在原有系统功能的基础上, 着重考虑跨系统、跨模块的关联、分析、统计。
2 建设原则
2.1 充分利用国家电网公司IT服务管理咨询成果
2007年, 国家电网公司开展了IT服务管理统一咨询工作, 参考ITIL模型和服务管理最佳实践, 对信息系统运维建设中相关角色职责、业务流程和考核机制的建设进行了明确和规范。运维综合监管平台建设要充分利用咨询成果, 综合考虑并完成平台建设。
2.2 借鉴SCADA/电网管理监控系统的成功经验
通过长期积累与发展, SCADA/电网管理监控系统已建立了一整套成熟、完善的体系架构:毫秒级的数据采集;包括实时数据库、历史数据库在内的基于CIM/CIS的数据集成总线;专用的工具层提供图形平台支撑上层应用与展现。在运维综合监管平台设计中要充分借鉴SCADA/电网管理监控系统的成功经验, 改革IT监管现有的体系结构, 达到实时管理、精益管理的目标。
2.3 充分利用现有产品及技术
在信息运维领域, 已有大量的指导理论以及适用于不同管理域的各种产品, 运维综合监管平台设计不但要汲取现有的技术与经验, 而且要兼顾公司内各级运维建设已有部分系统实际, 因此要充分利用现有产品及技术, 在现有产品与技术的基础上, 创新构建一体化信息系统运维综合监管平台。
2.4 统一规划, 分步实施
坚持统一规划, 明确发展方向和思路, 实施对整体架构和数据模型的统一管控。不可能一蹴而就, 必须循序渐进, 遵循分阶段迭代实施的原则。
2.5 业务支撑优先
无论平台功能如何划分及部署, 平台建设的最终目的是如何最有效的实现业务价值, 支撑业务的发展, 增收节支。
2.6 投资保护的原则
在满足业务支撑原则的前提下, 需要充分考虑保护已有投资, 尽量避免重复建设, 要考虑管理系统开发及运维的综合成本。
3 建设目标
信息系统运维综合监管平台的总体目标是建立一个稳定、高效、灵活的信息系统运行和维护管理体系, 为国家电网公司业务应用正常运行提供有力的支撑, 提高信息系统运行效率, 提高服务质量, 降低运营的成本, 为实现国家电网公司的战略目标提供坚实的基础支撑。具体包括4方面。
(1) 实时管理。主要包括实时掌握运行情况;及时发现故障与异常, 并迅速定位, 尽快解决;及时发现入侵、病毒等安全问题及安全隐患, 并迅速响应;通过运行分析, 调整运行策略, 提高系统运行效率;通过安全分析, 调整安全策略, 提高系统安全性。
(2) 闭环管理。主要包括通过流程保证故障、异常、隐患由合适的人采用合适的方式闭环处理;促进巡检、变更的工作标准化、规范化;通过流程运行的考核数据, 促进运维质量和运维效率的提高。
(3) 精益管理。主要包括通过丰富完善的信息图档资料, 为运行维护工作提供直观准确基础数据;避免维护工作中的疏漏而带来的人力、资金浪费;分析信息基础设施的运行负荷, 制定合理的资源调配方案。
(4) 战略管理。主要包括优化现有的信息基础设施的运行性能;提升系统安全性, 降低安全风险;预测并计划信息基础设施的需求;考核并不断提升服务水平。
4 系统架构
信息系统运维综合监管平台总体架构如图1所示。
系统总体架构分为3层和1个库:数据采集分析处理层、协同调度层、应用展示层与统一信息库。
数据采集分析层:数据采集层是对所有IT资源对象根据管理策略对运行状态情况 (KPI) 、资源配置数据、资产数据、安全数据等进行采集, 分析处理, 并将数据进行转发和存储。数据采集分析处理层对IT基础设施的监控范畴主要包括网络监控、主机监控、数据库监控、中间件监控和通用应用监控等进行供事件、故障报警的采集及分析, 以及对信息系统软硬件主要指标的采集及分析。为协同调度层提供服务与支撑, 是构建协同调度层的先决条件与基础。其目标是从多角度采集公司信息业务应用的运行数据, 通过分析处理评估运行的状态和质量, 发现故障和潜在问题并发出告警, 保障公司信息业务应用的持续稳定运行。配置数据采集是对于IT资源对象的配置情况进行主动的采集, 为后续的配置管理流程、资产管理提供数据, 建立基线。同时通过数据的比对或者审计, 发现配置变动。
协同调度层:数据处理层把分析完的数据上传到协同调度运维流程, 运维流程进行派单和处理, 并提供资产、知识库、文档管理。建立在统一的流程引擎上。
统一信息库:统一管理信息库是整个平台的核心数据结构和存储, 为其他应用、展示模块通过统一的数据总线接口提供统一、完整、准确的数据。
应用展示层:统一的应用、管理与展示界面, 建立在统一的图形平台上。
5 五个“一”技术路线
5.1 一次采集
现有的网管、安管、桌面管理等系统为实现对网络、系统、应用、安全设备与桌面等IT资源的管理, 需要采集IT资源的告警、性能、配置、安全数据。多种系统的数据采集存在同一资源的同种数据会被多次采集的现象:一方面同一数据多次存储, 数据冗余且可能存在一致性差异;另一方面, 多次数据采集对被管资源可能造成性能影响。因此一体化信息系统监管平台对数据的采集为一次采集, 变告警、性能、配置、安全事件、漏洞、资产数据的重复采集为一次采集, 多次使用。
5.2 一个流程引擎
现有的IT服务管理、安全管理、桌面管理都有流程功能, 分别建立在不同的流程引擎上, 通过统一流程引擎, 支持IT服务管理系统流程, 并支撑网管、安管、桌面管理中的所有工单流程运转。
5.3 一个管理信息库
现有各系统的数据分别存放, 存在数据冗余, 由于数据采集与维护策略不同, 可能存在数据不一致。为提供统一、完整、准确的数据, 需要构建统一管理信息库作为系统的核心数据结构和存储, 为其他应用、展示模块通过统一的数据总线接口。管理信息库中的数据包括资源数据、工单、操作、视图、故障、性能、原始数据及知识库。
5.4 一个图形平台
为达到实时管理与精细管理的目标, 同时借鉴SCADA/电网管理监控系统的成功经验, 需要构建一个图形平台, 支撑统一的应用与展现界面、综合的实时监管、工单与维护作业以及统计分析。
5.5 一次用户认证
在企业一体化平台统一身份认证的总体框架下, 对安全运维管理的要求将大大超过手工管理网管、流程和安管等跨异构系统的能力。管理上的复杂性还会导致出错机会和安全风险的增加。比如, 内外运维人员的快速流转导致系统中大量存在孤立的账号, 并且这些孤立的账号具有有效的权限, 使运维管理系统暴露在内部和外部攻击之下。因此需要账号管理集中化, 使公司能够从一个或几个集中点, 控制用户对所有管理系统的访问。整合各模块的用户管理, 提供统一的用户管理与认证。
6 建设路径
电网企业运维综合监管平台建设可根据各单位系统运维需要, “有重点、分阶段”展开。这里一般性建设路径建议。
(1) 第1阶段:实现实时监管与部分流程及图形化展现。本阶段数据采集分析层主要实现告警、性能、配置、安全事件、漏洞扫描和资产等数据的采集、数据过滤、数据安全、数据审计、实时故障告警分析、安全风险告警分析和性能数据处理;协同调度层实现服务台、事件、变更和巡检流程;统一信息库实现全部功能;应用展示层实现运维管理图形展示。
(2) 第2阶段:实现全部流程与大部展现。数据采集分析层主要实现资产数据跟踪;协同调度层实现问题、配置和调度流程;应用展示层实现运维管理仪表盘展示、运维管理统一报表、业务影响分析、安全影响分析、绩效考核、合规管理和文档资料管理。
(3) 第3阶段:实现资源战略规划。应用展示层实现故障反演、趋势预警、决策分析和可用性管理。
(4) 第4阶段:实现运维自动化。
7 结语