运维中心(精选九篇)
运维中心 篇1
本文通过分析双活数据中心的技术实现, 阐释双活数据中心在业务零中断和资源有效利用上的两大优势, 并提出相关的运维管理措施, 以期为业内同仁建设双活数据中心提供参考。
随着信息科技与银行业务的融合, 银行业务对信息系统的依赖日益增强, 信息科技与银行业务之间的关系已密不可分, 在带动银行业务创新发展的同时, 也蕴含着系统风险与安全隐患。特别是银行业完成数据大集中后, 原本分散的数据安全风险和运行风险也随之集中, 近年来随着云计算、移动互联信息技术的广泛应用和互联网金融等新兴业务模式的快速发展, 新的技术风险和外部攻击等潜在威胁越来越多;各系统平台互联互通需求已成常态, 系统间的关联运行风险显著增加, 这些都对数据中心的安全运维提出了更高的要求。银行业务具有实时性、连续性要求高的特点, 一旦银行信息系统出现故障或遭到攻击导致银行业务连续性和数据安全受到严重威胁, 将直接影响银行的日常经营。因此, 作为保障系统安全稳定运行的最后一道防线和风险集中点, 提高数据中心的灾备级别, 在发生事件时快速恢复系统服务, 对银行数据中心至关重要。
为防范不可预测灾难的发生, 当前国内银行业普遍建立两地三中心的灾备模式。两地是指同城、异地, 三中心是指生产数据中心、同城灾备中心、异地灾备中心。同城灾备中心是指在同一城市或邻近城市建立两个可独立承担关键信息系统运行的数据中心。
一般而言, 双活数据中心由生产数据中心和同城灾备中心共同构成, 两个中心具备基本等同的网络架构、存储架构和应用架构, 具备相同的业务处理能力, 并通过高速链路实现数据实时同步读取和应用处理。日常情况下, 业务同时运行在生产数据中心和同城灾备中心, 当其中一个数据中心发生灾难时, 可以实时进行生产运行切换;当生产数据中心所在城市发生灾难时, 可以将生产运行切换到异地灾备中心。
一、双活中心的实现技术
总行数据中心与同城灾备中心基于双活技术构成双活数据中心, 主要采取的技术是数据中心间二层网络互联技术、存储双活技术、数据库双活技术和服务器集群技术, 从下到上实现网络的双活、存储的双活、数据库的双活和应用的双活。采用智能DNS和网络负载均衡实现两个数据中心的网络流量分量和自动切换, 采用存储虚拟化技术实现两个数据中心的一致性存储, 采用数据库集群技术实现两个数据中心的数据库系统的双活, 双活数据中心可以实现业务系统在两个节点同时工作, 实现双中心负载均衡。同时, 当生产数据中心出现故障时, 业务系统还能够在同城灾备中心上正常工作, 实现业务零切换。
关于网络、存储、数据库以及应用层面的双活, 笔者在《金融科技时代》2015年第8期《银行“双活”数据中心构建技术及实现路径》中已有详细阐述, 故不再赘述。
二、双活数据中心的运维管理措施
双活数据中心在提升业务连续性的同时, 对系统运维提出了更高的要求。由于双活数据中心要求一致维护, 人员误操作、双中心关联变更、自然因素、基础构架缺陷等不确定因素诱发的风险概率也随之增加。对此, 在做好日常运维管理工作的基础上, 要进一步加强应急管理和安全生产工作, 建立“居安思危, 预防为主”的运维管理指导思想, 把功夫下在平时;构建以“快速响应, 快速定位, 快速处置”为核心的突发事件应急处置体系, 积极应对, 切实提高应急管理处置效率;完善突发事件的事后评估机制, 持续推动系统改进与流程优化, 切实提高银行运维管理工作的整体水平, 具体管理措施如下。
(一) 完善应对突发事件的组织体系, 建立组织机构间的应急协调机制
建立起全行一体化、多层次的运维管理和应急组织体系。成立由业务部门、技术部门、风险部门和法规部门等共同参与的应急事件处置小组, 形成应急处置的工作合力, 最优化地执行应急处置预案。要从各项业务种类、各个业务环节、各个风险点着手, 对应急处置流程进行梳理, 明确部门职责, 工作分配具体到个人, 做到突发事件发生时不缺位、不错位。同时, 要以制度章程的形式明确规定部门之间的运维管理和应急协调机制, 形成制度化的、自上而下的、具体的、操作性强的、长效的协调联动机制。与外部技术厂商、机房厂商等第三方组织之间也要建立起顺畅的应急联动机制, 在发生突发情况时, 能够发起全方位、多维度的应急联动, 切实保障应急处置工作顺利开展。
(二) 加强制度体系建设, 推行规范管理
一是建立健全运维管理制度。没有规矩, 不成方圆, 制度是开展各项运维管理工作的依据, 是保证系统安全运行的基石。比如在应急管理等方面, 要通过制度明确规定突发事件的含义, 突发事件应急管理的指导思想、处理原则、处置程序、职能分工和责任主体等主要问题, 从制度上为处置突发事件提供依据和指导。
二是全面规范运维流程。作为全行数据集中和系统运行的中心, 规范化的流程对系统稳定运行, 保障银行业务可持续运行具有至关重要的作用。应以ISO 2000的要求为标准, 借鉴ITIL最佳实践, 建立起完整的运维管理体系, 以问题为导向设立运维管理流程, 并对流程进行优化, 确保流程规范实用, 执行顺畅, 不断提升运维能力。同时, 建立起专业的一、二、三级矩阵式运维团队, 分级别、分层次着力于运维事件监控、原因分析和系统优化。对于容易引发运行异常、系统变更的情况, 要严格按照变更制度执行标准流程, 严格审批, 做好变更回退方案, 提升变更风险防控能力。
三是严格管理运维操作权限, 推行操作标准化, 强化操作风险控制。建立运维管理操作手册的标准框架, 依照框架, 梳理并完善系统运维管理操作手册, 针对关键和重要时点的操作, 逐条进行测试验证并根据系统变化情况进行及时更新, 确保运维操作准确无误;充分发挥堡垒机的内控功能, 通过堡垒机进一步细化运维操作权限和安全管控策略, 持续提升运维管理工作的精细化水平;定制完善操作审计功能, 加强运维操作合规审计。审计范围要以安全合规为出发点, 涵盖全部运维操作, 最大限度防范运维操作风险。
(三) 加强基础构架管理, 提升系统抗击风险的能力
一是着力信息系统技术构架的完善。首要推进的是信息系统的高可用改造, 通过建立“双活”的运行模式, 特别是针对存储系统等保障业务系统运行的基础支撑平台, 通过改造来进一步提高数据存储安全水平, 继而保证业务数据安全, 大幅增加数据中心整体抗击风险的能力, 最大程度降低突发性事件给系统带来的影响。其次, 剥离非核心系统和核心系统使用的基础硬件设施, 避免非核心系统的变更给核心系统引入附带风险。以总行数据中心存储区域网络为例, 可以通过优化现有存储区域网络架构, 建立起相互独立的备份存储区域网络和生产存储区域网络, 进一步保障生产系统稳定运行。
二是加强对软硬件产品的生命周期管理。重视对基础设施的维保服务管理, 按照监管部门对重要生产系统软硬件维保服务的监管要求, 组织提前对原厂即将停止服务的软硬件产品进行更换或升级;建立老化硬件设施的“退役”机制, 提前研究准备, 制定设备替换方案, 消除生产设备老化可能带来的潜在运行风险。
(四) 加强数据保护, 做到有“备”无患
备份是保证信息系统数据安全的坚实屏障, 通过备份数据进行恢复是系统应急处置中的重要技术手段。完善备份系统, 首先, 应扩大备份系统的覆盖范围, 做到全部业务系统的数据全面覆盖;其次, 保证备份的成功率, 通过优化数据备份策略等手段, 确保数据备份全面、准确;最后, 及时引入新增备份功能, 进一步增强备份系统的数据备份恢复能力。例如各信息系统主机操作系统备份是应急恢复的重要手段, 通过启用备份系统新增系统引导级备份功能, 并逐步覆盖到全部信息系统, 减少系统管理员的工作任务和备份介质难以集中管理的风险, 为系统应急恢复提供有力支持。
(五) 完善监测与预警机制, 防患于未然
一是加强系统的监控, 实现及时准确告警。数据中心应急管理始于及时准确的告警, 应依托集中监控平台, 扩大其覆盖范围, 持续优化监控策略, 提高各类告警的准确率和及时性, 为后续应急处理打下基础。
二是建立合理科学的预警指标体系。借鉴大数据的思想, 对积累的监控数据进行挖掘分析, 进而建立起系统故障预测分析预警模型, 通过对比系统各类实时监控数据和预警模型, 监测风险和突发事件征兆。当某个指标达到警戒值时, 需要引起高度警惕和重视, 果断采取措施加以预防。
三是推进运维工作关口前移, 排除系统潜在风险。密切关注厂家和监管部门发布的缺陷通告, 适时开展补丁升级工作, 避免因系统软件和微码版本缺陷引发的运维风险。坚持进行各种预防性维护措施的按时执行, 例如在线存储磁盘状态预防性扫描、磁带机预防性清洗等已有的预防性维护措施, 减少系统故障的发生率。
(六) 加强应急预案建设, 落实应急演练
一是多维度全方位梳理应急场景, 保证应急预案全面覆盖。在应急预案的制定上, 对可能发生的各类突发性事件作出全方位风险评估, 按照风险评估和业务影响评估所确定的应急内容, 制定不同层次、不同内容的应急处置预案, 不断细化应急预案场景, 确保应急预案实操性。在条件允许的情况下, 可根据实际需求聘请专业机构对预案的全面性、易用性、明确性、有效性和兼容性进行严格的审查, 及时纠正发现的问题和缺陷, 确保预案的科学合理和实际可操作性。在后续工作中, 着重组织对生产相关的风险进行深入排查, 完善现有风险列表, 分析风险的根源、类型和影响范围等, 建立风险地图, 并针对风险地图的各类风险, 制定统一的应急预案模板, 完善或建立具有可操作性的应急预案。
二是建立应急预案完善机制, 确保应急预案的时效性。应急预案不应过于程序化和形式化, 不能千篇一律地照搬或套用固定模式, 要结合自身的环境和实际情况而制定, 结合形势的变化及时调整, 不断完善。
运维中心5种意识学习总结 篇2
运行维护中心“五种意识”学习总结 8月20日,运行维护中心召开全体会议,集中学习贯彻于培双党组书记、董事长在广西电网公司2014年半年工作座谈会上的讲话精神,对运维中心全体职工宣传“五种意识”全面推进“五抓一创”学习讨论活动。本次学习活动结合运维中心实际情况对“五种意识”进行解析,大家深刻领会争强“五种意识”的重要意义,进一步抓好各项工作。会议要求各级员工从运维中心工作的实际出发,切实把思想和行动统一到运维中心的各项决策部署上来,要把学习大局意识、忧患意识、问题意识、规矩意识、实干意识,落实在创先争优上;落实在敬业爱岗;落实在恪尽职守、勇于担当上。本次学习活动上大家还围绕对照“五种意识”这一主题开展了广泛的讨论和分享交流,帮助员工进一步找准短板,推动干部员工进一步提升自身素质和作风转变,将增强“五种意识”的学习成果转化为推进“五抓一创”落地的实际行动。
2014.08.20
网络中心机房的运维与管理 篇3
关键词:网络中心,机房管理,运行维护
一、网络中心机房的环境要求
(一) 电气环境要求。
防静电和防电磁干扰是机房电气环境要求的主要内容。由于网络设备内部电路采用大量的半导体MOS、CMOS等器件, 这类器件对静电的敏感范围为25~1, 000v, 而静电产生的静电电压往往高达数千伏甚至上万伏, 足以击穿各种类型的半导体器件。因此机房地板或地面应有静电泄放措施, 如有条件最好安装防静电地板;工作台面宜采用导静电或静电耗散材料。地板支架、机房内所有设备的金属外壳要接地;静电接地的连接线应有足够的机械强度和化学稳定性。工作人员移动设备时要轻拿轻放, 减少因频繁走动产生摩擦进而产生静电。电磁干扰对网络设备的影响不可小觑, 无论对软件还是硬件都可能造成或轻或重的损害。同时, 网络设备本身也会产生电磁辐射, 对临近的电子设备也同样有电磁干扰的影响。因此, 可以通过采用屏蔽、滤波、改良布线方式等方法来降低电磁干扰对设备的不利影响。另外, 选择设备本身具有抗电磁干扰设计的网络设备, 也能起到较好的抗干扰作用。
(二) 温湿度要求。
路由器、核心交换机、服务器等设备对机房温度十分敏感, 要求较高。当温度偏高时, 网络设备散热不畅, 电子元件寿命降低, 易造成系统宕机的威胁, 影响通信线路的稳定、可靠传输。为保障网络设备24小时不间断运行, 严格控制机房温度则显得尤为重要。一般情况下, 机房温度夏季控制在23℃左右 (可上下浮动2℃) , 冬季控制在20℃左右较为适宜。同时, 湿度对网络设备的影响也很大。湿度偏高, 容易造成金属部件氧化腐蚀, 并引起电路板、布线等绝缘材料的绝缘性能降低, 甚至造成电路短路。空气太干燥又容易引起静电, 损坏电路板。一般说来, 机房内的相对湿度应保持在40%~60%范围内较为适宜。
(三) 防尘要求。
服务器、网络设备等在工作运转过程中会产生高压与静电并吸附空气中的灰尘, 电子器件等受灰尘和空气中水分的影响容易造成绝缘性降低和接触不良。由于机房空间狭小, 长年累月线路板上吸附的灰尘会越积越多, 设备在运转过程中出现故障的可能性也越来越大。通常表现为电路板告警。此时, 可通过对电路板重新插拔并清洁插针周围的灰尘使其恢复正常。机房应具有良好的防尘措施和效果, 门窗缝隙、电缆出入口、机房地面、机柜、设备等处都需严格做防尘处理;进入室内的空气必须经过新风机过滤;设立缓冲间, 工作人员要换鞋后才能进入机房, 以最大限度的将粉尘阻隔在主机房区的外面。
(四) 防火要求。
机房应为独立的防火分区, 机房的外墙应采用非燃烧材料。进出机房区域的门应采用防火门或防火卷帘;穿越防火墙的送、回风管, 应设防火阀;机房及楼道内应装有温度烟雾感应器及防火报警探测头。在遇火情时, 系统自动报警并启动惰性气体灭火系统灭火。机房内应配备手提式或推车式灭火器并保证其有效性。机房管理人员必须抱着高度的责任感在日常勤于对线路、危险源进行检查确认来保证。具体包括:制定完善的防火制度;保证疏散通道的畅通、安全标志明显;机房内计算机布局合理, 线道规范;合理正确使用用电设备。
(五) 防鼠、虫害要求。
机房在防鼠、防虫方面如若措施不当, 也极大地增加了设备损坏的风险。当老鼠进入机房后, 不仅咬断电缆、尾纤, 其排泄物更可能直接导致设备损毁。对老鼠、虫害的防护可通过多种防护进行:在机房、设备间门口放置防鼠板;各种孔洞要用防火材料封堵;线槽封闭, 尽量不暴露裸线;线缆出入口以铁丝网封堵较好;机柜门平时保持关闭。同时, 还要严格杜绝食品进入机房。
二、网络中心机房IT设备的运维
设备日常维护主要以预防为主, 防患于未然。在维护过程中善于发现潜在故障, 找出诱发原因, 消除隐患。
(一) 网络故障的分类。
网络故障按其性质可分为物理故障和逻辑故障。物理故障也称为硬件故障, 指设备插头松动、线路损坏或受到强烈电磁干扰等情况。故障表现通常是网络时断时续或完全断开。工作人员可先采取直接观察、插拔等基础方法判断设备声音是否异常, 指示灯有无错误提示等;也可通过程序诊断和仪器检测进行进一步的诊断;或直接用新设备或新模块做替换。
逻辑故障也称为软件故障, 主要是由于设备配置等软件引起的故障, 相对于硬件故障要更为复杂。通常表现为网络协议问题、IP地址冲突等问题造成网速缓慢、时断时续、页面加载超时等。可通过重要数据双机热备份, 重启端口或重新端口配置、IP地址统一分配管理等方式来完成。
(二) 网络故障诊断和排除的一般方法。
排除网络故障要根据故障的表现情况分析可能引起故障的各种原因, 逐一排除, 缩小排查范围, 最终确定问题的症结。首先, 判断该故障是个案故障还是网络整体故障。如果是前者, 往往是由于操作过程不当、权限设置有误或本地计算机故障等原因造成;如果是后者, 则需把工作重点放在集线器、协议转换器、路由器或线缆等特定组件上, 按照通信线路结点依次做环 (包括内环、外环) 检测。必要时, 可联合电信运营商一同排查。其次, 在检查故障过程中, 应及时做好相应的文字、数据、方法等记录, 以便有据可查, 有源可溯;在问题得到解决后还应测试网络效果, 确保该网络故障排除后并未由此产生新的网络问题。第三, 善于归纳、总结和思考, 为以后的网络管理提供数据和经验。
三、人员要求
机房的运维和管理目前还是以智能监控为辅, 人员管理为主的一项工作。因此, 对管理人员提出的要求也是相对较高的。一是增强岗位责任心, 强化服务意识。二是机房管理人员要具备良好的专业技能和职业素养, 熟练掌握各种系统和设备的操作和配置, 在工作中不断积累经验, 努力提高自身知识业务水平。三是关注行业发展动态, 增加与同行工作心得、技术交流的机会。四是机房管理人员应设置A/B岗和有效的管理梯队, 保证机房管理不脱节。
四、网络安全
(一) 安装硬件防火墙。
安装硬件防火墙, 有效保证网络的安全。定期检查防火墙的设置, 查看有没有黑客入侵的行为, 及时做好更新升级工作, 确保防火墙的正常运行。
(二) 安装并更新防病毒软件服务器。
计算机病毒产生非常快, 具有较强的破坏性及传染性, 充分利用防病毒服务器对客户端的防病毒软件进行管理, 自动更新相应的病毒库。
(三) 做好内网和互联网的隔离。
从通信线路上做好机房内、外网交换机的物理隔离。机房中通过内网线路连接的服务器及其他网络设备, 统一分配、绑定IP地址以防他人篡改。
(四) 对常用软件及操作系统进行定期的补丁更新。
常用的应用软件及操作系统一定要做好定期的补丁更新, 不然系统中的安全漏洞就会遭到相应病毒的攻击, 比如蠕虫病毒、冲击波等等就是很容易出现的病毒。可以通过补丁更新服务器对操作系统进行系统补丁的统一分发, 减少维护人员的工作总量。
五、结语
网络中心机房的运维与管理是一个系统性的工作, 需要各个层次上的有效部署和紧密配合。要增强技术能力, 提高管理水平;资源分配要合理并提高利用效率;加强防范措施, 确保机房安全运行等。相信通过这些措施科学地维护和管理机房, 才能达到提高机房运营效率的目的。
参考文献
[1] .电子信息系统机房设计规范GB50174-2008[M].北京:中国计划出版社, 2009
[2] .张成泉.机房工程[M].北京:中国电力出版社, 2008
[3] .辛全民, 贾晓杰.漳卫南局专网通信机房的维护与管理[J].海河水利, 2008
运维中心试用期个人工作总结 篇4
本文由好范文小编辑收集整理,这是一篇关于运维中心工作总结范文的文章,欢迎浏览借鉴!
尊敬的公司领导:
我于20xx年xx月xx日起正式成为公司一员。
时间飞逝,转眼间,做为一名我友正式员工已经有两个月之久。在这个难忘而又夸姣的日子里,我深入体会到了公司的积极氛围和各个部门的巨大魅力,目睹了公司一步步走向成熟,看到了公司网络的不断健全和系统不断完善,并日渐不乱,同时,也看到了运维中心给于系统管理职员带下世人向往的学习的平台和和无穷的机遇与挑战,所以,我在此对于过去的工作做下总结。
总结历史
在运维中心工作期间,我工作认真,具有较强的责任心和进取心,极富工作热情,确实完成上级交付的工作,善于与他人沟通,和公司部门同事之间能够通力合作,关系相处融洽而辑穆,配合各部分负责人成功的完成各项工作,具有很强的团队合作精神。注重自己的个人发展,不断努力学习系统、网站架构知识。所以我现在已经能够纯熟维护公司的系统服务和监控网站架构,包括前段节点,源站各个站点服务的流量信息等,能及时查看并报警所引起的网络服务相关故障,能注重公司的种种流程细节,拥有了一名系统管理维护员的基本工作技能。
回顾历史
九月份,是我成为公司正式员工最幼嫩的时期,一直都处在学习阶段,学习公司网站的架构分布情况,以及在系
统中各种常见网络服务的搭建,包括学习系统基本的操作,pure-ftp的搭建,php网站的发布,对后台数据库的管理,通过各种熟练的基本操作之后,在此之上,我为迎合公司的发展需求,在网络服务监控方面我准备了各种实战经验;在上级的指挥下,我独自一人自主搭建了新版本软件nagios监控服务器,并通过测试,可以和公司现阶段运行的服务器媲美,在此基础上,为了更好方便的管理,我又研究了nagvis,通过实现对监控设备的3d效果使之管理人员能第一时间更清晰的了解网站后台服务器的负载情况。
十月份,通过我们部门定期的进行小组的学习,使我对linux自身的学习有了更大的兴趣和憧憬,为此我研究基于各种网站类型的发布,包括对apache,varnish,lighttpd,等各种平台网站服务器的发布,样使我今后在监控,事件处理方面做好了充分的准备;为此,我特地独立创建我们部门的bbs论坛,并且发布于外网,使部门员工不仅在公司,而且还可以在家里进行访问与交流,以方便我们公司部门员工的共同学习和交流。十月份,我有幸的见证我们公司sns2.5新版本的新上线,同时我也参与了公司内部测试,配合公司对新版本的bug,并及时提出问题。由于公司正处于现阶段发展之中,所以我必须迎合而上,配合其他部门积极工作,争取能为公司的发展出一己之力。
瞻望未来
在今后的工作过程中,我会更加严格要求自己,同时也有几个大方向是我需要努力。nagios监控系统拥有极其多的复杂服务,它是我的核心工作,它的完成情况反映着我的工作是否尽职。我会努力做好本职工作。还有,cacti监控设备系统,因为时间的分配,有很多多知识未能及时巩固,同时也需要紧抓时间实践操纵,并参加实际建设和规划,使自己能更加灵活应用系统网络知识,并积累处理相关异常经验。同时,自己也
要不断努力与充实自己,研究shell,pure各种脚本的编写,使自己处理处理突发事件的效率提高,以及nginx和squid这些常用的服务搭建。在今后的一年里,也会参加相应的证书考核,不断晋升自己,并紧抓利用业余时间努力学习it知识,搭建各种服务器知识,包括自己学习小型机跟进步英语水平。
岁月不居!转眼间我来到运维部宽带班工作已经三个月的时间。在这三个月的时间里,自己学习到了很多有关宽带的知识。为了更好地完成工作,总结经验,扬长避短,提高自己的业务技能,现将工作情况总结如下:
一、工作汇报
自200*年12月26日工作以来,我认真完成工作,努力学习,积极思考,工作能力逐步提高。刚进入新的工作岗位时,为了配合adsl与端口的绑定工作,和百路达公司的工作人员一起到用户端摸排用户机器的网卡mac地址。为了确保端口的正确无误,摸排资料的准确,为将来端口的顺利绑定打下了坚实的基础。
紧接着又做了一部分资源上线的工作。包括模块局的建立和dslam设备的内连接及外连接。这些工作使自己更加熟练的操作使用客服系统。而且对机房设备有了一定的了解,使自己对上层设备有了更加感官上的认识。
当郑州分公司搬到新的办公场所后,公司的内部办公网络交由我们维护。在为开通每一个信息点时,使自己学习到了更多的网络知识,更加提高了自己的实际动手能力。同时,为了确保每一个信息点的及时正常使用,使公司的各位领导及每一位同志尽快的在新的办公环境中投入到工作中,我和班上的几位同事加班加点的完成了这项艰苦的任务。
在投入到新的办公环境后,我也开始了新的工作――故障预处理。这项工作使自己掌握了基本的adsl技术。可以处理大部分的用户端故障。为了解决一
些外线班处理不了的问题,自己和外线人员一起机房和用户端处理。在用户家,每一句话都代表着公司形象。所以,我在实际工作中,时时严格要求自己,做到谨小慎微。
此外,火车跑的快还靠车头带,由于刚参加工作,无论从业务能力,还是从思想上都存在许多的不足。在这些方面我都得到了部门领导及本部门的老员工的正确引导和帮助,使我在工作能力提高,方向明确,态度端正。从而,对我的发展打下了良好的基础。
二、工作感想
踏入新的工作岗位后,经过三个月的锻炼,使自己对这份工作有了更多更深的认识。对于工作或者说事业,每个人都有不同的认识和感受,我也一样。对我而言,我通常会从两个角度去把握自己的思想脉络。
首先是心态,套用米卢的一句话“态度决定一切”。有了正确的态度,才能运用正确的方法,找到正确的方向,进而取得正确的结果。具体而言,我对工作的态度就是选择自己喜爱的,然后为自己的所爱尽自己最大的努力。我一直认为工作不该是一个任务或者负担,应该是一种乐趣,是一种享受,而只有你对它产生兴趣,彻底的爱上它,你才能充分的体会到其中的快乐。我相信我会在对这一业务的努力探索和发现中找到我工作的乐趣,也才能毫无保留的为它尽我最大的力量。可以说,懂得享受工作,你才懂得如何成功,期间来不得半点勉强。
其次,是能力问题,又可以分成专业能力和基本能力。对这一问题的认识我可以用一个简单的例子说明:以一只骆驼来讲,专业能力决定了它能够在沙漠的环境里生存,而基本能力,包括适应度、坚忍度、天性的警觉等,决定了它能在沙漠的环境里生存多久。具体到人,专业能力决定了你适合于某种工作,基本能力,包括自信力,协作能力,承担责任的能力,冒险精神,以及发展潜
力等,将直接决定工作的生命力。一个在事业上成功的人,必是两种能力能够很好地协调发展和运作的人。
三、工作目标
在今后的工作中,我会加倍的努力学习专业知识,掌握更多的业务技能,为将来的工作打好坚实的基础。
在作风上,能遵章守纪、团结同事、务真求实、乐观上进,始终保持严谨认真的工作态度和一丝不苟的工作作风,勤勤恳恳,任劳任怨。在生活中发扬艰苦朴素、勤俭耐劳、乐于助人的优良传统,始终做到老老实实做人,勤勤恳恳做事,勤劳简朴的生活,时刻牢记自己的责任和义务,严格要求自己,在任何时候都要努力完成领导交给的任务。
随着端口绑定工作的深入,新工作内容的展开,可以预料我们的工作将更加繁重,要求也更高,需掌握的知识更高更广。为此,我将更加勤奋的工作,刻苦的学习,努力提高文化素质和各种工作技能,做出应有的贡献。
今后我将以崭新的精神状态投入到工作当中,努力学习,提高工作效率,熟练业务能力。积极响应公司加强管理的措施,遵守公司的规章制度,做好本职工作。
回顾过去的一年,在市县公司工区领导指导下取得的一些成绩,但也有一些不足。现就运行工作总结如下:
一、努力学习新知识,掌握新设备,提高业务技能。
我所工作的单位是一所建设刚2年的变电站,有着配套齐全的办公设施和生活用具,有着慕煞旁人的生活和学习的条件。自从2014年4月进入110kv变电站工作以来,在市县工区领导关怀指导下努力改变以往工作模式与方法。从一个干好自己工作为己任,无关他人的自我态度,通过不断的学习和锻炼,逐步转变为互相帮助,共同完成与提高的协同办公新模式。记得建站投运之始,依然是每天跟班日出而作,日落而栖学习设备的理论和操作方法。终是初步接
触110千伏变电站设备,在市工区领导平时工作担心忧郁的语气中,我常感无形的工作压力,正吞噬着我;而这,也正深深的激励着我,更加以自觉学习业务知识。
直到去年的某天,在一派新设备无故障的思想中,几乎把尚存脑海的业务知识遗忘殆尽的时,突然接到地调110kv624线路配合停电检修的操作指令,在市工区领导仍然有些担心的口吻中,我以正确的事故处理方法及操作步骤面对,在默认处理措施后,在长长的电话线那边,似乎看见领导在稍稍放松的神情里,正用赞许的眼光望着我。。
二、立足本岗位,发挥党员模范带头作用。
作为变电站一名基层党员,爱岗敬业、忠贞不渝,在保持党的纯洁性工作和意识形态中,唯有加强变电站平时安全运行意识的养成和既定制度管理的落实,服务好人民群众,促进变电运维工作的全面发展,才是爱党、爱国家、爱
公司应有的体现。我在过去的一年中主动学习党的方针政策,加强党性修养,进一步提高自己的政治觉悟和工作能力,在尽职履责中发挥模范带头作用。在公司基层变电站里营造和谐工作氛围,勇于担当,充分体现党员的优秀价值。
新形势下,多年的基层变电站工作,让我深深的知道迎峰度夏的工作中,公司和电网发展所面临的任务。我从本职岗位挑战出发,时时处处以身作则,用实际行动充分体现党员的执行力和实践力。在过去一年的围绕迎峰度夏保供电工作中,我明确时段、地段、人员和工作要求,落实测温、特巡等工作,包括设备过热、线路弧垂下降等原因引起的跳闸,全面开展变电设备状态巡视和检测工作。切实防止变电设备巡视维护不到位而引发的设备事件发生,通过努力,“迎峰度夏”保供电工作在两级工区领导大力指导下,取得了圆满成绩和效果。
三、继往开来,把一腔工作热情付诸于无限的为人民服务中去。
作为电力工作者,我们任何时候都应以党和企业的事业为重;任何时候都应践行“诚信、责任、创新、奉献”的核心价值观,高标准履行国家电网人的职责。在今年政治性用电“国庆”、“十八大”保电工作中,严格遵循各项规章制度,严防死守,密切配合电力调度,有力的保障了当地人民群众广播电视的正常收听,收看。我来自于基层变电站一名普通的职工,任何时候都应服从整体利益,恪尽职守,在以后的本岗位上,我也将一如既往扎实干好自身工作,干净干事,发挥党员模范带头作用,努力为当地经济的发展值好班、站好岗,向组织交上一份“组织放心,群众满意”的答卷。
**公司系统运维工程师年终个人工作总结及下年工作计划
时间一晃而过,弹指之间,2014年悄然而至,自从2014年3月份刚进入公司,我是第一次接触公司、接触通信
行业、接触公司网络管理及维护。虽然跟我的专业和技能都一致,但所有的实际经验都是第一次,让我没有任何准备,同样也打消了任何顾虑,人生就是这样,所有的一切都是要从第一次开始,没有接触过、干过并不可怕,领导给了我机会,让我有了一次尝试、一次展现自己的平台,那么我一定会更加倍的努力做好工作才是最大的回报。并且也是对自己的一次肯定。经过一段时间的工作及陌生环境的磨合,专心钻研业务知识,努力提高理论知识和业务工作水平。遵纪守法,踏实工作认真完成领导交办的各项工作任务,使自己渐渐的融入和适应到新的工作环境中。过去的大半年里在领导和同事们的悉心关怀和支持帮助下,通过自身的不懈努力,在思想、学习和工作等方面取得了新的进步。现总结如下:
一、公司电脑日常维护工作
刚一开始接手工作的时候,发现公司大部分工作电脑都没有安装安全防护
软件和升级系统补丁;员工随意安装系统及应用软件,致使公司局域网内病毒隐患严重、工作不稳定和系统崩溃,工作秩序被打乱,员工不严格要求自己,上班时间聊qq、玩农场、看娱乐网站等;为此公司和个人工作经常受到影响,工作效率降低。针对这种情况,我采取了以下措施:
1、先对公司员工进行一次基本知识培训,让员工了解到计算机的正确使用方法,病毒防范,重要文件的备份等。从而大大提高了员工对电脑使用的熟练程度。
2、先恢复良好的秩序。电脑使用时如发现故障和需更改设置,必须先报告公司运维人员,由专门人员来进行专业及针对化的操作,个人不能私自进行改动,进行这样做的目的避免由于人为的盲目操作使某一台电脑的故障影响整个局域网内的其它工作,使故障扩大化,并延长了解决问题的周期。
3、使员工使用统一的、经过安全
测试的系统及应用软件,安装、设置统一的杀毒软件、防火墙等安全防护软件,且经过努力实践,并在每台机器上设定了自动系统补丁升级及定期查杀规则。
4、对于个人的关键性数据资料、邮件进行路径转移备份,使这些数据远离危险故障点,避免意外丢失所带来的严重后果。操作系统进行常规定期备份,便于事后的还
原。
5、对于网络管理进行了监管工作,公司所有电脑安装了行为管理软件后,员工工作效率逐步提高,自觉性得到明显改进,从而净化了公司网络办公环境。
经过一段时间的贯彻和工作,先前的混乱现象得到有效控制,现公司的十余台电脑,工作状态稳定,没有出现大面积的系统崩溃和故障。
二、网络的日常维护
路由器及交换机的维护管理,确保公司网络运行正常,员工正常利用网络资源。加强路由器的规则设置,优化外
网接口,内部员工合理地分配带宽流量,使公司的网络能稳定有效地工作。
三、公司网络制度管理和完善
公司经过一段时间的运转,各个部门的规章制度通过大家一起研究、探讨、立会并完善制定了各项规章制度,计算机管理也形成了制度,大家按章办事,使之成为一种工作习惯。同时公司的资产管理及日常的文书表格非常混乱和环节上的缺失。为此特地制作了一批表格、登记申请单及统计表。使得公司资产和资源得到有效的管理和控制,杜绝管理上的失控和资产流失。
四、公司服务器平台管理与维护工作
公司发展逐步扩大,对于公司所有的业务支撑平台-服务器,为重中之重;本我司服务器相应出现几次重大故障,分别如下:
1、网络故障七次,重大一次,因服务器遭ddos攻击,导致我司服务器无法正常工作。事后通过紧急处理后得以
恢复正常。其它几次分别为机房断电、网络升级、电信与联通dns解析故障影响到我司服务器平台网络连接不正常。
2、系统故障三次,其中一次为短信平台服务器系统文件损坏,导致系统崩溃。经过技术部采用紧急预案措施在两小时内得以恢复系统。
3、其它故障共计5次,因联通网关溢出,无法与我司ivr服务器数据库网关同步,导致用户无法正常订购与使用我司亲情相伴业务。
经过出现几次重大故障后,技术部多次研究与讨论,制定出一套完善的应急措施与日常维护计划。尽量归避风险及减少事故发生,同时确保做到问题提前预防、及时发现、迅速解决并恢复正常运营。
4、针对服务器出现在问题所在,在技术部其它同事的配合下完成服务器的重新部署,访问权限及安全性的提高,数据库优化等相关措失后,目前服务器已运行正常。
5、公司针对员工的工作岗位与职位重新部署了ftp服务器的访问权限与互联网访问,使每个员工都能把重要的文件放到服务器上相关部门的文件夹里作备份,且通过内外网均可实现访问ftp服务器,大大方便了员工在外出差或在家里随时提取相关资料,且员工的访问权限不一样,故某些与自己无关或公司重要资料进行了保密设置,从而大大提高了公司重要资料的完整性与保密性。
总结本的工作,尽管有了一点点的进步和成绩,但在一些方面还存在着很多的不足。比如:工作经验不足,对公司的网络与办公环境未得到很大的改善;遇到困难的时候与领导沟通不够等等,这都有待于在今后的工作中加以改进。
在新的一年里,将百尺竿头,更进一步,2014年的大致工作计划为:
1、在公司内部使用一种简便、有效的软件工作平台,使之便于公司所有员工的工作、交流、探讨,发布公共信
息等。
2、利用投影仪设备资源制作会议幻灯片为员工培训计算机操作及工作常用软件知识的小窍门,争取进一步提高全公司工作人员的专业化及工作效率。
3、解决企业网站制作等专业性知识问题,业余时间强化学习并能胜任网站管理工作。
4、进一步增强it系统和网络系统的稳定性和管理,使用更为高效的域控制系统来代替目前的工作组局域网,使内、外网连接任意,在任何地方工作都能连接本公司服务器资源。
5、重新改建机房机柜网络布线,使机柜走线更加美观,同时方便以后维护时线路排除更加明了,直观。
6、在资金允许的情况下对公司办公电脑、网络、会议系统布署方案升级优化,进一步提高员工工作效率,为公司节约成本开支。
7、学习更多的网络知识,充分的将一些新的技术应用到公司当中来。为
公司提供更优质、更便捷、更效率、更节能的办公方式。
2014年,是全新的一年,也是自我挑战的一年,我将努力改正过去一年工作中的不足,强化理论和业务学习,不断提高自身综合素质,把新一年的工作做好,为公司更好的发展尽一份力!
网络公司运维部个人工作总结
去年的年末,我来到了运维部。这是一个技术岗位,刚来的我,对于我的工作可以说是相当的陌生。大多数仪器、设备都不认识,不像书本上讲的那些。它们对于我来说都是新的,需要学习来完成工作。我对我的工作充满了热情,如饥似渴的去学习书籍,请教同事,慢慢的汲取知识和经验。刚开始,每一次出去解决故障,我都有点担心,怕工作做不好,所以每一次,我都认真向前辈们学习,看他们如何去操作仪器,如何去分析故障点,不懂的我就问为什么。还有不懂的,我就回来查电脑,自己消化,直到理解。正是自己对知识渴求的
欲望和缺乏专业知识带来的恐慌,一直鞭策着我,风风雨雨走过了这一年。值得欣慰的是,这一年,我通过向别人学习和自己的努力,学到了不少东西,积累了一些经验,有时候也可以独立完成一些工作。下面我就自己这一年来的工作做个总结:
1、学会了做标准的568b网线,学会了做2m线。知道了网线的线序,知道了2m线的用途。
2、认识了光纤和odf架,知道了法兰盘子,知道了如何用光纤连接法兰盘子。
3、学会了如何使用光源和光功。知道了它们各自的功能和所显示的数值所代表意义。
4、知道了如何使用otdr去打光纤的全程长度,熟悉了如何用otdr测试新融光纤的质量,如何查故障点、测衰耗。
5、学会使用了熔接机。了解了熔接机的结构,知道了如何区分单模熔接机和多模熔接机。
6、学会了如何在几个基站之间进行跳纤。并在同事的协助下为广电跳通了2条有线电视专线。
7、对sdh有了一定的了解,并且知道了常用的oi2d和oi4d光口板和一些以太网板。知道了如何从型号上来辨别板子的类型。
8、学会了如何去基站更换板块以及该注意的一些事项。
9、协助资产盘查。对基站的各个设备有了进一步的了解,并且熟悉了好多基站的地理位置,为以后的维护打号了基础。
10、参与并协助完成相关割接。
11、管理应急库房。为日常的维护工作和割接等提供保障。
这些或许对于别人,不算什么。但是对于我来说,这就是成绩,是对自己的鼓励。随着我对工作的深入了解,我越来越发现我有很多的知识点没有弄懂,正应了这句话:知道的越多,不知道的就越多。对于处于学习阶段的我来
电子智能数据中心的设计和运维 篇5
1 电子智能数据中心的设计原则
1.1 实用性
实用性是电子智能数据中心相关功能设计的最主要特性, 电子智能数据中心的相关设备设计, 包括存储设备、主机以及服务器等众多设备的设计, 都应该满足实用性的基本要求, 并适应企业的使用需求。同时, 还应该考虑最新技术的稳定性与实用性, 保证系统在应用过程中不仅要实现性能的提升与功能的拓展, 还要实现稳定的运行。
1.2 安全性
对于电子智能数据中心安全性的实现主要包括三大方面, 分别为硬件设施的安装、数据信息的安全以及系统应用性能的安全。数据中心要严格遵守安全性的相关原则, 在最大程度上降低设备故障而造成的系统停机现象, 降低企业为此付出的经济损失。与此同时, 在数据中心的设计过程中, 还应该增强信息安全制度的建立, 提升企业内部数据信息的安全性。
1.3 可靠性
电子智能数据中心相关设备的运行应该是稳定、可靠的, 其不仅需要满足企业运行过程中对于数据中心的工作要求, 还要实现自身运行的可靠性。对于电子智能数据中心业务处理功能的设计不应该具有独立性, 而是要保证系统整体功能的可靠性, 例如:系统能否支持大容量的数据输入、能否处理复杂的业务工作以及在特殊环境下能够实现自身的运维与风险规避等, 这是数据中心可靠性的具体表现。
1.4 可拓展性
电子智能数据中心的建设应该顺应时代发展的潮流与方向, 在设计工作中, 应该保证功能的可拓展性以满足业务变化的需求。例如在数据中心需要处理更多业务的时候, 其可以在原有的基础上增加必要的内存与CPU等, 还可以通过增加处理节点以提升数据中心的性能, 而不需要对系统的整体结构进行调整, 保证系统的稳定运行。
2 电子智能数据中心的设备运维措施
2.1 实现设备运维的精细化管理
要想实现对设备运维的精细化管理, 就需要通过必要的先进技术对数据中心的全部环境、设备以及软件的运行情况有一个清楚的了解, 即实时掌握电子智能数据中心运行的全部参数, 实现企业日常业务处理的自动化与智能化, 尽可能做到在危机发生前具有一定的预报, 在危机发生时能够具有必要的预案, 在危机发生后能够进行相关的记录与分析。而要想做到这些, 就需要做到对数据中心的全面、集中控制, 实现对数据中心全体设备的精细化管理。电子智能数据中心的精细化管理需要的运营数据包括环境参数、设备数据以及安全指数等。环境参数的种类数量不多, 包括大气温度、空气湿度、风速以及风向等环境数据。而设备参数则是指中央空调系统、冷风机以及水塔等电网企业基本设备的相关数据, 这些数据具有很大的复杂性, 就以中央空调系统来说, 其包括的空调设备数量就高达几十个, 因此设备参数的管理数量是十分巨大的。安全参数则主要包括外来入侵监测、消防控制以及视频监视等。对于电子智能数据中心设备的精细化管理, 就要实现对这些参数的全面掌握。
2.2 构建数据中心全寿命周期的管理模式
在一般情况下, 电子智能数据中心的使用时间都较长, 在不同周期数据中心的管理内容与管理要求也大不相同。因此, 对数据中心管理阶段的划分与管理模式的确定, 是管理工作开展的前提与基础。在对数据中心寿命周期进行分析时, 可以适当参考国外具有丰富管理经验国家的数据中心管理模式, 然后根据我国数据中心的实际发展情况, 进行合理的调整与修改, 以满足我国数据中心的管理需求, 达到更好的设计效果。目前, 我国的数据中心寿命周期的管理模式主要是从工程的设计阶段开始, 到运营维护阶段结束。该种类型的管理模式相较于传统的管理模式而言具有很大的进步, 传统的管理模式并未对项目使用期间的设备运维进行必要的管理, 因此不具备对于设备运维的全面性。而新型的管理模式囊括了工程的全部阶段, 实现了对于设备运维工作的全面管理。因此, 构建数据中心全寿命周期的管理模式对于企业发展而言具有不可忽视的重要作用。
2.3 增强对于设备运维工作的整体统筹规划
电子智能数据中心是企业运行的基础, 是企业日常工作的支持, 能够满足企业发展的实际需求。近些年来, 企业的相关部门只重视对于电子智能数据中心功能的拓展与实际问题的解决, 却从未从整体角度对数据中心运维工作的质量进行必要的研究。而在日常的设备运维工作中, 不仅可以利用成熟的技术、智能化的监控设备实现对电子智能数据中心的全面管理, 并且对于数据中心的容量管理也可以进行一定的监控。对于容量的管理, 需要对设备的数量、使用情况以及性能等数据进行全面的掌握, 只有掌握了这些基础的设备数据, 才能为设备运维工作的整体统筹规划奠定一定的基础。除此之外, 长期的设备监控与数据搜集能够为后期的数据中心管理以及运行情况评估提供必要的数据, 保证运维工作筹划的可靠性与科学性。总而言之, 增强对于设备运维工作的整体统筹规划对于设备运维工作质量的提升具有不可忽视的重要作用。
3 结束语
随着电网业务的复杂化, 对电子智能数据中心的设计和设备运维工作提出了更高的要求, 其已经引起了电网企业相关部门与社会各界的密切关注。我们应当加大对其的研究力度, 做到科学设计, 保证设计的实用性、安全性、可靠性及可拓展性, 并在日常的设备运维工作中, 加大管理力度, 做好电子智能数据中心的设备运维工作, 使电子智能数据中心更好的发挥其应有的作用。
摘要:本文主要针对当下电子智能数据中心的设计原则, 对增强其设计的实用性、安全性、可靠性以及可拓展性进行了简单的介绍, 并提出了相关的电子智能数据中心的设备运维措施, 其中包括实现设备运维的精细化管理、构建数据中心全寿命周期的管理模式以及增强对于设备运维工作的整体统筹规划等, 希望能为我国电网企业的发展提供一定的参考作用。
关键词:电子智能数据中心,设计,设备运维
参考文献
[1]盖卫东.国网某数据中心机房智能化系统工程的实施应用[J].智能建筑, 2010 (06) .
基于IT运维平台的呼叫中心建立 篇6
文章主要介绍了IT运维呼叫中心的建立, 包括呼叫中心的建设背景、建设目标、设计开发原则、系统总体架构规划、系统具备的功能等内容。通过呼叫中心为用户提供服务, 实现一个电话解决用户所有的问题, 提高人员工作效率。
系统建设背景
随着IT运维服务电话数量的增多, 出现了用户服务质量监督难, 服务操作不规范的问题。为提高IT运维处理问题的效率和服务质量, 建设IT运维呼叫中心, 作为信息服务的总接口, 在用户可接受的时间范围内对软件、硬件设备进行故障诊断和排除, 最大限度地保障用户业务系统的可用性, 降低故障对业务运作的影响。
系统建设目标
呼叫中心作为IT运维信息服务的总接口, 在用户可接受的时间范围内对软件、硬件设备进行故障诊断和排除;最大限度地保障用户业务系统的可用性, 以降低故障对业务运作的影响。呼叫中心系统的建设目标是:
(1) 树立统一的服务形象通过呼叫中心将分属各职能部门为用户提供的服务, 集中在一个统一的“窗口”, 最终实现一个电话解决用户所有的问题。促进服务单位改善内部管理, 提高人员工作效率, 实现经济效率与社会效率的完美统一。
(2) 为用户提供快捷高效的个性化服务建立呼叫中心系统以后, 用户服务前台系统与后台支持系统的资源有机整合, 能够使与用户相关的资源, 信息资源都能在呼叫中心平台的统一协调下成为一个整体为用户提供个性化服务。
(3) 提高工作效率利用智能服务平台可以向用户提供各类信息查询、业务咨询及受理。自动灵活的呼叫中心系统可以将单位员工从繁琐复杂的日常工作中解放出来, 去处理更复杂、直接和用户打交道的业务, 提高工作效率和工作质量。
设计开发原则
本次系统建设要能够满足对用户服务更高、更好、更完善的服务要求, 同时也需要在建设呼叫中心系统时结合对自身业务服务规划和业务类型的特点来充分考虑系统建设的需求, 既要满足用户服务的功能应用, 也要保证业务种类在呼叫中心平台的灵活部署。系统采用国际先进的呼叫中心解决方案及新技术, 充分考虑到对系统的容量和功能要求, 总体设计遵循如下原则:
系统先进性原则:系统要强化处理能力、简化操作流程。采用呼叫中心平台领域的最新技术, 保证系统在建成后一段时期内不会因技术落后而大规模进行调整, 并能够因其良好的体系结构和开放标准而保持系统的先进性。
系统标准化和规范化原则:语音交换平台系统设备作为系统建设中最核心的设备, 需要与录音系统、座席应用系统等进行多方交互和集成, 所以系统需要采用标准和规范的通讯接口, 并在丰富接口功能的基础上, 尽量简化接口的使用方法。
系统稳定性原则:稳定性原则是本系统设计的重点, 采取有效可靠的手段, 保证整个系统的稳定运行, 满足业务高峰交易处理的需要, 并充分做到7×24的全天候服务。关键的设备和功能模块要做到备份、冗余, 做到系统没有单一的故障点, 最大限度保证系统服务的不中断。
系统安全性原则:系统必须建立在成熟稳定的硬件环境和应用软件基础上, 通过安全机制控制、运行管理监控和故障处理手段来保障系统的安全、稳定。具有明确的用户权限管理和划分, 保证不同用户高效、快速地访问授权范围内的系统资源。
系统总体架构规划
系统总体架构要具有前瞻性, 充分考虑未来的业务发展以及管理的变化, 方便扩展、支撑新业务和需求;合理设计系统建设规模, 充分考虑未来发展需要, 适应未来业务量的发展。系统设计采用B/S架构设计, 平台内置了Web Server, 呼叫中心平台管理员能够通过浏览器在同一窗口进行所有的管理监控工作。系统管理员可以在浏览器中对整个平台进行集中统一的配置、管理和维护工作。呼叫中心与IT运维管理系统进行无缝集成, 实现工作协同。
系统具备的功能
建立一套完善的IT运维呼叫系统, 实现电话的接入及交换功能、电话和计算机集成功能、用户来电管理及监控功能、坐席操作功能、辅助功能、报表统计以及电话实时录音等功能。
(1) 计算机与电话集成。将电话交换系统和计算机系统有机地结合起来, 充分利用交换机话路交换功能和计算机系统数据处理功能。不仅可以接收来自交换机的呼叫信息 (如呼叫电话号码等) , 同时还可以通过计算机控制交换机的呼叫处理功能, 包括智能呼出、呼叫中止、呼叫转移等服务。
(2) 交互式语音应答系统呼叫中心平台是一个集成了多种业务混合处理的应用平台, 系统要能够与实际的业务应用相互配合完成语音、数据的混合处理。而且交互式语音应答系统可以根据业务特点制定智能的话务分配和灵活的排队路由, 无需编程和重启系统, 在线配置, 在线修改, 在线加载、实时生效。
(3) 传真系统系统通过语音导航形式实现传真的自动收发功能, 提供将多种文档 (例如WORD、EXECL、图片等) 直接转换为传真文件, 提供传真文件实时生成功能, 接收的传真文件可以生成电子文档。
(4) 录音功能提供方便的录音回放和清晰的通话录音功能。录音系统能够满足连续7*24小时不间断工作的要求, 具有高安全可靠性;系统提供监听功能, 满足管理人员实时监控的要求。录音文件可以按照组合条件进行检索查询, 包括录音类型、开始的日期及时间、座席代表编号、呼出与拨入的电话号码等条件进行检索查询。
(5) 报表功能自定义报表功能, 用户可设定统计数据显示结果的页面布局;配置数据库表中的相关字段, 自行设定图表的数据配置方案。根据用户不同的业务需求, 定制特定的业务数据报表。实时报表和历史报表功能要求能够按照月、周、天、小时和分钟为单位进行数据统计, 按时间段、呼叫类型、应用业务类型区分。实时报表和历史报表系统提供对座席组的话务量统计, 包括电话总数和总时长, 呼叫失败情况等信息。
(6) 坐席系统座席人员操作界面采用中文图形化界面, 支持软电话功能, 包括登录、注销、应答、呼叫、转接等功能全部由鼠标在屏幕上点击实现, 无需座席人员直接对电话机进行操作。支持座席人员按业务、技能灵活分组, 并为座席人员设置不同的业务技能级别, 支持屏幕页面弹出功能。电话机振铃的同时, 将用户信息显示在座席人员屏幕上。系统通过智能路由功能自动将来电转接至已登录且最合适的座席人员, 系统可按负荷均衡等多种策略进行路由。
(7) 接口需求实现呼叫中心平台与IT运维管理系统的接口集成, 包括数据集成、流程集成以及界面集成。将前台统一的用户联系功能与后台IT运维业务流程同步运作, 实现语音呼叫和业务数据的对接。通过符合ITIL的服务支持流程来规范IT部门响应用户需求的日常工作, 对用户请求从提出直至处理完毕, 整个过程都有跟踪和记录, 对记录的问题或事件有详细的查询统计功能, 并提供完善的统计报表进行数据分析, 形成一个完整的服务系统。
结语
数据中心精密空调运维管理探析 篇7
一、空调的选型与安装
(一) 现场勘查
前期, 须对机房的内外部环境进行认真细致的勘察, 因地制宜选择室内、室外机的摆放位置。结合机房机柜位置与布局, 规划室内机的摆放位置, 以尽可能实现全机房均衡制冷。当空调外机放在低层建筑的户外时, 要注意做好防洪防汛工作, 安装底座要有一定高度, 安装地点要防范高空物体坠落以免砸坏外机, 并注意防护飞扬杂物或者小动物进入机内, 阻碍风扇正常运转。外机放在高层建筑顶部时, 要注意防雷、防风, 做好加固, 并安装避雷设施。特殊情形下, 空调外机也可选择安装在室内, 通过排风设备强制排风, 加速室内外热交换。
(二) 设备选型
充分考虑数据中心服务器、网络等设备的结构布局, 选择安装空调的送风特点。估算设备散热量, 依据经验采用“功率面积法”计算出机房冷负荷测算空调需求量。选型时, 根据机房区域面积, 除了需要考虑空调高度、占地面积的大小外, 未来机房机柜数量及电子设备增加的散热需求、设备的更新换代及扩容需求也是重要的考量因素。机房内空调气流的主要方式有以下两种:
1. 空调上送风方式
从精密顶部送出的空气先与室内空气相混合, 再进入计算机机柜。显然, 从空调上侧送出的空气温度低于室内空气温度。此送风方式适用于机房面积狭小、计算机设备台数少、设备发热量小的微型计算机房, 比如30平方米左右的实验室机房, 回风方式如图1所示。
2. 地板下送风气流方式
空气在经专用空调机处理之后, 通过计算机机柜下部送进计算机机柜内, 而经机房上部返回空调机的送风形式, 也称为下送上回式。这种方式制冷分布均匀, 是机房最常见的回风方式, 如图2所示。
(三) 安装实施
精密空调的安装涉及设备组装、管道焊接、管路走线、加冰种、氮气保压、设备供电等多项内容, 对安装工艺要求极高, 尤其是对管道的焊接, 对工艺的精细程度要求极高。安装时, 内机与外机之间应选择合适的走管路由, 减少扭曲拐弯变道, 排气铜管的总长度应尽可能短, 尽量控制在60米内 (最好少于30米) 。为确保冷凝效果状态最佳, 管道必须套上保温层;焊接管道时, 在接口处要做到无缝无隙, 并检测管内压力, 以免漏液。空调一般由市电或油机 (市电断电情况下) 供电, 空调供电走线应与机房整体电缆走线相协调。
室内机接水盘收集的冷凝水通过柔软的虹吸管排出, 如果空调安装了加湿器, 冷凝水接水盘和加湿器出水口必须连接到建筑物的排水渠。连接到建筑物的排水渠要使用内径25毫米的橡胶或塑料管连接机器的排水管到建筑排水渠。排水管采用虹吸方式 (自绕一圈) 以防止难闻气味倒流, 并且建设至少1°的坡度排水。安装排水管道时, 留有冲洗管道的阀门, 防止长时间的冷凝水粘住管道内壁导致水无法排出。
二、精密空调的日常管理
精密空调加电运行, 日常管理的方式方法直接决定了其生命周期。日常运维工作及时到位, 可以减轻运维人员的工作负荷, 延长空调寿命, 同时还可以起到绿色节能的成效。
1.运维管理
运维管理得到保障, 可以大大延长精密空调的使用年限, 所以应对空调进行有规律的巡检, 而且频率不宜太大, 对巡检结果进行详实的记录并总结报告。报告主要包括回风温度、压缩机的运行状态、制冷剂的含量、电流的测量结果等内容, 对那些压力过大的压缩机研究分析出结果并提出解决方案;定期对压缩机进行压力测试, 观察是否存在漏压现象。空调主机漏水也是一种常见的故障, 巡检过程如有发现漏水迹象是因为机器内接水盘收集的冷凝水管出现裂缝所致, 可以擦掉内壁滑下的水并打上玻璃胶水, 待风干再开启空调。及时清理外机, 保证外机内部的洁净, 以及检查外机的排风设施是否畅通。
2.应急处置
笔者单位所在城市全年平均温度较高, 压缩机高压告警频繁, 遇到此情形应立刻通知精密空调运维商, 让其尽快赶赴现场并提出有效的解决方案。为避免空调停止工作导致服务器宕机现象, 数据中心可以采取“4+1”或“4+2”运行模式, 留出一到两台备用空调, 或者对装好的空调进行“轮休”。此外, 可以准备便捷式移动空调, 大功率风扇等降温设备做应急处理, 贮备一定量的柴油防止市电中断。
3.绿色节能措施管理
数据中心的主要热源是IT设备及附属设备的散热, 建筑结构散热比例非常小, 可认为数据中心的冷负荷量基本稳定, 而绝大多数城市的冬季温度都在20度以下, 如果关闭日常的精密空调, 将室外的冷源利用起来为数据中心制冷, 将会提高运行效率并节约大量的电能。目前, 利用冬季室外冷源的主要方式有水冷自然冷却和风冷自然冷却。在保证数据中心必要亮度的前提下, 适当减少灯管的数量, 节约能量的同时还可以减少灯管的散热量, 减轻空调压力。数据中心的多数设备的使用年限是5-10年, 将那些升级更换后淘汰的设备及时断电下架, 便于规范管理的同时还可以减少热量的排散。
4.精密空调的远程监控
精密空调的现场管理固然重要, 但是机房空调的远程监控同样必不可少。数据中心环境监控开发平台就能实现这一功能。通过信息化数据采集与存储, 显示设定参数、状态参数、报警参数等信息, 与数据中心进行实时同步, 无论是报警还是无警告提示都会通过手机短信或电话等方式及时告知运维人员, 这样可以让运维人员不用时刻留守机房, 在周末或者是无人值班的节假期, 也可以监督管理。
三、空调安装后的能耗分析
笔者单位数据中心空调的外机放在了室内, 使得空调排出的热风无法与自然风循环, 这给日常的运维增加了很大难度。为此, 单位做了大量的工作来确保机房温度。
第一, 给空调外机安装喷雾降温系统, 加速热量的排出。为了解决外机放在室内导致散出的热量无法排除, 笔者所在单位在外机底下安装喷雾降温系统, 通过凉水带走部分热量。需要注意的是, 所用凉水必须经过软化处理, 否则外机散热网会因为积累大量水垢无法吸进冷水, 腐锈铁网最终导致停止工作。
第二, 使用服务器虚拟化技术, 减少服务器物理机数量, 整合硬件资源。使用“多虚一”的虚拟方式, 将多个独立的物理服务器虚拟为一个逻辑服务器, 把物理服务器迁移到虚拟机然后集成在一起, 可以极大地减少物理服务器的数量, 降低数据中心每个月的能耗和制冷开销。经过整合, 中心机房由原来的46台服务器锐减至15台服务器, 大大减少了热量的排放, 减轻机房的压力。
第三, 安装新空调。外机放在室内终究不能根治热量无法自然循环的问题, 高温天气的频频告警也时刻敲响警钟, 为此笔者所在单位决定新增3台空调, 并且将外机放在天台, 确保空气的对外流动, 从根本上解决了热量循环的难题。在高温频发的4-11月, 加大空调运维商进行定期运维巡检的工作力度, 确保空调都能正常运转。
经过采取系列措施之后, 数据中心精密空调的故障率得到明显的控制。就全年空调进行维保的次数来看, 2014年共有23次告警;2015年全年也高达18次紧急处理告警事件, 2016年截至日前, 一共收到6次空调告警, 较比同期报障率降低了近50%。
2014年前6个月与2015年前6个月, 空调用电量有增加趋势, 见表1所列。
主要原因是2014年底笔者单位新上架了一批服务器与其他网络设备;但到了2016年, 在不少于2015年设备的前提下, 数据中心空调用电量反而有所下降, 前6个月平均耗电量降低5.64%。经过分析, 耗电量减少的主要原因是因为给空调外机安装了喷雾制冷系统等措施。
参考文献
[1]段轶伊, 姜俊海, 李瑞雅, 等.数据中心空调节能技术的应用实例[J].制冷与空调, 2014 (9) :30-33.
[2]肖奇良.运营商加大IDC投资力度建设仍需精细规划[J].通信世界, 2013 (37) :39.
[3]李志杰.服务器虚拟化技术在政府信息化建设中的应用[J].企业科技与发展, 2015 (18) :18-19.
运维中心 篇8
近十年来, 数据中心的建设也经历了传统的分散式数据中心向大集中数据中心、云数据中心阶段发展, 而数据中心在不同的发展阶段的特殊的技术特性与管理特性也决定了数据中心运营管理模式的变迁, 尤其是在数据中心的运维服务管理方面。
传统的数据中心运维管理核心是IT安全运行保障, 提出了著名的“四不原则”——业务不停、网络不断、系统不瘫、数据不丢, 这一核心理念在数据中心安全生产过程中起到了非常重要的作用, 并且是数据中心运营的初期阶段的最主要的成效评价依据。而“两地三中心”为代表的大集中式的数据中心, 由于管理需求的提升, 数据中心内部开始引入一体化的管理框架与标准, 其中以ITIL/ISO20000的管理规范与理念最为著名[1]。但是大集中式的数据中心在IT运营管理方面的进步主要是由传统数据的“被动运维”向“主动运维”进行了转化, 其管理过程主要还是局限于上世纪末发布的ITIL V2的推荐模式。
随着业界近年来对ITIL V3的管理理念的逐步认可, 尤其是天然有着对外服务特性的云计算技术的发展, 在云数据中心阶段中, 各类企业组织也开始转化对IT服务理念的支持。甚至是以稳健著称的银行业在也在数据中心对外IT服务方面进行卓有成效的实践, 并带动着其他行业的对这一理念的支持。
一、数据中心运维与呼叫中心的整合业务需求
呼叫中心是充分利用现代通讯与计算机技术, 如IVR (交互式语音800呼叫中心流程应答系统) 、ACD (自动呼叫分配系统) 等等, 可以自动灵活地处理大量各种不同的电话呼入和呼出业务和服务的运营操作场所[2]。呼叫中心在企业应用中已经逐渐从电话营销中心向着CTI (计算机通信集成) 综合呼叫中心转变, 已经将电话、计算机、互联网等多种媒介综合应用于营销、服务等工作当中。
数据中心在运维管理方面, 普通采用了IT服务管理平台, 并基于ITIL/ITSM的管理理念与标准规范建设了一套基于流程的运维管理机制。但现代企业数据中心有着IT集中、业务复杂、用户量大的典型特殊, 传统IT服务台的一两台热线电话已经不能满足有效的对外服务支持, 所以数据中心开始选择在数据中心内部建设呼叫中心, 并建设了一支科技客服团队。
因此将数据中心IT服务管理平台与呼叫中心整合形成一体化的管理平台具有必要性与紧迫性[3], 尤其是在用户群体庞大的政府、企业及机构组织当中。两者的结合可以实现有效的优势互补:
1) 充分发挥呼叫中心在用户语音探头接入排队、自动语音应答、录音、外叫等能力, 增强呼叫中心对外的服务接受能力, 提升用户的满意度。
2) IT服务管理平台则利用ITIL/ISO20000的最佳实践, 数据中心内部流程化、规范化、电子化的运维管理工作机制。同时IT服务管理平台进一步丰富和完善其他服务接入渠道, 如:手机APP、微信、运维服务门户网站等。帮忙数据中心实现多点接入, 集中统一服务的运维新局面。
二、IT服务管理平台与呼叫中心的整合的关键技术
目前业界主流的IT服务管理平台是基于ITIL规范, 提供资产配置管理子系统 (CMDB) 、集中监控管理子系统、运维管理流程子系统、运维管理门户子系统四大部分。而与对外服务交付最为相关的则是运维管理流程与运维管理门户两部分, 并且核心是通过服务目录作为主线的。
服务目录是梳理服务产品和管理客户期望的重要工具。在ITIL V2中, 服务目录的相关内容体现在服务级别管理流程中。随着IT服务组织客户服务意识的不断增强, 服务产品化理念也得到了不断地深入, IT服务组织越来越意识到, 创建并维持统一的服务目录对于提升客户满意度、提升IT服务组织的专业形象是非常重要的。ITIL V3中, 服务目录管理成为一个独立的流程, 同时将原有的服务目录概念拓展为业务服务目录和技术服务目录两种类型。其中业务服务目录是面向于最终用户的, 而技术服务目录则是用于梳理数据中心内部的对业务服务目录提供支撑的技术活动梳理。服务目录是技术部门与业务部门之间的交互窗口与纽带。
同时我们也需要注意的是服务目录本质上讲是业务管理层面上的理念[4], 它可以实质物化到各种具体渠道上去进行实现, 在采用了呼叫中心的数据中心运维过程中其主要应用包括:
1) 服务目录将发布于呼叫中心的IVR流程当中, 业务部门的最终用户可以通过IVR自动语音应答实现服务请求;
2) 服务目录也可以作为呼叫中心的自动路由分发机制实现, 将来自不同业务方向的请求转发给不同的技术团队;
3) 服务目录也同样可以发布于运维门户网站, 最终用户可以通过WEB网站实现自助式的IT服务, 包括:服务请求填写、结果查询等;
4) 服务目录还发布于微信、手机APP等其他对外服务渠道。
而对于技术服务目录则主要是ITIL的事件管理、服务请求管理、问题管理、变更管理、发布管理、配置管理、监控管理等运维流程进行支持, 实现技术服务过程的流程化、规范化管理。
三、IT服务管理平台整合的关键收益
通过将呼叫中心与IT服务管理平台整合的关键收益是:
梳理清晰科技部门面向业务部门的业务服务目录, 及内部管理的技术服务目录, 实现IT服务管理的精细化管理;
扩展和增强了数据中心对外的服务接入及自助服务的模式, 提供了业务部门的IT服务满意度;
数据中心运维管理过程更加规范有效、透明可控, 提升管理层的管理与决策水平。
我们可以预见, 未来在大规模的企业、政府数据中心中, 将呼叫中心与IT服务管理平台的整合将是一种主流的建设方式。
参考文献
[1]程颖.呼叫中心在IT运维工作中的作用[J].信息安全与技术, 2012 (05) :88-91.
[2]李欣, 等.基于IT运维平台的呼叫中心建立[J].信息与电脑:理论版, 2013 (06) .
[3]赵溪丛.呼叫中心技术与运维[M], 清华大学出版社, 2013-09-01.
下一代电力数据中心运维管理研究 篇9
随着电力信息化建设的不断推进,信息系统陆续上线投运,为行业内外用户提供了便捷的信息化服务,信息通信系统已成为企业安全生产和优质服务的重要支撑手段。伴随着集中式数据中心建设, 信息服务的常态“高可用性”成为基准配置。连续不间断的业务需求,使得支撑系统的高可用性的架构规划设计变得极为重要。在IT新技术大潮下,电力企业纷纷启动了数据中心、容灾中心和云计算示范工程的建设。对电力行业而言,云计算并不是陌生的服务模式,让用户像用电一样享用信息通信的应用和服务,是电力信息通信的发展方向。但“云时代”的到来,除了给数据中心带来变革以外,也会引发数据中心的管理变革。从强调单机单系统的性能向“虚拟化、分布式、智能化”方向发展,将常规信息系统全部进行云化评估,以构建海量信息的处理能力;通过大规模、低成本x86服务器替代传统专用大 / 小型机 / 高端服务器;通过分布式软件替代传统单机操作系统;通过自动管理软件替代传统的集中管理等。下一代电力数据中心在发展的过程中,必然越来越多地采纳云计算技术,以实现计算、存储、网络等资源动态调配[1]。
下一代电力数据中心的管理方案是一个开放式、标准化、易扩展、可联动的智能管理平台,其运维管理也必然以此为基础,实现三大转变。1变被动为主动。运维服务以各种监控、告警、日志和报告服务工具为依托,通过全面的网络式监控可以及早发现故障隐患,快速有效地建立起主动式运维。2大幅降低运维成本。运维服务将数据及应用程序集中到云端,实现了集中化运作、集约化经营,运维的总体工作量大大减少,运维成本大幅降低。3资源的灵活调配。将顶层业务应用与底层物理资源彻底“解耦”,计算资源实现了网络可达的灵活漂移,有利于将资源作为标准化服务组件,方便依据运行方式进行装配,进而提供快速、敏捷的业务支撑[2,3]。
本文从传统电力数据中心运维工作所面临的共性问题分析入手,提出一种以云计算技术为支撑,面向分布式架构和虚拟化资源池的运维管理框架。结合架构的技术特点,针对运维过程中的关键节点和管理模式,形成“以服务管理为主线,以资源管理为重点,以安全和审计管理为保障”的建设思路,提出下一代电力云化数据中心的运营框架模型和运维方式,并展开系统研究和实践。
1 运维管理待解决的问题
电力数据中心作为电力信息系统的运行中心、测试中心和灾备中心,承担着电力企业的核心业务运营、信息资源服务、关键业务计算、数据存储和备份,以及确保业务连续性等重要任务。电力企业对数据中心的依赖性日渐加强,现有的数据中心在提升可靠性、降低维护成本上不断优化调整,以保证可持续性发展。经过持续不断的信息化建设,电力行业实现了一体化平台、区域集中和分级应用,大量的企业数据集中存储,需要集中分析处理。为了满足业务的发展,企业投入了大量资金,构建了高性能的通信网络、计算和存储资源。当前,电力数据中心已初步具有网络扁平化、服务器与网络资源虚拟化、业务集中化、网络与存储融合等技术特点。这些特点给数据中心的运维管理带来了新的挑战。
1.1 信息应用的快速交付
以往电力数据中心的信息应用在建设过程中, 往往采用硬件资源“专享”模式,要建设应用,必须提前进行设备采购,并按照传统架构完成模块的部署。一旦采购流程存在变数,信息应用的上线也就变得不可控。一方面是上线的设备资源未充分利用, CPU和内存的利用率常年保持在10% 以下;另一方面是系统上线急用却无合适的资源调配,建设效率低。通过云计算相关技术实现对网络、计算和存储资源池的构建和灵活调度,通过对模块化、标准化的软硬件资源服务,运维人员能够根据客户的应用需求实现对资源的利用,突破了传统应用交付“一对一”的竖井模式,按需所取,按需支付,大大地提升了信息应用的交付效率,实现了信息应用的快速交付, 同时能够兼容各种应用系统,有效地保护现有投资。
1.2 虚拟资源的管理盲区
虚拟化技术的一大优势在于实现了顶层服务和底层资源之间的解耦,使架构体系形成专用资源池, 以支持灵活的资源调度。一直以来,电力数据中心的运维管理侧重于关注业务系统的运行状态,较易忽略对虚拟化层(Hypervisor)的管理,使得虚拟机的数量增加,运行状态成为调度监控的盲区,无法做到“可控,能控,在控”。当业务系统异常时,需要从服务器、网络各方面进行分析诊断,对网络管理员来讲,需要清楚虚拟服务器位于哪个物理服务器,通过哪个物理网络交换机接口接入网络,甚至需要了解虚拟交换机上的网络配置 ( 如VLAN),特别是服务器和网络的边界连接的可视性。如果对这些信息无法进行有效的管理,就无法有效的分析和定位故障。
1.3 高可用性的保障难度
虚拟化资源池高可用性的保障比非虚拟化环境的高可用性的保障难度更大。实际业务运行在虚拟服务器中,首先就要保证虚拟服务器的高效稳定运行。虚拟服务器运行在虚拟平台和虚拟化存储上, 由虚拟化层负责计算和存储资源的任务调度。传统的数据中心运维较多关注了最终业务,却忽略了对虚拟化层的运维管理。
从高可用性角度来讲,要保证业务的连续性,就要维护好虚拟服务器。由于资源池中的虚拟服务器通常部署在共享或分布式存储上,因此存储的安全稳定至关重要,采用共享或分布式存储会涉及到网络部署,对网络的稳定连接具有更高的要求。一旦网络中断,影响的不仅仅是几个业务而是整体平台的业务运行。从实体环境转换成虚拟环境,不是一台设备、一个型号的可用性高就可以满足运行稳定性要求,而是整个IT架构都需要具有高可用性才能保障,符合“木桶理论”。底层的软硬件资源池类似是一台超级服务器,配置了海量计算资源和存储空间,只有将这个超级服务器维护好才能够达到整套环境的高可用性要求。
1.4 资源的灵活动态调配
电力数据中心在不断建设的过程中,从以往聚焦在硬件、软件和业务系统的运行稳定性,逐步向重视运维效率的方向发展。IT运维的运营效率,要在保持运维工作“两个要义”(尽可能地采取措施预防和降低系统或设备发生故障的概率;在系统或设备发生故障时尽可能快速有效地恢复业务)的前提下, 统筹现有的人员和资源,依据业务需求,快速、敏捷地提供服务组件和标准化服务,合理装配以满足用户的需求。组件化、标准化的实质是将计算、带宽、性能和容量等资源,打破传统物理设备的空间限制, 将物理资源抽象成逻辑资源并建立资源池,通过统一的对外接口提供“积木式”服务。当前,服务器虚拟化、网络虚拟化和存储虚拟化是使用较多的池化策略。通过虚拟化服务器构建服务器资源池,完成对服务器与业务系统之间“多对一”或“一对多”的映射关系的管理[4,5]。
2 下一代电力数据中心运维管理方案
2.1 运维体系的组成
运维体系的组成部分通常分为以下类型:1资源管理,如服务器、虚拟机、网络设备、存储、IP/VIP、域名等;2配置管理,如系统配置、网络配置、应用配置、应用分组、服务级别协议(Service Level Agreement,SLA)级别配置等;3监控,包括系统监控、网络监控、应用监控、安全监控、容量监控等;4应用管理,包括上线、发布、下线等;5集群管理,如扩容、缩容等。除此之外,还包括事件管理、变更管理、问题管理、故障管理、IDC管理、存储管理、数据库管理、采购管理。
运维管理的实质是针对“资源”的管理。在下一代电力数据中心的运维管理中,资源的管理并不是简单意义上的资产或设备的管理。随着基于x86集群和分布式架构的云计算技术的进一步普及,使得数据中心进一步形成了基于云计算的基础设施即服务(Infrastructure as a Service,Iaa S)的资源服务模式,传统的独立、专用设备成为粒度更为细化的标准服务资源。对用户而言,需要的不再是多少设备、多少存储容量,而是实现业务目标所需的性能及处理能力。这种性能和处理能力,在资源池的服务目录中,以标准化的服务形式呈现,根据业务需求进行装配。
对用户而言,能够快速地获取所需的信息化服务;对运维而言,受理业务需求并按照服务需求制定相应的资源和运行(服务)方式,通过技术手段和过程管理,做到资源分配使用合理有据,资源运行稳定高效。当用户申请的服务到期后,原有占用的资源依据规定重新释放入池。
因此,以“资源管理”为核心的运维体系,是贯穿于运维全过程的主线,下一代电力数据中心运维体系的组成如图1所示。
2.2 运维管理框架
随着云计算技术的普及,电力数据中心的云化已成为必然的趋势。当数据中心的运维从传统模式向云化数据中心过渡时,其运行模式的变化非常明显。这种变化主要集中在3个方面。
1)从基础环境角度来看,云化数据中心的基础设施布局将突破以往的大型、单一设计,逐步向模块化转变。模块化数据中心具有的灵活性和扩展能力, 便于数据中心基础设施资源的快速扩充。对于能耗而言,有利于促进绿色数据中心建设,达到节能减排的目标。
2)从基础架构角度来看,基于x86的集群和分布式架构,再加上虚拟机技术的广泛应用,资源虚拟化、配置标准化和管理自动化将成为云化数据中心的显著特点。上述技术的应用,完成了应用系统和软硬件资源的“解耦”,逐步过渡到以“资源服务”为主体的运行模式。
图 1 下一代电力数据中心运维体系的组成 Fig.1 The next generation power datacenter operation & maintenance system
3)从运营管理角度来看,技术上的“解耦”使得运营组织和管理体系联系得更加紧密,故障处理、应用发布和日常变更工作将无法清晰地分割为独立的专业域,必须作为一个整体来进行考虑。
相对于以往的数据中心运营框架,下一代电力数据中心运维框架需要明确“资源管理”,软硬件资源的“池化”打破了传统物理服务器的CPU和内存等性能资源的空间限制,使得动态分配的比例大大提高,可分配资源的广度和深度提升较多。同时,由于云化后的资源(包括计算能力、平台和服务等)打破了由设备带来的空间限制,成为了动态、可流动的服务能力,这种容量和流动方向必须能够准确地被估算和测量,有必要在此基础上利用“审计管理”来完成计算服务的追踪。基于此,在传统运营框架基础之上,逐步形成下一代电力数据中心的运营框架, “以服务管理为主线,以资源管理为重点,以安全和审计管理为保障”[6]。下一代电力数据中心运维管理框架如图2所示。
1)以服务管理为主线。从“满足用户需求”和“满足运维管理人员需求”的角度,逐步过渡到满足“人员及资源池(计算能力)交互需求”的视角,完成从“IT服务→运维→资源”的价值链转变。
2)以资源管理为重点。针对云化数据中心运营管理中关注“服务”与“资源”之间映射关系的特点, 将资源与人员管理活动封装成服务的管理活动归纳为“服务规划”域,将针对各种资源的规划和管理内容归纳为“资源管理”域。
3)以安全和审计管理为保障。由于技术和服务带来的变革,资源池化带来了系统用户对信息服务安全性的担心。在传统的IT运维中,信息安全往往是一种“内部对外部”的措施。在新的运营框架下, 信息安全是基础,如何保障安全是关注的重点。
3 结语
随着信息化技术的快速发展,电力数据中心的运维管理即将进入一个全新时代。统一管理软硬件资源,实现业务端到端快速交付的运维管理已经成为下一代电力数据中心管控的核心。在这样的背景下,相关的运维解决方案服务提供商以及最终的企业信息化管理者,都必须及时认清信息软硬件资源对于数据中心运维的重要性。“资源分散化,管理集中化”,这依然是信息运维的核心理念。
下一代企业级管理信息系统的全生命周期管理需要明确2个问题,一是要解决好核心业务和数据之间的逻辑对应关系,二是要解决好业务承载系统和底层虚拟化资源(一分多,或多合一)之间的逻辑对应关系。明确了两两对应的逻辑关系后,数据中心中的存储节点和计算节点都是容易管理的,拥有统一的接口;在扩展性上,计算能力、存储能力都能够实现任意扩展,通过软件的方式组合应用;通过软件层把各种资源有效的融合起来,提升计算和存储节点的利用率,让资源调度更加容易。本文的研究目的在于如何维护好这些对应关系,从而以面向服务的架构为核心,可靠、快速和便捷地为用户提供服务。相关的支撑技术和关键设备会在下一步工作中进行研究。
摘要:云计算及相关技术的推广应用,推动了数据中心软硬件资源的标准化和虚拟化。细粒度的资源管理模式给电力数据中心的运维管理带来了新的变化,并对相应的技术和装备支撑提出了新的需求。为了能够快速适应运维模式的变化,文章聚焦资源管理,旨在提出一种电力云数据中心的运维管理框架,并阐述了服务管理、能力管理及相应的审计和安全等支撑相互协作的管理模式,进而解决运维过程中最为关心的问题。