领跑世界!广通优云 X 中国铁路,打造一体化运维管理平台
高铁网络腾"云"升级的背后,是坚实的数据中心。
广通优云携手中国国家铁路集团有限公司数据中心,打造平台级数字化运维管理体系,实现运维体系与支撑平台的逐渐融合,促进管理模式的持续演进与优化创新,全面推动运维管理从被动走向主动,从基础走向成熟,助力中国铁路高速驶向数字化未来!
据统计,12306 累计注册用户近 6 亿,年售票达 40 亿张,单日最高售票量突破 1700 万张,每日处理的业务数据量可达数百 TB,高峰期一天点击量高达千亿次。
除了堪比双十一的巨量订单,系统还要处理更为复杂的业务逻辑,比如动车速度快停站时间短,要考虑列车配重安全、编组变化,保障旅客快速乘降等种种因素;平台添加了一系列人性化需求,如接续换乘、候补购票、多人同一订单购票的旅客安排在相邻的座位或铺位、凭身份证号识别 60 岁以上老年旅客为其优先安排下铺……
由此可见,乘客从选座购票到成功下单,也许只需短短半分钟,而票务系统却早已"翻山越岭",默默处理了一切难题。
铁路上"云"在为人民群众带来快捷便利的购票体验的同时,显然也对铁路数据中心的运维管理能力提出了更高的要求。
那么,如此庞大的数据存管体系,如此繁杂的业务处理工作,12306 是如何从容应对高并发、高流量场景下呈几何式增长的数据和计算量,保障系统稳定运行的呢?
这背后所倚靠的,是坚实而强大的数据中心。
修内功:提升运维体系与成熟度
中国铁路总公司主数据中心位于天津,主要用于铁路行业相关核心数据存储、12306 网站数据的存储及交换等。作为铁路总公司信息系统生产运行中心,数据中心承担确保铁路核心业务安全稳定运行的重要使命,担负铁路信息资源服务、关键业务计算、数据存储备份等重要任务。
铁路是国家重要的基础设施之一,因此国铁数据中心具备良好的 IT 基础,但因铁路业务数字化升级进程持续加速,其 IT 系统架构的复杂程度也不断提升,硬件维护需求与软件迭代速度越来越快。
面对业务演进和稳定的双重挑战,国铁以业务支撑为导向,以运维体系为指引,以运行平台为支撑,不断提升其运维管理与服务水平,保障业务可持续发展。结合运维体系优化带来的契机,国铁数据中心逐步搭建起科学的组织保障、完善的制度规范、合理的指标度量以及实用性强的技术支撑四大体系,通过"监、管、控、配"于一体的的运维管理平台建设,以应对未来业务演进与运维模式升级所带来的积极变革。
通过运维体系与支撑平台逐步融合,促进管理的持续改进与创新,从而不断提升数据中心成熟度,国铁数据中心打造出了契合实际运维发展需求的"快车道",夯实智慧铁路向未来飞驰的地基。
而广通优云也一直在这个领域积极拓展,分享自身研究成果与实践成果,同时深度参与《数据中心服务能力成熟度模型》国标修订工作,形成了持续可观的阶段性成果,赋能包含国铁数据中心在内的诸多合作伙伴实现运维转型与发展升级,推动运维管理从被动走向主动,从基础走向成熟,实现有效的预知与运营。
稳地基:构筑数据中心的运维堡垒
由于铁路行业数据量大、信息结构复杂,且数据资产与民生服务强关联,因此对数据纳管与系统处理的要求极高。国铁集团数据中心在建设之初即洞察到,在这样的场景之下,平台化的构建思路能够实现高度集中的数据资源纳管与实时监控,通过标准化的流程管理规范运维工作,才能有效提高运维自动化处理能力与响应速度,保障系统稳定高效运行。
而在国铁数据中心腾"云"而起的这个故事中,广通优云所扮演的角色,便是在其身后筑建"堡垒"的工程师。
广通优云依托 PaaS 理念,基于"平台 + APP"的微服务模式,为国铁数据中心构建一体化、平台化、自动化和智能化系统,实现软件定义运维。同时,采用管控型 CMDB 设计理念,促进 CMDB 建设模式从维护型走向管控型,CMDB 与自动化和运维流程紧密结合,利用流程管理资源配置变更,利用自动化手段实现数据采集和更新,尽可能实现运维管控无压力,C 端用户无感知。
国铁数据中心运维平台包含运维 PaaS 平台支撑层和运维应用生态层两大部分:
运维 PaaS 平台支撑层:包含采控平台、数据平台、业务平台、开发平台四大部分
运维应用生态层:包含综合监控管理、资源配置管理、运维流程管理、运维自动化、日常运维管理和智能运维管理等
通过运维 PaaS 平台支撑层作为国铁数据中心整个运维平台的基础,为运维应用生态层提供基础运行环境和公共服务能力,而运维应用生态层能够支持多租户独立运维需求,同时运维管理工具可按需组合,有效满足了数据中心繁复多元、跨部门协作的运维场景。
开眼界:实现大规模资源监管
国铁数据中心纳管了万级以上设备规模、涵盖从机房设施、网络设备、服务器、虚拟机,中间件、数据库、云资源、业务应用等完整的 IT 支撑技术链,每分钟运行监控采集指标达到百万级。
广通优云运维平台实现了对以上资源的全面覆盖,主动监控各类基础资源和应用,全部实现秒级采集,及时发现告警并做展示,一线人员根据告警做及时通知,运维人员快速通过平台查看告警并做处置跟踪。
为确保对监控资源的全面纳管和兜底,广通优云针对国铁数据中心的业务应用,实现了全栈式监控,从硬件服务器、网络设备、操作系统、中间件,到应用相关的进程、日志、服务,一旦出现问题,都能迅速告警并定位联系人,根据应用拓扑进行告警故障排查和影响分析。
国铁数据中心一体化运维管理平台对包含 12306 在内的近 300 个应用,实现了从基础设施到业务应用的全面深入监控。
破围城:从"被动维护"走向"主动管控"
随着铁路线上业务发展的持续深入,国铁数据中心运维管理也向着服务化、自动化的模式不断演进。广通优云将传统 ITIL 方法论融入敏捷、协同、自动化思想,以"流程即服务"的先进理念为其 IT 业务提供高效的服务支撑。
国铁数据中心一体化运维管理平台以运维服务流程为基础实现,支持 ITIL、ITSS 运维理念,通过规范服务流程和技术服务工作,基于随需定义的服务流程引擎,建立起一套标准的运维服务流程,围绕服务目录、事件管理、问题管理、变更管理、服务请求管理、服务 SLA 管理等,实现 IT 运维服务的流程化、规范化管理。
针对国铁数据中心实际运维工作,广通优云为其构建起符合自身特性的资源申请管控流程、变更施工管控流程与运维任务操作流程,并根据日常任务,拟定运维计划,实现运维工作计划的统一制定、执行跟踪和情况分析,在提速增效的同时,尽可能提前规避风险,保障系统稳定高效运行。
同时,广通优云面向国铁数据中心基础资源,实现包括自动巡检、合规检查、软件安装等在内的 26 个自动化运维场景。以数据中心某应用上线为例,通过服务目录提供服务申请,通过流程完成审批后,直接调用自动化,实现应用部署环境准备、模块部署、参数配置、上线启动、服务检查、监控配置、配置同步,实现应用的快速交付,实现了"流程即服务"的敏捷交付模式。
自动化工作通过流程咨询共研来梳理操作管理体系,融入自动化、标准化的维护降低生产操作隐患。针对应用变更频发的需求,运维平台构建了流程驱动的自动化敏捷交付模式,大幅缩短应用上线周期,从而有效提高了业务响应速度。
写在最后
在今年早先时候发布的一份调查报告中,Gartner 预测,2021 年中国 IT 支出预计将达到 3.04 万亿, 相比 2020 年增长 7.2%。相形之下, 全球的增长幅度维持在 4% 左右。可见较之全球,中国的数字化转型已经率先迈入了快车道。
中国铁路作为与民生息息相关的重要基建,势将乘着数字化转型之风驶向未来。已赢得建设银行、农业银行、邮储总行、海关总署、中国气象局等 3000 + 头部用户的运维建设和实践认可的广通优云,也会继续携手国铁数据中心,持续推动运维"技术架构创新"与"管理理念创新",全面赋能运维平台建设与数字化转型升级。
2022-05-06 14:31:34