技术干货

您所在的位置:网站首页 优优是什么平台 技术干货

技术干货

2024-07-11 10:42:23| 来源: 网络整理| 查看: 265

目前,网优大数据平台已经接入中国移动全网所有TD-LTE/LTE-FDD/NB/5G无线基站数据,基站小区总数已超千万,成为全球网元和数据接入规模最大的网优支撑平台。根据5G大规模建设后的运维需求,平台已同步完成各项5G相关功能演进,同时积极引入智能网优算法应用,提升网优运维支撑的智能化水平。

网优大数据平台是中国移动全体网优人智慧的结晶,是总部、支撑单位、省公司协同合作、共同努力的成果,荣获2018年集团科技进步二等奖。作为平台研发的全程参与者,笔者非常荣幸能够受到移动Labs邀请,向大家简要介绍一下网优大数据平台研发历程、技术实践与思考以及未来展望。

开发背景

在网优大数据平台大规模应用之前,中国移动网优工作基本依靠脱胎于话务网管的第三方传统网优平台,全国经过两期大建设,仍然未能改变网优生产分析靠工单,任务逐级下达,数据层层上报的问题,平台热建冷用的问题非常突出。

随着网优集中化运维体制改革以及4G网络的大规模商用,集中优化工作需要强大的网优支撑平台,保持4G网络领先优势也需要依托平台固化网优经验,提升网优生产效率。4G规模商用后,六维度分析、室内覆盖、网络干扰、竞对分析、高铁等大量优化工作都需要平台提供全方位支撑。网优应用需求变化越来越快,而传统平台由于IT落地依赖第三方,周期长、协调多,质量不可控,应用功能模块基本上不可能在全网范围内快速迭代。

此外,传统网优平台普遍采用大型单机服务器+关系型数据库的系统架构,随着全网MRO测量报告数据的常态化开启以及信令数据、MDT数据的大规模引入,传统平台面对大数据处理、复杂关联计算需求变得不堪重负,无法实现精细优化工作的常态化。

为了解决上述问题,在公司与部门领导的大力支持下,总部联合支撑单位、省公司于2011年启动了网优大数据平台的自主研发工作。

研发历程

2011年研发项目启动后,我们历时三年,于2014年推出了第一个上线运行的大版本,支持TD-LTE无线参数与性能数据的实时处理,2016年支持MRO/MRE/MRS与OTT数据的处理,2017年增加对FDD-LTE网元以及MDT数据的支持,2018年接入NBIoT基站数据,2019年增加对5G NSA/SA无线参数与实时性能数据的支持。近五年来,我们每年都会根据现网生产需求迭代更新平台架构与功能模块。研发历程时间表如图1所示。

1583920956614044075.jpg

图1 网优大数据平台研发历程时间表

网优大数据平台目前已经具备中国移动全网无线参数、性能、告警、MR、MDT、工参、OTT等各类网优数据的采集解析、关联分析以及分场景汇总能力。平台有效支撑了总部和省公司的大量生产工作,同时根据实际需求,向支撑单位应用、省公司自有应用以及第三方上层应用输出了大量网优数据支撑能力。除了日常与专项生产,重要通信保障期间,平台也承担了大量的手段支撑任务。简而言之,经过9年的研发探索,围绕网优大数据平台的网优与运维应用生态已初具规模。

技术实践与思考

1、关于架构设计

对于中国移动网络运维领域的数据体量,重复处理所带来的代价是惊人的。因此,我们始终将总部与31省视为一个整体,试图构建一个覆盖全国、能力分布、调度集中的广义大数据平台。避免将总部与31省割裂开来的目的主要就是要避免数据重复采集、重复处理,重复存储,节约私有云资源池和宝贵的省际带宽。虽然采集处理能力是分布式的,但是平台需要有统一调度和状态监控能力,这种能力同时也大大降低了运维成本。资源池环境不标准、出口带宽不稳定等问题是广义大数据平台落地过程中面临的最大挑战,为此我们做了大量的适配工作,也做了很多容器化方面的实践。这些问题在我们当前的广义中台建设中同样是研究重点,需要引入熔断等自愈机制及时接管失效服务。

2、关于处理模式

2011年平台项目启动之初,Hadoop MapReduce风起云涌,谈及大数据处理必谈MapReduce。业内主要集成商也在紧锣密鼓地向MapReduce批处理与ETL结合的架构演进。结合中国移动现网数据特征、数据规模、业务需求以及当时的处理与存储硬件条件,我们选择了当时并不主流的流处理架构作为平台数据的主要处理模式。由于当时网优行业对这一领域的研究和应用几乎是空白,我们只能诉诸互联网行业的技术积累。过去九年中,我们持续跟踪全球流处理技术发展,尤其关注流处理以及批流合一框架的发展和应用,从Kafka+Storm到Spark Streaming再到Kafka+Flink等等,参加了大量的社区MeetUp,做了大量尝试和上线对接。此外,我们将分布式流处理作为一种理念,开源框架给我们提供了快速实现这一理念的通用方式,但是我们还将这一理念贯穿到了架构设计和程序开发的各个环节中,最终的目的是向每一个数据处理环节要效率。

3、关于数据采集

不同类型、不同厂商的数据源接口、存储格式、压缩打包方式、服务器平台存在很多差异,采集模块需要做好适配。很多适配并非一个正则表达式就能解决的,需要对数据源进行细致的分析再硬编码。采集机制要避免数据文件不完整、文件丢失、延迟过大等一系列问题。为了解决单线程带宽受限的问题,我们根据采集量引入自适应多线程采集,同时优化采集任务分配机制,防止服务器与网络限制造成数据文件丢失。为了应对信令采集所面临的大流量挑战,我们专门对网优领域的信令需求进行深入分析,基于DPDK开发了适用于网优业务的信令采集框架,实现了零拷贝(Zero Copy)、多口实时关联以及前端实时过滤,节省了大量硬件开销。

存储方面,我们引入开源分布式文件系统,主要目的是实现包括解析在内的后续处理的负荷均衡,以及结合消息队列实现采集与后续处理之间的完全解耦合。

中国移动全网NRM/PM/FM/MR/MDT服务器已经超过两万台,每天都有大量的入网退网操作。服务器地址、端口、账号、映射关系等等都可能发生变更。靠人工管理不仅效率低下,而且经常出现因更新不及时造成数据缺失的问题。针对这一问题,我们专门引入自动调度框架并加以改造,使其具备主从节点功能。主节点可以在服务器配置发生增删改后将变更自动传导到各个从节点,同时在任务分配时充分考虑负荷分担。此外,我们专门开发服务器管理管理模块,方便查询实时采集状态,及时发现采集失败的问题服务器,同时提供方便的调测功能和管理数据更新功能。

4、关于数据解析

虽然中国移动相比其他运营商有着更为完善的北向、MR、MDT、DPI数据规范,但是不同数据类型、不同主设备厂商、不同设备版本还存在着很多差异,需要进行适配。数据解析不仅仅是简单的文件解压和数据格式转换,需要进行大量实时过滤、关联、计算、汇总甚至搜索操作才能为共享层提供较为全面的业务数据,避免上层应用对共享层数据进行不必要的二次处理。

5、关于缓存机制

在对中国移动海量数据进行流式处理的过程中,有的数据需要进行实时汇总,有的数据需要进行实时关联,甚至窗口搜索关联,我们需要以近乎零延迟的方式完成关联、过滤、汇总等一系列复杂运算,这些运算需要强大的缓存机制做支撑,为此我们专门搭建了缓存集群,并且很早就进行了分布式改造。分布式改造期间,我们与Codis等开源团队做了大量现场沟通探讨,做了很多方案的上线尝试和性能调优。内存I/O、CPU、网络带宽三者之间的平衡是设计好缓存系统的关键,数据量和并发量越大,这三者之间的矛盾就会越突出。例如,为了降低I/O频次,我们采用异步批量写入,但是异步写入设置不当又会带来CPU短时冲高造成阻塞。此外,数据结构的设计、生命周期的控制等等都是保持缓存机制可持续高效运行的重要因素。

6、关于数据库

网优大数据平台中应用了多种数据库,有内存数据库、有列存储数据库,也有关系型数据库。业务需求的特点是我们数据库选型的重要依据。应用好数据库,不仅需要对数据库本身的特点深入了解,而且要结合业务数据特点进行合理设置。例如为了满足高并发的随机读写以及灵活的数据列编排需求,我们在部分处理环节上应用了HBase数据库。而HBase的应用不仅仅是简单搭建一个集群,必须结合业务数据的写入顺序、数据标签的标识特征以及上层应用查询的维度特点,对RowKey进行精妙的设计,避免写热点或读热点出现,有效平衡数据库读写之间的矛盾,实现读写过程中集群负荷的平稳、均衡。同时我们对数据TTL生命周期、Flush策略、分区策略等等进行合理的控制,从而解决写入速度慢、数据倾斜等可能导致数据库不可用的问题。

7、关于GIS

GIS地理化呈现是网优领域最常见的前台需求。在资源受限的情况下,网优大数据平台根据GIS呈现的数据查询特点,专门对平台数据进行了新的结构设计,引入缓存与分布式并行计算机制,编写了高效的GIS查询引擎。我们基于自有引擎、开放底图对基站分布、覆盖栅格、样本轨迹、覆盖拉线等地理要素进行了直观的实时呈现,使得基站、栅格、用户、样本这四者能够实现有机结合,支持无缝关联。

未来展望

对于中国移动网络工作,2019年公司领导提出要强化注智赋能,提升智能化运营水平。要建设系统集中、架构云化、能力开放、自主可控、敏捷智能的智慧运维大脑,全面支撑集团公司5G“网络+中台+应用”要求的落地以及网络云和5G SA的投产。在支撑手段方面,要构建网络智慧中台,支撑网络价值化运营,同时加强网络运维智能化的应用,不断提高运维水平。

2020年网络工作会上,集团公司在OSS4.0网管工作部分明确提出要进一步增强资源管理域、质量保障域、运维管理域网管应用。在质量保障域方面,要构建以网优大数据平台(1+6+N)为核心的网优支撑体系并完成5G演进,全面支撑“1+31”网优生产及管理。同时提出,平台层构建“1+N”两级网管中台,推进业务拉通和数据共享。其中针对数据中台部分,将发布统一数据定义与数据模型规范,采集5G SA和NFV的资源/性能/告警数据,拉通共享网优大数据平台、新资管等系统的数据。

未来,作为网络智慧中台的一部分,我们将努力构建一个面向总部+31省的广义数据中台,平台本身已经完成部分模块的功能切分与微服务改造,后续将逐步实现全部功能模块的微服务化和容器化,一些共性服务将面向全网,而非总部或者某个省,从而构建网优数据的全网统一共享能力。同时,我们将努力构建强大的智能网优算法支撑能力,为上层应用提供统一的算力支持,联合各方共同构建灵活、智能的业务中台。随着5G基站的大规模入网,网优大数据平台将持续更新演进5G相关支撑能力。

回顾网优大数据平台过去九年的研发历程,虽然我们遇到了各种各样的挑战,但是期间在资源协调、团队构建、项目管理、技术支持等方面得到了多位领导的大力支持,得到了多个省公司专家以及互联网领域众多开源社区专家的直接帮助。借此机会表示衷心的感谢!面向未来,我们将按照集团公司统一部署,联合各方力量,面向一线生产需求,继续朝着构建网络运维领域统一智慧中台的共同目标砥砺前行。



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭