网络孪生、智能仿真

您所在的位置:网站首页 网络仿真器 网络孪生、智能仿真

网络孪生、智能仿真

2024-07-06 18:37:47| 来源: 网络整理| 查看: 265

前言

    随着腾讯云业务的不断发展,基础网络承载的业务类型和服务对象呈现极其复杂的多样性,这给网络的高可靠性带来了前所未有的挑战。腾讯自2018年开启基础网络自研之路,从端网协同的DCN(Data Center Network)到应云而生的DCI(Data Center Interconnection),腾讯基础网络在满足极其复杂多样的需求时,仍在极力追求着极致的网络质量。在部署生产网络前,对预期的网络行为进行验证,则是保障生产网络的一个行之有效的手段。然而,传统网络验证方式在面对不断增长的网络规模和业务需求时,却愈发显得力不从心。

传统网络验证的阿克琉斯之踵

    传统的网络验证是指通过在物理实验室搭建拓扑,模拟生产网络行为,从而判断是否符合预期。这种验证方式已在各项网络业务场景中广泛应用,在过去多年里有效的提升了生产网络的质量,然而,也存在如下一些显著的缺陷:

    ● 周期长:由于物理实验环境的复杂性,一个中型架构从搭建物理拓扑到验证完成通常需要数周的时间,在网络特性快速迭代的时代,这一缺陷让传统网络验证方式大大的限制了网络发展。

    ● 规模小:物理实验环境由于成本等限制会构建等比缩小的生产环境,对于大型路由协议验证(例如大型的BGP、OSPF、ISIS等拓扑)及类似的验证场景,小规模拓扑无法有效评估路由收敛的效果。

    ● 种类少:生产网络中物理设备由各类异构设备组成,而物理实验环境无法支持所有的异构设备,尤其是海外供应商的设备,导致涉及这类拓扑的验证场景很难在物理实验室构建。

    因此,网络验证方式亟需一场变革才能满足海量网络高速发展的需求。

灵境-网络验证平台的宙斯之盾

    腾讯网络团队应势打造了新一代的网络验证平台—灵境,不同于传统物理验证方式,其通过两类不同性质的验证引擎对网络行为进行验证,可以达到以下效果:

    ● 一键式极速验证:无需繁琐物理建设,保证千台级别的拓扑验证任务24小时内完成。

    ● 1:1孪生网络:验证平台对接生产网络,基于虚拟化技术,构建1:1等比例拓扑,同时支持覆盖现网90%以上的异构设备镜像,以保证拓扑的高度仿真。

    ● 网络配置全分析:汇总所有待验证网络设备的配置文件,支持异构配置,亿行级配置显式和隐式错误分析,有效分析因配置引发的网络故障。

    ● 时域空域无限制:验证平台可以打破时空限制,不仅可以验证当前生产网络中任意地点的拓扑,而且可以回溯过去任意时刻、任意位置的故障。

网络验证平台主要由应用中心和验证引擎组成,如下图所示。

图1 网络验证平台架构

● 应用入口:提供各种验证场景的应用入口,目前主要支持网络架构、网络测试、网络设备研发调测、网络变更以及网络故障演练等验证场景。验证平台对于不同应用场景开发了不同的验证功能,对于架构类验证,重点提供架构的拓扑设计、配置修改以及验证分析等功能;对于网络测试,除了提供拓扑设计类功能之外,还提供了与物理设备混合组网、对接自动化测试平台等功能;对于变更类验证,重点提供对接网管系统,构建与待变更区域1:1虚拟拓扑的功能;对于故障演练,重点对接控制器中保留的故障数据,将故障时的拓扑、配置及流量拉入到验证平台,借助仿真验证引擎复现当时故障场景。

● 任务编排:承接应用层下发的各种验证任务,并从网管系统或者控制器中拉取各种拓扑数据、配置数据和流量数据,并根据场景对数据执行归一化等预处理,完毕后下发至验证引擎。为配合不同的验证场景,任务编排层还负责向验证引擎注入流量、路由以及构造交互协议等操作,此外,还可以借助网管平台既有的网络分析组件,分析验证过程中的网络行为是否符合预期。

● 验证引擎:平台的核心为验证引擎,分为静态模拟引擎(Static Simulation Engine)和动态仿真引擎(Dynamic Emulation Engine),其中静态模拟引擎分析静态的生产网络设备配置文件,搜寻配置错误;动态仿真验证引擎构建生产网络的孪生网络,验证网络行为。

静态模拟验证引擎

    静态模拟验证引擎使用形式化配置验证,通过构建数学模型,将静态的设备配置转化为数据模型,并用SMT(Satisfiability Modulo Theories)求解器在控制平面和数据平面搜寻符号,分析出配置错误,例如路由黑洞、路由不可达等。借助开源的模拟验证引擎,并对其单机运行特性进行分布式的改造,让其更好的适应腾讯的网络研发环境。

    为了适配不同商业设备和自研设备的配置文件,我们设计了一套标准归一化机制,将所有商业设备厂商和自研设备的配置文件全部转化为抽象的归一化格式,从而降低引擎对不同配置格式的适配量,有效扩大了其在现网的使用范围,可以在几分钟内分析完上千台的设备配置分析。

图2 静态模拟验证引擎

动态仿真验证引擎

    动态仿真验证引擎借助私有云计算资源构建生产网络的孪生网络,利用高仿真度的虚拟网元镜像仿真网络的控制平面、转发平面以及管理平面,同时支持孪生网络和生产网络无感知互联。动态仿真验证引擎的结构示意图如下图所示。

图3 动态仿真验证引擎

    ● 物理服务器集群:为动态仿真验证引擎提供物理链路和基础算力。

    ● 孪生网络:生产网络的虚拟网络,由各种异构虚拟网络设备和虚拟链路组成,其控制和转发行为和生产网络中的物理设备完全一致。

    ● 仿真引擎编排器:编排器负责管理孪生网络的整个生命周期,包括创建虚拟设备、构建虚拟链路、下发设备配置、启动虚拟设备等等。

    ● 验证中心:通过路由采集、路由注入、流量分析、协议构造等组件完成对孪生网络的网络行为的验证。

    静态模拟验证引擎和动态仿真验证引擎一同组成了网络验证平台的宙斯之盾,为腾讯基础网络保驾护航。

网络验证实战

变更验证

    验证背景:在腾讯某地域数据中心中CUF(Campus Unified Fabic)层有三个平面,其中第三个平面CUF-3链路已经启用,但尚未引入流量。如果直接在生产网络中执行引流的变更操作,由于配置、软件版本等潜在的错误,可能会导致路由震荡,业务流量丢包等现象,为确保变更无误,需要事先验证变更是否存在风险,验证拓扑如下图所示。

图4 网络变更验证拓扑示意图

    传统验证流程第一步是建设组网,第二步是配置变更,第三步是流量验证,驻场工程师和测试工程需要全程参与,验证完毕后有时还需要拆除既有的验证拓扑,整个过程耗时耗力耗成本。

    而灵境验证平台仅需运营工程师在平台提交验证任务,即可完成托管式验证。验证引擎首先收集配置信息输入静态模拟验证引擎,检查配置信息,而后动态仿真引擎根据拓扑描述文件构建虚拟孪生拓扑并下发配置,最后应用中心进行路由采集,计算路由收敛时间,还可以构造流量完成流量测试。验证平台在验证成本和验证效率方面明显优于传统验证,基于验证平台可以搭建与生产网络1:1的虚拟拓扑,验证更加充分,因此验证质量大多数情况下也优于传统验证。

● 建设时间:灵境验证平台仅在分钟级别时间内便可完成CUF单平面的虚拟拓扑建设,半小时以内完成CUF三平面的虚拟拓扑建设,相比传统物理组网建设,更好地保障了变更验证的时效性。

● 建设成本:采用物理服务器搭建私有云,每台虚拟网元成本折合下来仅数十元,更重要的是,私有云资源可以弹性分配、重复利用。相比动辄数百万元的物理设备,极大降低了验证拓扑的建设成本。

● 验证质量:虚拟拓扑为生产网络的1:1拓扑,而传统物理验证拓扑一般为几十比一的等比缩小拓扑,对于涉及大规模复杂路由规则的变更场景,等比拓扑的验证可靠性要远高于缩小比例的拓扑。得益于腾讯的网络自研行为,虚拟网元的网络行为有极高的仿真度(当前控制面仿真度大于95%,转发面的仿真度大于80%),因此可以打造一个与生产网络保持1:1的高保真仿真验证引擎。

SDN控制器调参

    网络验证平台支持和SDN控制器对接,将控制器采集到的生产网络信息注入到网络验证平台,借助虚拟测试仪表可以回放过去任意时刻的流量,实现训练控制器调度参数的目的。

    业务背景:骨干网络控制器由于最优等价链路多,链路带宽分布不均,热点线路冗余带宽不足等原因,会带来诸多复杂的流量调度行为,其中的非最优调度行为会直接影响业务性能。因此需要周期性持续优化调度参数才能适应流量模型,降低调度频率。

    传统物理实验室参数训练拓扑非常小,而且流量、带宽模型单一,从而导致参数准确度大打折扣,再加上控制器软件在生产网络和试验拓扑之间反复升级、训练的迭代操作,导致训练周期非常长,面对业务规划复杂的场景无法灵活开展全面演练。而网络验证平台支持1小时内构建骨干网任意单平面的完整拓扑,可以提供几百种流量模型。通过压缩生产网络流量,可以实现延迟5分钟的同步训练和无次数限制的回放演练。

    多个孪生网络可以同时稳定复现生产网络调度情况,对比验证平台内的调度量和生产网络的调度量,经过同一天流量数据多次验证,偏差小于2%,使用不同时间段流量数据多次验证,偏差小于3%,验证平台内的还原度足够满足参数训练需求。

图5 孪生网络与物理网络调度对比

    为了减少持续优化的迭代周期,验证平台利用生产网络流量参数在孪生网络上开展参数调优。如下图所示,控制器借助孪生网络训练参数后,总调度数量下降>90%,备选路径调度数下降>80%,可以看出,新的参数组合有效减少了无效调度。更重要的是,整个训练周期由物理环境中训练所需的1年左右缩短至孪生网络中的



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭