什么是智能无损网络?
智能无损网络是一种集流量控制与拥塞控制于一体的先进技术,旨在提升网络性能,降低时延。同时,它通过智能无损存储网络等技术实现网络和应用系统的优化融合。该技术为AI人工智能、集中式/分布式存储以及HPC等应用场景提供了低丢包、低时延、高吞吐的网络环境,从而加速计算和存储效率,为数据中心打造统一且融合的网络基础设施。
为什么需要智能无损网络?
RDMA技术在数据中心网络中面临的问题
随着数据中心技术的不断演进,传统网络的局限性日益显现。新兴业务如高性能计算、AI人工智能和分布式存储等对数据中心网络提出了更高要求。然而,传统的TCP/IP协议栈在数据传输等关键环节存在较大资源消耗和高时延问题,已无法满足新需求。因此,数据中心网络技术正迎来一场革命性的变革。
RDMA(Remote Direct Memory Access,远程直接内存访问)是一种高速网络互联技术,该技术主要设计目的是减少在数据传输过程中收发端的处理延迟以及资源消耗。RDMA技术使计算机能够直接访问远程计算机的内存,在内存层面进行数据传输而无需CPU频繁介入,从而显著增强网络通信性能。
当前分布式存储、HPC高性能计算、AI人工智能等场景均采用RoCEv2(RDMA over Converged Ethernet version 2)作为以太网上的传输协议来降低传输时延和CPU负担。相较于传统TCP/IP通信,RDMA既减少了数据传输过程对资源的占用,也降低了数据的处理时延。
图1 TCP/IP与RDMA对比
RDMA是一种基于无连接的UDP协议,缺乏完善的丢包保护机制,对于网络丢包异常敏感。同时,分布式高性能应用是多对一通信的Incast流量模型,对于以太网的设备,Incast流量易造成设备内部队列缓存的瞬时突发拥塞甚至丢包,带来时延的增加和吞吐的下降,从而损害分布式应用的性能。为了发挥出RDMA的真正性能,突破数据中心大规模分布式系统的网络性能瓶颈,需要为RDMA搭建一套“无丢包、低时延、高吞吐”的无损网络环境 。
例如,可以通过配置PFC(Priority Flow Control)和ECN(Explicit Congestion Notification)构建无损网络解决丢包问题 。
智能无损网络的优势
智能无损网络借助流量控制、拥塞控制和应用融合技术,有效解决了RDMA的技术难题。这些技术共同作用,降低了网络时延,提升了网络吞吐量,实现了零丢包,从而全面提高了网络的实用性和性能。
•智能无损存储网络:iNOF功能助力,轻松管控iNOF主机,提升存储网络易用性,实现以太网与存储网络无缝融合。
支持多元应用:凭借卓越的硬件架构、智能无损算法及网络技术,为AI、集中/分布式存储和高性能计算等场景构建统一且高效的网络环境,大幅提升计算与存储效能。
智能无损网络包含哪些关键技术?
图2 智能无损网络的技术架构
流量控制技术
流量控制是一种用于控制数据发送速率的技术,主要目的是防止发送端发送数据的速率超过接收端的处理能力。如果发送端发送数据的速率过快,接收端的缓冲区可能会被占满,导致数据包的丢失。
流量控制可以通过对数据的发送速率、窗口大小等参数进行调控,从而保证网络信息的传输有效性和可靠性。
• PFC(Priority-based Flow Control,基于优先级的流量控制):逐跳提供基于优先级的流量控制,防止拥塞导致的丢包,提高网络可靠性。
•PFC死锁检测:定期检测设备的PFC死锁状态,解决报文无法正常转发的问题。
拥塞控制技术
拥塞控制,作为智能无损网络的核心技术,致力于避免或缓解网络拥堵。当数据流量超过设备处理能力时,网络将面临拥塞风险,进而导致数据包延迟或丢失。
ECN(Explicit Congestion Notification,显式拥塞通知)是一种拥塞通知技术。它通过在IP报文头的DS域标记来表示传输路径上的拥塞状态。支持ECN功能的终端设备可以利用这个标记判断路径上是否出现拥塞,并据此调整发送方式,以防止拥塞加剧。
• ECN Overlay:将 ECN 融入 VXLAN 网络,实现 Underlay 和 Overlay 网络间的 ECN 域识别,从而使 Overlay 网络中的拥塞得以在报文接收端被感知并降低发送速率。
•AI ECN:利用AI人工智能技术,实时监控网络状况并收集参数。基于当前流程特征判断,计算出ECN门限最优值,实现网络拥塞精确预测和高效控制。
IPCC(Intelligent Proactive Congestion Control,智能主动拥塞控制)是一种以网络设备为核心的主动拥塞控制技术,可以根据设备端口的拥塞状态,准确控制服务器发送RoCEv2报文的速率。IPCC功能在ECN功能基础上进行改进,使转发设备具备发送拥塞通知报文的能力,IPCC功能仅对RoCEv2报文生效。
• 大小流调度:一种高效网络流量管理技术,识别并优化不同数据流大小,提升网络性能、资源利用率及用户体验。
流量调度技术
动态负载均衡:通过实时分析流量、链路状况及各成员链路负载,智能选择最佳路径,实现流量均衡分布,降低过载链路导致的延迟和丢包风险。
存储网络技术
iNOF(Intelligent Lossless NVMe Over Fabric,智能无损存储网络)是一种卓越的存储技术,实现了以太网和存储网络的完美融合。它具备海量存储设备的自动发现能力,能迅速感知网络故障,并实时通知智能无损网络内的所有设备,包括存储设备的加入和离开状态。这一创新技术将为数据存储和管理带来极大的便利和高效。
智能无损网络中的各项技术如何工作?
PFC
PFC可基于优先级对报文进行流量控制。
如图3所示,PFC技术将Device A的接口划分为8个优先级队列,同时将Device B的接口划分为8个接收队列。每个队列都具有一个优先等级。当Device B中某一优先级的接收队列缓存空间已满时,会发送一个反压信号(PFC PAUSE帧)。收到此信号后,Device A将停止发送对应优先级的流量,从而实现了传输过程中零丢包的目标。
图3 PFC工作原理示意图
如图4所示,多级设备通信中,当Device B的接口上某个队列超过缓存门限时,会向各报文来源设备发送反压信号。若上游设备未达到缓存门限时,如Device E,则不采取行动;若上游设备也达到缓存门限时,如Device A,则继续向更上游设备发送反压信号。如此逐级传递反压信号,直至网络终端设备,从而消除因拥塞导致的丢包现象。
图4 多级设备之间的PFC PAUSE帧处理示意图
ECN
ECN是一种拥塞控制方法,通过在数据包的头部标记拥塞发生的信号来实现。DS域的最后两个比特位为ECN域。ECN技术可以使得网络设备能够更加智能地处理拥塞情况,提高网络的整体性能。
图5 DS域位置信息
图6 ECN域位置信息
ECN功能工作机制:
发送端设置ECN域为10,告知路径上的设备及接收端,发送端设备支持ECN功能。
发送端设置ECN域为10,告知路径上的设备及接收端,发送端设备支持ECN功能。
(4) 发送端收到CNP报文,对对应的优先级的队列进行降速处理。
(5) 经过一段可配置的时间或者发送一定数量数据,发送端恢复原来的速率。
图7 ECN工作机制示意图
AI ECN
设备转发芯片精准捕捉流量特征,如队列缓存、吞吐率及流占比。实时传递网络流量信息至AI业务组件,提升效率。
图8 AI ECN功能实现示意图
IPCC
ECN是RFC 3168中定义的拥塞信令机制,首次发表于1999年,并在2001年左右定稿。ECN利用TCP报头中的两位和IP报头中的两位标记数据包(标记的意思是在头域中翻转一位)。当路由器检测到拥塞时,它会向数据包头部添加ECN标记,然后将其传输到下一个节点。
ECN是一种拥塞通知技术,它可以在网络拥塞时向数据包添加标记,以通知发件人和收件人网络的拥塞情况。
IPCC功能在ECN基础上升级,让转发设备自主发送拥塞通知,无需中转。这将大幅提高大网络响应速度和准确性,但仅适用于RoCEv2报文。
图9 IPCC工作原理图
IPCC的工作原理如图9所示。
RoCEv2数据报文上送设备CPU处理时,转发设备上启用了IPCC功能的接口会对经过的RoCEv2数据报文进行复制并上送设备CPU处理。
b. 再根据RoCEv2数据报文将流表与设备的转发接口关联。
当队列长度增加时,如果队列缓存占用率较少,需要发送少量拥塞通知报文;如果队列缓存占用率较多,需要发送较多的拥塞通知报文,以快速缓解队列拥塞并降低转发时延。
当队列长度减少时,如果队列缓存占用率较低,则无需发送拥塞通知报文,以防止降速导致吞吐量下降。如果队列缓存占用率较高,则需要发送少量拥塞通知报文,在保证吞吐量和时延性能的前提下缓解队列拥塞。
(3) 为应对网络拥塞,转发设备根据报文数量和RoCEv2流表中的地址信息生成拥塞通知报文,主动发送给发送端。收到拥塞通知后,发送端会降低RoCEv2报文的发送速率,以优化网络性能。
IPCC功能避免了ECN功能响应慢的问题,通过控制拥塞通知报文的发送数量,达到快速准确缓解网络拥塞的效果。
大小流区分调度
在网络世界中,流量繁多且各异,我们可以大致划分为两大类:大流与小流。尽管大流仅占网络总流量的10%,但却承载了85%的总数据量。这类流量尺寸庞大、带宽占用高、数量稀少,然而对延迟的要求相对较低,如视频下载等场景。
相对而言,小流尺寸较小、带宽占用较低,但对延迟要求较高,期待快速响应,例如网页浏览等。在无损网络中,我们致力于实现大流与小流的精准调度,以满足小流对低延迟的需求以及大流对高吞吐率的追求。
如图10所示,大小流区分调度机制如下:
(2)为大流设定丢弃优先级、本地优先级或dot1q优先级,设备依据这些优先级将识别的大流映射到特定队列,实现与其他非大流的区分调度。当拥塞发生时,设备会根据配置的丢弃优先级,优先丢弃大流报文,确保小流享有低延迟体验。
图10 大小流区分调度示意图
iNOF
iNOF,智能无损网络的守护者,轻松实现海量存储设备的自动发现与故障感知。当新设备加入或离开时,它会第一时间通知网络内的所有成员,让智能无损网络更加完美地服务于各种存储系统。
iNOF网络中,包括以下几个重要元素:
•iNOF主机:支持iNOF协议的网络服务器和磁盘设备,以下简称主机。
•iNOF客户机:用于连接主机和iNOF反射器,各客户机之间不建议连接。
•iNOF反射器:用于连接主机和各iNOF客户机,不跨交换机组网时可不配置。
iNOF域(Zone)是用于管理主机的一种机制。当某个主机加入或离开该域时,iNOF会自动通知同一域内的其他主机,以便它们能够实时了解域内主机的变化。这种机制有助于实现网络中主机之间的高效通信和协同工作。
为方便管理,iNOF域分为两类:
缺省iNOF域:设备出厂即存在的iNOF域,无需用户创建或删除。对于未加入自定义iNOF域的主机,用户可选择自动加入。
iNOF工作原理如图11所示。
图11 iNOF工作原理图
当网络中有新的主机接入或离开时:
当客户机Device A收到信息后,它会向同一iNOF域(Zone 1)中的主机(服务器)发送通知报文,并通过反射器将iNOF报文发送给Device B,实现信息的实时同步。
(3)iNOF反射器Device B收到信息后,通过iNOF报文同步给连接的其他客户机(Device D)和反射器(Device C)。
其他客户机(Device D)收到信息后向同一iNOF域(Zone 1)中的主机发送通知报文。
(5) 各主机回应ACK报文,表示已获取到主机信息的变化。
智能无损网络的应用场景有哪些?
集中式存储场景
集中式存储是将所有的数据集中存储在一个或者一组存储设备上,这些设备通常位于同一地理位置。用户和应用程序通过网络连接到这些存储设备,进行数据的读写。集中式存储具备数据安全性高、集中管理、高性能和成本低等特点。
智能无损网络可以通过智能无损存储网络技术(iNOF)来实现以太网和存储网络的融合,对服务器和存储设备之间的大量数据传输进行优化,实现:
1. 即插即用:主机能迅速发现新加入的主机,并自动和新主机建立连接,迅速实现存储业务的部署。
2. 低延迟:通过iNOF技术,可以实现在数据中心内部任意两个节点之间进行高速、低延迟的数据传输。
3. 高吞吐量:iNOF技术可以提高数据中心内部的数据传输速度,从而提高了整个数据中心的吞吐量。
•高可用性:提供统一融合的网络环境,加速计算和存储的效率。
分布式存储场景
集中式存储优势在于管理便捷、数据一致性保障,但其缺陷也不容忽视,如单点故障风险、扩展性不足、性能瓶颈和数据迁移困难等。这些问题使得集中式存储难以满足大规模存储应用的需求。
分布式存储是一种数据管理策略,将数据分布在多个物理设备上,这些设备可分布于全球各地。网络连接这些设备,形成一个统一的存储系统,用户和应用程序通过网络访问这个系统,体验如同访问本地存储设备一般。分布式存储不仅提高了系统的可靠性、可用性和存取效率,而且易于扩展,适应不断增长的数据需求。
HPC高性能计算场景
HPC(High Performance Computing,高性能计算)是利用计算机或者并行处理技术,对复杂的计算问题进行大规模计算和高速处理的计算方式。在HPC场景中,计算任务通常会被切分为多个子任务,分布在多个计算节点上并行处理。
因此,高速的网络连接和数据传输在HPC应用中至关重要。通过优化资源的使用和分配,智能无损网络可以实现网络资源的高效利用,与对网络设备融合优化,提高网络计算性能,从而降低计算任务的完成时间 。
华为企业业务提供了智能无损高性能计算网络解决方案,该方案基于超融合以太解决方案打造领先的超算和人工智能计算中心,携手华为构建面向HPC和AI计算的智能无损高性能计算网络 。
AI人工智能场景
AI人工智能旨在让计算机系统通过学习数据,自动优化算法和模型,从而实现特定任务,如分类、预测、推荐等。在AI学习过程中,数据至关重要。大量训练数据使计算机系统能够学习到数据模式和规律,从而建立预测模型,对新数据进行预测或分类。这种从数据中学习的方法使AI系统能够应对复杂问题,即使是人类智能难以解决的。
随着AI技术的蓬勃发展,诸如深度学习等新型应用不断涌现,对大量数据和复杂数学模型的处理需求日益增长。多点分布的AI集群训练对网络性能和效率提出了严苛挑战。智能无损网络作为一种卓越解决方案,在AI人工智能领域发挥着至关重要的作用。
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-