williamhill在线体育,欢迎咨询!
williamhill在线体育混合设备研发制造 混料输送系统设计\生产\安装一条龙服务
全国咨询热线:18901560693
当前位置: 首页 > 配件服务

低延迟网络传输技术在分布式机器学习中的应用探讨

发布时间:2022-09-13 08:31:38 来源:william在线体育投注 作者:威廉希尔中文官方网站

内容简介:  分布式机器学习系统中的参数同步需要低延迟的网络传输协议。实现于内核协议栈的传统TCP协议在维护连接、拥塞控制以及协议栈实现等方面开销较大,不太适合用于分布式机器学习系统。为了解决TCP协议栈的问题,业界主要有两种思路:一是基于DPDK(Intel Data Plane Development Kit)技术把协议栈上浮到用户态来实现,从而降低内核实现的巨大开销;二是下沉到网卡硬件,采用RDMA(Remote Direct Memory Access)/RoCE协议来取代TCP。  DPDK是由英特尔公司主导开发的数据包快速处理库。D...
在线预定

产品详情 PRODUCT DETAILS

  分布式机器学习系统中的参数同步需要低延迟的网络传输协议。实现于内核协议栈的传统TCP协议在维护连接、拥塞控制以及协议栈实现等方面开销较大,不太适合用于分布式机器学习系统。为了解决TCP协议栈的问题,业界主要有两种思路:一是基于DPDK(Intel Data Plane Development Kit)技术把协议栈上浮到用户态来实现,从而降低内核实现的巨大开销;二是下沉到网卡硬件,采用RDMA(Remote Direct Memory Access)/RoCE协议来取代TCP。

  DPDK是由英特尔公司主导开发的数据包快速处理库。DPDK通过网卡驱动改变数据包的流向使得本应通过协议栈进行解析或者封装的数据包通过直接存储器存取(DMA)到大页内存或者从大页内存直接存储到网卡,从而实现了跨内核的数据传输。已有工作表明,基于DPDK实现的用户态TCP协议栈,与实现于内核的TCP协议栈相比,在某些情况下的端到端传输延迟可以降低1~2个数量级。RDMA同样实现了跨内核的数据传输。由于RDMA协议栈依靠网卡硬件实现,能够获得比软件协议栈更低的延迟。相比于DPDK,RDMA消耗的CPU资源较少,特别是one-sided RDMA,可以解放一端CPU资源实现高速的数据传输。目前已有相关工作采用RDMA对主流分布式计算框架(如Hadoop、Spark和Tensorhlow)进行性能加速,并且取得了显著的提升。然而,RDMA的大规模应用仍然存在几个明显缺陷或瓶颈。首先,RDMA在数据传输过程中可能引发暂停帧风暴问题(Pause Frame Storm,PFS),容易造成分布式机器学习系统的部分死锁,甚至整体瘫痪。此外,RDMA依赖Queue Pair(队列对)进行通信,与之相关的一些数据结构需要存储在硬件网卡的缓冲区,这也意味着,同时维护过多的Queue Pair数量可能会耗尽网卡缓存,造成严重的缓存未命中,从而降低性能。综上,为了优化分布式机器学习网络的传输性能已经有部分优秀的解决方案被提出,并融人到业界的分布式机器学习系统中。然而,从目前来看,这些新技术在易用性和稳定性等方面还存在诸多不足,传输性能也待进一步改善,仍然需要更加深入的探索。

推荐产品