• 2025-01-08一文彻底搞懂英伟达PCIE和Nvlink版本的显卡怎么选?
    英伟达针对企业级服务器推出了两种不同版本的显卡,一种是Nvlink版本,另一种是PCIE版本,这两种究竟有何区别,我们用于ai训练的时候又该如何选择呢?首先我们来看看PCIE版本的,PCIe版显卡对于PCIE版本的GPU而言,仅能通过桥接器与相邻的GPU相连,如下图的GPU1只能直接访问GPU2,而不能直接
  • 2024-12-13转载:【AI系统】NVLink 原理剖析
    随着AI技术的飞速发展,大模型的参数量已经从亿级跃升至万亿级,这一变化不仅标志着AI的显著提升,也对支持这些庞大模型训练的底层硬件和网络架构提出了前所未有的挑战。为了有效地训练这些复杂的模型,需要依赖于大规模的GPU服务器集群,它们通过高速网络相互连接,以便进行快速、高效
  • 2024-12-13转载:【AI系统】NVLink 原理剖析
    随着AI技术的飞速发展,大模型的参数量已经从亿级跃升至万亿级,这一变化不仅标志着AI的显著提升,也对支持这些庞大模型训练的底层硬件和网络架构提出了前所未有的挑战。为了有效地训练这些复杂的模型,需要依赖于大规模的GPU服务器集群,它们通过高速网络相互连接,以便进行快速、高效
  • 2024-12-13转载:【AI系统】分布式通信与 NVLink
    在进入大模型时代后,大模型的发展已成为AI的核心,但训练大模型实际上是一项比较复杂的工作,因为它需要大量的GPU资源和较长的训练时间。此外,由于单个GPU工作线程的内存有限,并且许多大模型的大小已经超出了单个GPU的范围。所以就需要实现跨多个GPU的模型训练,这种训练方式就
  • 2024-12-11转载:【AI系统】分布式通信与 NVLink
    在进入大模型时代后,大模型的发展已成为AI的核心,但训练大模型实际上是一项比较复杂的工作,因为它需要大量的GPU资源和较长的训练时间。此外,由于单个GPU工作线程的内存有限,并且许多大模型的大小已经超出了单个GPU的范围。所以就需要实现跨多个GPU的模型训练,这种训练方式就
  • 2024-12-11转载:【AI系统】分布式通信与 NVLink
    在进入大模型时代后,大模型的发展已成为AI的核心,但训练大模型实际上是一项比较复杂的工作,因为它需要大量的GPU资源和较长的训练时间。此外,由于单个GPU工作线程的内存有限,并且许多大模型的大小已经超出了单个GPU的范围。所以就需要实现跨多个GPU的模型训练,这种训练方式就
  • 2024-12-11转载:【AI系统】NVLink 原理剖析
    随着AI技术的飞速发展,大模型的参数量已经从亿级跃升至万亿级,这一变化不仅标志着AI的显著提升,也对支持这些庞大模型训练的底层硬件和网络架构提出了前所未有的挑战。为了有效地训练这些复杂的模型,需要依赖于大规模的GPU服务器集群,它们通过高速网络相互连接,以便进行快速、高效
  • 2024-12-11转载:【AI系统】分布式通信与 NVLink
    在进入大模型时代后,大模型的发展已成为AI的核心,但训练大模型实际上是一项比较复杂的工作,因为它需要大量的GPU资源和较长的训练时间。此外,由于单个GPU工作线程的内存有限,并且许多大模型的大小已经超出了单个GPU的范围。所以就需要实现跨多个GPU的模型训练,这种训练方式就
  • 2024-12-11转载:【AI系统】NVLink 原理剖析
    随着AI技术的飞速发展,大模型的参数量已经从亿级跃升至万亿级,这一变化不仅标志着AI的显著提升,也对支持这些庞大模型训练的底层硬件和网络架构提出了前所未有的挑战。为了有效地训练这些复杂的模型,需要依赖于大规模的GPU服务器集群,它们通过高速网络相互连接,以便进行快速、高效