70TiB/s性能爆发！NVFile并行存储革新AI基础设施，助力DeepSeek R1大模型训练

2025-03-06 14:13:29

　　DeepSeek R1 作为当前最具代表性的超大规模语言模型之一,其6710亿参数规模对存储系统的性能、扩展性及安全性提出了严苛要求。随着企业级用户对数据主权和私有化训练需求的增长,本地化部署成为大模型落地的核心挑战。极客天成NVFile分布式存储系统通过深度优化400Gb InfiniBand网络架构,不仅满足大规模训练场景的高吞吐需求,更为本地化部署提供了全栈技术支撑。

　　DeepSeek R1的存储挑战与本地化需求

　　DeepSeek R1 基于混合专家(MoE)架构,训练过程需处理数万亿token的文本数据,其本地化部署面临三重挑战:

　　数据合规性:企业私有化训练需确保数据不出域,存储系统需支持国密算法、硬件级加密等功能;

　　异构硬件适配:需兼容国产化服务器与芯片生态,避免硬件绑定;

　　海量数据处理:训练如此规模的模型需要处理海量训练数据,这些数据通常以数十亿个文件形式存在。DeepSeek R1的训练数据集包含了海量的中英文语料,对存储容量提出了极高要求。DeepSeek R1训练需要多个GPU同时工作,这对存储系统的并发读取能力提出了前所未有的挑战。

　　NVFile通过软件定义架构与分层存储设计,全面支持x86和ARM平台,支持鲲鹏、海光等国产芯片,满足信创环境部署要求。NVfile具有线性扩展能力,可扩展至上千节点,性能和容量随节点数增加而近线性增长,能满足DeepSeek训练数据的存储要求。

　　NVFile核心架构介绍

　　1. 全局命名空间与本地化适配

　　NVFile的全局命名空间支持跨地域数据同步,通过智能元数据分区技术,将高频访问的模型参数、训练日志等元数据存储在本地节点,减少跨域访问延迟。在私有化部署场景中,系统可自动识别数据热区,将检查点文件、预处理数据集等关键资源优先缓存至本地SSD存储池,实现95%以上的本地化数据命中率。

　　2. 弹性扩展与国产化支持

　　采用无中心化架构设计,支持异构服务器混合部署。在国产化硬件环境中,通过抽象硬件差异层,实现信创CPU与英伟达GPU的协同工作,满足企业千卡级训练集群的平滑扩容需求。实测数据显示,在128节点鲲鹏服务器集群中,NVFile仍可保持92%的线性扩展效率。

　　3. InfiniBand网络支持和全链路RDMA加速

　　NVFile实现端到端RDMA传输,结合GPU Direct Storage技术,使GPU可直接访问存储节点内存,减少40%的数据复制开销。在DeepSeek R1 的梯度同步阶段,多路径聚合技术将单节点带宽提升至38GB/s,较200Gb网络提升2.1倍。

　　4. 动态QoS控制

　　针对私有化训练场景,NVFile引入智能流量调度算法:

　　关键任务(如检查点存储)分配保障带宽,优先级高于数据预处理等后台任务;
　　基于时间片的公平调度算法,防止单个租户独占网络资源;
　　硬件级PFC流控机制,将网络拥塞导致的性能波动控制在5%以内。

　　极客追光全闪一体机AI800 简介

　　AI800 是一款面向大规模 AI 训练和高性能计算的高端全闪存存储一体机,支持 400Gb IB 网络,提供高达 70-80GB/s 的单节点读取速度和 70TiB/s 的聚合带宽,适合超大规模集群部署(最大 4096 节点)。它采用双 Intel® 至强处理器和 NVMe SSD 全闪存储,支持 EC 纠删码和 NVFile 并行文件系统,能够高效处理大规模数据加载和小文件访问,是深度学习和 HPC 场景的理想选择。

　　AI800在DeepSeek R1训练场景下的实际表现

　　1. 数据加载阶段

　　在DeepSeek R1 初始数据加载阶段,AI800 NVFile配置:单节点可达70-80GB/s,训练集群可同时以接近70TiB/s的聚合带宽从NVFile加载数据。相比IB 400的硬件配置速度提升接近一倍,对于DeepSeek R1 的训练数据集,这意味着初始加载时间从几小时缩短至不到一小时,极大提高了训练效率。

　　2. 数据加载阶段性能展示

　　网络配置单节点读取速度聚合带宽(1024节点)对应产品型号支持AI80070-80GB/s70TiB/sAI800(16 NVMe SSD)

　　3. GPU利用率对比(结合硬件配置)

　　批次大小AI800NVFile关键技术小批量(4)92-95%400Gb IB的NVMe SSD加速数据传输中批量(16)94-97%存储网络带宽限制缓解大批量(64)95-98%智能写条带化技术优化AI800在不同训练批次规模下,针对DeepSeek R1 模型的GPU利用率表现如表格所示,可以看出,在小批量训练场景下,不同网络配置的性能差异更为显著。而DeepSeek R1 由于参数规模巨大,往往需要采用较小的批次大小,此时AI800配置的优势尤为明显。

　　4. 训练效率综合对比

　　指标

　　AI800

　　NVFile关键技术

　　单周期训练时间

　　基准值

　　200Gb/400Gb网络自适应

　　小文件IOPS(4KB)

　　5000万+

　　NVFile并行文件系统加速

　　元数据延迟

　　0.2ms

　　分布式集群架构优化

　　故障恢复能力

　　在线热插拔+EC纠删码

　　数据冗余策略差异

　　以DeepSeek R1 模型为例,AI800一体机处理小文件的IOPS指标较高,可以显著缩短DeepSeek R1 模型的训练周期,大幅提高研发效率。

　　5. 文件访问特性对比

　　DeepSeek R1训练过程中会频繁访问大量小文件(如tokenized文本),不同带宽配置下的表现如下:

　　网络配置

　　小文件(4KB)IOPS

　　随机读取延迟

　　元数据操作延迟

　　AI800

　　5000万+

　　0.4ms

　　0.2ms

　　在处理DeepSeek R1训练所需的大量小文件时,AI800配置的NVFile系统保持高IOPS的同时也能提供低延迟,这对训练效率有显著影响。

　　极客天成的NVFile并行存储技术通过高速InfiniBand网络与分布式架构的深度协同,结合极客追光全闪一体机AI800 的领先性能,为DeepSeek R1 提供了从公有云训练到私有化部署的全场景支持。其国产化适配能力与安全合规设计,帮助企业客户在享受大模型技术红利的同时,筑牢数据主权防线,为AI技术的安全落地提供了关键基础设施保障。

　　（来源：点财网）

责任编辑：何奎良