70TiB/s性能爆发!NVFile并行存储革新AI基础设施,助力DeepSeek R1大模型训练
2025-03-06 14:13:29

DeepSeek R1 作为当前最具代表性的超大规模语言模型之一,其6710亿参数规模对存储系统的性能、扩展性及安全性提出了严苛要求。随着企业级用户对数据主权和私有化训练需求的增长,本地化部署成为大模型落地的核心挑战。极客天成NVFile分布式存储系统通过深度优化400Gb InfiniBand网络架构,不仅满足大规模训练场景的高吞吐需求,更为本地化部署提供了全栈技术支撑。

01
DeepSeek R1的存储挑战与本地化需求
DeepSeek R1 基于混合专家(MoE)架构,训练过程需处理数万亿token的文本数据,其本地化部署面临三重挑战:
数据合规性:企业私有化训练需确保数据不出域,存储系统需支持国密算法、硬件级加密等功能;
异构硬件适配:需兼容国产化服务器与芯片生态,避免硬件绑定;
海量数据处理:训练如此规模的模型需要处理海量训练数据,这些数据通常以数十亿个文件形式存在。DeepSeek R1的训练数据集包含了海量的中英文语料,对存储容量提出了极高要求。DeepSeek R1训练需要多个GPU同时工作,这对存储系统的并发读取能力提出了前所未有的挑战。
NVFile通过软件定义架构与分层存储设计,全面支持x86和ARM平台,支持鲲鹏、海光等国产芯片,满足信创环境部署要求。NVfile具有线性扩展能力,可扩展至上千节点,性能和容量随节点数增加而近线性增长,能满足DeepSeek训练数据的存储要求。
02
NVFile核心架构介绍
1. 全局命名空间与本地化适配
NVFile的全局命名空间支持跨地域数据同步,通过智能元数据分区技术,将高频访问的模型参数、训练日志等元数据存储在本地节点,减少跨域访问延迟。在私有化部署场景中,系统可自动识别数据热区,将检查点文件、预处理数据集等关键资源优先缓存至本地SSD存储池,实现95%以上的本地化数据命中率。
2. 弹性扩展与国产化支持
采用无中心化架构设计,支持异构服务器混合部署。在国产化硬件环境中,通过抽象硬件差异层,实现信创CPU与英伟达GPU的协同工作,满足企业千卡级训练集群的平滑扩容需求。实测数据显示,在128节点鲲鹏服务器集群中,NVFile仍可保持92%的线性扩展效率。
3. InfiniBand网络支持和全链路RDMA加速
NVFile实现端到端RDMA传输,结合GPU Direct Storage技术,使GPU可直接访问存储节点内存,减少40%的数据复制开销。在DeepSeek R1 的梯度同步阶段,多路径聚合技术将单节点带宽提升至38GB/s,较200Gb网络提升2.1倍。
4. 动态QoS控制
针对私有化训练场景,NVFile引入智能流量调度算法:
关键任务(如检查点存储)分配保障带宽,优先级高于数据预处理等后台任务;
基于时间片的公平调度算法,防止单个租户独占网络资源;
硬件级PFC流控机制,将网络拥塞导致的性能波动控制在5%以内。

03
极客追光全闪一体机AI800 简介
AI800 是一款面向大规模 AI 训练和高性能计算的高端全闪存存储一体机,支持 400Gb IB 网络,提供高达 70-80GB/s 的单节点读取速度和 70TiB/s 的聚合带宽,适合超大规模集群部署(最大 4096 节点)。它采用双 Intel® 至强处理器和 NVMe SSD 全闪存储,支持 EC 纠删码和 NVFile 并行文件系统,能够高效处理大规模数据加载和小文件访问,是深度学习和 HPC 场景的理想选择。
04
AI800在DeepSeek R1训练场景下的实际表现
1. 数据加载阶段
在DeepSeek R1 初始数据加载阶段,AI800 NVFile配置:单节点可达70-80GB/s,训练集群可同时以接近70TiB/s的聚合带宽从NVFile加载数据。相比IB 400的硬件配置速度提升接近一倍,对于DeepSeek R1 的训练数据集,这意味着初始加载时间从几小时缩短至不到一小时,极大提高了训练效率。
2. 数据加载阶段性能展示
网络配置单节点读取速度聚合带宽(1024节点)对应产品型号支持AI80070-80GB/s70TiB/sAI800(16 NVMe SSD)
3. GPU利用率对比(结合硬件配置)
批次大小AI800NVFile关键技术小批量(4)92-95%400Gb IB的NVMe SSD加速数据传输中批量(16)94-97%存储网络带宽限制缓解大批量(64)95-98%智能写条带化技术优化AI800在不同训练批次规模下,针对DeepSeek R1 模型的GPU利用率表现如表格所示,可以看出,在小批量训练场景下,不同网络配置的性能差异更为显著。而DeepSeek R1 由于参数规模巨大,往往需要采用较小的批次大小,此时AI800配置的优势尤为明显。
4. 训练效率综合对比
指标
AI800
NVFile关键技术
单周期训练时间
基准值
200Gb/400Gb网络自适应
小文件IOPS(4KB)
5000万+
NVFile并行文件系统加速
元数据延迟
0.2ms
分布式集群架构优化
故障恢复能力
在线热插拔+EC纠删码
数据冗余策略差异
以DeepSeek R1 模型为例,AI800一体机处理小文件的IOPS指标较高,可以显著缩短DeepSeek R1 模型的训练周期,大幅提高研发效率。
5. 文件访问特性对比
DeepSeek R1训练过程中会频繁访问大量小文件(如tokenized文本),不同带宽配置下的表现如下:
网络配置
小文件(4KB)IOPS
随机读取延迟
元数据操作延迟
AI800
5000万+
0.4ms
0.2ms
在处理DeepSeek R1训练所需的大量小文件时,AI800配置的NVFile系统保持高IOPS的同时也能提供低延迟,这对训练效率有显著影响。
极客天成的NVFile并行存储技术通过高速InfiniBand网络与分布式架构的深度协同,结合极客追光全闪一体机AI800 的领先性能,为DeepSeek R1 提供了从公有云训练到私有化部署的全场景支持。其国产化适配能力与安全合规设计,帮助企业客户在享受大模型技术红利的同时,筑牢数据主权防线,为AI技术的安全落地提供了关键基础设施保障。

(来源:点财网)