媒老板 - 营销学院 - 极客天成NVFile原生加速KV Cache:引爆DeepSeek推理新速度,显著缩短TTFT,告别漫长等待

极客天成NVFile原生加速KV Cache:引爆DeepSeek推理新速度,显著缩短TTFT,告别漫长等待

2025-04-23 18:11:01

  随着大语言模型(LLM)在各行业应用的深化,推理效率与成本优化成为核心议题。KVCache 技术作为以存换算策略的关键实践,通过缓存中间计算结果显著提升了自回归生成的效率,但其随上下文长度和并发数急剧膨胀的内存占用,迅速触及GPU高带宽内存(HBM)的物理容量上限,形成推理系统的“内存墙”。将KVCache交换至主机内存是常见缓解手段,但受限于PCIe带宽及内存拷贝延迟,严重拖累了性能,尤其是在对交互体验至关重要的首次令牌生成时间(Time-To-First-Token,TTFT)指标上表现不佳。极客天成NVFile并行文件存储系统,以其革命性的无缓存直通架构与全栈并行化设计,为LLM推理构建了一个全新的异构缓存高速层级,实测表明,该方案能在维持低延迟的同时支持10倍以上的并发用户数,为LLM推理性能优化开辟了存储加速的新路径。

  01

  异构缓存体系中的TTFT挑战与NVFile定位

  现代LLM推理系统运行于一个多层级的异构缓存体系中,数据在不同速度、容量的介质间流动:极速但昂贵的GPUHBM、速度适中但容量有限的主机内存,以及大容量但通常较慢的外部存储。KVCache的规模使得完全依赖HBM变得不切实际。业界探索均指向利用外部存储扩展缓存容量的“以存换算”思路。

  然而此路径的成败高度依赖外部存储的访问延迟。传统文件系统或对象存储因其复杂的内核栈、缓存机制和协议开销,访问延迟往往在毫秒级,直接导致TTFT过长,严重影响用户体验,尤其在需要加载大量初始上下文生成第一个响应令牌时。即使是主机内存交换方案,其延迟也足以成为瓶颈。

  NVFile并非简单替换传统存储,而是HBM和主机内存之外,定义了一个性能接近内存、容量远超内存的高速缓存层。其核心价值在于通过架构创新,将基于NVMeSSD的存储集群的访问延迟推向微秒级,直接解决了传统方案在TTFT上的短板。

  直击TTFT痛点:NVFile的无缓存直通设计,消除了操作系统PageCache、文件系统日志、多次内存拷贝等传统IO路径上的主要延迟源。数据得以在NVMeSSD与GPUHBM间以接近线速传输,极大地缩短了加载初始上下文对应KVCache所需的时间,这是优化TTFT的关键所在

  02

  内核态直通:实现微秒级KVCache加载,优化TTFT

  NVFile的核心技术突破在于其内核态零拷贝协议栈RDMA(远程直接内存访问)技术

  深度融合

  

  •   数据路径革命:当推理引擎(如vLLM)需要访问存储于NVFile上的KVCache数据时,请求通过NVFile优化的POSIX接口或专用API,被直接映射为RDMA操作。数据流从NVMeSSD颗粒出发,经由NVMe-oF协议封装,通过高速InfiniBand网络适配器,完全绕过主机CPU的处理和主机内存的缓冲/拷贝环节,直接以DMA方式写入目标GPU的HBM显存。

  •   微秒级延迟:相比传统存储的毫秒级延迟和主机内存交换的数十毫秒级延迟,NVFile将外部KVCache的访问延迟稳定控制在5-10微秒范围。这种数量级的延迟缩减,使得加载生成第一个令牌所需的大量上下文KVCache的时间显著减少NVFile内部测试显示,在长上下文场景,使用其KVCache方案可带来高达15倍的TTFT性能提升,NVFile的极致低延迟设计旨在实现同等甚至更优的效果。

  03

  全栈并行化:保障高并发下TTFT的稳定性与吞吐量

  LLM推理服务通常面临高并发请求,每个请求都需要独立、快速地访问其KVCache。这对存储系统的并发处理能力、聚合带宽和延迟稳定性提出了严峻考验。NVFile的全栈并行架构确保了系统在高负载下依然能维持低TTFT和高吞吐:

  •   网络层并行扩展:利用InfiniBand的Multi-Rail特性和NVFile智能流量调度,单个GPU节点可与NVFile集群建立数百条并发、低延迟的RDMA数据通道,聚合带宽轻松达到TB/s级别。这确保了即使在大量并发请求涌入时,每个请求的KVCache数据通路也能获得充足带宽,避免网络拥塞导致的TTFT劣化。

  •   数据层并行访问:NVFile的三维条带化技术将海量KVCache数据块智能、均匀地分布在集群内所有NVMeSSD上。当大量并发请求访问不同KVCache片段时,IO压力被有效分散至所有存储节点和SSD,避免了单点性能瓶颈。这使得系统能够同时服务大量用户,且每个用户的TTFT都能得到保障。

  •   元数据高性能处理:NVFile的高性能元数据服务(实测超200万QPS)能够快速定位并处理海量KVCache片段的查找、创建和更新请求,确保在高并发场景下,元数据操作不会成为影响TTFT的瓶颈。

  04

  可量化的性能优势:NVFile驱动LLM推理效率飞跃

  NVFile集成到LLM推理的异构缓存体系中,作为高速KVCache扩展层,带来了显著且可量化的性能收益,NVFile内部测试表明:

  •   TTFT显著降低,用户体验优化:在长上下文或需要加载大量历史信息的场景,NVFile的微秒级访问延迟可将TTFT从数百毫秒压缩至数十毫秒,即使在并发数为40的情况下,NVFile类优化方案也能将不同上下文长度下的TTFT延迟缩小5倍以上。这对于交互式AI应用至关重要。

  •   并发能力大幅提升:在设定严格的TTFT目标(如用户可接受的2秒内)下,NVFile的高效KVCache访问能力使得相同GPU资源能够支撑更多并发用户。在相同TTFT约束下,集成NVFile可望将系统支持的并发推理请求数提升10倍,极大提高了硬件资源的利用率和服务的吞吐能力。

  •   以存换算的经济效益:NVFile提供的PB级、高性能、低延迟的存储扩展池,使得缓存更长历史、更大规模的KVCache成为可能。通过高效复用这些缓存,显著减少了重复计算,降低了单次推理的实际算力消耗,尤其在长序列、个性化推理任务中实现了成本效益的优化。

  05

  结论:NVFile重塑LLM推理基础设施

  极客天成NVFile与KVCache的深度融合实践,清晰地展示了高性能并行存储在LLM推理时代的核心价值。它不再仅仅是数据的容器,而是异构缓存体系中不可或缺的高速层级,是主动参与并加速推理过程的关键引擎。

  NVFile通过将外部存储的访问延迟推向接近内存的水平,并结合强大的并行处理能力,NVFile有效打破了“内存墙”对LLM推理性能,尤其是TTFT和并发能力的制约。这种以NVFile为代表的高速并行存储即扩展显存的新范式,正为构建更高效、更经济、响应更迅速的下一代LLM推理基础设施铺平道路,驱动AI在更广泛的场景中实现价值落地。

  (来源:点财网)

责任编辑:何奎良

最新文章
相关文章
服务项目