搜索历史清空

英伟达发布Rubin CPX芯片,算力效率惊人

瑞财经 2025-09-10 01:32 1.4w阅读

Ai快讯 2025年9月9日周二,全球人工智能算力芯片龙头英伟达宣布推出专为长上下文工作负载设计的专用GPU Rubin CPX,旨在翻倍提升当前AI推理运算的工作效率,尤其适用于编程、视频生成等需要超长上下文窗口的应用。

英伟达CEO黄仁勋介绍,CPX是首款专为需要一次性处理大量知识(数百万级别tokens)并进行人工智能推理的模型而构建的芯片。由于Rubin是英伟达将于明年发售的下一代顶级算力芯片,基于Rubin的CPX预计要到2026年底出货。下一代英伟达旗舰AI服务器全称为NVIDIA Vera Rubin NVL144 CPX,集成36个Vera CPU、144块Rubin GPU和144块Rubin CPX GPU。

下一代旗舰机架将提供8exaFLOPs的NVFP4算力,比GB300 NVL72高出7.5倍,同时单个机架就能提供100TB的高速内存和1.7PB/s的内存带宽。英伟达在Rubin GPU边上再配一块Rubin CPX GPU,目的是显著提升数据中心的算力效率,让用户购买芯片能获取更多收益。英伟达称,部署价值1亿美元的新芯片,将能为客户带来50亿美元的收入。

作为行业首创,英伟达的新品在硬件层面上分拆了人工智能推理的计算负载。推理过程包含上下文阶段与生成阶段,这两个阶段对基础设施的要求截然不同。上下文阶段属于计算受限,需要高吞吐量的处理能力来摄取并分析大量输入数据以生成首个输出token;生成阶段则属于内存带宽受限,依赖高速的内存传输和高带宽互联(如NVLink)来维持逐个token的输出性能。

当前顶级的GPU是为内存和网络限制的生成阶段设计,配备昂贵的HBM内存,但在解码阶段并不需要这些内存。通过分离式处理这两个阶段并针对性优化计算与内存资源,可显著提升算力的利用率。

Rubin CPX专门针对“数百万tokens”级别的长上下文性能进行优化,具备30petaFLOPs的NVFP4算力、128GB GDDR7内存。英伟达估计,约20%的AI应用会等待首个token出现,如解码10万行代码可能需5 - 10分钟,多帧、多秒视频的预处理和逐帧嵌入会增加延迟,这也是当前视频大模型通常仅用于制作短片的原因。

英伟达计划以两种形式提供Rubin CPX,一种是与Vera Rubin装在同一个托盘上,对于已下单NVL144的用户,也会单独出售一整个机架的CPX芯片,数量与Rubin机架匹配。

(AI撰文,仅供参考)

重要提示: 以上内容由AI根据公开数据自动生成,仅供参考、交流、学习,不构成投资建议。如不希望您的内容在本站出现,可发邮件到ruicaijing@rccaijing.com要求撤下。未经允许,任何单位或个人不得在任何平台公开传播使用本文内容。

相关文章

24小时热门文章

最新文章