+
2025年10个顶级GPU云平台:Serverless+RL开启AI普惠时代
赞 0浏览 274评论 0收藏 0

近期,“AI新云”(NeoCloud)概念在科技圈和投资圈引发热潮。

今年3月,被业内称作“英伟达亲儿子”的AI基础设施企业CoreWeave上市。这家依托英伟达GPU资源冲击新云市场的初创公司,上市不到3个月市值飙升359%,达881亿美元。

CoreWeave的“身价暴涨”吸引了无数视线。对此,不少业内人士指出,大模型的训练和推理应用都异常烧钱,高昂成本已是大模型规模化应用的关键挑战之一。在此背景下,被称为AI新云的GPU专用云服务平台迅速崛起。相较通用云服务,此类平台更能精准解决AI真实场景落地的痛点。

2025年上半年的的产业图景印证了这一趋势。主流云平台拥抱“无服务器架构(Serverless)+强化学习(RL)”的技术栈,不仅解决了传统算力成本高企的行业痛点,更推动多模态创作、机器人训练等场景效率实现指数级提升。

毫无疑问,这场由底层计算框架驱动的智能进化,为智能体边界的拓展按下了快进键。全球GPU云市场正在酝酿新的产业造富故事。

Serverless+RL,智算云按下AI应用“快进键”

今年,“DeepSeek时刻”震惊全球,大模型厂商纷纷加速模型迭代,智能体大规模部署应用的元年开启。而在全球智能体掘金热潮中,提供底层算力的AI新云悄然成为最重要的“卖水人”。

自2013年起便深耕中国人工智能基础设施领域,有着丰富行业经验的九章云极董事长方磊指出,“从移动互联网‘带宽式应用’到AI时代‘计算密集型应用’的结构性变革,亟需新型云架构支撑。”

海外市场,以CoreWeave为代表,包括Crusoe、Lambda Labs等AI基础设施服务商正加速扩张。而国内同样参与者众多,比如2025年第二季度,阿里云、九章云极等企业先后发布新一代AI基础设施服务,如阿里云的FlashMoE和九章云极基于Serverless+RL架构的九章智算云Alaya NeW Cloud。

AI基础设施厂商快速发展的背后,是企业正在加速部署AI规模化应用。有机构认为,AI常因高昂的算力成本和复杂的部署被视为“极客的游戏”,而非企业的“生产工具”,但随着GPU云的快速普及,让AI快速成为企业的一个“新生产力”。

聚焦AI云计算和基础设施建设的厂商开始探索各种新技术路线,解决AI应用落地的痛点。

在此背景下,“Serverless+RL”技术组合逐渐脱颖而出。这两项技术并非全新概念,但它们的深度融合正悄然改写智能应用的开发逻辑,并重塑AI产业的成本结构与创新效率。

Serverless的核心价值在于“按需使用、按量付费”。企业无需预置服务器,只需关注业务逻辑,云服务商会自动完成资源分配。而强化学习(RL)则是一种通过“试错-反馈”机制优化决策的算法,推动智能体能力从“对话问答”(听话)向“任务执行”(聪明)跃迁。

强化学习的核心价值在于,让AI从人类反馈中学习。这样做的好处是,不仅可以调优推理行为,还实质性的增强模型的推理能力,让模型听话,也可以让模型更聪明。

这意味着企业能以更低的成本、更快的速度迭代智能应用,加速AI技术的落地,引发从“参数竞赛”到“场景落地”的产业转向。因此,Serverless+RL的融合不仅是技术层面的进步,更是AI产业商业化的加速器。

从“技术炫技”到“商业落地”,也必然带来新一轮产业发展的红利,全球GPU云厂商正站在关键拐点。在这场变革中,谁能率先掌握技术融合的红利,谁就能在未来的竞争中占据先机。

智能时代加速演进,三大趋势揭示技术红利

1750731704904786.jpg

2025年上半年,技术降本和创新效率成为人工智能、机器人产业发展的关键词,也正因此,Serverless与RL两大技术路线的组合受到了业界广泛的关注,有望成为推动智能体商业化爆发的重要技术路线。我们从GPU云厂商、大模型公司和机器人等多个领域观察到这一趋势。

关键趋势一:GPU云厂商加速技术降本和AI开发服务升级

1、九章云极:发布九章智算云Alaya NeW Cloud 2.0,开创中国Serverless+RL技术路线。

6月16日,作为国家算力互联网试验网建设的重要成员,AI独角兽九章云极DataCanvas发布了新一代全栈智能计算云平台——九章智算云Alaya NeW Cloud 2.0,并同步启动全球首个强化学习智算服务,为中国近百万的AI应用开发者和科研机构提供普惠性智算云服务。

该平台深度融合Serverless架构与强化学习技术,实现子算成本革新:独创“1度算力”按实际消耗计费模型,显著降低使用门槛。实测显示,其多模态训练推理成本仅为行业均值40%,多场景拍摄效率提升35%,虚拟场景制作耗时从2小时减少至20分钟,动画电影制作成本降低60%。

相比海外以CoreWeave为代表的资源型企业,九章云极展现出中国厂商更关注技术“用处”的不同思路。九章智算云Alaya NeW Cloud 2.0集成了丰富的AI开发框架和工具,如TensorFlow、PyTorch等,支持多种编程语言,方便开发者快速构建和训练AI模型。

与海外平台围绕资源布局不同,九章云极增加AI技术权重,围绕智能计算中心算力调度这一国际顶尖能力,连续突破AIDC智能体的技术门槛,形成算力调度智能技术专利护城河——本季内,九章云极先后发布了“智能体调试智能体方法”、“大模型函数调用优化方法“、”生成多智能体协作系统方法“、”智能体开发工具函数方法“等多个专利,发布“国内首个智算调度Agent“。

2、CoreWeave:成为ClusterMAX™评级体系铂金级GPU云服务商

CoreWeave整体用户体验和性能表现优秀,已达到ClusterMAX™评级体系的铂金标准。CoreWeave技术路线深度绑定NVIDIA生态,在AI训练领域具备先发优势,是AI算力基础设施领域的专业化服务商代表之一。

3、Lambda Labs:完成D轮融资,成本与客户体验是GPU云平台关键方向

Lambda labs,宣布成功完成了4.8亿美元的D轮融资,使其总股本达到了8.63亿美元。据悉,此次融资由Andra Capital和SGW共同主导,NVIDIA、ARK Invest等投资者参与其中。

据Lambda Labs联合创始人兼首席执行官,Stephen Balaban自述,因为AWS 的GPU 云实例极其昂贵,Lambda Labs决定自己组建GPU 服务器集群,然后为客户提供更具性价比的解决方案。

此外,Lambda正在积极开发托管Slurm服务,这将大幅提升客户体验。

4、Google Cloud:Next 25大会上发表多项AI创新,成本性能双突破

Google Cloud 通过提供搭载 NVIDIA B200 和 GB200 GPU 的 A4 和 A4X 虚拟机,为客户提供更多 AI 硬件选择。Google 也将成为首家提供 NVIDIA 新一代 Vera Rubin GPU 的云提供商。

Cloud Wide Area Network(Cloud WAN)针对应用程序性能进行优化,可提供超过40%的性能提升,同时降低高达40%的总体持有成本。

趋势一小结:无疑,成本和开发者体验成为云GPU厂商竞争的两大价值锚点,而Serverless+RL的优势凸显,有望成为AI新云发展的核心技术驱动力。

关键趋势二:大模型部署与推理应用聚焦成本

1、聚焦云上部署Deepseek,国内云厂商大幅降低部署成本。

DeepSeek-R1的问世让低成本的模型训练变得可行。方磊就此提出,能否为数千万开发者提供普惠算力服务,将成为决定AI云企业竞争力的重要考核维度。

然而,以DeepSeek-R1大模型来看,权重显存达700GB,需16张96GB显存GPU多机部署,依然面临高昂硬件成本与跨机传输效率挑战,云端部署方案破解瓶颈势在必行。

近期,国内科技巨头纷纷针对DeepSeek云上部署作出优化。比如,阿里云支持一键部署DeepSeek系列模型,提供弹性算力与自定义环境,按需付费模式大幅降低硬件投入;九章智算云结合Serverless与强化学习(RL)技术复现DeepSeek- R全参数微调,在 AIME 2024 基准上取得了81.70%准确率(采样),超越了DeepSeek-R1满血版,部署成本降至40%。

这些信息说明。AI普惠的进程在GPU云厂商推动下正在持续加速。

2、OpenAI:模型加速迭代,成本持续优化。

再看大模型厂商,同样在迭代大模型能力的同时,持续改进降本。比如,近期OpenAI新上线的o3-pro不仅有更强的能力,可以访问一系列工具,包括网页浏览、文件分析、视觉推理、基于内存的个性化响应等,更有更低的花费,输入的价格为20美元100万tokens,输出则是80美元100万tokens,较这一模型所取代的o1-pro降低了87%。100万tokens相当于75万个单词。

趋势二小结:随着模型使用成本持续优化,AI Agent将爆发式发展,带来更多算力需求,GPU云厂商将从中受益。

关键趋势三:Serverless+强化学习成机器人产业“关键技术”

1、宇树科技:强化学习代码全面开源。

宇树科技开源培训训练了其机器人训练的所有源代码包括了强化学习(RL)代码、从模拟到模拟(Sim-to-Sim)和从模拟到现实(Sim-to-Real)的源代码。该项目可以帮助开发者或研究人员在虚拟环境中模拟和机器人,然后把结果转移到机器人上。既降低试错成本,又保障训练安全。

2、特斯拉擎天柱:完全通过强化学习(RL)在模拟环境中训练。

特斯拉公布了机器人擎天柱的训练方式:用强化学习(RL)+模拟器来机器人的方法,让擎天柱看互联网上的视频,学动作,然后在模拟器里,用强化学习提升可靠性。擎天柱的发展已经进入快车道,未来的进步速度很可能会非常吓人。

总结:强化学习(RL)已深度融入生成式AI的对齐优化与机器人自主进化流程,而Serverless架构则通过重塑资源供给模式,为智能体提供弹性算力基座。未来,Serverless+RL有望成为驱动智能体规模化落地的核心技术路线。

结语

Serverless与强化学习(RL)的技术组合正在让AI开发从“参数竞赛”变成“场景落地”,新的投资机会正在涌现。

历史经验表明,最具商业价值的企业,往往通过重塑客户成本结构实现爆发式增长。

不像想象,GPU云平台在新的技术路线加持下,将激发指数级增长的智能场景需求,成为智能体时代的超级潜力股。

来源:美股研究社

本文由作者原创发布于TopMarketing,内容为作者独立观点, 不代表TopMarketing立场。如有转载需求,请联系作者本人。
创作不易,点个赞鼓励作者吧~
收藏 0
0
评论请文明发言,异常行为可能被禁言
2000
全部评论0
一键投稿
营销日历
2025 6
认领材料
*可补充证明材料,比如发布后台截图、名片、认证截图等
*如无其他证明,请点击请点击《认领声明》
+