NVIDIA 推出 Moonshot AI 的 Kimi K2.5 模型 GPU 加速端点

Jessie A Ellis 2026年2月4日 20:11

NVIDIA 现在为开发者提供免费的 GPU 加速 API 访问 Kimi K2.5，这是一个拥有 1T 参数、384 个专家和 262K 上下文长度的多模态 AI 模型。

NVIDIA 推出 Moonshot AI 的 Kimi K2.5 模型 GPU 加速端点

NVIDIA 已为 Moonshot AI 的 Kimi K2.5 推出 GPU 加速端点，为开发者提供免费 API 访问目前最强大的开源多模态模型之一。该集成于 2026 年 2 月 4 日宣布，通过 NVIDIA 的 build.nvidia.com 平台定位这个 1 万亿参数模型以供企业快速采用。

Kimi K2.5 具备对生产部署至关重要的强大技术规格。该模型采用混合专家架构，拥有 384 个专家，每个令牌仅激活 328.6 亿个参数——3.2% 的激活率使推理成本保持可控，尽管参数数量庞大。上下文长度延伸至 262,000 个令牌，处理大量文档分析和扩展对话。

视觉能力值得关注。Moonshot 构建了自定义的 MoonViT3d Vision Tower，将图像和视频帧处理成嵌入向量，由包含 164,000 个令牌的词汇表支持，其中包含特定于视觉的令牌。这不是附加的多模态——它是架构的原生功能。

开发者获得的功能

通过 NVIDIA 开发者计划的免费原型访问意味着团队可以在投入基础设施之前针对生产工作负载进行测试。该 API 遵循与 OpenAI 兼容的模式，包括对代理工作流的工具调用支持。用于容器化生产推理的 NVIDIA NIM 微服务即将推出，但未提供具体时间表。

对于自托管部署，vLLM 集成现已准备就绪。NVIDIA 还确认通过开源 NeMo 框架支持微调，使用 NeMo AutoModel 直接从 Hugging Face 检查点自定义模型，无需转换步骤。

市场背景

Moonshot AI 于 2026 年 1 月 27 日发布了 Kimi K2.5，在早期 K2 基础上使用约 15 万亿个混合视觉和文本令牌进行训练。该模型已与 Google 的 Gemini 3 Pro 进行直接比较，发布了具有竞争力的基准测试，包括在 MMMU-Pro 视觉理解测试中获得 78.5% 的分数，在 SWE-Bench Verified 编码任务中获得 76.8% 的分数。

一个差异化特性："代理群"机制，协调多达 100 个并行子代理，据报道与单代理方法相比，执行时间缩短了 4.5 倍。对于构建复杂自主系统的企业来说，这是一个有意义的能力差距。

NVIDIA 的 Blackwell 架构支持表明该公司将 Kimi K2.5 视为企业 AI 部署中的有力竞争者。开发者可以通过 build.nvidia.com 或直接从 Moonshot 的 Kimi API 平台立即访问该模型。

图片来源：Shutterstock