物理 AI

NVIDIA Cosmos

利用基础世界模型，加速物理 AI 开发。

开始探索上手开发

入门指南

概述

NVIDIA Cosmos 是什么？

NVIDIA Cosmos™ 是一个整合前沿生成式世界基础模型 (WFM)、先进分词器、护栏以及用于加速数据处理和治理的高效工作流的集成平台，旨在加速物理 AI 系统的开发，如自动驾驶汽车 (AVs) 和机器人。

NVIDIA 面向物理 AI 开发者社区开放 Cosmos 世界基础模型

经数百万小时的驾驶和机器人视频数据训练的先进模型，可用于普及物理 AI 开发，并以开放模型许可形式提供。

阅读博客

加速物理 AI 开发的基础世界模型平台

全新 NVIDIA Cosmos 平台加速了机器人和自动驾驶汽车等物理 AI 具身系统的开发。

阅读新闻稿

优势

利用基础世界模型加速物理 AI 开发

Cosmos 为开发者提供开放、轻松访问的高性能基础世界模型和数据工作流，使任何开发者都可以进行物理 AI 开发。

物理感知

经过 9,000 万亿 token 训练的第一代视频模型系列，包括 2,000 万小时的机器人和驾驶数据——支持基于图像、文本或视频等多模态输入生成高质量视频。

开放性

Cosmos WFM 和分词器均采用 NVIDIA 开放模型许可协议，使全球开发者在无需高入门成本的情况下大规模构建物理 AI 系统。

加速数据处理和治理

利用 NVIDIA NeMo Curator 工作流，配备 CUDA™-X 和 NVIDIA AI 加速工具，轻松处理超过 100 PB 的数据，将数据治理速度提升 20 倍。它提供即时的优化功能，最大限度地降低总拥有成本（TCO），并加快产品上市时间。

开发定制模型

Cosmos 分词器可将可视数据转换为高保真 token，并提供 8 倍的压缩和 12 倍的处理速度提升。

NVIDIA NeMo™ 提供加速训练和调优功能，为物理 AI 构建多模态生成式 AI 模型。

模型

NVIDIA Cosmos 基础世界模型

专为生成物理 AI 开发所需的物理感知视频和世界状态而构建的预训练模型系列。

点击此处了解有关模型架构、开发资源和可用性的详情。

先进模型系列

用于 Text-to-World 和 Video-to-World 生成的自回归和扩散模型，参数量级达 40 亿至 140 亿，轻松满足各种需求。
120 亿参数的上采样模型用于精确文本提示，提供更高的准确性和生成输出细节。
70 亿参数模型专为解码视频序列而设计，针对增强现实应用进行了优化。

内置护栏

前护栏，用于过滤品牌信息、不适宜内容以及有害提示。
后护栏，用于剔除存在问题的场景。
模糊人脸护栏。
通过 NVIDIA API 目录上的 Preview API 生成的合成视频上的数字水印。

基准测试

物理 AI 性能之旅

NVIDIA 正在与机器人和自动驾驶汽车生态系统合作开发一套基准，旨在评估基于基础世界模型的物理 AI 应用的独特需求。

Cosmos 基准测试旨在评估下一代世界模型，其先进标准包括 3D 一致性和物理对齐等对机器人和自主系统至关重要的功能。

与视频合成的基线生成模型 VideoLDM (VLDM) 相比，Cosmos WFM 在几何精度方面表现出色，Sampson 误差更低，时间稳定性更好。基准测试还基于重力和碰撞动力学等物理行为评估 WFM。

Cosmos WFM 在视觉一致性方面始终优于 VLDM，实现了高达 14 倍的姿态估计成功率。扩散模型提供更高的保真度，而自回归模型则为定制模型提供出色的性能。

应用场景

开发者如何使用 NVIDIA Cosmos

了解机器人、自动驾驶汽车和视觉 AI 的开发者如何使用 Cosmos 来推进他们的工作。

视频搜索
可控的 3D 转现实
策略模型
预见能力
多元宇宙仿真

视频搜索

Cosmos 帮助开发者为他们的 AI 模型训练构建定制数据集。无论是为自动驾驶汽车准备的雪地道路视频，还是为机器人设计的繁忙仓库场景，Cosmos 通过理解空间和时间布局，简化了视频打标和搜索过程，使训练数据准备更轻松。

这节省了时间，降低了成本，并有助于提供高度相关且有影响力的 AI 模型。

开始使用合成数据生成

可控的 3D 转现实合成数据

开发者可利用他们的 3D 仿真数据来生成高度逼真的合成视频。通过使用 Omniverse，他们可以创建反映其模型训练需求的 3D 环境。接下来，他们可以生成由 3D 场景精确控制的逼真视频，用于高度定制的合成数据集。

了解更多关于 NVIDIA Omniverse 的信息

策略模型训练与评估

Cosmos 基础世界模型经过针对动作条件视频预测调优，支持可扩展和可复现的策略模型训练与评估。策略模型定义了物理 AI 系统的策略，将状态映射为动作。开发者使用这些模型来减少对具有高风险的真实世界测试或复杂模拟的依赖，例如障碍物导航和物体操纵，优化性能并确保机器人和自动驾驶汽车等真实世界应用的可靠性。

开始策略模型训练与评估

预见能力

Cosmos 为物理 AI 带来了先进的预测智能，使系统能够预测未来的情境并做出更明智的决策。通过预见能力生成——基于历史数据和文本提示生成预测视频——Cosmos 使物理 AI 能够选择最佳行动，在动态环境中提高效率、适应性和安全性。

开始使用预见能力

多元宇宙仿真

使用 NVIDIA Omniverse，开发者可以模拟多个 Cosmos 结果，以评估实时场景，加速决策制定并优化机器人和自动驾驶汽车等 AI 驱动系统。 Cosmos 结合 Omniverse，使物理 AI 模型能够探索所有可能的未来结果，在复杂环境中选择最佳路径来提高精度和可靠性。

开始使用多元宇宙仿真

生态系统

已被领先的物理 AI 创新者接受

来自机器人、自动驾驶汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 来加速物理 AI 的开发。

后续步骤

准备好开始了吗？

使用 NVIDIA API 目录下基础世界模型试驾，或使用 NVIDIA Cosmos 开始构建世界模型。

开始探索上手开发

构建您的定制模型

NVIDIA NeMo 提供端到端工作流，用于在任何平台上管理、标记和调优世界模型。

了解详情

开始为世界模型管护视频数据

加速数据处理和管护工作流，由 NVIDIA NeMo Curator 提供支持，并针对 NVIDIA 数据中心 GPU 进行了优化。

申请参与抢先体验

常见问题解答

物理 AI 开发者现可使用 NGC 目录和 Hugging Face 上的 Cosmos 基础世界模型。Cosmos 还提供端到端工作流，利用 NVIDIA NeMo 调优基础模型。开发者可通过 GitHub 和 Hugging Face（指定路径 /NVIDIA/cosmos-tokenizer）使用 Cosmos 分词器。

Cosmos 基础世界模型遵循 NVIDIA 开放模型许可协议，对所有人开放。

可以，Cosmos 支持用 NeMo 进行调优。您可以使用 LoRA 和 RLHF（从人类反馈中强化学习）等流行技术来有效地训练和调优模型。您也可以选择 PyTorch 继续使用您自己的数据集来训练 WFM。

可以，您可以利用 Cosmos 从零开始构建您偏好的基础模型或模型架构。您可以使用 NeMo Curator 进行视频数据预处理。然后使用 Cosmos 分词器压缩和解码数据，处理数据后，您可以使用 NVIDIA NeMo 训练或调优模型。

使用 NIM 微服务，您可以轻松地将物理 AI 模型集成到云、数据中心和工作站的应用中。

您还可以使用 NVIDIA DGX Cloud 训练 AI 模型，并在任何地方开展大规模部署。

Cosmos 和 Cosmos Nemotron 都是 NVIDIA 模型系列，旨在处理和解释物理世界中的视觉效果。

Cosmos 模型是专注于预测和生成物理感知视频的基础世界模型，帮助模拟和理解虚拟环境的未来状态。相比之下，Cosmos Nemotron 模型属于视觉语言模型，专门用于对图像和视频进行查询与总结，使 AI 能够解读物理世界及虚拟世界中的视觉数据并做出回应。

总而言之，这二者相互补充，以视觉理解为基础，实现先进的 AI 功能。