Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
物理 AI
利用基础世界模型,加速物理 AI 开发。
概述
NVIDIA Cosmos™ 是一个整合前沿生成式世界基础模型 (WFM)、先进分词器、护栏以及用于加速数据处理和治理的高效工作流的集成平台,旨在加速物理 AI 系统的开发,如自动驾驶汽车 (AVs) 和机器人。
经数百万小时的驾驶和机器人视频数据训练的先进模型,可用于普及物理 AI 开发,并以开放模型许可形式提供。
全新 NVIDIA Cosmos 平台加速了机器人和自动驾驶汽车等物理 AI 具身系统的开发。
优势
Cosmos 为开发者提供开放、轻松访问的高性能基础世界模型和数据工作流,使任何开发者都可以进行物理 AI 开发。
经过 9,000 万亿 token 训练的第一代视频模型系列,包括 2,000 万小时的机器人和驾驶数据——支持基于图像、文本或视频等多模态输入生成高质量视频。
Cosmos WFM 和分词器均采用 NVIDIA 开放模型许可协议,使全球开发者在无需高入门成本的情况下大规模构建物理 AI 系统。
利用 NVIDIA NeMo Curator 工作流,配备 CUDA™-X 和 NVIDIA AI 加速工具,轻松处理超过 100 PB 的数据,将数据治理速度提升 20 倍。它提供即时的优化功能,最大限度地降低总拥有成本(TCO),并加快产品上市时间。
Cosmos 分词器可将可视数据转换为高保真 token,并提供 8 倍的压缩和 12 倍的处理速度提升。
NVIDIA NeMo™ 提供加速训练和调优功能,为物理 AI 构建多模态生成式 AI 模型。
模型
专为生成物理 AI 开发所需的物理感知视频和世界状态而构建的预训练模型系列。
点击此处了解有关模型架构、开发资源和可用性的详情。
NVIDIA 正在与机器人和自动驾驶汽车生态系统合作开发一套基准,旨在评估基于基础世界模型的物理 AI 应用的独特需求。
Cosmos 基准测试旨在评估下一代世界模型,其先进标准包括 3D 一致性和物理对齐等对机器人和自主系统至关重要的功能。
与视频合成的基线生成模型 VideoLDM (VLDM) 相比,Cosmos WFM 在几何精度方面表现出色,Sampson 误差更低,时间稳定性更好。 基准测试还基于重力和碰撞动力学等物理行为评估 WFM。
Cosmos WFM 在视觉一致性方面始终优于 VLDM,实现了高达 14 倍的姿态估计成功率。 扩散模型提供更高的保真度,而自回归模型则为定制模型提供出色的性能。
了解机器人、自动驾驶汽车和视觉 AI 的开发者如何使用 Cosmos 来推进他们的工作。
Cosmos 帮助开发者为他们的 AI 模型训练构建定制数据集。 无论是为自动驾驶汽车准备的雪地道路视频,还是为机器人设计的繁忙仓库场景,Cosmos 通过理解空间和时间布局,简化了视频打标和搜索过程,使训练数据准备更轻松。
这节省了时间,降低了成本,并有助于提供高度相关且有影响力的 AI 模型。
开发者可利用他们的 3D 仿真数据来生成高度逼真的合成视频。 通过使用 Omniverse,他们可以创建反映其模型训练需求的 3D 环境。 接下来,他们可以生成由 3D 场景精确控制的逼真视频,用于高度定制的合成数据集。
Cosmos 基础世界模型经过针对动作条件视频预测调优,支持可扩展和可复现的策略模型训练与评估。策略模型定义了物理 AI 系统的策略,将状态映射为动作。 开发者使用这些模型来减少对具有高风险的真实世界测试或复杂模拟的依赖,例如障碍物导航和物体操纵,优化性能并确保机器人和自动驾驶汽车等真实世界应用的可靠性。
Cosmos 为物理 AI 带来了先进的预测智能,使系统能够预测未来的情境并做出更明智的决策。 通过预见能力生成——基于历史数据和文本提示生成预测视频——Cosmos 使物理 AI 能够选择最佳行动,在动态环境中提高效率、适应性和安全性。
使用 NVIDIA Omniverse,开发者可以模拟多个 Cosmos 结果,以评估实时场景,加速决策制定并优化机器人和自动驾驶汽车等 AI 驱动系统。 Cosmos 结合 Omniverse,使物理 AI 模型能够探索所有可能的未来结果,在复杂环境中选择最佳路径来提高精度和可靠性。
来自机器人、自动驾驶汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 来加速物理 AI 的开发。
使用 NVIDIA API 目录下基础世界模型试驾,或使用 NVIDIA Cosmos 开始构建世界模型。
NVIDIA NeMo 提供端到端工作流,用于在任何平台上管理、标记和调优世界模型。
加速数据处理和管护工作流,由 NVIDIA NeMo Curator 提供支持,并针对 NVIDIA 数据中心 GPU 进行了优化。
物理 AI 开发者现可使用 NGC 目录和 Hugging Face 上的 Cosmos 基础世界模型。Cosmos 还提供端到端工作流,利用 NVIDIA NeMo 调优基础模型。开发者可通过 GitHub 和 Hugging Face(指定路径 /NVIDIA/cosmos-tokenizer)使用 Cosmos 分词器。
Cosmos 基础世界模型遵循 NVIDIA 开放模型许可协议,对所有人开放。
可以,Cosmos 支持用 NeMo 进行调优。 您可以使用 LoRA 和 RLHF(从人类反馈中强化学习)等流行技术来有效地训练和调优模型。 您也可以选择 PyTorch 继续使用您自己的数据集来训练 WFM。
可以,您可以利用 Cosmos 从零开始构建您偏好的基础模型或模型架构。您可以使用 NeMo Curator 进行视频数据预处理。然后使用 Cosmos 分词器压缩和解码数据,处理数据后,您可以使用 NVIDIA NeMo 训练或调优模型。
使用 NIM 微服务,您可以轻松地将物理 AI 模型集成到云、数据中心和工作站的应用中。
您还可以使用 NVIDIA DGX Cloud 训练 AI 模型,并在任何地方开展大规模部署。
Cosmos 和 Cosmos Nemotron 都是 NVIDIA 模型系列,旨在处理和解释物理世界中的视觉效果。
Cosmos 模型是专注于预测和生成物理感知视频的基础世界模型,帮助模拟和理解虚拟环境的未来状态。 相比之下,Cosmos Nemotron 模型属于视觉语言模型,专门用于对图像和视频进行查询与总结,使 AI 能够解读物理世界及虚拟世界中的视觉数据并做出回应。
总而言之,这二者相互补充,以视觉理解为基础,实现先进的 AI 功能。