NVIDIAはカスタマーサポート、不正検知、製品サプライチェーンの最適化などのAIエージェントによるワークフローに特に重点を置いたLlama Nemotron大規模言語モデル(LLM)およびCosmos Nemotronビジョン言語モデル(VLM)を発表した。Nemotronファミリーのモデルは多様なシステム要件に適合しやすくするため、Nano、Super、Ultraの3つのサイズで提供される。
NVIDIAによるとAIエージェントは生成AI進化の新たなフロンティアであり、複雑なタスクを自律的に遂行できるシステムの創造を目指している。そのためにはLLMが示すような言語能力と、環境を認識し相互作用する能力を組み合わせる必要がある。
効果を発揮するには、多くのAIエージェントに言語スキルと、世界を認識して適切なアクションを返す能力の両方が必要となります。
これは、NemotronモデルファミリーがMetaのLLaMAモデルから派生したモデルや、ユーザー環境で撮影された画像や動画を分析し応答できる新しいCosmos Nemotron VLMを含む理由を説明している。
NVIDIAによると、視覚能力を持つエージェントの利用可能性により、多様な環境下でリアルタイムに産業用カメラの映像を分析し、インシデントの検出、欠陥の削減、人間の行動指針の提供などに役立つ可能性がある。同社によれば現在、産業用カメラ映像のうち人間がリアルタイム監視しているのは1%未満だという。
Nvidiaによると、Llama Nemotronモデルは通常であれば複数の専門モデルを使用するところを、1つのモデルだけで多くの一般的エージェントタスクを効率的に実行できるようトレーニングされている。
これらのモデルは、レイテンシーを低減し計算効率を向上させるために剪定され、その後、タスク全体での精度を向上させるために、高品質なデータセットを用いて知識蒸留とアラインメント手法により再トレーニングされています。この結果、高い精度とスループットを持つより小型のモデルが実現しています。
Nemotronモデルは、PCアプリケーション開発者向けのNano、シングルGPUで高いパフォーマンスを提供するSuper、データセンター規模のアプリケーション向けに設計されたUltraなど、個別の計算要件に最適化されている。
また、Nvidia Nemotronエコシステムには独自のデータでモデルをカスタマイズするNvidia NeMoや、モデルの指示追従能力を向上させ、人間が好む応答を生成するNeMo Aligner も含まれている。さらにNVIDIAは、Nemotronモデルを提供するためにNIMマイクロサービスを構成要素として使ってAIエージェントを迅速に作成するためのツールとしてNvidia AI Blueprintsを提供している。
関連して、Nvidiaはロボティクスや自動運転車両向けの物理を考慮したビデオ生成に特化したCosmos世界基盤モデルも発表した。