AppleがNVIDIAとの共同研究で大規模言語モデルのパフォーマンス高速化の成果を発表
Appleは、NVIDIAとの共同研究による大規模言語モデル(LLM)の推論処理高速化についての研究成果を2024年12月18日に発表しました。Appleが独自に開発した「ReDrafter」技術をNVIDIAのGPU向け推論フレームワーク「TensorRT-LLM」に統合することで、処理速度を最大2.7倍に向上させることに成功し、消費電力とGPU使用量の削減も実現したとのことです。
Accelerating LLM Inference on NVIDIA GPUs with ReDrafter - Apple Machine Learning Research
https://machinelearning.apple.com/research/redrafter-nvidia-tensorrt-llm
NVIDIA TensorRT-LLM Now Supports Recurrent Drafting for Optimizing LLM Inference | NVIDIA Technical Blog
https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/
Apple collaborates with NVIDIA to research faster LLM performance - 9to5Mac
https://9to5mac.com/2024/12/18/apple-collaborates-with-nvidia-to-research-faster-llm-performance/
Appleは2024年3月に「ReDrafter」と呼ばれる新しい推論高速化技術を発表し、オープンソースとして公開しました。この技術は、再帰型ニューラルネットワーク(RNN)をドラフトモデルとして使用し、最適な出力シーケンスを見つけるための探索アルゴリズムの「ビームサーチ」と、選択肢を効率的に処理する「ダイナミックツリーアテンション」という二つの手法を組み合わせたもので、LLMのテキスト生成を大幅に高速化することができます。
この技術の核心となるのは、「推論デコーディング」と呼ばれる処理の効率化です。従来のLLMは、テキストを生成する際に一つ一つのトークンを順番に処理していく必要がありました。これに対して、ReDrafterはRNNドラフトモデルを用いて次に出現する可能性の高いトークンを予測し、複数の候補を同時に評価することで処理を高速化します。
Appleは、ReDrafterをオープンソースモデルに応用することで、1回の生成ステップあたり最大3.5トークンの処理が可能となり、従来の推論デコーディング技術を大きく上回る性能を実現したと主張しています。
また、今回の発表では、この技術をNVIDIAと協力してGPU向けに実用化したとのこと。統合にあたって、NVIDIAはインフライトバッチング(IFB)と呼ばれる機能を実装し、文脈フェーズと生成フェーズのリクエストを効率的に処理できるようにしました。また、トークンの検証とパスの受け入れをエンジン内部で行うことで、処理のオーバーヘッドを削減することにも成功しています。
実際の性能評価では、NVIDIA H100 GPUを使用した数百億パラメータ規模の実用モデルで、約2.7倍の速度向上が確認されました。特に、コード補完のような特定のタスクや、少量のバッチサイズでの低トラフィックシナリオで高い効果が発揮されたとのこと。
Appleの機械学習研究チームは、今回発表した高速化技術によってユーザーの待ち時間が大幅に削減されると同時に、GPU使用量と消費電力も抑えられ、LLMの実用化における重要な進展となると述べています。
・関連記事
AppleがChatGPTに対抗できるほど高性能な「LLM Siri」を2026年にリリースすることを考えている - GIGAZINE
Appleが2026年にAI機能を搭載した独自のスマートホームカメラを発売する可能性 - GIGAZINE
実際にAppleのAI「Apple Intelligence」を使ってみた海外レビューまとめ - GIGAZINE
Apple Intelligenceのベータ版で「交際は終わり」メッセージをAIの要約で伝えられるとこんな感じになる - GIGAZINE
Apple Intelligenceが「医療保険会社のCEOを殺害した犯人が自殺とBBCが報道」と誤通知しBBCがAppleに猛抗議、Apple Intelligenceの要約機能が生み出した虚偽の情報 - GIGAZINE
Appleはすでに社内で業務に独自のチャットAI「Apple GPT」を活用している - GIGAZINE
・関連コンテンツ