エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
LLM差分マージしてみた
ができます。 ベクトルみたいな感じ もちろん完璧にその能力を移せるわけではないですが、ある程度は能... ができます。 ベクトルみたいな感じ もちろん完璧にその能力を移せるわけではないですが、ある程度は能力を引き継げるため、次の学習のための良い初期値を得ることに使うことができます。 やってみた そんな差分マージをやってみました。 今回使ったモデルは Qwen/Qwen-14B lightblue/qarasu-14B-chat-plus-unleashed rinna/nekomata-14b それぞれ、Qwen 14B とその派生モデルであるため今回の差分マージを行うことができます。(アーキテクチャが異なっていたり、フルスクラッチで学習されているときはマージができません) モデルの関係図 Qwen-14B Alibaba が作成した日本語もちょっといける中国語、英語のLLMです。この時点で日本語チョットデキル感じなので結構すごいです。 nekomata-14B Qwen-14B ベース 学習