LLM差分マージしてみた

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/platina

2 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

LLM差分マージしてみた

ができます。ベクトルみたいな感じもちろん完璧にその能力を移せるわけではないですが、ある程度は能... ができます。ベクトルみたいな感じもちろん完璧にその能力を移せるわけではないですが、ある程度は能力を引き継げるため、次の学習のための良い初期値を得ることに使うことができます。やってみたそんな差分マージをやってみました。今回使ったモデルは Qwen/Qwen-14B lightblue/qarasu-14B-chat-plus-unleashed rinna/nekomata-14b それぞれ、Qwen 14B とその派生モデルであるため今回の差分マージを行うことができます。(アーキテクチャが異なっていたり、フルスクラッチで学習されているときはマージができません) モデルの関係図 Qwen-14B Alibaba が作成した日本語もちょっといける中国語、英語のLLMです。この時点で日本語チョットデキル感じなので結構すごいです。 nekomata-14B Qwen-14B ベース学習

ブックマークしたユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx