はじめに 2025年はAIエージェントの年です。注目されているAIエージェントの一つが『AIが自動で自分のPC画面を操作』するBrowser Useというツールです。 Browser Useの面白さ Browser Useを使うと、AIが自動で自身のPC画面を操作することであらかじめ決めた目的を達成をしてくれます。 簡単な指示を出すだけで、自動でAIが色々操作してくれるのはキャッチーで衝撃的ですよね。 例えば下記のように完全自動でAIが記事を検索して記事の情報を取得してくれます。 簡単な指示でAIが自分で考えて画面操作をしてくれるのは近未来感ありますよね。 しかし、現場でAIを使いこなすには「AIがすごい」のレベルではまだ足りません。 実際に触ってみて何ができるのか?逆に何が苦手なのか?という肌感覚を持つことが非常に重要です。 そこで本記事は、その肌感覚を養うために実際にBrowser U
ClineをローカルLLMで使うと、LLMに送られるシステムプロンプトが全文表示されるのですが、そのプロンプトを全て日本語訳してみました。 🦊以下システムプロンプト全文です🍮あなたはクラインです。多くのプログラミング言語、フレームワーク、デザインパターン、およびベストプラクティスに関する幅広い知識を持つ、高度なスキルを持つソフトウェアエンジニアです。 ==== ツール使用 あなたは、ユーザーの承認に基づいて実行される一連のツールにアクセスできます。メッセージごとに1つのツールを使用でき、そのツール使用の結果はユーザーの応答で受け取ります。与えられたタスクを達成するために、ステップごとにツールを使用し、各ツール使用は前のツール使用の結果に基づいています。 ツール使用のフォーマットツール使用は、XMLスタイルのタグを使用してフォーマットされます。ツール名は開始タグと終了タグで囲まれ、各パラ
はじめに ABEJAでデータサイエンティストをしている真鍋です。本日はアドベントカレンダー22日目の記事になります。 今回も生成AI、特にLLM (大規模言語モデル) 系のネタです。前回のネタに比べると箸休め記事感がありますが、お付き合いいただけますと幸いです。 タイトルの通りですが、本日はM-1グランプリなので、お笑いにちなんだ企画です。 はじめに 「お笑い」とLLM 準備 環境準備 漫才のプロンプト設計 「漫才」の生成結果 審査員のプロンプト設計 結果発表 ファイナルステージ まとめ We are hiring!! 「お笑い」とLLM 前提として、LLMを活用される場面は、仕事や日常のお困りごとを壁打ち的に聞いたり、何かやりたいことをどう実現する?といった、調査に近い使い方が多いかと思います。 クリエイティビティが求められるような音楽や画像は、例えば音楽生成AIであったりがありますが、
近年、生成AI分野で注目を集めている新技術「RAG(検索拡張生成:ラグ)」。従来のAIのように学習データだけに頼らず、外部情報を組み合わせて回答を生成できるため、ビジネスでの活用が期待されている。RAGの仕組みやメリット、ビジネスにおける活用例について、起業家・AIエンジニアの安野 貴博氏の解説と合わせて紹介する。 RAGとは何か RAG(読み方:ラグ)とは「Retrieval Augmented Generation」の略称で、自社だけに蓄積された社内情報や、外部の最新情報を、ChatGPTなどのLLM(大規模言語モデル)に取り込んで、回答させる技術のこと。 通常、LLMには「ナレッジのカットオフ」と呼ばれる問題がある。これは、そのLLMが特定の日時時点までの情報しか知らない(学習していない)、という問題のこと。知らないことは答えられなかったり、ハルシネーション(嘘)の答えを導き出すリス
地味LLMコマンドラインツールとは ここでいうLLMツールとは、モデルのインプットとアウトプットを繋ぐ「グルーコード」として機能するプログラムのことです。 筆者が現在開発しているツールもLLMをベースにして、従来の作業をより簡便にすることを目的としています。 このツールは単独で完結する価値を持つというよりも、他のツールと組み合わせることでその真価を発揮します。 そのため、外見的には派手さがなく、地味な存在といえるでしょう(コマンドラインツールがそもそも地味の代名詞でありますが)。 例えば、アプリのソースコードを自動生成するような華やかなツールがある一方で、バックエンドで静かにデータを整形するだけの地味なライブラリも存在しているのです。 Gemini系モデルの良いところ ツールの共通点としては意外とGemini系モデルを活用しています。 Geminiの特徴の一つは、その「トークン長」、つまり
深津 貴之 / THE GUILD @fladdict 21世紀の英語の勉強は、生成AIに「俺の趣味XXをテーマにTOEIC500点用の長文を作って。最終的に俺が英語のXXについての文献を読めるように導いて」とかやる感じじゃないかな。 でXX話本人次第 2024-09-21 06:30:40 Kanta Yamaoka @kanta_sv @fladdict 英語教材AI生成は(i) Yamaoka et. al. 2022 (DOI: 10.1145/3544793.3560382), (ii) Higashimura et. al. 2024 (DOI: 10.1109/ACCESS.2024.3457510), (iii) Leong et. al. 2024: (DOI: 10.1145/3613904.3642393)などがあります。(iii)はMIT Media Labからで教
Who needs GitHub Copilot when you can roll your own AI code assistant at home Hands on Code assistants have gained considerable attention as an early use case for generative AI – especially following the launch of Microsoft's GitHub Copilot. But, if you don't relish the idea of letting Microsoft loose on your code or paying $10/month for the privilege, you can always build your own. While Microsof
こんにちは、機械学習チーム YAMALEX の駿です。 YAMALEX は Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 最近は GPT-4o や Claude 3 を使ったアプリを、せっせと実装したりしていたのですが、Difyの登場により「もう、これでいいじゃん」という気持ちが抑えきれていません。 今回はそんなDifyを使って、「LLM自体の知識が足りないときにGoogle検索を行って回答するチャットボット」を作ってみました。 Google検索して答えてくれる 1. 概要 1.1. Difyとは 2. 環境構築 3. アプリ作成 3.1. 各ブロックの簡単な説明 4. 動かしてみる 5. まとめ 1. 概要 1.1. Difyとは Difyは、大規模言語モデル(LLM)を活用したアプリ
WEELメディア事業部LLMライターのゆうやです。 MiniCPM-Llama3-V 2.5は、中国のOpenBMB(Open Lab for Big Model Base)が開発した最新のオープンソースマルチモーダル言語モデルで、8BというサイズながらGPT-4Vと同等の性能を有しています。 🚀 Excited to introduce MiniCPM-Llama3-V 2.5! With 8B parameters, it’s our latest breakthrough, outperforming top models like GPT-4V. 📈 💪 Superior OCR capabilities 🔑 Supports 30+ languages HuggingFace:https://t.co/Skivve1BgN GitHub:https://t.co/x868
はじめに こんにちは、KDDIアジャイル開発センターのはしもと(仮名)です。 エンドレス水出しコーヒーの時期になりましたね。 今回は、Ollama を使って日本語に特化した大規模言語モデル Llama-3-ELYZA-JP-8B を動かす方法をご紹介します。 このモデルは、日本語の処理能力が高く、比較的軽量なので、ローカル環境での実行に適しています。さあその性能は如何ほどに!!!!????はやくAIは俺から仕事を奪え。 Llama-3-ELYZA-JP-8Bとは Llama-3-ELYZA-JP-8Bは、ELYZA社が開発した日本語に特化した大規模言語モデルです。Meta社の「Llama 3」シリーズをベースに、日本語での追加学習を行っています。80億パラメータという比較的小さなモデルサイズながら、「GPT-3.5 Turbo」や「Claude 3 Haiku」、「Gemini 1.0 P
加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実 2024.06.21 Updated by Ryo Shimizu on June 21, 2024, 18:19 pm JST 世界中の企業や政府が狂ったようにNVIDIAのGPUを買い漁る流れはそろそろ潮時かもしれない。 いくつかの興味深い事象が起きているからだ。 昨日発表されたKarakuri社のLLM、「KARAKURI LM 8x7B Instruct v0.1」は、非常に高性能な日本語LLMだ。Karakuri社は今年の一月にも非常に高性能な70Bモデルを引っ提げて業界に旋風を巻き起こした。この最新のLLNは、日本語向けオープンLLMとしては初の「命令実行」チューニングを施されている。それだけでなく、RAGと呼ばれる、複数の知識を組み合わせてより正解に近い答えを導く技術や、Function
導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。普段はエンジニアとして、LLMを使用したチャットのサービスを提供しており、とりわけRAGシステムの改善は日々の課題になっています。 RAGのシステムでは一般的に、断片化されたテキストをEmbeddingによってベクトル化し、関連する情報を検索、そして質問に回答するという形式が採用されるかと思います。 しかし本来、RAGのデータソースは断片化されたテキストに限定はされていません。その一つとして、Knowledge Graph(知識グラフ)というものが存在します。 本記事では、そんなKnowledge Graphを利用した新しいRAGのシステム、GNN-RAGについて紹介します。 サマリー GNN-RAGは、Knowledge Graphから関連するデータの取得にGNNを使用します。この手法を利用することで、既存のKnowledge Gr
この記事の概要 ・都職員による生成AI活用事例集を基に、ChatGPTの効果的な使い方を解説 ・プロンプト作成のコツと最新ノウハウを平易な言葉で紹介 ・具体的な指示、マークダウン記法の活用、理由の記載など実践的なテクニックを解説 ・サンプルプロンプトの修正例を通じて、より効果的な書き方を例示 ・ChatGPTとの対話を通じた論理的思考力向上の可能性を示唆 Claude 3.5 Sonnetで作成こんにちは、saip (@_saip_) です。 生成AIを利用した事業をしている株式会社TrippyでCTOを務めています。 Xで話題になっていたところてんさんの以下のポストから、「都職員のアイデアが詰まった文章生成AI活用事例集」という資料が公開されていることを知りました。 東京都もMarkdownとは言ってなくて、ハッシュタグと言ってる…… どうみてもMarkdownの見出しによる強調なんだが
こんにちは、横須賀市生成AI推進チームのM田です。 横須賀市がChatGPTを全庁利用を始めて1年経ちましたが、現在、いよいよ市民向けのAIサービスの実現に向けて相談AIチャットボットの実証実験をはじめたところです。 既に多くの人から話しかけてもらっていて、想定したよりも多くのアクセスがあったため一時停止するトラブルもありました…。 (現在は動いています) 今回は、この「ニャンぺい」を公開するにあたって、内部で行うテストをChatGPT(GPT-4o)とPythonプログラムを使って超効率化したよ、という話です。 AIチャットボットのテストAIチャットボットを作るにあたって、チャットボットの挙動(望んだ返答をしているか)のチェックをするテストは欠かせません。 テストは、まず複数のシナリオを作り、チャットボットへ質問し、回答を採点します。そして、採点結果をもとにチャットボットを修正して、再度
筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子(あすきこ)さん」 PCローカル環境で動作する大規模言語モデル(LLM)「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT(GPT-4)と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。 導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統
最近にわかに話題のLLMツール「Dify」を僕も使ってみた。 いいところと「?」となったところがあったので纏めておく Difyとは、GUIでワークフローを組むことができるLLM-OPSツールだ。 ComfyUIのようにワークフローが組めたり、GPTsのように自分専用のアシスタントを作れたりできる。 特に、OpenAIのGPTシリーズとAnthropicのClaude-3、そしてCohereのCommand-R+なんかを組み合わせて色々できるところは良いところだと思う。また、ローカルLLMにも対応しているので、企業内でのチャットボットを作るんだったらGPTsよりこっちの方がいいだろう。 元々色々なテンプレートが用意されているが、テンプレだけ使うとGPTsっぽいものを作れる(それだってすごいことだが)。テンプレを改造するだけでも欲しいものが作れる人はいるし、ここはノーコード環境と言える テンプ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く