見出し画像

日本語VQAデータセットの紹介

こんにちは。NABLAS R&D事業部です。
先日、XにてWikipediaの日本語記事をもとに日本語VQAデータセットの公開に関する投稿をしました。今回のnoteでは、こちらの詳細についてTECH BLOGとして紹介いたします。

概要とねらい

今回、cyberagent/Llama-3.1-70B-Japanese-Instruct-2407を用いてWikipedia-Vision-JAデータセットのcaptionとdescriptionからVQAデータセットを作成しました。
既存のデータセットにも日本語のデータが含まれている場合があるものの、英語や中国語のものと比較するとまだ不足している感があります。また、日本語ネイティブから見ると不自然な文体になっていたりする場合もあります。日本語モデルを用いてより高品質なデータセットを開発することで、これらの問題を解決するのが本取り組みの主なねらいです。

手法

1. captionとdescriptionを入力としてLLMに質問と回答のペアと出力させます

プロンプトの例を以下に示します。

以下の画像の説明とキャプションから、画像に関する質問と回答のペアを1つ生成してください。
生成する質問は、画像に写っているものについて尋ねる質問にしてください。キャプションや説明から読み取っていることは隠して回答してください。

キャプション: {caption}
説明: {description}

以下の形式で出力してください:
質問: [質問文]
回答: [回答文]

実験を繰り返していくうちに画像自体が提供されていない旨の出力が多いことが判明したので、下線にそれらを抑制するためのプロンプトを追加しています。

2. 出力を質問と回答に分解します

ここで、指示した形式に合わない出力は排除しました。
出力形式に合わない出力は20万件で100件ほど含まれました。

結果

出力は簡潔になることが多かったものの、画像を使用せずとも画像を見ているかのような出力を多く生成することができました。

良い出力例

[{'from': 'human', 'value': '<image>\\nこの写真に写っている駅はどこですか。'}, {'from': 'gpt', 'value': '御徒町駅です。'}]


[{'from': 'human', 'value': '<image>\\nこの画像にはどのような動物が描かれていますか?'}, {'from': 'gpt', 'value': '双頭の鷲です。ロシアの双頭の鷲から子供を守っているウクライナ人の婦人が描かれています。'}]


[{'from': 'human', 'value': '<image>\\n画像にはどのような幾何学的図形が描かれていますか?'}, {'from': 'gpt', 'value': '画像には3つの平面と青い線が描かれています。3つの平面は一次方程式の解を表し、その交点は共通解の集合(この場合は一意点)を表します。青い線は、これらの方程式のうちの2つの共通解を表します。'}]

悪い出力例

画像に実際には含まれていない情報まで出力してしまっています。

[{'from': 'human', 'value': '<image>\\n御徒町駅はどこにあるか。'}, {'from': 'gpt', 'value': '東京都台東区上野五丁目にある。'}]


画像が提供されていないことを出力してしまっています。

[{'from': 'human', 'value': '<image>\\n画像にはどのようなタイプのプレート境界が写っていますか?'}, {'from': 'gpt', 'value': '衝突型のプレート境界です。ただし、画像自体は提供されていないため、画像の具体的な内容は不明です。説明文から推測すると、収束型境界やトランスフォーム型境界の説明が含まれていますが、画像の直接的な内容は示されていません。したがって、正確な回答は画像自体の内容を確認する必要があります。'}]

最後に

今回の日本語VQAデータセット作成をはじめ、NABLASのR&D事業部ではディープフェイク検知、音声合成技術、生成AIなどの研究開発に日々取り組んでおります。興味のある方はコーポレートサイトもご覧ください。
また、インターン、リサーチャー、エンジニア、ビジネス職など、幅広く募集もしております。オンラインでカジュアルに私たちとお話ししてみませんか?ぜひ、コーポレートサイトWantedlyLinkedinからご連絡くださいませ。解決方法が未知の課題を楽しんで解ける方からのご連絡、お待ちしております!