更新日：2025-03-11

localize Tips

LLM での翻訳機能の開発で見えてきた課題と可能性―― WOVN が2週間スパンで開発を繰り返す理由

佐藤菜摘

LLM（Large Language Model：大規模言語モデル）によって、これまで機械翻訳で行われてきた「原文テキストを訳文テキストに置き換える」作業から大きく進化し、原文の文脈や背景を加味した訳文のアウトプットを可能にしました。

「LLM は、翻訳業務を劇的に変えた」と、Wovn Technologies株式会社 CTO（技術責任者）の幾田雅仁さんと、同社でプロダクトオーナーを務める山口将史さんは口をそろえます。

しかし、LLM による翻訳精度をビジネスシーンに耐えうるレベルまで高めるには、数えきれないほどのトライ＆エラーがありました。WOVN のプロダクト品質を支える2人に、これまでの開発における紆余曲折と、見えてきた未来について聞きました。

glo_generic_archive_only_media_cta_1200x200

＜幾田雅仁さんプロフィール＞

1997年から NIFTY-Serve の開発に携わり、2007年から SBI 傘下の会社でクレジット決済システムの設計と開発を担当。2012年から株式会社gumi でソーシャルゲーム開発、共通システム・ライブラリの開発を担当した後、CTO に就任。その後、2020年より Wovn Technologies株式会社に CPO としてジョインしたのち、2024年に CTO に就任し、LLM を活用した開発に注力。

＜山口将史さんプロフィール＞

英ケント大学で美術史論を学んだ後に帰国し、翻訳会社に品質保証担当として勤務。以来13年、翻訳や翻訳チェックからプロジェクトマネジメント、プルーフリード、DTP レイアウト調整まで幅広く携わり、業界では珍しいジェネラリストとして経験を積む。人力翻訳とテクノロジーのかけ合わせで生まれる未来に魅力を感じ、2019年から Wovn Technologies株式会社へ。

specialist_interview_2025_02_ikuta_yamaguchi_01

WOVN では「2週間」がひとつのタイムボックス。テンポよく機能を開発
機械翻訳の確認プロセスを LLM に置き換える開発からスタート
「LLM に任せられる部分」の精度を高めるプロンプトエンジニアリングに注力
最新の技術と市場の動きにアンテナを張り、サービスのさらなるレベルアップを図る

WOVN では「2週間」がひとつのタイムボックス。テンポよく機能を開発

――WOVN では、どのような体制で翻訳テクノロジーの開発を行っているのですか。

幾田：

実は、当社には特定の狭い専門分野の開発に特化した部門はありません。必要ないと思っています。全ての開発者が LLM をどうお客さまのニーズに適応させるか、業務に活かせるのかを一番に考えているからです。

全社のさまざまな専門性を持つ従業員から集まってくるアイディアや要望をプロダクトオーナーである山口が取りまとめ、市場の動向やお客さまのニーズを踏まえてプライオリティをつけていきます。
これが、当社における開発の起点です。

山口が決めたプライオリティの高い課題や仮説検証要望に対して、複数の開発者が解決策を提案し、フィードバックして、さらに揉んでいきます。

山口：

私は元々翻訳者で、「翻訳支援サービスを使う側」の立場を長く経験してきました。なので、ローカライズチームの責任者として入社した当初から、翻訳後のテキストについてプロダクト開発側への改善提案を積極的に行っていたのです。

プロダクトオーナーになってからは、より大局的な視点が求められるようになりましたが、プロダクトの価値最大化の一環として、機械翻訳エンジンの品質評価や機能開発にも引き続き携わっています。

当社の場合、機能開発は原則として2週間がひとつのタイムボックスなので、テンポよく開発が進むんですよ。社内の各領域の専門家から上がってくる意見をスピーディーに整理し、お客さまにとって価値が高い機能はすぐ開発側に伝えるようにしています。

――2週間は短いですね！

幾田：

そうですね。ただ、AI を使った翻訳機能に関しては、実際に作って動きを見てからでないと、お客さまに価値がある機能かどうか判断できないことが多いのです。逆にいうと、何ヵ月もかけて作りこんで完成品として出しても、必ずしもお客さまのニーズにマッチするものになるとは限らないんですね。ですから、2週間で形にすることをポリシーとして開発に取り組み、実験に時間をかけるようにしています。

山口：

私が入社した頃は1週間で形にしようとしていましたから、開発のスパンとしてはむしろ以前のほうが短かったですね（笑）。

もちろん、限られた期間では思うような形にならないことも多いですが、失敗をおそれずにトライするのが WOVN の良いところです。必要性が高い機能はすぐ実装されるので、みんなでひとつのプロダクトを育てている実感があります。

生成 AI の登場で人の手から切り離せる翻訳業務が増えたり、トライできる領域が広がったりして、開発に進むアイディアは大幅に増えていますから、開発のスピード感は大きな強みだと思いますね。あと、単純に「新しいもの好き」な開発者が多いので、LLM 関連はみんなの興味関心が強いというのはありますね（笑）。

specialist_interview_2025_02_ikuta_yamaguchi_02

機械翻訳の確認プロセスを LLM に置き換える開発からスタート

――生成 AI の台頭には目をみはるものがありますが、いつごろから「翻訳機能に活用できる」と思うようになりましたか。

山口：

正直、OpenAI が開発した「GPT-3」が登場した時点で「人力ですべてを翻訳する時代は終わった」と思いました。「GPT-3.5」が出て、完全に「未来はこっちだ」と確信しましたね。

幾田：

そうですね。「GPT-3.5」が出たときに大きな可能性を感じました。「GPT-4」の登場は、圧倒的に世界が広がった感覚がありましたね。なんといっても、テキストの置き換えだけでなく翻訳プロセス全体を任せられるようになったのは、それまでの機械翻訳からの大きな進化でした。

例えば、もらったファイル形式に合わせて翻訳する、背景やコンテキストなどの情報を踏まえて翻訳できる、といったことですね。うまく使いこなせば、山口のようなプロの翻訳者の頭の中を再現でき、翻訳の品質を維持した状態で業務を効率化できると思いました。

山口：

とはいえ、最初のうちは、期待した品質からは程遠かったですよね。改良の余地がありすぎて、何が悪いのかもわからないような状態でした。

幾田：

確かにそうでしたね（笑）。

――最初にトライしたのは、どのような機能の開発だったのでしょう。

山口：

LLM を使って最初に取り組んだのは、マンパワーの軽減と翻訳品質向上の両立です。Web サイトを機械翻訳で翻訳した場合、人力翻訳に比べて効率化できる反面、翻訳の質が大きな課題でした。

機械翻訳を選択した時点である程度やむをえないと割り切ることもできますが、お客さまにサービスとして提供する以上、最低限担保すべき翻訳品質があります。そこをちゃんと考慮して安心した翻訳を提供するのが私たちの使命です。なので、翻訳品質の向上に挑み続けなければなりません。

幾田：

そうですね。品質保証のための確認プロセスを LLM に置き換える開発は、かなり早い段階でスタートしましたね。

例えば、「たぬき」と聞いて、最初に思いつくのは動物のタヌキです。しかし、そば屋やうどん屋で「たぬき」といったら、一般的に、関西では「油揚げの入ったうどん」、関東では「天かすが入ったうどんやそば」を指しますよね。

汎用的な機械翻訳では、こうした背景やコンテキストまで理解できません。そのため、意味の通じない訳文になる可能性が高く、先に翻訳者が原文を調整したり、アウトプットされた訳文を確認して修正したりする必要があります。その点、LLM による機械翻訳なら、コンテキストを理解して自然な文章を生成する能力に長けていますし、違和感がある訳文があっても「ここをこう修正してほしい」といったように対話ができます。なので、質の高い翻訳を効率的に提供できると考えたのです。

「LLM に任せられる部分」の精度を高めるプロンプトエンジニアリングに注力

――確認プロセスの機能開発は、順調に進みましたか。

幾田：

いや、まったく（笑）。想定したような動きをしてくれないことがほとんどで、かなり難航しました。

まず、ChatGPT からの返答が安定しない。コストを下げるためにも1度にまとめて翻訳したかったのですが、10フレーズ入れても9フレーズしか返ってこないなんてことがざらにありました。

山口：

もちろん品質も、当社が期待するレベルにはほど遠かったですね。人力の確認プロセスをサポートできるけれど、LLM ですべて置き換えるのは難しいといわざるをえませんでした。

幾田：

LLM の性能も上がってきて、翻訳から訳文の確認まですべて人力で行っていた頃と比べると、90～95％くらいまで LLM に任せられ、人力でカバーする範囲が5～10％で済むようになったことは大きな進化です。「このあたりの翻訳はあやしそう」「ここは人間がチェックしたほうが良い」とサジェストを上げられるようになったことでも、人間が確認する範囲が減って、かなり効率が上がっているんですよね。

ただ、翻訳する対象が、薬の注意書きや避難経路の説明だった場合、その「わずか5％」が命取りになるかもしれません。当然、お客さま側としては1％のミスもない品質を期待するでしょう。

その期待値ギャップには苦しみましたし、今も苦しんでいます。

山口：

とはいえ、人力で一から翻訳しても、100％の結果を得るのは困難であることも事実です。企業によって、求めるレベルも異なります。

幾田：

そうなんですよね。誤解をおそれずに言うと、LLM は翻訳業務のすべてを代替するものではないと思っています。

回答の質よりもスピードが問われる領域などは別として、人と LLM は高度な人材が集まったプロジェクトのマネージャーとメンバーのような関係なのです。マネージャーが方針を示し、メンバーはその方針の中で自由に思考して結果を出す。最後にマネージャーが仕上がりをチェックして納品する。双方の能力がバランスよく発揮されることによって、成果が上がります。

人間と LLM にも同じことがいえるとすると、LLM によるわずかな誤りは許容して人間がチェックし、正解の部分の質を上げていくことが望ましい形でしょう。

ですから、LLM の回答精度を高めるためのプロンプトエンジニアリングにはもっとも注力しましたし、非常に苦労しました。

specialist_interview_2025_02_ikuta_yamaguchi_03

――どのような試行錯誤があったのでしょうか。

山口：

既存 LLM のファインチューニングで信頼性のある独自のモデルを構築した他、翻訳者が無意識に行っている翻訳プロセスを可視化して、ステップごとにプロンプトをカスタマイズしていきました。翻訳者の頭の中を知りたいと、幾田から何度もヒアリングを受けました。

幾田：

翻訳者は、一瞬のうちにこんなに複雑な判断をして作業を進めているのか、と驚きましたよ。実際にヒアリングをするまで、気づきませんでした。プロンプトのカスタマイズにあたっても、山口がたくさん翻訳の筋書きを出してくれましたし、ものすごく勉強しました。

こうして、多様な専門性を持ったスタッフがさまざまな視点で翻訳の筋書きを吟味し、改善を重ねていきました。そして、品質を安定させつつ容易に運用できる仕組みを実現したのが、当社の高品質 AI 翻訳基盤 Maestro です。

山口：

これまでの翻訳ツールは、単純なテキストの置き換えにすぎず、プロの翻訳者の品質とは程遠いものでしたが、LLM によって、プロの翻訳者の思考プロセスを技術的に反映できるようになり、ツールが翻訳業務の本質に迫りつつあると感じています。

一人のワーカーに近い存在として活用できるところまで来た、といってもいいでしょう。

Web サイト多言語化のご相談は WOVN へ

Wovn Technologies株式会社は Web サイト多言語化ソリューション「WOVN.io」を提供しています。多言語化についてご興味のある方は、ぜひ資料をダウンロードください。

佐藤菜摘

前職は、広告代理店にて大手CVSの担当営業として、販促物製作やブランディングプロジェクトに従事。2016年WOVN Technologies株式会社に入社し、広報業務を担当。2022年よりMarketingチーム。

LLM での翻訳機能の開発で見えてきた課題と可能性―― WOVN が2週間スパンで開発を繰り返す理由

佐藤菜摘