第3回

音声認識で重要なConformer、GPT生んだTransformerとCNNのいいとこ取り

レアゾン・ホールディングス

2024.12.18

全4165文字

音声認識は音声の内容を文字として取り出す仕組みだ。本特集では、音声そのものの解説から音声認識モジュールの仕組み、Pythonによる音声認識のやり方までを説明する。

Transformerモデル

　音声認識の分野において重要なモデルに、「Conformerモデル」があります。音声認識で非常に高い性能を持つモデルです。ここからは、Conformerモデルについて説明していきますが、Conformerモデルを理解する前に知っておくべき前提知識として、「Transformerモデル」があります。昨今の生成AIでも活用されているモデルですので、聞いたことがあると思います。

　Transformerは、2017年に発表された論文「Attention Is All You Need」で提案されたモデルです。OpenAIのChatGPTにおいて、GPT-3やGPT-4などのモデルを使ったことがある読者も多いでしょう。その「GPT」は「Generative Pre-trained Transformer」の頭文字で、Transformerに基づいたモデルなのです。

　Transformerモデルも、もともとは機械翻訳のために提案されたモデルです。Seq2Seq with Attentionモデルと同様に、TransformerモデルもAttention機構を用いたEncoder-Decoderモデルです。ただし、Seq2Seq with Attentionとは異なり、TransformerモデルではEncoderでもDecoderでもRNNは用いられていません。

　Transformerモデルは、機械翻訳だけではなく、音声認識を含めた様々な用途で利用されています。