Pythonで学ぶ音声認識 機械学習実践シリーズ

Pythonで学ぶ音声認識 機械学習実践シリーズ

3,850円(本体 3,500円+税10%)

品種名
書籍
発売日
2021/5/20
ページ数
352
サイズ
B5変形判
著者
高島遼一 著
ISBN
9784295011385

音声認識の基礎から最新手法までを解説

「音声認識」とは音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるまでを目的とし、手法の目的やアルゴリズムの概要を解説、続いて数式レベルでの詳説、最後にソースコード付きで実装という流れで解説しています。特に手法の概要については「その手法は何を目的として生み出されたのか」という経緯と「なぜその手法は前述の目的を達成できるのか」について直感的に理解できるよう工夫しています。

「読者アンケートに答える」「読者プレゼントに応募」の場合もこちらをご利用ください。

アンケートに答える

書籍の内容に関するお問い合わせはこちら。お答えできるのは本書に記載の内容に関することに限ります。

学校・法人一括購入に関するお問い合わせはこちらへ。

一括購入窓口

詳細

1120101083_01.jpg

音声認識の基礎から丁寧に解説

音声認識とは、音声信号から発話内容を認識することで、AIスピーカなどに利用されている技術です。本書は、現在までの音声認識技術の発展経緯を学びながら、深層学習を用いた最新の音声認識システムを実装できるようになることを目的とし、その手法をソースコード付きで丁寧に解説しています。

全章を通して、 最新の音声認識技術を実装レベルで学べます

1・2章は音声認識の基礎知識、3章からはPython を用いた音声処理の基礎と、音声認識に使うための特徴抽出方法を解説しています。 4章では音声認識の初歩ともいうべき「DPマッチング」という手法を紹介し、5章のDPマッチングをより実用的な方法に進化させた、混合正規分布と隠れマルコフモデルによる音響モデルを解説しています。6 ・7章は2010年以降、発展してきた深層学習を用いたディープニューラルネットワークと隠れマルコフモデルによる音響モデル、そして近年、研究のトレンドとなっているEnd to Endモデルという最新手法を紹介しています。

著者紹介

高島遼一(たかしま・りょういち)
2013年神戸大学大学院システム情報学研究科博士後期課程修了(博士(工学))。2011年4月~2013年3月日本学術振興会特別研究員(DC2)。2013年4月に(株)日立製作所研究開発グループに入社し、装置の異常検知や音声認識のための雑音除去など、音声・音響信号処理に関する研究開発に従事。2016年10月~2018年9月に国立研究開発法人情報通信研究機構へ出向し、音声認識に関する研究開発に従事。2019年4月より神戸大学都市安全研究センター兼同大学院システム情報学研究科准教授に着任。現在、音声認識を始めとした音声処理・機械学習技術とその福祉分野への応用に関する研究に従事。

ページイメージ

クリックすると大きい画像でご覧いただけます

目次

第1章 音声認識とは?
第2章 音声認識の基礎知識
第3章 音声処理の基礎と特徴量抽出
第4章 音声認識の初歩─DPマッチング─
第5章 GMM-HMMによる音声認識
第6章 DNN-HMMによる音声認識
第7章 End-to-Endモデルによる連続音声認識

関連書籍

近日発売

スッキリわかるPythonによる機械学習入門 第2版

機械学習入門の決定版! 楽しく深く身に付く

好評発売中

IT基礎教養 自然言語処理&画像解析 "生成AI"を生み出す技術

深くてやさしい!生成AIの仕組みが丸わかり

ダウンロード

お詫びと訂正

誤記のためにご迷惑をおかけし、誠に申し訳ございません。

  • 21ページ 下から4行目
    • [誤]
      一方P(x)は
    • [正]
      一方P(w)は
  • 40ページ 式(3.2):逆離散フーリエ変換の式
    • [誤]
      Σ記号の下にある n=0
    • [正]
      Σ記号の下にある n=0 --> k=0 (nをkに修正)
    • 【 第2刷にて修正 】
  • 131ページ 本文8行目
    • [誤]
      状態i
    • [正]
      状態j
  • 135ページ 式(5.54)の左辺
    • [誤]
      \alpha^p_j(0)
    • [正]
      \alpha_{p,j}(0)
  • 139ページ 式(5.72)(5.73)(5.74)(5.75)
    • [誤]
      arg max
    • [正]
      max
  • 179ページ 本文下から6行目
    • [誤]
      log(a+b)はAとBをそれぞれ数式用のフォントでを用いて以下のように表せます。
    • [正]
      log(a+b)はAとBを用いて以下のように表せます。

お問い合わせ

書籍の内容に関するお問い合わせはこちら。お答えできるのは本書に記載の内容に関することに限ります。

お問い合わせフォーム