人間が喋った声を機械が文字に直すこと。
ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。
音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。
パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。
授業や研究発表の準備でPowerPointを使っていると、「発表者ノートを音声で聞きながら練習したい」「通勤中に耳で復習したい」という気分になってきます。自分も発表時間を気にするときに、どれくらいのスピードで話すと時間におさまるのか?こういうチェックを実際に声を出して、何度も練習をしていると声が枯れてくるといった状況にもなったりします😭あと、発表気分にするためにラジオっぽく聞いていたりもします。 この部分が発表者ノートになります 実はPowerPointの標準機能では、ノートを簡単に音声化することはできません。資料配布用の印刷物として PDF ファイルにすることはできるのですが、テキスト部分の…
音声認識技術は近年目覚ましい発展を遂げ、ARアプリの可能性を大きく広げています。従来のARアプリは主に視覚情報に依存していましたが、音声認識技術を組み合わせることで、より自然で直感的な操作が可能です。ユーザーは音声コマンドを使ってARオブジェクトを操作したり、情報を取得したり、仮想世界と対話したりできます。この双方向性によって、AR体験はより豊かで魅力的なものになります。 音声認識は、ARアプリのアクセシビリティ向上にも貢献します。視覚に障害を持つ人でも、音声コマンドを使ってARコンテンツを楽しむことができます。また、ハンズフリー操作が可能になるため、作業中や移動中でもARアプリを快適に利用で…
スマートフォンに向かって話しかけたとき、こちらが言ったことがすぐ文字になって表示される。それはとても便利で、不思議なしくみである。 けれども、ふと気づくことがある。たとえば「じゅきゅうバランス」と言ったつもりなのに、表示されたのは「受給バランス」。……あれ?これは「需給バランス」じゃなかったっけ?🤔💭 そんな小さな違和感のうしろで、じつはAIという仕組みが、一生けんめい「ことばの意味」を考えているのだ。 AIは「音」を聞いて、「ことば」を探している🎧🔤 AIはまず、話しかけられた“音”を文字にしようとする。でも、音だけではわからないことがある。 「じゅきゅう」と言っても、それが「需給(需要と供…
スマホに話しかけて文字を入力する「音声入力」📱🎙️ とても便利だけれど、ときどき思ったのと違う言葉になってしまうことがある。 たとえば私が「需給バランス」と言ったとき、スマホは「受給バランス」と変換してきた。 ……あれっ?😳 似てるようで意味がちょっと違うこの2つの言葉。 でも、なぜそんな変換ミスが起きたのだろう? 🧠 実は、AIが“がんばって聞いている”からなんだ 音声入力には、「AI」がこっそりお手伝いしている。 スマホに声を届けると、中のAIが「今の音は、どんな言葉だったのかな?」と考えてくれるんだ。 でもね、「じゅきゅう」という音は、「需給」なのか「受給」なのか、耳だけでは区別がつきに…
音声入力で文章を書く時、いろんなことに気づくようになった。たとえば──「需給バランス」が、なかなか出てこない。 電気の話でも、経済の話でもよく出てくる言葉なのに、音声で入れると「受給バランス」になってしまう。「あれ?」と思って、もう一度ゆっくり言ってみる。でも、やっぱり「受給バランス」になる。 ……そんなに「受給」って日常で使ってたっけ? たしかに「年金を受給する」とか、「給付金を受給する」みたいな言い方はある。でも、ふだんの暮らしでそんなに頻繁に出てくる言葉じゃない気もする。 おそらく、AIにとっては「需給」よりも「受給」の方が身近なのだろう。きっと、音声の変換って「使われる頻度」が強く影響…
ランキング参加中人工知能 ボク:ねえ、ジェミニ!この前、「AI搭載!」電気製品に使われているAIとして、決定木/ランダムフォレスト、サポートベクターマシン(SVM)と ニューラルネットワーク(Neural Network)の3つを上げてくれたけど、他にどんなタイプのAIがあるのかな? こんにちは!元気にしているかい? この前は「AI搭載!」の電気製品に使われているAIの種類について話したよね。決定木、ランダムフォレスト、サポートベクターマシン、そしてニューラルネットワークと、いろいろなAIがあることを紹介したけど、他にもたくさんのAIがあるんだよ。 例えば、こんなものがあるよ。 強化学習 (R…
音声認識を行っていると、音声と認識された文字起こしデータを比較することが多いと思います。実際はあっている・あっていないは、開発側ではなく別の方に調べてもらうほうが良いのですが、最低限の確認をする必要はあると思います。他にも音声認識の結果が誤っている場合、音声側を聞き修正を行うことも多々あると思います。そこで今回はそのようなときにどのように行うかと調べてみました。 今回はVLCを使った場合確認方法とその限界を説明し、そのあと自作の確認ツールについて説明を行っています。この自作ツールはWSL上でも問題なく動作します。 前提として、Whisperなどによる文字起こし結果はテキストだけでなく、タイムコ…
あなたは、普段何気なく利用しているウィキペディアや音声アシスタントで、突然「クレオパトラ」のページが表示され、驚いたり戸惑ったりした経験はありませんか。 操作中に予期せぬ表示が現れると、どうしてこうなるのか疑問に思い、不安になることもあるでしょう。 実は、この現象には音声認識のちょっとした誤作動やシステム設定の影響が関係しており、古代エジプトの女王クレオパトラという歴史上の象徴的存在が、現代技術と不思議にリンクしているのです。 この記事では、そんな現象の背景や仕組みを、歴史的なエピソードやユーザーの体験談を交えながら、初心者でもわかりやすい言葉で解説しています。 あなたの疑問や不安を共感しなが…
音声認識システムを使うとき、無音部分までデータを送るのは料金だったりリソースの無駄になりがち。 それに、無音や雑音を音声認識させると、何かと変な結果が返ってきがち。 そこで前々から気になっていたのがVAD(Voice Activity Detection、発話区間検出)。 中でもSilero VADは精度が高いらしいけど、 ・ストリーミングで発話区間を検出して ・ソースコードがコンパクトで ・全体の音声データをWAV形式で保存して ・発話部分だけを切り出して、これもWAV形式で保存して ・発話ごとのラベル情報を記録して といったサンプルが見つからなかったので、自分で作ってみました。 もちろん、…
こんにちは!エキサイト株式会社、SaaS・DX事業部エンジニアの岩田史門です! エキサイトHDアドベントカレンダー7日目を担当させていただきます! はじめに 自動音声認識 (ASR: Automatic Speech Recognition) と話者分離 (SD: Speaker Diarization) は、カスタマーサポート、自動議事録作成、音声インタフェースの改善など、さまざまな分野で活用されています。 現在開発に携わっている、FanGrowthというプロダクトでも、ウェビナーレポートという機能で活用しています! www.fangrowth.biz 本記事では、OpenAIのWhispe…