オープンソース VOICEVOX は OSS(オープンソース・ソフトウェア)版 VOICEVOX をもとに構築されています。 製品版と OSS 版の違いやモジュール構成は VOICEVOX の全体構成 をご参照ください。 ソフトウェア部分は Electron + Vue 、音声合成エンジン部分は Python + FastAPI です。 追加したい・改善したい機能があれば、ぜひ開発にご参加ください。
「Recording Studio」は、Chromeに対応している音声認識API「SpeechRecognition API」を利用してマイクから録音した声を音声認識によってその場で文字に起こしてくれるウェブツールです。オンラインのブラウザ上で動作するのでダウンロードやインストールは不要で、開発したみずちさんが無料で公開しています。 Recording Studio https://recording-studio.netlify.com/ ブラウザでマイク入力から書き起こしを行うツールを作った - mizchi's blog https://mizchi.hatenablog.com/entry/2019/01/20/203241 Googleは音声ファイルをAIが認識して文字にしてくれる「Cloud Speech-to-Text」という有料サービスを提供しています。Google Clo
数年前までは「1」の選択肢がほとんど存在しない状態でしたが、ここ最近iOS/Android共にSwift(Objective-C)、Kotlinから音声合成用の標準APIを利用できるようになりました。数行のコーディングで実現ができるので、さくっと導入したい人にもってこいです。 アプリ開発で利用できる音声合成を提供しているサードパーティサービスも多数存在します。無料のサービスから高価なサービスまであり、声質やクオリティなど、相性の高いサービスがあればぜひ利用をしたいところです。 自前で音声合成APIを用意する場合、ハードルは極端に高くなりますが、自前の音響モデルを利用するなどして自由性の高い音声合成を実現できます。 標準APIの利用 最もライトにアプリ開発で利用のできる音声合成です。 iOS7から利用が可能になった、AVSpeechSynthesizerを利用できます。 AVSpeechSy
こんにちは。 株式会社Synamonでエンジニアをしております、渡辺(@mochi_neko_7)と申します。 VRでは自分の好きなアバターになれるというのは大きな魅力の一つではないかと思いますが、せっかくのアバターも固い表情のままではちょっともったいないですよね。 そこで今回はアバターに表情を付ける一つの方法として、プレイヤーの話している声からアバターの口を動かすリップシンクとよばれる手法についてご紹介したいと思います。 今日では、リップシンクを手軽に利用できる環境もいくつかありますが、その中でこのお話をさせていただくのは、ブラックボックスをあまり使いたくないという想いと、パフォーマンスなどの要求から自分で実装したい場合があるのではないかと思ったからです。 ネットにも技術的な部分を詳しく解説している記事があまり見つからず、筆者自身未知の領域で苦労した経験から、初心者の方にも分かりやすく説
Google Cloud Speech API (以下Speech API) を利用すると、人間が発声した音声をAPIを通してテキストに変換することができます。 Speech APIは日本語にも対応しているため、国内でも電話で話した内容を自動的にテキストに変換するといったようなことが出来るようになります。 ということで、Twilio, Zappa, Speech APIを組み合わせて、サーバレスに電話の内容を文章化する仕組みをつくってみました。 構成 以下が今回作成した仕組みの構成図になります。 Twilioを用いて電話から音声を録音する方法については、こちらの記事を参考にしてください。 上記の記事に加えて、Twilioから録音された音声ファイルのURLをSNSを通して別のLambda Functionに投げ、そこから音声ファイルの取得とSpeech APIへの問い合わせを行っています。最
@eaglesakura です。 Cloud Speech APIは、ざっくりといえばGoogle謹製の音声認識APIです。 まだBeta版ですが、非常に良い精度の音声認識(テキスト化)を行ってくれます。 特にStreamingで音声の逐次解析(例えばマイクで集音しながら音声をサーバーに送信し、解析経過をリアルタイムで受け取る)が面白いですが、行なうためには前提が色々と大変なのでざっくりとした手順を書きます。 GCPプロジェクトを用意する 利用するためにはGoogleログインが必要ですので、 APIコンソールからプロジェクトを作成します。 作成後は、APIManager > 認証情報からOAuth2.0クライアントIDを登録します。その時、アプリpackage名と署名鍵のSHA1を登録するのを忘れると認証が正常に行えないので注意してください。 簡単にやるなら、Firebase Projec
今日のre:InventでDeep Learningを使った音声合成サービスのAmazon Pollyが発表されました。 正直、DLを使ったの音声合成が話題になったのなんて今年に入ってからだと思っていたのに、もう商用化したんか!という気持ちでいっぱいです。 Amazon Polly – 文章から音声へ、47の声と24の言語 | Amazon Web Services ブログ Amazon Polly – Lifelike Text-to-Speech [2016/12/02追記] PollyがDLベースという話は https://aws.amazon.com/jp/polly/ に、"Polly is an Amazon AI service that uses advanced deep learning technologies to synthesize speech that so
Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH); intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, RecognizerIntent.LANGUAGE_MODEL_FREE_FORM); intent.putExtra(RecognizerIntent.EXTRA_CALLING_PACKAGE, context.getPackageName()); SpeechRecognizer recognizer = SpeechRecognizer.createSpeechRecognizer(context); recognizer.setRecognitionListener(new RecognitionListener() { //...略
iOS7 から AVSpeechSynthesizer クラスが追加 され、音声合成(読み上げ/Text to Speech)が手軽に使えるようになりました。 既に 日本語を含む36種の言語に対応したvoice が用意されていて、音質もなかなかです。ひらがなも漢字も読んでくれるので、テキストをまるっと渡せば読んでくれます。 が、ひとつ物足りなかったのが、 読み上げのチューニングができない こと。 音声合成は古くからあるジャンルなので、もっと細かくチューニングできて、音声がきれいなサードパーティ製SDKがあるんじゃないかと思い、いろいろ調べてみました。 AquesTalk2 長所 評価版はすぐにDLして試せる 日本語の特性を考慮した、非常に細かいチューニング が可能 アクセント 無声化 区切り ガ行鼻濁音 数値桁読み etc... 短所 音質が低い phontというしくみがあるので入れ替え可
先日声優ハッカソンにActive Geeksとして参加しました。ハッカソンでは声優さんの声を利用して料理のレシピを読み上げるアプリを作ったのですが、単なる読み上げアプリとの差別化のために、手を使わずに操作できる機能を追加しようと考えました。これは濡れた手でスマホを操作したときまともに操作できなかった自分自身の経験から提案したものです。(ちなみに発表資料はActive Geeks 声優ハッカソン 最終成果発表にあります) タッチしないで操作する方法としては音声認識・画像認識などが考えられますが、画像認識はAndroidのOpenCVで画像をバックグラウンドで取得する方法が分からなかった(stackoverflowに質問しても回答がなかった)ので断念し、音声認識による方法を採用することにしました。ちなみに、展示していたときに教えてくれた人によればiPhoneでは近接センサーを使った非接触インタ
Tell us how your name is pronounced You can also record names of your friends and family
はじめに 2016/3/3より、Slackに音声通話機能が搭載された。 試しに使ってみたSlackユーザもそれなりにいると思う。 Slack音声通話機能の対応クライアントは、現時点では限定的だ。Slackの設定画面の一文を引用すると Currently on Mac and Windows desktop apps and in Chrome; coming soon to mobile! の通りで、Chromeまたはデスクトップのネイティブアプリとなる。 音声機能が実装されていてこの種類の対応状況なら、もちろん利用技術はWebRTCと考えるのが素直だ。(しかもWebRTCベースのスタートアップであるScreenHeroを買収していることもあり) ここで、最も気になるのは内部でWebRTCをどのように利用しているか、という点だ。 すでに、WebRTCエンジニア御用達のWebRTCHacks
英語の発音の確認 《英語の発音インフォ》へようこそ 英語の発音方法が単語ごとに、詳細に分かります。索引か検索フォームよりご利用ください。 キーワードをランダムでピックアップ behoof・batter・cast pearls before swine・beadsman・globe‐trotter・bedmaking・calisthenic・droop・astrodome・bromism・supposedly・Pitt・florid・austerity・maquiladora・shirr・echovirus・Mesozoic・XS・morbific 発音インフォの索引 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 英語の発音記号はこちら 中国語のピンイン(発音記号)はこちら 英語の発音インフォ|中国語の発音インフォ 発音インフォTOP
Android:あなたのスマートフォンは、ボイスレコーダーの機能を兼ね備えることができます。スマートフォンを話者に向けておけば、会議、講習会、インタビューの録音ができるのです。 Google Playには、数え切れないほどの優れたボイスレコーダアプリがありますが、『Cogi』は他のアプリに比べて、会話録音で必要とされる基本的なニーズをよく理解しており、そのためにトップの人気を誇っています。 Cogiとは? 特徴 タップして録音開始、タップして一時停止というシンプルな操作インタフェースで、重要なポイントを録音することができます。 録音せず、常時聞き続けることも可能です。 スマートフォンのストレージ容量が尽きるまで、上限なしに録音を続けられます。 タップした瞬間から5、15、30、または45秒の巻き戻し録音が可能、すなわち、タップしたときの前に話されたことを録音できます。 録音したファイルはD
2024.11.15 『CeVIO AI 梵そよぎ』発売決定! 2024.11.14 『CeVIO AI』アップデート(バージョン9.1.17.0) 2024.09.26 CeVIOプロジェクト製品発売11周年のお知らせ 『CeVIO AI』サードパーティボイス発売のお知らせです。 『CeVIO AI 梵そよぎ』が11月21日に発売されることとなりました。 『CeVIO AI 梵そよぎ』は、声優「梶裕貴」の声をベースに制作した、音声創作ソフトです。 ▼製品情報 製品名・価格: CeVIO AI 梵そよぎ ソングボイス ダウンロード版 10,780円(税込) CeVIO AI 梵そよぎ ソングスターター ダウンロード版 19,800円(税込) CeVIO AI 梵そよぎ トークボイス ダウンロード版 8,980円(税込) CeVIO AI 梵そよぎ トークスターター ダウンロード版
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く