コンピュータなどで使われる技術で、得られたデータ結果を音声で読み上げる表現手法。 その技術はカーナビ・交通機関の行先案内装置・翻訳機・ゲームなどでの自動応答システムに応用される。 あたかも人間が喋っているように聞こえるための『自然な音声列』を合成するための技術は、永遠の課題ともいえるほど難しいとされている。
使用環境 OS: Windows 11 Home 64ビット CPU: Intel Core i9-13900KF @ 3.0GHz GPU: NVIDIA GeForce RTX 4090 メモリ: 32GB DDR5 ストレージ: 1TB NVMe SSD Gen4 Pythonバージョン: 3.11.0 1. Pythonの仮想環境を作成する プロジェクトディレクトリ内で、以下のコマンドを実行して仮想環境を作成します。 python -m venv beatrice-trainer-env このコマンドにより、beatrice-trainer-envという名前の仮想環境が作成されます。 …
音声合成ソフトウェアに自作の散文を朗読してもらった。 youtu.be
以前からAITuber?AIVTuber?のようなものを作成したいなと思っていたました。(違いがよくわからないので以降AITuber) 自分の想像していたAITuberの定義はこんな感じ チャットやマイクのインターフェースを使用してLLMによって応答を生成しコミュニケーションできる 画面上にCGキャラクターが表示されている LLMによって生成されたテキストを 音声出力してくれる 従来のAITuberのようなシステムはGPU搭載の高性能PCでの実行が一般的で、機材の準備や持ち運びに大きな負担があります😫 ただ、以前の調査でGitHub Codespacesで軽量なLLMであれば動作することがわか…
Macrodroidと地図サイトの「逆ジオコーディング」で,スマホの画面オフでの住所読み上げを実現 - jeyseni's diary (2024/11/15)では,第1段階としてOpen Street Mapの逆ジオコーディングAPIを使っての実験で目的の“耳ナビ”を実現できることが実証された。ただ,追記にも書いたとおり,OSMのAPIでは,「〇〇町〇丁目」の情報までしか,どうしても変換できなかった。そこで,町名以外に「道路名」と「ビル名」「近隣スポット」の情報も読み上げるように設定したのだが,クルマで走った場合でも「〇丁目」が数分間続くし,道路名に至っては走行中ずっと同じ道路名を読み上げて…
耳ナビで現在地住所を音声合成で伝えるウィジェットを発見--動作がちょっと不安定だけど・・・【追記】やはり不安定で却下 - jeyseni's diary (2023/11/25)。1年ぶりにMacrodroidを動かしてみた。マップを表示して指定個所をクリックして現在地の住所を音声合成で伝える,という実験を繰り返していたのだが,結局,画面にマップが表示されていない状態では動作させられないので,ずっと画面が点いたままになるという不具合があり,制作をあきらめていた。 スマホを交換してから,自動的にMacrodroidも移行していたことは確認していたのだが,「結局ここまでか」と思ってそのまま放置して…
無料で使えるフリーソフト VOICEVOX voicevox.hiroshiba.jp 「ずんだもん」や「青山龍星」といった有名キャラクターの音声を合成できます。 無料ですが利用規約の範囲内で使用することができます。 ソフトーク w.atwiki.jp 棒読みちゃん chi.usamimi.info Balabolka www.cross-plus-a.com ロシアの方が開発されています。 テキストーク gui.jp.net テキスト読み上げソフトです。
こんにちは、テックです。 私は半引きこもりなので、基本的に外部との接触を避ける傾向にあります。 友人と話すのももっぱらSkypeとかを使い自宅で行うことが多いのですが、たまに「ボイスチェンジャー」を使ってくるやつがいるんです。 ボイスチェンジャーといえばゲーム実況者(ゲーム内の会話も含め)やYoutubeの配信者などが多い印象ですが、最近では詐欺などにも使われるそうで。。 www.yomiuri.co.jp 女性になりすまし1000人以上の方が騙されるって相当よね。 個人的には特に配信する予定も計画もないので使うことはないだろうと思っていたのですが、ふと思い立って私(キモオタ)が使っても女性の…
ここ最近VOICEVOXを使用して音声合成を楽しんでいましたが、その中でよくOpenJTalkを使用すればもっと軽くリアルタイムにできるのに…ということも言っていました。以前は自分もOpenJTalkを使っていたのですが、インストールの手順が煩雑だったのでいまいち手が出ないというのが正直なところでした。 参考 uepon.hatenadiary.com それも2016年のこと、現在ではどうなっているか改めて調べてみたところ、Pythonから簡単にOpenJTalkが使用できるラッパーであるpyopenjtalkがある事がわかりました。あまりにも簡単に導入ができるので、今後は導入はこれ1つで良い…
AIが発達してきて、ここ数年で情勢変わりそうなので、 現状をなるべく色んなサイトURLと共に記録しておく。 音声AIの変化(キャラクター性の不要) AIの使用例のニュース 日常生活の中で 終わり 蛇足 音声AIの変化(キャラクター性の不要) 最近、 ネットのサブカルに興味ない人たちのスマホから、ずんだもんを始めとする合成音声による解説が流れてくるようになった。 視聴者は、ずんだもんがどういったキャラ設定なのかを知らない。 声オタ以外が声優を意識せずナレーションを聞くように、動画の一要素として音声合成を聴いているし、利用されている。 これは、初音ミクを始めとする、日本の合成音声の文化から見ると驚…
先日来使用しているVOICEVOXですが、PCであればかなり高速に処理をすることができるとはいえ、リアルタイム性?というところではやはり処理時間がかかるため会話というところには使用が難しいと思いました。そこで、他にもなにかないかなと思い探してみることにしました。結果的にOpenJTalk一択かもしれないのですが、それ意外の可能性も捨てたくないですよね。 今回はEdge-TTSを使用してみることにします。EdgeというとWindowsの標準ブラウザというイメージがあるので、Windows意外では使用できないのでは?と思われる方もいるかと思いますが、今回使用するEdge-TTSはWindowsでの…