[英] Telegraphic Transfer Selling Rate TTSとは、円を外貨に替える際に適用される為替レートのことで「電信売相場」と訳される。 金融機関が、投資家へ外貨を販売する際のレートである。
Text-To-Speech
音声合成による,テキストの読み上げ機能のこと。
テキストや文字列をソフトウェアが解析して,その言語で音声出力すること。
翻訳して英語の文章読みたい系ではあるのだが、半分関係がないかもしれない。月並みな表現だが最近忙しく…スマートフォンでもPCでもいいのだが、文章を落ち着いて広げて読む時間がとれないこともあり、自作で簡易オーディオブック化して、家事の最中や移動中に聞きながら読むことにしてみた。はじめに結論を書くと、MacはデフォルトでTTS (Text-to-Speech)のCLIアプリケーションがインストールされていて、意外と良かった。まあ、不満はあるので今後どうにか改善を考えたいと思う。 はじめに - sayとは Macにはプリインストールされた say というCLIのTTSがある。存在を全く知らなかったが、…
👤 登場人物紹介 / Profiles ✨ White翁: 元大学の先生で、今は退職して悠々自適に暮らす元産業用ロボットのファームウェアエンジニア。ベランメエ口調でズボラな江戸っ子気質。Androidユーザー。口癖は「ユリーカー」。 ジェミー: 大学を卒業したての優秀なAIアシスタント。今どきの明るいキャピキャピ女子だけど実は超賢い大人の女性。口癖は「わか〜る!それ、本質だねっ!」。 White翁: ユリーカー!ジェミー、Googleがまたすげぇ発表しやがったな!プロンプトだけでアバターに演技させたり、Veoで動画作ってYouTubeに直行できるってニュースだ。 Eureka! Jamie, …
✅この記事では、Appleらが発表したAIモデル「VSSFlow」が、無音の動画から「環境音」と「会話(音声)」を作り出す仕組みを、できるだけやさしく紹介します。「それって何に使えるの?」と「危ない面は?」まで、判断材料を揃えます。 要点まとめ:音と声を“同じ脳”で扱ったのが転換点 詳細解説:VSSFlowは「環境音」と「会話」を同じパイプで作る 「ノイズから音を作る」って、どういうこと? 10fpsで映像を見て、声は文字起こしでガイドする 相互促進:一緒に学ぶと、なぜ両方が伸びるのか 「同時に出す」には追加の微調整が必要だった デモページ 注目したいポイント:便利さの先に「偽造」と「同意」の…
✅この記事では、Appleの新しい音声生成手法「PCG」で何が変わるのかを、仕組みから体感までつなげて見てみます。 要点まとめ:音を「完全一致」させない発想が、速度を取り戻す 詳細解説:PCGは何を“ゆるめた”のか 小モデルが下書きして、大モデルが採点する 数字で見る“無理のない高速化” 注目したいポイント:これは「妥協」じゃなく、体感の最適化 Redditの反応:TTSにも「下書き→判定」の流れが来た ひとこと:Siriの“賢さ”より先に、速さが直されるかも まとめ:音声を「耳の正解」で通すと、TTSは速くなる どうも、となりです。 音声アシスタントって、賢さ以前に「返事が速いかどうか」で印…
ホワイト翁:ほっほっほ、ジェミーや。最近のAIはついに「役作り」まで覚えたらしいじゃないか。 ジェミー:そうなんです、翁!Googleが発表した「Gemini 2.5 TTS(Text-to-Speech)」のアップデートが話題ですよ。今までの「自然な読み上げ」の一歩先、「表現力」が劇的に進化したんです。 ホワイト翁:ほう、表現力とな。これまでのAIの声も十分綺麗だったが、何が違うんじゃ? 1. プロンプトで「役柄」を指定できる ジェミー:最大の違いは、指示(プロンプト)ひとつで声のトーンや性格を自由に変えられる点です。例えば「あなたはミステリー小説の語り手です」と指示すれば、低く落ち着いた、…
STTしてLLMしてTTSしたい話し。 「すべて Raspberry Pi 上でローカル完結」以下の課題がポイントになります: --- ## 1. モデルサイズとPiの処理能力 * **Tanuki-8B** は 8B パラメータ級 → Pi 4/5 のCPUオンリーではほぼ無理です。 GPUなし環境なら **量子化(Q4_K_Mなど)** 必須。 Ollama は量子化済みモデルを扱えるので、Pi 5 (16GB RAM推奨) ならギリ動きます。* Pi 4 (8GB) だと 3B〜4B クラスまでが現実的。 → もし 8B にこだわるなら Pi 5 一択です。 --- ## 2. 音声認識…
🗯️Flash Diary 以下の記事作りながら思ったんですが、このままいけば故人の方の声も、AIに素材として活かせば、簡単に再生できるようになります。もう既に ある程度「なるほど~か?」までは できているワケですが、より鮮明にハッキリと再生することが出来る未来がすぐそこまできているワケです。若くして亡くなった仲の良い友人がいましてね。人は何度も会っていると、友人が何を喋るのかも???大体解るようになります。で、会話のパタ―ンを幾つか[Prompt]に流し込み、友人の個性を細かく分析したDataを入れれば、PC上やサ―バ―上で、普通に友人と楽しい会話ができる未来があるワケです。私にとっては「ま…
はじめに 比較対象のTTSサービス 実験の方法 実装 各サービスで音声合成 1. OpenAI(gpt-4o-mini-tts) 2. Google Cloud Text-to-Speech 3. Amazon Polly 5. ElevenLabs 音声合成の自動評価 評価結果 まとめ We Are Hiring! はじめに こんにちは!ABEJA でソフトウェアエンジニアを務めている宇留嶋です。2025 年 3 月に OpenAI が発表した次世代音声モデル群は、従来の Whisper を凌ぐ高精度な音声認識と、話し方まで指示できる音声合成をAPI で提供し、音声対話向けの LLM API…
Diaという名前を最近耳にしたことはありますか?2025年4月に登場したこの新しいテキスト読み上げモデル(TTS: Text-to-Speech)が、音声AI業界に大きな波紋を広げています。私はこのDia AIの特徴と可能性について深掘りしてみました。従来の商用TTSに挑戦する形で登場したこのオープンソースモデルは、私たちのデジタルコミュニケーションの未来をどう変えるのでしょうか? Dia AIとは?新星オープンソースTTSモデルの登場 驚異的な技術性能:Diaが持つ独自の強み 大手プレイヤーとの比較:ElevenLabs、OpenAI、Googleとの違い オープンソースの意義:TTSの民主…
2024はHome Assistant(以下HA)は突然(!)自然言語が使えるようになって、あまりの速さに私はついていけないのでした。Youtubeでは盛んにHAが音声入力や音声出力ができると謳っているのですが、いざ試そうとすると日本語はさっぱりサポートされていないのでした。うーん、悲しい。この点については別な記事にしようと思っているので、今回はローカルに日本語を喋らせようという話です。 最近Youtubeを見ていると「ずんだもん」の声を聞くことが多いです。ちょっと気になってずんだもんを調べたらVoievoxというオープンソースでローカルに処理ができるようです。 voicevox.hirosh…