コンピュータなどで使われる技術で、得られたデータ結果を音声で読み上げる表現手法。 その技術はカーナビ・交通機関の行先案内装置・翻訳機・ゲームなどでの自動応答システムに応用される。 あたかも人間が喋っているように聞こえるための『自然な音声列』を合成するための技術は、永遠の課題ともいえるほど難しいとされている。
GCPに音声合成APIがあることを知識としては知っているけど、使ったことがなかったので使ってみました。 ネットで見かけるサンプルはmp3ファイルに保存する例が多いけど、自分が使いたい用途はファイルに保存せずに再生だったので修正。 動作確認環境 Windows 11 バージョン22H2 (OSビルド 22621.1105) ネットワーク:WiFi python 3.10 処理時間 上記環境と下記プログラムで音声合成の処理時間は0.65秒~0.7秒ぐらい。 プログラム 必要に応じてpythonパッケージをインストール pip install --upgrade google-cloud-textt…
Windowsに入っているSAPIエンジン*1でしゃべらせて、WaveとTextに保存できるようにしました。 日本語と、英語でスピーカーを変えられます。(メニューで最初に出てくるので数字で選んでね) テキストをコピペするとしゃべって音声とテキストをファイルに保存します。 まぁ、ずんだもん等に比べるとたどたどしいですけど、プレゼンに埋め込んだりできるのでそこそこ使えると思います。 # -*- coding: utf-8 -*- """ @author: kz713hatena """ # In[1]: # =============================================…
概要 A.I. Voice の琴葉姉妹を購入したので、 Text2Speech で作成した音声をあとからちょっと色付けできるツールを作ってみた。ただ、私としてそこまで Text2Speech をやりたかったわけではないので、これが使えるツールになっているのかはわからない。どちらかというと下記の記事の続きものであり技術検証じみた趣味の開発であって、自身のニーズすらないところで作っているので的外れ感はあるかもしれない。 shurabap.hatenablog.jp 成果物とやれること スクショ * haruneko.github.io 44.1kHz 16bit の音声ファイルを下記のように編集で…
booksch.hatenablog.com [ BooksChannel本屋物語 | 日記Note | booksch.hatenablog.com | 日付号 | タイトル | 記事及び #タグ 他 | check… rinna 未来を感じました。JOHN LENNONの声の特徴をAIが機械学習し、自由自在に再現できればAI VOICEでBEATLESの新曲が聴ける時代になる。とは予想しているのですが、簡単に一般人の声を再現することが可能になれば、犯罪につながる予感もあり、実に悩ましい。 rinnakk.github.io WEB限定:BooksChannel店舗店頭買取用クーポン券発行し…
はじめに前回ESPnetというのを使わせて頂き音声合成を行いました。 touch-sp.hatenablog.com スクリプトを一部変えるだけで様々な音声が合成できるようなので今回一部を試してみました。結果(3種類の音声)jsut前回と同じです。 text2speech = Text2Speech.from_pretrained( model_tag=str_or_none('kan-bayashi/jsut_full_band_vits_prosody'), vocoder_tag=str_or_none('none'), device="cuda" ) tsukuyomi text2sp…
概要 C++ の vocoder に GUI を作ろうと思ったが、 C++ with Qt とかだとあんまり一般的な知見を得られないな、じゃあ React を使おう。ということで軽く言ったもののあんまり中身は軽くなくて下記のように苦しんでいた。が、ようやく React の世界に持ってこられたのでサンプルを作ってみた。これが私の React 入門編です。正直に言うと React + emscripten は全然入門じゃないと思う。 shurabap.hatenablog.jp 作ったもの https://haruneko.github.io/voice-editor-practical-impl…
はじめに PC環境 Python環境構築 Pythonスクリプト 用意するテキストファイル 使い方 音声比較 前回作成した音声 今回作成した音声 インストールされたライブラリのバージョン 2022年7月9日追記①(torch==1.12.0+cu113) 2022年7月9日追記②(torch==1.12.0+cu116) 2022年7月12日追記 はじめに以前「Open JTalk」を使って同様のことをしました。 touch-sp.hatenablog.com 今回は「ESPnet」というのを使わせて頂きました。 両者の結果が比較できるようにこの記事の最後に音声ファイルをのせておきます。 良か…
open-jtalk本体のインストール sudo apt install open-jtalk辞書ファイルのインストール sudo apt install open-jtalk-mecab-naist-jdic音声のダウンロード・解凍 wget https://sourceforge.net/projects/mmdagent/files/MMDAgent_Example/MMDAgent_Example-1.8/MMDAgent_Example-1.8.zip unzip MMDAgent_Example-1.8.zip使用するための準備必要なファイル群をカレントディレクトリにコピーしておく…
音声のテキスト化(音声認識,自動字幕)で遅れを取っていることを報告した 音声認識から翻訳,そして字幕入りの動画制作環境にすっかり取り残されてしまっていた件 - jeyseni's diary (hatenablog.com) 2022/5/3。とりあえず,2つの方法について整理しておくことにする。 たとえばZoom会議の流れを,主催者が録画したファイルがあるとする。これをテキスト起こしして議事録に仕上げようとした場合は,自動字幕化ソフトのVrewが良さそうである。これまで,手で要点をメモっていたのだが,書き取ったキーワードがだれの発言だったか,結構迷うことがある。○○さんがコメントしたな,と思…
こんにちは。管理人のまるです。 近年、ボーカロイドという言葉を耳にする機会も増えてきましたね。 ボーカロイドといえば、初音ミクが頭に浮かんだ方の中には、 可愛らしいビジュアルや、人間では出せない音域やリズムで歌える初音ミクに魅了された方も多いのではないでしょうか。 音声合成業界では、ボーカロイド以外にボイスロイドと呼ばれる人間のような自然な喋りが可能になるソフトが開発されています。 河崎純真さんが紹介していた記事によると、人間の喋り声にしか聴こえない革命的な音声合成ソフト 「VOICEPEAK」 が誕生したそうです。 ■河崎純真さんが紹介していた記事 www.dtmstation.com 動画…
↓こんなサーフィンの動画を Tune-A-Videoでいらすとや風にすることができました。 また、「サーフィンする宇宙飛行士」のようなプロンプト(テキスト)を与えることで、動画の一部を変化させることもできました。 Tune-A-Videoとは Tune-A-Videoとは機械学習の手法のひとつで、大雑把に言うと、Stable Diffusionのような「テキストから画像を生成する拡散モデル」を使って既存の動画をプロンプト(テキスト)で指定した内容に変化させることができます。 (Tune-A-VideoのGitHubページより引用) 手法 Tune-A-VideoのGitHubで公開されている実…
boardというSaaSのチュートリアル動画を合成音声を使って制作しているので、その話を書いていきます。 個別相談会のデモとチュートリアル動画 以前書いた board(SaaS)個別相談会の変遷 の中で少し触れたのですが、2021年に、個別相談会の中でやっていたデモをベースに、チュートリアル動画を制作しました。 個別相談会では、業務の流れに沿って基本的な操作を一通り説明していくデモを行っていたのですが、途中に質問が挟まることも多く、そうすると、全体で30〜40分ほどかかってしまうことも多くありました。 個別相談会は1時間枠なので、そのうち40分をデモで使うのは、時間の使い方としてもったいないな…
VOICEVOX バージョン 0.14アップデートモーフィング機能やマルチエンジン機能などが実装された。 きりたんCFにおいて第7、8、9ゴールを達成 Synthesizer V AI Ninezeroが発表英語音源、近日発売予定 🎉 #VOICEVOX バージョン 0.14 アップデートのお知らせ 🎉~大きな変更点~・モーフィング機能を実装・マルチエンジン機能を実装・音声合成コアライブラリを Rust 言語に移行最新版はホームページから入手できます。https://t.co/yhPvRns9kH↓ スレッドにて追加機能を紹介しています ↓ — VOICEVOX (@voicevox_pj) …
HTSEngeneをPythonでラップしてくれる。おかげで合成した音声をメモリ上で生成・再生できる。ファイル作成せずに済む。ただ、open_jtalkのツール版における引数のうち、一部しかないのが気になった。なんとかそれらも実装できないか。まずはコードを読んでみた。
最近、毎日とは言わないまでも、週に1〜2回ぐらいは人身事故で電車止まってないか阪急電車。 実は本日も梅田をうろついていたのだが、午前中に動物園前駅で人身事故があって、千里線がしばらく運転見合わせ。運転再開後もダイヤは乱れておりその影響は京都線にも波及していた。 実際のところ事故があったのは堺筋線の動物園前、つまり大阪メトロの話であるから、阪急に言わせればオレらのせいちゃうし、てなもんだろうけども。 駅構内とか電車内のアナウンスを聞いていると、「大阪メトロ堺筋線で発生しました人身事故により…」とずっと言ってて、なんだか「オレらのせいちゃうし!」と訴えたい感じがすごくするのよな。 それはそれとして…
Covid注射-語られざる真実 Dr. Vernon Coleman|さてはてメモ帳 Imagine & Think! 医師の基本的な問題は、常に自分たちの無知の程度を受け入れようとしないこと、そして自分たちを取り囲み慰めてきた疑似科学的神話にきちんと当てはまらない事実を受け入れようとしないことである。 この3年間、何千人もの医師(と看護師)が、徹底した悪人どもに吹き込まれた嘘に疑問を呈する知性と勇気を見出せず、我々はこれらの人々を限りなく軽蔑してよいし、そうすべきなのだ。 医師は、あらゆる信頼詐欺師と同様に、信頼の基本は無垢であり、恐怖と恐れの基本は謎であるという事実を利用してきた。 十分な…
CoeFont.studio
友人が ChatGPT で論文記事を要約して読んでいると聞き、質問をしたりするだけでなくそういった使い方も出来るのかと驚きました。今日は Confluent 社からの長めの記事を読みたかったので ChatGPT も使いながら読みましたが、非常に便利ですね…。記事本文を読み直すにしても、要約から読み直すと頭に入って来やすいです。要約+日本語訳も試してみたんですが、さすがにかなり時間がかかっていて要約精度も少し落ちる印象ですが、それでも概要把握には十分でした。 今調べたら ChatGPT は有料版が発表されていて、月20ドルなら個人でも全然使い続けられるなと感じました。学習が進みすぎた結果パラダイ…
booksch.hatenablog.com 【本屋物語】02月01日号 Check…Prime Voice AI | #PrimeVoiceAI #AI音声合成 Check…Prime Voice AI 音声合成には非常に興味がありまして、毎日checkしていたりします。で、本日は「Prime Voice AI」 nordot.app www.theverge.com youtu.be note version 内容が多少異なる場合があります。 565回目note記事をUPさせていただきました。【本屋物語】02月01日号 Check…Prime Voice AI | #PrimeVoiceA…
ヤマハの音声合成ソフト「VOCALOID」を使用して動画サイトに自作曲を投稿する、いわゆるボカロPの「家の裏でマンボウが死んでるP」という方が2009年にニコニコ動画にて発表した作品。 家の裏に体長2mはあろうかという巨大なマンボウの死体があった、という訳の分からない始まり方をする歌。 この人の手掛けた歌は本当に訳の分からないタイトルが多いですね。 その内にこのブログでも紹介すると思いますが、その一部を挙げると 「ここにあったシクラメン食べたの誰?」 「金太郎を捌いて刺身にする歌」 「納豆ごしにブレーカーいじったら声変わりした」 何だこの歌は。
今回は告知の告知のような記事です。こんなことをなんとなく考えてますよっていうのが伝われば幸いです。 とくに難しいことは考えずに、簡単に参加できそうな感じのものを計画しております。 企画名 わたしのすきなうた(仮) 音ゲーの動画の投稿祭!機種なんでもOK!曲数は何曲でも(1曲のみでも)OK!みんなの「一番いい曲」を共有しよう!という企画です。 ※期間はまだ未定 ■1.レギュレーション ・音ゲーのプレイ動画であること(オート動画等の譜面確認用動画ではなくプレイは自分でやったものを用意してね) プレイする音ゲーの機種はAC音ゲーでも家庭用音ゲーでもソシャゲでもなんでもOK! ひとつの動画に一機種でお…
どこまで語ったら、次の動画のネタバレにならずに済むか。 みたいなことを考えていたら、動画の尺が短くなってしまいました・・w おそらく、次の part.34 の A/B 面は、超大作になるかもしれないです… ということで、part.33 の B面、投稿しました! ニコニコ動画 YouTube 裏話では、基本的には動画制作のお話を中心にお届けしていきます。 動画本編を見ていただけると、この記事がより楽しめるのでよろしければぜひ。 ニコニコ動画 YouTube 男声イケボ、良き ちょっと小言。 Q. なんでメインに据えないの? YouTube御用達の枠 コメント返しのコーナー! part.32 B面…
どうもブルームレスきゅうりです🥒 ------------------------------------------------------------ 山里亮太の不毛な議論(1/25)聴いた。 この日のスッキリで天の声さんがミスチルのライブ映像に合わせて歌うというお決まりのボケをやったところファンにボコボコに怒られたという話。でもまあ正直スッキリの伝統芸だからね・・・。 Tomorrow never knowsが流れる。やっぱり歌い出す山里さん。 ひとしきりトーク後また流れるTomorrow never knows。さすがに聞かせてくれるのかと思ったらまさかセパさんが歌い出すとは。 おしず…
このエッセイの主な焦点は、人工知能 (AI) の未来です。 AI がどのように成長する可能性があるかをよりよく理解するために、まず AI の歴史と現在の状態を探るつもりです。私たちの生活における人工知能の役割がこれまでどのように変化し、拡大してきたかを示すことで、将来の傾向をより正確に予測できるようになります。ジョン・マッカーシーは、1956 年にダートマス大学で初めて人工知能という用語を作り出しました。この時点で、電子コンピューター、そのような技術の明らかなプラットフォームはまだ 30 年未満で、講堂のサイズであり、ストレージ システムと処理システムは遅すぎてコンセプトを正しく行うことができ…