コンピュータなどで使われる技術で、得られたデータ結果を音声で読み上げる表現手法。 その技術はカーナビ・交通機関の行先案内装置・翻訳機・ゲームなどでの自動応答システムに応用される。 あたかも人間が喋っているように聞こえるための『自然な音声列』を合成するための技術は、永遠の課題ともいえるほど難しいとされている。
はじめに 近年の音声合成は以下のような構造をとることが多いです。 今まで私は主に音響モデル部分を中心に記事を書いてきました。 しかし意外と重要なのがこのテキスト処理部分です。今回はテキスト処理についてまとめていきます。 テキスト処理ライブラリpyopenjtalk 私も最初は自分でテキスト処理の部分を作っていたのですが、なかなか難しいです。 そこで色々調べてみたところ、pyopenjtalkというテキスト処理のライブラリを知りました。 結論から言うと、日本語のテキスト処理に関してはpyopenjtalkライブラリを使っていればそれで問題ないレベルで素晴らしいライブラリです。 GitHub - …
はじめに 以下のような、アニメ風の合成音声を自作する方法を記述します。 「今日はいい天気ですね。」 使った技術 今回はTacotron2という技術を使いました。Tacotron2に関しては以下で説明しています。 Tacotron2による音声合成を体験する - シロワニさんの機械学習ブログ データセット 学習のために、アニメ風の音声を535用意しまいした。そのうち500を訓練、35を検証に分割しています。 項目 数 train 500 val 35 学習の工夫(転移学習) Tacotron2を0から学習させようとすると、5000程度の音声を必要とするように思います(筆者の体感)。しかし、目標とす…
はじめに NVIDIA社が公開しているTacotron2は英語モデルです。 そのため、今回は自分でTacotron2の日本語モデルを作ってみようと思いました。 そこで、前回は日本語のデータセットを準備し、0からTacotron2の学習を行ってみたのですが、データセット 、または、ハイパーパラメータの影響で上手く音声生成できませんでした。 そのため、今回は英語モデルの重みを初期値とした転移学習で試してみたいと思います。 Tacotron2とは Tacotron2に関する説明は以下で行っています。 Tacotron2による音声合成を体験する - シロワニさんの機械学習ブログ データセットとハイパー…
はじめに NVIDIA社が公開しているTacotron2は英語モデルです。 そのため、今回は自分でTacotron2の日本語モデルを作ってみようと思いました。 ちなみに、先に言ってしまうと今回の設定は上手く行きませんでした。上手くいったパターンは以下の「Tacotron2を日本語で学習してみる(転移学習編)」で記述しています。 shirowanisan.com Tacotron2とは Tacotron2に関する説明は以下で行っています。 shirowanisan.com 使用する日本語音声データセット 以下の音声データセットで日本語のTacotron2を作成してみようと思います。 www.ka…
さて、本日は Amazon Polly と Python を使って音声合成(テキストなどによって入力した言葉を読み上げさせること)をしてみようと思います。ここ数年どんどん存在感を増してきている AWS ですが、本当に色々なサービスがあり便利ですね。 Amazon Polly とは? Amazon Polly はテキストをリアルなスピーチに変換するクラウドサービスです。毎月 500万文字まで無料らしいので、非常に良心的ですね。 必要なライブラリ Python で AWS まわりの操作をするには、boto3 というライブラリが必要です。pip install boto3 でインストールしてください…
Tacotron2とは Tacotron2に関しては以下の記事で説明しています。 shirowanisan.com 目的 NVIDIA/tacotron2ソースコードの説明に従いモデルを作成し、NVIDIA提供モデルと同じモデルが作れるのかを明らかにする。 Tacotron2のクオリティに必要な学習数を明らかにする。 github.com データセット NVIDIA提供モデルで使用していたデータセットはLJ Speech datasetという、英語のスピーチを13100個のwavファイルで提供しているものです。以下からダウンロード可能です。 keithito.com サンプルデータとして1つ載…
目次 UbuntuのインストールからGPUで機械学習をするまでに必要なことを記述します。流れは以下となっています。 WindowsでUbuntuインストールUSBメディアを作成 Ubuntuのインストール・初期設定 機械学習のためのGPUドライバ・CUDA・cuDNNの設定 pyenvによるpythonのインストール 機械学習モデルの実行 おまけ:Ubuntuにリモート接続 WindowsでUbuntuインストールUSBメディアを作成 Ubuntu18.04のダウンロード 下記よりUbuntu18.04 LTSをダウンロードします。 Ubuntu Desktop 日本語 Remixのダウンロー…
arxiv.orgあのさあ・・・あのさあ!! できない まず聞きたいんだけど、 これさ、できたやつホントにいるのか?この論文書いてる人は少なくともできていること前提で書いているんだろう ただ、未だにこれのコードがGitに上がってないのは、 ほぼほぼできないって言ってるようなもんだと思うんだが で、 仕方ないから実際に一ヶ月くらい前からネットワーク組んでやってみたけど、 まったくできないな 俺のやり方がおかしいんか?とかそんなこと思って今日ネットワークの可視化してみた画像用意するのも面倒だから(そのうち追記)文章にするが、 アップサンプルレイヤー(FC4層)において母音と子音で数値の分布が同じに…
Tacotron2とは Tacotron2はGoogle社が提案した「テキストから音声に変換するアルゴリズム」です。 論文発表は2017年。しかし、2020年11月現在でも、その生成音声は最高水準の品質です。 下記にその生成音声を載せておきます。肉声と違いがわからないかもしれません。 "This is a pen." Tacotron2の仕組み Tacotron2を使ってテキストを音声に変換する場合は「テキストからメルスペクトログラムへの変換」のあとに「メルスペクトログラムから音声への変換」を行います。 メルスペクトログラムとは、とてもざっくり説明すると声の設計図のようなものです。 Tacot…
目次 目次 論文情報 概要 提案手法 sequence-to-sequence TTS Transformer-based TTS 学習について Decoder pretraining Encoder pretraining VC model training 実験 結果 所感 参考文献 論文情報 arxiv:[1912.06813] Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech Pretraining demo : Voice Tra…
目次 目次 論文情報 概要 提案手法 学習について モデル Loss なぜ学習がうまくいくのか? 実験 結果 所感 参考文献 論文情報 arxiv:[1905.05879] AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss demo : AutoVC Demo https://github.com/auspicious3000/autovc 概要 非並列データを用いた多対多の声質変換において、Zero-Shotの音声変換を可能とする手法を提案。 声質変換分野では、近年はGANが用いられることが多いが、GANの訓練…
Voiceflowの新機能発表イベント「VFV2」のまとめ、その4です。 今回はDesigner/Developer Hand-offについて。新機能(現時点でリリースされているものもあれば今後リリースされるものも含みます)についてはNew!をつけています。 Designer/Developer Hand-off プロトタイピングとデザインは多くの人にとってデザインと検証に最適だが、プロセスはそれだけでは終わらない。 Voiceflowは、最高のデザインツールとしてだけでなく、デザインから開発にプロジェクトを最もかんたんに受け渡せるようにしたい。 エンジニアチームは、Voiceflowが、すべ…
初音ミクがまさかのアニメ化 初音ミク、アニメ化 実写・アニメ・音楽が融合した「Mikuverse」に - KAI-YOU.net クリプトン・フューチャー・メディアがボーカロイド「初音ミク」のオリジナルアニメシリーズを共同制作中 実写・アニメ・音楽を融合させた「Mikuverse」の世界観 クリプトン・フューチャー・メディアの創業者でCEO・伊藤博之さん含む3社のCEOがエグゼクティブ・プロデューサー 初音ミクの本質に忠実なアニメが作られる 初音ミクは2007年に音声合成ソフトウェアとして誕生 声優は藤田咲さん。歌声データと音楽の合成 名曲は「みくみくにしてあげる♪【してやんよ】」 二次創作が…
よくできてる。基本的にはパワプロのサクセスモード。レースは作戦だけ決めて見てるだけなので他の競走馬SLGのそれと同じ。 ダビスタは馬のステータスが見えないのが良いこととされているんだけど、ゲームとして考えてみると指針がなく、なんかよくわからんけどいい乱数引けたねみたいな感じになりやすい。ウイポはステータスはだいたい見えてて、ステータスどおりに決着がつきやすく、SLGとしてはよくできてるけどダビスタほどのロマンがないともよく言われる。 ウマ娘がどっち寄りかというと、ステータスが見えてるのでウイポ寄りかと思いきや、ウイポよりも不確定要素が大きく、かといってダビスタSwitchほどよくわからん負け方…
1: メカ名無しさん 2011/09/20 17:01:47 ID:0S9R7t9Zまずジェミノイド、あれ**イだろ?あれを改良するんだ。5レスついたらやる気出す。 3: メカ名無しさん 2011/09/21 20:02:08 id:gECHSqDeもう耐えられないから書き始める5: メカ名無しさん 2011/09/22 00:54:00 ID:7qgEPFrWがんがれ7: 1 ◆0cz0xuSzZlXx 2011/09/22 15:31:08 id:ulQg1dBjごめんゆっくり書くからたまに見に来て… まず、大阪大のとかも含めて、軟質素材で機械を覆うような形では人造人間的アンドロイドは作り…
今日は、エーアイについて書いてみようと思います。 この会社は、2018年に新規上場した会社で、昨年、がっちりマンデーで特集されていて興味を持った会社。 社長が脱サラで起業して、長年研究開発してきた、音声合成の技術を事業化した。 会社はすごく小さな会社だが、大企業と渡り合っている感じは、応援したくなる会社。映像で見る限り社内の雰囲気もよく、女性が多く働いている会社。 事業内容も、身近なサービスを提供しているのでわかりやすいサービスで、独自の強みを持っている企業なので注目している。 2019年当初ぐらいからステージ1の銘柄だが、業績は右肩上がりの会社で売上成長率は10-20%、今期は、コロナウイル…
お題「#この1年の変化 」 はじめにそういえば今年の抱負をまだ書いていませんでした。いつのまにかもう今年も2月が終りそうです。。。 この一年の変化大量に記事が溜まってしまっています。本来なら自宅時間が増えて公開する記事が増えそうなもんですが、生活のペースが変わってしまって、ロボットの制作や実験の時間が増えて、かえってブログの更新が滞ってしまっています。 他の趣味や家庭菜園もあるので、本来ロボット制作に使えるのは週末の半日程度でした。そして制作や実験などを、週なかに一日30分くらいずつちょっとづつ記事を書いて行き、週末にアップするルーチンでしたが、外出自粛の影響でロボット制作に使える時間が増大し…
手軽にROSで音声合成がしたくてtts-ros1パッケージを使ってみたので、そのメモ。 音声合成にはAWSのクラウド音声合成サービスAmazon Pollyが利用される。クラウドなので、ネットワークが必須で、ちょっとだけお金もかかる。(日本語だと100万文字で4ドル。1年間は無料枠あり) けど、その代わりに呼び出し元のリソース少なくても動く。 英語、日本語など8言語に対応。 音質は自分としては十分過ぎるほどレベル。 音声合成のサンプルはこちら参照。 AWSにサインイン後はこちらで色々試せる。(無料かどうかは未確認。有料かも。) ROS2向けのtts-ros2というパッケージもある。 発話方法を…
人工知能をクラウドベースで提供するサイトを集めてみました。 AIアズアサービスともいえるウェブサービスです。 これらのサイトを利用すると、人工知能が使えます。 もう人間が記憶したり思考することは時代遅れになるのかもしれません。 人工知能が使えるサイトとは? 人工知能サービスの種類は? 人工知能の問題点とは? 国内のクラウド人工知能サービス A3RT Neural Network Console(SONY) AIメーカー テキストマイニング 自動要約ツール 海外のクラウド人工知能サービス アマゾン・マシン・ラーニング アズレ オービットAI グーグル・プリディクションAPI セルドン ダンデライ…
久しぶりの更新となりました。 理由はいくつかありますが一つ挙げるとするならば、YouTubeですね。 そうです、YouTube始めました。 そちらを更新するとブログで書くネタが無くなってしまいます。逆も然りですね。 そして今日ブログを更新しているということは編集が追い付かなかった… というYouTuber的なことでも言えたらいいんですが、ただただ撮影していないのです。 撮影は基本家族に聞こえにくい時間にするのですが、昨今の情勢的に難しくなってきました。 それでも撮影できるときで、撮影したいときはします。 私は毎日投稿ではないので、更新の頻度が落ちたところで再生数が落ちるくらいのデメリットしかな…
こんにちは!こーたろーです。 Deep Learning の2021年度の学習計画をそろそろ立てようかと思っています。 いい参考書などありましたら教えて頂けると幸いです。 それでは今回も【図解速習DEEP LEARNING】やっていきます! 今日は、「mimi」というWebAPIサービスを利用していきます。 こちらは、フェアリーデバイセズ株式会社が提供しているものです。 mimiのアカウント作成 アプリケーションIDおよびクライアントIDの発行 アクセストークンの取得 音声認識を試す mimi🄬 ASR 版 mimi🄬 ASR powerd by NICT版 機械翻訳を試す 音声合成を試す
はじめに この記事はFM音源について解説していく記事…ではなく、 私がFM音源について勉強したことを記録代わりにメモっていくものです。 間違って理解していることなど多々あるかと思いますので、 訂正などありましたら教えていただけると幸いです。 ・FM音源とは? ゲームで遊んでいる方なら一度は聴いたことがあるかと思います、FM音源。 Frequency Modulation(周波数変調)を使用した音声合成音源のことです。 これはチップチューン、ファミコンの音源。 パルス波2ch、三角波1ch、ノイズ1chの4音構成です。 大抵は1音を効果音に使用しているので、曲自体は3音なのが多いのではないでしょ…
ROS上で音声合成を使ってみたくて、sound_playを動かしてみたので、そのメモ。音声合成は思ってた感じと違ってたものの、音声ファイル再生は便利そう。 動作確認環境 インストール ノード起動 テスト再生 音声ファイルの再生(WAV、OGG) 内蔵サウンドの再生 音声合成(TTS) メモ リンク 動作確認環境 OS: Ubuntu 18.04 (Parallels Desktop 16 for Mac上で実行) ROS: Melodic インストール sudo apt-get install ros-melodic-sound-play ノード起動 音声を再生するためには、まずはノードを起動…
今週の記事でも取り上げていますが、今週はネタ曲投稿祭がニコニコ動画上であり、投稿された楽曲をチェックするのが楽しかったです。 ネタ曲投稿際タグたどってると、楽曲や動画のクオリティ関係なく、視聴者を笑わせよう/喜ばせようという動画が多く見つかって、なんだか古き良きニコニコ動画を思い出すな。 — NAT(ナット) (@nat0468) 2021年2月20日 #ネタ曲投稿祭 色んな楽曲が楽しめるのもあるし、色んなPさんも知ることができるのも良い。ネタ曲と言っても、その作者の普段の作風も垣間見えるので、そこから他の曲も気になってマイリスたどったり。 — NAT(ナット) (@nat0468) 2021…
はじめに こんにちは!DENXで機械学習をやっている京田辺三回生のryです。 前回のブログから約一年半ぶりのブログとなります。 この一年は機械学習の創作活動から離れて、主に自然言語処理の機械学習コンペティションに出場したり、長期インターンに参加したりしていました。 結果としてはKaggleで銀二つ(上位1%と2%)を獲得し、Kaggle Masterに王手をかけるところまで行きました。
www.youtube.com 昔、【初音ミク】って聞くとマニアックなイメージを持っていて自分は聴かない音楽だなって勝手に決めつけてました。 この 【鏡音リン】も【初音ミク】と同じボーカロイドという音声合成エンジンを使ったキャラクターの一人です。 ボーカロイド人気が高かった当時の音楽を崇高する方も多く今も人気な楽曲も沢山あります。ただたまにこの曲などのようにコメントみると「当時は良かった」なんて言葉を見ると…自分で扉を閉めている気がして勿体ないと感じます。 自分も一時期、もう「聴く音楽」はないと思ってました。 10代で色々凄いアーティストさんを国内外問わず聴いてきて、そのアーティストが解散や制…