POP2*5(ポップにーてんご) RSSフィード

2007-09-30

[]初音ミク」(合成人声ソフト)のルーツを訪ねて

VOCALOID2 HATSUNE MIKU

VOCALOID2 HATSUNE MIKU

 最近、「ニコニコ動画」にハマっている。一昨年秋ごろ、「YouTube」を初めて知ったとき以来の衝撃だ。各自がアップした映像を軽量なFLVファイルに自動変換して、こそこそファイル交換するんじゃなく、公開して皆で観れるようにした初めてのサービスが「YouTube」。そのアイデアを絶賛し、週刊誌の記事で「世界でいま一番観られているテレビ」と紹介したほど、「YouTube」を完成されたコミュニケーション・システムと評価していた私だが、まだまだ次があったとは! ひろゆき氏というか、この技術の土台を考えたプログラマーはすごいね。さすが2ちゃんねるを考えた人たちらしいというか、実況掲示板みたく、映像に時間経過に合わせてレスを付けられるなんて、思いついたヤツは本当に偉いと思う。なにが人の気持ちを駆り立てるのか、コミュニケーションの本質をわかってるんだろう。まったく分野外の私なのに、これにはジェラシーを感じてしまった。

 アニメソングに合わせてCGキャラが踊る「アイドル・マスター」という、ゲームの場面を編集した映像もいっぱい上がっていて、どれもクオリティが高くて驚いた。私はてっきり、そういうコレオグラフィー作成ソフトがあるんだと思っていたらそうではなく、これってゲームのただの一場面で、それをさまざまなカットアップやテンポ編集で組み合わせたものが、「ニコニコ動画」にアップされている自家製PVだと聞いて、二度ビックリ。アマチュアの執念を見る思いだ。「Google Video」や「YouTube」でも、未来の映像作家の卵を集めようとさまざまな趣向を凝らしてはいるが、参加者のクリエイティヴィティという意味では、「ニコニコ動画」のほうがずっと先を行っているかもしれない(非合法問題はこの際置いといて)。で、この「ニコニコ動画」を見ていた時、私は「初音ミク」というキャラクターが今人気だということを初めて知ったのだ。よく、仕事で調べ物をしている時などに、テクノラティの検索ワードランキングの上位にこの名前が上がっていたけれど、私はてっきり『AV無理』の初音みのりのパチモンAV女優かなんかのことだと勝手に思ってたのだ(笑)。その正体がこのCGキャラクターというか、PCソフトだったんだな。

 「初音ミク」をご存じない方に説明しておくと、テキストを入力してメロディーを指定すると、あらかじめインプットされた人間の発声フォルマントに基づき合成人声が歌を歌う、プラグインというかシーケンスソフトのこと。最初見たとき「ヤマハVOCALOIDみたいだなあ」と思ったら、やはりヤマハの技術のサブライセンスを受けた商品であった。「VOCALOID」の技術は、ヤマハXGという音源モジュール用のプラグインボード「PLG100-SG」として10年ぐらい前に商品化されているし、それをソフトウエアエミュレートした「VOCALOID」のプロトタイプも、やはり5年以上前から『DTMマガジン』などの雑誌付録のCD-ROMにしょっちゅう付いていた。私はマカーなので、Windowsオンリーの「VOCALOID」は、まったくノーマークだったのだが……。メーカーとしてヤマハが「VOCALOID」のソフト版を出すという知らせは結局聞かずじまいで、すでに5年以上が経っていたけれど、実はこっそりサブライセンス化して他社から商品が出ていたんだな。「初音ミク」の発売元であるクリプトン・フューチャー・メディアは、これも有名な海外製の合成人声ソフト「CANTOR」をディストリビューションしているメーカーだから、理には叶ってる。けれど、パッケージ版「初音ミク」が大ヒットして品薄なんていう今の状況は、クリプトンのほうも予想だにしなかったのではなかろうか。マイナーな合成人声ソフトが一般的に売れるわけないと見越して、たぶんヤマハは自社で商品化しなかったんだろうし。あるいは、ジョン・チョウニング博士のFM音源の発明を独占してDX-7を売るために、95年までFM音源の独占販売権を取り博士にライセンス料を払い続けていたヤマハだから(それでシンクラヴィアはFM音源撤退を余儀なくされた)、商品を売るよりも、技術のライセンス商売のほうがおいしいことに気づいたのかも。

 ところで、合成人声のテクノロジーは、けっして新しいものじゃない。その大本となる、アナログ音声をデジタル符号として記録、伝送するPCM(パルス・コード・モジュレーション)の技術は、パーソナル・コンピュータ黎明期である50年代から、NASAやペンタゴンから依頼を受けて、ニューヨークのベル研究所で開発が進められていた。衛星放送の遠隔通信や、アポロ計画の打ち上げ機との交信のため、距離に乗じて通信ロスが増えたり干渉波によるノイズが起こるアナログ通信に代わって、デジタル符号化してエンコードデコードするデジタル通信が、時代の花形として登場した歴史がある。54年に、最初に完成したシンセサイザーRCAミュージック・シンセサイザー」も同じ原理を用いており、パンチカードにデジタル符号化したデータを、コンバータでアナログ音声に変換してスピーカー再生するメカニズムだった(65年に初めて商品化される、モーグシンセサイザーの“倍音減算合成”はまったく別物)。この実験の最初のころに、すでに有名なオペラ歌手、シャリピアンの独唱を音声合成して披露したという記録もある。日本でも70年の大阪万博で、合成人声のアトラクションが人気を呼んでいたのを、拙者と同世代の方なら覚えているだろう。

 ちなみに、ロボ声と聞いて連想する、YMOの「TOKIO!」でおなじみヴォコーダーは、まったく原理は別物。これは元々、ホーマー・ダドリーという技術者が第二次大戦時に、敵軍に通信内容を傍受できないようにする秘密通信のために、声をフィルターで符号化してエンコードデコードする装置として考えられたもの。イギリスのEMSがこの技術を応用して、コーラス・マシンとして楽器販売したことから、ドイツのゼンハイサーなどが追随して広まったもの。リアルタイムでしゃべった音声を、切り刻んでわざと劣化してロボ声にしたものである。喋った声を加工するこっちを、縫いぐるみを着て人間が演じるSF映画と例えるなら、合成人声ソフトのほうは、プログラミングでまったくのゼロのキャンバスに、ベジエで軌道を描いてポリゴンやテクスチャー動かすCG的と言えばいいのかな?

 ダサダサのFM音源を採用していたMS-DOSマシンと違って、最初からPCM音源を搭載していたマッキントッシュでは、ハイパーカードなどのソフト上でテキストを入力して人声に喋らせるための基幹アプリとして、「MacinTalk」というソフトが標準装備されていた。そのフォルマントを利用して、メロディーと歌詞を入力して歌わせる「Vocal Writer」という、SYSTEM7時代からあるかなり古いシーケンス・ソフトもある。クラフトワークテレックスが演出に使っていたコンピュータ・ヴォイスも、正体は同じようなものだろう。その後、CPU演算能力が向上し、合成人声もよりナチュラルなものに進化。テイ・トウワ氏が『Last Century Modern』で使った、マルチリンガルな発声プログラムCHATR」(チャッター)のように、あらかじめ任意に数百のキーワードを読み上げて記録しておき、テキストを入力するとまるで本人の癖そのままに文章を読み上げる、ワークステーション用のソフトも登場した。「CHATR」はマルチリンガル対応がウリで、テイ・トウワ氏は韓国語のモノローグを入れていたが、その後ペ・ヨンジュンの映画かなにかで、ヨン様の声を解析した合成人声が日本語で喋る副音声が入っているDVDがあったと思うので、それも「CHATR」が使われてたんじゃないのかな。砂原良徳氏の使っている合成人声も、おそらくコモドール社の専用機だったはず。その後のパーソナル・コンピュータの高性能化に併せて、「Vocal Writer」の次世代ソフトとして、マック&ウィンドウズ用に「CANTOR」という秀作プログラムが発売。「CUBE」など凄いソフト・シンセばかり出しているVirSynだが、「CANTOR」も最初から完成されており、男性、女性などのフォルマント・データを後からプラグインとして提供するスタイルを取っていた。いうなれば、「初音ミク」にとって外国に住むお兄さん、お姉さんみたいなものだ。

 マック用として唯一の合成人声シーケンサーだった「Vocal Writer」は、たぶんコーネリアスFantasma』などで使われているのもこれだと思われる、今でも現役のソフトだが、英語圏の開発ソフトだったため、実は日本語で歌わせるのが困難だった。英語は、あいうえお=「a」「i」「u」「e」「o」と、日本語のように子音母音の音節が分かれているわけではないので、ローマ字や、似たような配列文を書いても、日本語みたいな滑舌で発音させるのがかなり難しかったのだ。これはおそらく、ドイツ産の「CANTOR」でも同じなのではないか? 「初音ミク」は国産ソフトで、フォルマント生成の段階から日本語環境で作られたものだから、そういう意味ではこれも第三世代ソフトとして、重要な位置を占めるものと言えるかもしれない。

 本来はアニメ声で歌を歌わせるソフトなのだが、自由に文章を喋らせられるということで、「ニコニコ動画」には「初音ミク」にエッチな小説を朗読させたものなんてのもあったりする。本田透氏じゃないけれど、自分宛のラブレターかなんかを書いて「初音ミク」にしゃべらせている同輩もいるんじゃないの(笑)。こういうヲタパワーを誘発している商品と言えば、88年にPCエンジン用に出た、アイドル小川範子主演ソフト『No・Ri・Ko』というのもあった。ゲーム開始時に自分の名前を登録しておくと、ゴールインする時に小川範子が登場し、自分の名前を呼んでくれるというたわいもないもの。当時務めていた会社にこれが置いてあって、みんな勝手に「オ●コ」「チン●」とか入力して、小川範子にイケナイ言葉を言わせていたのを覚えている(早稲田の近くにある会社だったので、本人が聞いてないか冷や冷やもんだったが……)。ところが、同じようなことを考えるヤツは全国に100人はくだらなかったようで、以降に登場した同様のソフトではあらかじめ登録NGワードが辞書として組み込まれ(おそらく事務所サイドの意向なのだろう)、「ウ●コ」とかダーティ・ワードが入力できなくなっていて、敵の然る者と思ったのだが(笑)。けれど、小川範子にしたところで、当時の技術で無理矢理商品化した『No・Ri・Ko』では、せいぜいサンプリングした50音を組み合わせて鳴らしているだけ。とても小川範子がしゃべってると思えないロボ声だったので、色っぽさもなにもあったもんじゃなかったが。

 実際に触ったわけじゃないけれど、そういう意味では「初音ミク」の完成度は相当なもの。トーンの揺れやブレスなど、色っぽさもちゃんとプログラムされている。任天堂ばりの「枯れた技術の水平思考」で、こういう声フェチにはたまらない“人工人間”を作ってしまったわけだから、改めてヲタパワーの偉大さに敬服する。「芳賀ゆい」や「DK-96(伊達杏子)」みたいに(←わかる人だけついてきてちょ)、本当にヴァーチャルアイドル声優なんてのがデビューしてもおかしくない時代なんじゃないだろうか。一説によると「初音ミク」の声紋データも、藤田咲という実在の若手声優の声のフォルマントを合成して作られたものだそうで、この第1弾ヒットを受けて、今後もアニメ声優シリーズは続いていくらしい。「高島雅羅ヴァージョン」なんてのが出たら、マカーの私でも買うだろうな……(笑)。だが、サンプラーが世の中に登場してすぐのころ、英国の演奏家協会が「我々の職域を奪うツールである」として、発売中止のクレームを付けた歴史もあるように、いくら技術が進んでも、声優組合の反対にあって現実には無理だろうけど。少なくとも、敬愛する羽佐間道夫先生のヴァージョンは出ないはず。

 ただ、一つ思うことはある。人間の声というのも、歳を取ればおのずと変わっていくもの。若いころの自分のヌードを撮っておく女性の話じゃないけれど、どうせ歳を取ってから開き直ってヌードになるんなら、若い頃に写真を撮っておけばよかったのにと、昔好きだった妙齢のアイドルや女優のセクシーグラビアを見て思うことがある。昨年、私の好きな声優武藤礼子氏が亡くなられたけれど、もう少し早くこうした技術が普及していれば、武藤礼子のセクシー・ヴォイスを未来永劫に保存できたかもしれないのに。「放送禁止用語を処理するため」という、それだけの理由で、味気ない新人声優に声を吹き替え直させたリニューアル版『ふしぎなメルモ』を見ていると、もしヴァーチャル武藤礼子が実現していたら、それにやらせたら100倍いいものに仕上がったのではないかと、あらぬ想像をしてため息をつくばかりだ。


 では、最後に「初音ミク」のルーツとも言うべき、合成人声を記録したレコードと、ウチの古いマックに鎮座ましましている、関連ソフトを紹介しておこう。もし興味を持ってもらえたら、このへんの歴史を『電子音楽 in JAPAN』、レコードを『電子音楽 in the (lost)world』というディスクガイド本で紹介しているので、ぜひ読んでみてちょ。


f:id:snakefinger:20070929235020j:image f:id:snakefinger:20070929234907j:image

こちらは、ヤマハが関係者に配布していた初代「VOCALOID」のデモディスク。5年以上前から『DTMマガジン』が毎号サンプルを紹介していた、開発〜完成まで長い歴史があるのだ。ちなみに「初音ミク」は、次世代にあたる「VOCALOID2」の商品化第1号ということらしい。

f:id:snakefinger:20070929235022j:image

こちらは一足先に商品化されていた、ドイツのメーカーVirSynの「CANTOR」。同じようにスコア上に歌詞とメロディーを打ち込んで、ソロやコーラスを発声させるしくみ。VirSynは、倍音加算合成によるモーフィング・サンプラーCUBE」など、すごい商品ばかりを出しているメーカーなのだが、マシンパワーを食うので、民生機のマックではとても追いつかない。このへんに、ソフト・シンセではウィンドウズ勢に太刀打ちできない弱みがある。

f:id:snakefinger:20070929235019j:image

さらにさかのぼって、おそらくもっとも古い合成人声歌唱ソフト「Vocal Writer」。マックオンリーで、現在でもOSX版がダウンロードで入手できる。旧マック時代から音声もそのままでクラシカルな味わい。しかもかなり軽い。あえてロー・ビットなロボ声が欲しい向きにはオススメ。

f:id:snakefinger:20070929235021j:image

初音ミク」が「枯れた技術の水平思考」なら、その一歩先を行くのがこのソフト。「Melodyne」はシーケンサーというより、グラニュラー・シンセシスの原理を利用したマルチトラック・レコーダーで、取り込んだ音声データを、あとから粘土みたいにグニャグニャ変形できるもの。ソロ・ヴォーカルを複数のトラックにコピペして、山下達郎ばりのアカペラが簡単に作れる。最新ヴァージョンは、録音時にピッチ情報を勝手に検出してくれるので、録音したデータのピッチを、なんとMIDI鍵盤で変更できる。男声を女声や子供の声に変えるなどのフォルマント変形も見事で、いわゆるハーモナイザー(「ドリフの早口言葉」で使ってるやつ)やテープ早回し声のような不自然さがないのに驚嘆。

f:id:snakefinger:20070929235501j:image

ここからは、「初音ミク」のルーツをたどるレコード編。アナログ音声のデジタル符号化は、アポロ計画の時代からニューヨークのベル研究所(電話の発明者アレクサンダー・グラハム・ベルが創立したAT&Tの技術開発部門)で研究されていたもの。アイゼンハワー大統領の初の衛星中継演説などがレコードとして残っているが、これも同所が関係者に配布していた非売品レコードのひとつ「Computer Speech」。57年に、大型コンピュータIBM704のために作られた「ミュージックI」という最初のプログラムのデモレコードで、シェークスピアハムレット」などを朗読させている。

f:id:snakefinger:20070929235534j:image

これも同所が制作したブックレット+10インチ・レコードのBOX『Music From Mathematics』。コンピュータ音楽のルーツである「イリヤック組曲」やジョン・ケージの易の音楽(チャンス・オペレーション)用の自動作曲作品など、コンピュータ音楽の歴史を綴ったもの。ここでも合成人声が挨拶し、歴史を紹介している。

f:id:snakefinger:20070929235535j:image

IBMコンピュータを使って人声を合成する「ミュージック」シリーズのプログラムは、「PCMの父」と言われる、ベル研究所行動学研究センターのマックス・マシューズ博士の発明。本作『Music From Mathematics』はその最新技術を紹介しているレコードで、デッカからリリースされた。この中に「Bicycle Built For Two」という当時の流行歌を合成人声が歌うトラックがあるのだが、これが映画『2001年宇宙の旅』でHALが暴走した時に歌う、「デイジー〜♪」の歌のヒントになったと言われている。

f:id:snakefinger:20070929235500j:image

これもマシューズ博士のプログラム「ミュージックV」を使用した曲を集めたアルバム『Voice Of The Computer』。同所は数多くの気鋭作曲家を集めたワークショップを行っており、その中にいたのが、ケージが「アメリカ現代音楽の一匹狼」と一目置くジェームズ・テニー。YMO「来るべきもの」に先駆ける無限上昇音「For Ann(Rising)」で知られている作家だが、そのプロトタイプとも言うべき音によるエッシャーのだまし絵「Shepard's Tones」などを収録している。

f:id:snakefinger:20070929235536j:image

コンセプト主義の現代音楽の世界でも、当時のトレンドだった合成人声の新技術を取り入れた作品が数多く残されている。人声を素材に作品をたくさん発表しているチャールズ・ドッジもその一人。声の変調カットアップなどのさまざまな手法が取り入れられた傾向の中で、本作は特にコンピュータ・ヴォイスを主体とした作品を集めたもの。「Speech」というIBM360用のプログラムが使われている。

f:id:snakefinger:20070929235503j:image

これは、コンピュータ・ヴォイス作品を数多く発表しているポール・ランスキーの『ALPHABET BOOK』。声を素材に美しい和声で聞かせるランスキー作品は、どれもニューエイジ愛好家から評価が高い。本作はA〜Zのアルファベットを題材にした連作で、コリン・ニューマンのソロアルバムみたい。

f:id:snakefinger:20070929235459j:image

次は日本製の作品を紹介。バラエティ番組などに登場しては、「美空ひばり宇多田ヒカルの声には1/fゆらぎの成分がある」などとトンデモ発言で沸かせている日本音響研究所鈴木松美博士が、自らの研究発表として出したレコード『過去との遭遇』。実はこの人、ベル研究所でその技術を学んだという元警察研究所の音声鑑定の第一人者。このレコードコンピュータによる合成人声の技術を応用し、残されている絵や骨格写真を元に、織田信長、豊臣秀吉、リンカーンなどの声を復元したというもの。マンモスの鳴き声とかも入っててやりすぎ感はあるが、芳村真理の写真から合成した声というのも入っていて、確かに似ているのに驚く。

f:id:snakefinger:20070929235502j:image

うる星やつら』の劇音楽で知られる、元クロスウインドの安西史孝氏が在籍していた幻のグループ、TPOが出したシングル「HOSHIMARUアッ!」。85年の筑波万博のために作られた公式ソングで、キャラクターがしゃべる宇宙語をヒントにした星丸語を、パーソナル・コンピュータのはしり「アップルII」の合成人声カードに歌わせている。星丸語を考案したのは、先日逝去された阿久悠氏。つくば世代にはぜひ、「初音ミク」に歌わせた阿久悠追悼トリビュート・ヴァージョンを作っていただきたい。