音声合成もろもろ - Game Scripting Memo

歌声合成

歌声の音声合成ソフト VOCALOID の 2 が、先日発売されたようですね。キャラクター・ボーカル・シリーズ01 初音ミクという名前だそうです。Web ページ上にサンプル曲が3曲載っていますので、ぜひ視聴してみてください。ちなみに、職能のある方が作り込むとこのくらいのレベルまで行けます。

初代 VOCALOID から、歌声の音声合成では（製品化されているものの中ではもちろん、研究段階のものを含めても）最終アウトプットのクオリティには定評がありました。初代では、MEIKO や MILLIAM など複数のパッケージが用意されていましたが、今回も数ヶ月間隔でまだ何種類か出るようですね。初代でも、MILLIAM のデモは日本人にとってはかなり違和感なく聞けるレベルだと思いますし、今回の2はさらに磨きがかかったように思います。日本語の曲だとさすがにイントネーションの微妙なニュアンスで不自然さは分かってしまいますけどね。

このレベルまで合成で行けるのであれば、歌関係のゲーム企画で可能性が広がるものもあるのかと思います。もっとも、現状では、まだ音ごとの表情など、細かく手でつけないといけない部分も多いですので、音符データと歌詞のテキストだけデータで入れれば OK という状況ではないことに注意は必要ですね。ただ、曲さえ大量に用意できれば、あとはモーションを手でつけるのと同じようなノリの人海戦術で大量の歌唱データを作成できる、という利点はあります。また、パラメータを調節することで、徐々にうまくなっていくのを動的に演出したり、声色を何パターンも用意して切り替えたり、といった、合成ならではの利点もあります。

まぁ、ぶっちゃけ、アンドロイドが歌う、といった企画は非常にベタですけどね……。それでも、1タイトルくらいは売れそうな気もしなくもありません（＾＾；ちなみに、既存の例としてはくまが歌うゲームなんかがあったりします*1。

通常の音声合成

一方、歌ではない通常の音声合成の現在のレベルはどのくらいか、ということになりますと、ペンタックスの VoiceText のデモや日立の音声合成技術のサンプルなどをお聞きいただければ分かるように、自然な読み上げと言うにはあと一歩という状況です。特にペンタックスの読み上げは次世代音声合成のレベルにあるのですが、実はテキストだけの情報からこの品質の読み上げを自動で行うには、かなり大量のデータやメモリ（VoiceText でディスク800MB/RAM 256MB）を必要とするため、PC ならともかく、家庭用ゲーム機ではまだまだ難しいというのが現状かと思います。家庭用ゲーム機の厳しいリソースで採用できるレベルでの最高品質は、日立の「DS版 Ruby Talk」でしょうか。

自然な音声合成を実現するに当たって、もっとも難しいところは、自然な韻律（イントネーション）でしゃべらせることです。いくら音と音の繋がりが自然でも、日本語として韻律が少しでもおかしいと、不自然さに気付いてしまうのが問題なんですよね。ですので、次世代の音声合成では大量の韻律データベースを用いて、韻律をいかに自然にできるかがポイントとなります。

歌声合成のほうが自然に聞こえるのは、歌はメロディによって韻律もかなり強く制約されるために、かえって合成がしやすいというのが理由です。外国の方が日本語の曲を歌ったときに、意外に自然に聞こえたりするのも同じ理屈ですね。さらに、母国語以外の韻律の不自然さに気付きにいですので、結果として VOCALOID の MILLIAM のサンプル曲は、我々には妙に自然に聞こえてしまったりするわけです。まぁ、MILLIAM に関しては、サンプルを作る人のスキルが高かった、というのもあるとは思いますが。

そんなわけで、もしもゲーム内の通常の文を音声合成で読ませる場合は、無理に人間らしい音声を追求してもうまくいかないことが多いでしょう。むしろ、ロボットや異星人のように、おかしなイントネーションでも構わないというキャラ付けを積極的に行った方が無難、というのがここしばらくの状況になるかと思います。

なお、無理にキャラの台詞まで音声合成をするとどんな状況になるのか、というサンプルに関しましては、DS の甲虫王者ムシキング2の「しんきのう」である、ガイドボイスをぜひ Web ページで体験していただければ。もっとも、小学生低学年の男の子相手だったらむしろ「大喜び＆ふりがないらず」のグッドアイデアだったりするのかもしれないんですけどね。

あとは、オフラインでの素材作成に限定してしまうのであれば、PC 上で音声素材を作成するために音声合成を使用する場合に、韻律を自然にするためにマイクで実際に自分で読み上げてその通りの韻律で音声合成をさせる、という手法もあります。自分のしゃべった内容をボイスチェンジするようなイメージですね。ComicStudio の会社が販売している NarrationStudio というソフトは、その手法も使える音声合成素材作成ツールのようです。実際にどのくらい使えるのかは分かりませんが……*2。

プレイヤー名の音声合成

また、音声合成のもう一つ面白い手近な応用としましては、プレイヤーの名前だけを合成してくれる、というものがあります。AIVoice の Personal Voice というソリューションがまさにそれです。何人かの実際の声優さんの声で名前を合成してくれるデモが Web ページ上にありますので、興味があれば試してみてください。ちなみに、どうやら、4文字以上の名前は苦手そうです……。

もっとも、プレイヤーの名前を音声合成してくれる機能は、ときメモ２から EVS(Emotional Voice System) という名前で搭載されていたわけです。その後、まねをするタイトルはなかなか現れなかったわけですが、近年の音声合成技術の向上と処理能力の向上で、多くのゲームでも現実的な状況になっているのかもしれません。それにしても、実は EVS を試したことがないのですが、どのくらい自然だったのでしょうか……？（と、「ときメモ」と言えば……と連想する大先輩のコメントをお待ちしてみたりしつつ）

なお、この用途で使用する場合は、地の文は合成せずに普通に声優さんの声を収録して、一部だけ合成することになると思います。その場合、技術を採用する際の重要な要件として、カスタマイズボイスとして任意の声優さんの音声を合成用のデータに変換するのにかかる工数がどのくらいか、ということを確認する必要があります。エンジンによっては、サンプル音声を音素レベルで切り出してから手作業で変換するような場合も多く、数ヶ月かかることもざらだったりします……。

また、反対に、声優さんが、音声を合成用に加工して構わないと思っているかどうかも問題になる可能性もありますね。音声合成が真に発達してしまった暁には、自分の声を元にした合成エンジンに自分の仕事を奪われる、ということになりかねませんので、気にする組合があってもおかしくありません。

以上、門外漢が語る音声合成技術の今、でした。間違いがあったら遠慮無くご指摘下さいませ……。

追記: 声のモーフィング

音声の合成といえば、以前にも書いたこともある、声のモーフィングという技術もありました。複数の声を任意の比率で自然に混ぜ合わせることができる、というものです。リンク先には、Flash でのデモがありますので、触ってみるのが早いかと思います。

デモでは感情表現が異なる複数のしゃべり方を混ぜていますが、おそらく、別人の声を混ぜて使う、なんてこともできるんじゃないかと思っています。１からの音声合成よりも、こうやって既存のもの（肉声）を自由にミックスできる、という技術のほうが安定度が高いですし、いろいろ工夫もできそうですよね。今後、リアルタイムでゲーム機上で動くくらい技術がこなれてくれば、けっこう早いタイミングで実用になりそうな気がしています。どこかでミドルウェア化してくれたりしないものでしょうかね〜。

*1:くまうたが使用しているエンジンはアニモの "FineSpeech" です。

*2:これもエンジンはアニモの "FineSpeech" ですね。わざわざオフラインで使う品質なのかは……。