音声合成と歌声合成の差異

一部で話題だそうです。楽譜データと読みデータと各音素データから歌声を合成するソフトがかねてより話題だったわけですが、自然な歌声にするにはハンドチューニングが欠かせなかったそうで、その分を学習(たぶん)する技術が「すごい」んだそうです。さて、音声合成素人の私がコメントするのもいかがなモノですが、音声合成でいちばん難しい(んだろう)のは、各単語の発音をどういう音程にするかという部分なわけです(と思う)。不自然に聞こえる合成音声は、ほとんどがイントネーションがおかしい。つまり、音程がおかしい。この音程をユーザーが提供してくれる歌声合成の場合は、一般の音声合成より簡単なんじゃないかなぁと思います。今まで聞いた感じだと、一般の音声合成の場合、基本となる単語のイントネーションデータ(あるいは規則)があって、それにルールベース(あるいは学習)で単語の音程をつなげあわせて発話の音程データを作っているようです。それと比べると、この研究の場合は楽譜データがある状態から自然な人間の歌声に近寄らせる学習をすればいいという点で、うまくいったのかもしれません。推測です。ちょっと音声合成屋さんのはなしを聞いてみたいなぁ。

余談。さて、この技術をみんなが「すごい」と思うのは注目に値します。だって、自然な音声発話、オレ簡単にできるし・・・。みんなできるでしょ?*1 簡単にできないところの翻訳を機械が(ある程度)できるようになっても誰もさわがないのにね! 背後にハンドチューニングが大変という事実をみんな知ってるという点があるからなのかなぁとか邪推してます。

# ところでこれって音楽情報科学なの?
# 産総研の後藤さんって、Podcastle の? うーん、インパクトの出し方がうまい

*1:この技術が簡単だといっているわけではありません。わかると思うけど