音声合成の最先端

HITACHI の研究所の話題が出たので、どういうことやってるのか見てみたら、音声合成のデモがあった。

http://www.hqrd.hitachi.co.jp/crl/rc_technologies_naya.cfm

！！！　これはスゴイ！　真ん中らへんにリンクがあるので是非聞いてください。久々に感動したよ。ちょっと前に、わりと簡単に手に入れられるサンプルを聞いて、日本語はこのくらいなのかとがっかりしていたが、HITACHI のサンプルを聞いた感じだとこれはそのまま実用化できるんじゃないのかと思ってしまう。あとは、実行時間とか、未知語をどうするかとか気になる。そもそも、手法それ自体よくわからないし。これだけきれいに発音できるんだと、フレーズ単位でデータがあるんだろうか。どうなんだろうか。さっぱり分からない。

追記

とりあえず音声合成の基礎を勉強してからものいえと怒られました。すいません。

http://en.wikipedia.org/wiki/Speech_synthesis

大学関連だとこのへんのデモ。デモを聞くとスゴイと思うが、「（注）ピッチは自然音声から抽出したものを用いている．」の一文が気になる。下の自由に合成できるデモで遊んでみると、前のデモの通りにイントネーションが再現されず、不自然な感じ。イントネーションを正しく推定するのが大事なのかなぁというのが感想。