音声合成

音声合成ってかっこいいのできたら絶対インパクトあるよね、ってな話をよく人にしてるわけです。ほら、標準語でしゃべる明石家さんまとか関西弁でしゃべる所ジョージとか再現できたりしたらスゴイじゃない。

Opera には version 8 から音声入力機能が付きました。一人寂しく音声入力したり、人がたくさんいるところで使うわけにも行かないので、入力はまぁいいかなと思ってたわけですが、実はテキスト読み上げ機能も付いてたことを今日知りました。右クリックすると、メニューに Speak ってでてる。何で今まで気づかなかったんだろう。で、この音声が''すごい''んですよ。ホントに。

Windows XP には、標準で音声読み上げ機能がついてるらしく、コントロールパネルの音声認識で、標準音声の Microsoft Sam を試せます。かなりショッキングです。90年代を思い起こさせるようながたがたの声を聞くことができます。これを聞いた直後に、Opera をダウンロードして、テキスト読み上げ機能を on にして、BBC にでもいってみるとね、もうなんかね。ボクより発音いいわけです。もうね、発表は彼にやってもらおうかと。ふつうに、google scholar で検索した論文を、HTML 表示させて読んでもらったが、行末のハイフンが激しくじゃまして、使い物にならなかった。残念。

調べてみると、Opera の音声関係の技術は、IBM から取得したみたいだ。

買い取ったのかね。IBM は事業売りまくりですね。ViaVoice って、昔パッケージソフトで売ってたような。昔のバージョンから変わっていないのだとしたら、ある種、枯れた技術なのかな。変わってるのか変わってないのかは分からない。

AT&T の web 上のデモを見つけた。こっちもすごいし、web で聞ける。

うーん。英語の音声合成は、ある程度完成されているのだろうか。

いかんせん native じゃないので、微妙なアクセントの違いとか、イントネーションの誤りは分からない。日本語のデモをききたーい。

asahi.comアクセシビリティー向上のためとして、読み上げ機能付きブラウザを提供している。期待に胸を躍らせてダウンロードしたが。あれ? なんか、90年代のかほり。日本語の方が難しいのか、単に native にはあらが聞き分けやすいだけなのか。日本語の方がイントネーションが豊富なのかぁ。あんまりそんなこともないような気がするが。みんなマジメに作ってないだけ? まぁ、これから期待ということで。