音声 Labeler

研究室の mtbr くんに教えてもらった。Podcast 配信されている音声データを音声認識機にかけて、全文検索できるようにしたもの。AIST の作ったシステムということで日本語音声認識機の最先端の一つだろう。今どこまで認識できるのかの片鱗を見ることができるかもしれない。

このシステムのおもしろいのは、認識結果をユーザーが修正することができるということ。それで、修正した結果で検索できるのはもちろんのこと、修正結果から再学習して音声認識の精度を高めるそうだ。修正候補が出てくるので(N-best みたいに一覧が出る)正解を選択する。また、mp3 程度の音質のデータを使っている点や、かなり対話に近いようないかにも認識しにくいデータも使われているも興味深い。試しに一つ修正してみたが、発話者によって曖昧度がずいぶん変わる(当たり前だけど)。固有名詞や横文字に弱いのはもちろんだが、ちょっと早口になるとがくっと精度が落ちるようだ。そんな気はするが。

この辺、どんな言語モデルを使っているのか気になる。やっぱり、「サーバー仮想化」のはなしをしている文脈で「過疎化」しないで欲しいよね。この辺見るとトピック推定がきいてくるのかなぁ、とか思ったり。