今まで Google 翻訳は SMT じゃなかったらしい

秋本さんの Blog より。何より驚いたのは、Google 翻訳はてっきり SMT だと思ってたのに、rule-base だったこと。Google といったら SMT、SMT といったら Google という印象があったから。それから、実は既存の翻訳サービスはどれも同じソフトウェアを使っていたようだ。翻訳結果の比較なんかを見ると、会社によって辞書をカスタマイズしてるだけなのが見え見えで悲しい。あんなに流行ってるのに、みんな自社製プログラムじゃなかったんですね。PowerSet のこともあるし、これから NLP な会社が増えるんだろうか。

ところで実行結果を見ると、かなり悲しい雰囲気が漂っている。局所的にはつながっているようなのに、全体でおかしいのはいかにも n-gram っぽい。格がぐだぐだなので印象が悪いんだろうな。これだけ言語モデルの弱点が目立つと、日英翻訳で n-gram ベースの言語モデルを使った SMT はかなり厳しいんじゃないだろうかと漠然と思った。最近よく思うんだが、一般性を失わない手法であることと、それが汎用的に有効に働くことは似ているようで全く違う。手法自体がテストデータの特性にうまくフィットしているだけかもしれないことは、常に頭の隅に置いておかなければならない。