GIZA++ の功績

最近、SMT に限らず GIZA++ の名前をやたらとたくさん見る。要は、アライメントモデル。どうしてこうまで流行ってるのかと思うと、なるほど NLP のタスクの多くがアライメントモデル、つまり記号列の変換として定式化できるということに気付く。翻訳は English から French への、要約は原文から要約文への、検索はクエリから文書への。ちょっとはずれると、音声認識と生成も文書と発話の変換に見なせる気がするが、ホントかな。入出力が自然言語の場合、平気で語の入れ替わりや書き換えが発生するため、こういうモデル化が自然なんだなぁというのを感じた。そういうところでツールを作って、デファクトスタンダードになるとバカ受けするんだなと。