今年の演習3ですが

また係り受け解析を担当することになりました。90% 超えたらスシーだよーとか書くとホントに超えそうなのでやめとく。せっかくなので、昔のプログラム掘り起こしてごりごり素性追加したら development で 88.6 まであがりました。ここから 1% が増えない。それにしても、今年は4つの課題の内、2つが新しくなっていて非常におもしろそうです。


4年生も見ていそうなので、せっかくなので少し紹介。

一つは NER。固有表現抽出。文書から人名や地名などの固有表現を抽出するタスクです。割りとすぐに応用できそうで、例えば製品名などを高精度で抽出できれば Web データのトレンド解析などができそうだし、人名を抽出できれば人物の相関などを調べたりもできそう。辞書にない表現も抽出できるようになるとうれしい。手法もいろいろな機械学習手法が応用できて、おもしろそうです。いいツールができたら、GPL なんかで公開するのもいいですね。

もう一つは、SMT。統計的機械翻訳。最近この分野の成長が激しいようで、Google の翻訳とかが有名。機械翻訳はふつうに考えると、構文解析して、言語特有の変換を施して、出力といった方法がぱっと考えられるのですが、SMT では語順の入れ替えと単語の変化を確率過程と考えてモデル化して、最も確率の高い変換を行うことで翻訳させる。まぁ、あれです。データをたくさん突っ込むとなぜか翻訳できるようになるという魔法の方法。オリジナルの翻訳機を作るとか、楽しそうです。最近はこの分野のツールが非常に充実しているそうです。

演習3は自分で勝手にテーマもってくる人もいますから、そういうのもいいですね。同期でクラスタリング(文書分類)やった人とか、ページランクによる検索をやった人もいました。形態素解析器とかかな漢字変換とかも楽しそう。誰が担当することになるのか知りませんが。