大規模日本語データ

でましたね。英語版 5-gram データをこないだ研究室で買ったので、一昨日見ていたんですが、5 ってすごいですね。 I like a ... でも 5 単語です。この日本語データ、詳細が書いてないけどやはり N-gram かなぁ。文字 N-gram かな?

ところでこのデータ、あったら簡単に使えるかというとそうもうまくいかない。英語版 5-gram が圧縮して DVD 6 枚組。ふつうに使おうとするだけで 10GB 単位のメモリを消費する寸法。オンメモリの DB を使った N-gram サーバーを立てますかねぇ。1台でメモリ足りるんかな。