Google 流コーパス作成術

たまにはマジメなはなしを。

Google が画像にラベル付けするゲームを作って大人気(?)らしい。ysn がやってたので、概要を。スタートすると、ログインしてる2人のペアが自動で選ばれて、次々に画像が出てくる。その画像から連想されるラベルを付けまくって、パートナーと一致したら1枚クリア。これの繰り返し。実は、語彙力強化につながるとか、画像と一緒に覚えるので効果高そうとか。

それはさておき。

これで何したいかってことですね。あの、Unsupervised 万歳の、bag-of-words 万歳の Googleコーパス作り始めましたよと。この辺はやっぱり、Web 全体という超巨大コーパスをもってしても、人手でラベル付けされたデータを使った手法に、精度で勝てなかったということなのか。なんか、Unsupervised だといくらでも簡単にデータ増やせるから、いくらでも精度が向上しそうに感じるけど、よく考えたらどっかに収束してるかもしれないわけですよね。

しかし、このコーパスの作り方がいかにも Google 的。画像のタグ付けなので、大して難しいわけではないけど、トレーニングも何も積んでいない一般ユーザーを使って、精度は低くていいからたくさん作る。もう、ホントにたくさん。たぶん、これまたこれまで類を見ないような巨大コーパスができるわけですね。量は質を凌駕する。

こういうのができるのは、Google が有名になった今だからこそではありますが、なるほど、知名度はこうやって使うのか。そういう点でも、Google が魅力的なわけであります。このコーパス(というか、データ?)は、言語処理というよりは画像処理に使われそう。今後、言語処理用のコーパスを同じように作るかもしれませんね。この単語から連想される単語は?とか。GoogleWordNet か。