NTT

今日はNTTの方の講演ということで、聞きに行った。と思ったらどうも講義の一環だったようで、そこまでつっこんだ話は少なかった。前半はHMMによる形態素解析の話。後半は、検索エンジンと今研究中のQ&Aシステムの話。
講義が終わってから、gooの中身をごねごねと聞いた。印象的なのは、大規模検索エンジンになると、手法どうこうよりスケーラビリティの問題の方が大きいようだ。日本の全webをクロールできるようになったのは、googleが初めてという話。各社、後を追うように規模を拡大とのこと。日本の全webをクロールするのは、サーバーの規模も維持費もバカにならないので、各大学なり研究室なりが協力して研究用のクローラーを作ったら?なんて話も。