blog のトレンド分析の新しいサービスが始まったんだってさ!

ごめん。調子のった。

時系列の自然言語テキストの解析というのは、実は扱ったことも扱われているのを見たこともなくって、ラベリング問題などのような既存の NLP タスクとは違ったおもしろみがあるんじゃなかろうかと思った次第。なるほどねー。単体のテキストが1次元、テキスト集合が2次元とすれば、時間軸という3次元目が付け加わった。そういう印象。何か、いいたいこと伝わるだろうか。

ネタ自体は1年くらい前から聞いてて、公開するまでの整備の間に mixi に先超された感があるけど(というか、本人が思っているだろう)、これに属性判別が組み合わさってるのが「技術的」におもしろい。問題は「おもしろい」以上の実用性をどうやって獲得するかだろうけど、技術的には十分いろいろおもしろそうだ。

余談だが、「ミラン戦」に対して「埼玉県」がふられているのは、どっからどう見ても「浦和」に引っ張られてますからというツッコミをいれたくなるのだが、その間違いが実用上問題にならないというのは注目に値する。つまり、「浦和レッズ」の試合を見たのが「埼玉県」民じゃないはずなので(たぶん)、「浦和」という単語に引っ張られて「埼玉県」とカテゴライズした(と思われる)のは間違いということになるべきなんだが、使う側からすれば、まぁ「浦和レッズ」だから「埼玉県」でよくねということになる。正しさと実用性は違う。