NLP
MLTL: Machine Learning Templete Library 前から存在だけ聞いていたライブラリが公開されていたようだ。構造化データに対する学習は、違う構造に対してほとんど似ていることをしているので、うまいこと切り分けたいと。ということで、Template にして組み合…
パターン認識と機械学習 下 - ベイズ理論による統計的予測作者: C. M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇出版社/メーカー: シュプリンガー・ジャパン株式会社発売日: 2008/07/11メディア: 単行本購入: 19人 クリック: 443回この商品を含…
Microsoft、自然言語サーチエンジンのPowerset買収で合意 ここ数年 NLP 業界をにぎわした、QA でベンチャーを興した Powerset を Microsoft が買収に乗り出したらしい。検索検索ってみんないってるけど、そもそも検索とはちょっと違う気がするんだけどなぁ。…
言語処理学会の年次大会で発表してきました。修論とほぼ同一内容だったので、発表はスムーズにできたかなと思いましたが、うまい人の発表を聞くとまだまだだな。あまりクリティカルな質問はなかったんですが、あとで個人的に急所突かれました。あいたた。他…
変換性能が MS よりも高かったので、今でも ATOK 派の私ですが、ずいぶん前の話だから今ではどうなんだろう。とはいえ、全然バージョンアップしてません。新製品の案内が来たのですが、気になる記述が。 「ATOK Lab.」 の研究成果を反映し、 「ATOK Lab.」と…
昨日今日は、修論と言語処理学会の締め切りでしたね。M2 を 6 人抱えるウチの研究室はそれこそ修羅場で、てんやわんや。わりと自分もテンパってましたが、若干放置気味。信頼されてる、んだということにしよう。時間いっぱいいっぱいで、英語の直ししてもら…
ちょっと古い記事ですが。 Google検索と自然言語検索の未来 | スラド IT まぁ、そうだと思ってたけど。あれかね。Powerset に対する挑戦状。考えすぎ。
パターン認識と機械学習 上 - ベイズ理論による統計的予測作者: C. M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇出版社/メーカー: シュプリンガー・ジャパン株式会社発売日: 2007/12/10メディア: 単行本購入: 18人 クリック: 1,588回この商品を…
パターン認識と機械学習 上 - ベイズ理論による統計的予測作者: C. M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇出版社/メーカー: シュプリンガー・ジャパン株式会社発売日: 2007/12/10メディア: 単行本購入: 18人 クリック: 1,588回この商品を…
http://blogeye.jp/ ごめん。調子のった。時系列の自然言語テキストの解析というのは、実は扱ったことも扱われているのを見たこともなくって、ラベリング問題などのような既存の NLP タスクとは違ったおもしろみがあるんじゃなかろうかと思った次第。なるほ…
http://labs.powerset.com/ Sinup しておいたら今月中旬にデモを使ってねメールが来たのをさっき思い出したので、あわててつかってみました。知らない人のために書くと、自然言語処理を駆使して情報検索(というよりは質問応答に近いかも)をやるんだという…
http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html そろそろ公開するよというはなしをこないだの NL 研のときにいっていて、ついに公開されたようだ。最近ひょんなことで、MeCab がひらがな未知語(例えば人物名の読みをムリヤリ動詞と助詞にわかちがこ…
Google Switches to Its Own Translation System 秋本さんの Blog より。何より驚いたのは、Google 翻訳はてっきり SMT だと思ってたのに、rule-base だったこと。Google といったら SMT、SMT といったら Google という印象があったから。それから、実は既存…
http://www.fujixerox.co.jp/company/technical/scan/index.html いつだったかのトレたまで紹介されてた。MT の精度は××なんだろうけど、文書の構造をきれいに復元したり、翻訳結果をルビとして表示する様は圧巻。こうした分野は全く知らなかったんだが、自…
「これ熱いですね」とハバネロを食べてる留学生にいわれた。なんだろうと思ったが、hot ということだ。彼の頭の中で曖昧な hot が日本語にも波及したのか、あるいは単に訳語選択に間違っただけなのか。ちょっとおもしろかった。
AI検索のPowerset、9月にサービス開始へ - CNET Japan いよいよだそうで。その性能が気になるところ。中で何をしているのかよく知らないんだが、goo lab の二の舞にならなければいいな。IT 系ニュースの評価はどうでもいいとしても、自分の周りの人も結構酷…
・・・というのは、このエントリへの振り。そんな超有名ツールですが、悲しいかな gcc4 でコンパイルできない! 最近はみんな別のツールキット使ってるの? たぶん同じ悩みをかかえている人がいると思ったので、4 用に修正したソースを見つけたので、リンク…
最近、SMT に限らず GIZA++ の名前をやたらとたくさん見る。要は、アライメントモデル。どうしてこうまで流行ってるのかと思うと、なるほど NLP のタスクの多くがアライメントモデル、つまり記号列の変換として定式化できるということに気付く。翻訳は Engli…
本当はコワイすっきりした翻訳文:栗原潔のテクノロジー時評Ver2:オルタナティブ・ブログ たまたま某所経由で見かけた。フレーズ単位のアライメントが大事だよというはなし(違 ただ、「単純な」SMT ってほとんどこれですよね、という雑談。
CS 研の音声認識屋さんの講演を聞きに行った(といっても、研究室内トークの雰囲気)。その話もおもしろかったんだが、幹事の S 先生の機械学習トークがすごかった。なんというか、少なくともボクが話を聞いたことのある音声認識屋さんは、みんなもれなくガ…
今日の授業でおもしろい話を聞いたので紹介。ある韓国人留学生の話なのだが、7歳までイギリスに住んでいてそのころは英語で話していたらしい。7歳で韓国に帰国し、気づいた頃には英語をしゃべれなくなったのだという。ここまではよく聞く話なのだが、彼の7歳…
Longman Dictionary of Common Errors, 2nd Edition作者: Nigel D. Turton,J. Brian Heaton出版社/メーカー: Pearson Japan発売日: 1996/07/29メディア: ペーパーバック購入: 18人 クリック: 174回この商品を含むブログ (17件) を見る 以前自分で紹介したん…
http://recaptcha.net/learnmore.html 秋元さんのブログより。機械で判別した結果、あるいはまったく判別していないデータを Web 上の人間に判別してもらおうという試みを最近見るようになりました。Google image labeler や Podcastle あたり。正解を付与し…
その勢いで、途中まで作っていた libsvm の OCaml 用スタブを作ってみた。Daume さんの純 OCaml 製 SVM パッケージ使ってもまぁ良かったんですが、そこはまぁ・・・。以前、MeCab の OCaml バインディングを camlidl で作ったはずだったが、どうやったのかさ…
Longman Dictionary of Common Errors, 2nd Edition作者: Nigel D. Turton,J. Brian Heaton出版社/メーカー: Pearson Japan発売日: 1996/07/29メディア: ペーパーバック購入: 18人 クリック: 174回この商品を含むブログ (17件) を見る 買ったわけじゃないけ…
また係り受け解析を担当することになりました。90% 超えたらスシーだよーとか書くとホントに超えそうなのでやめとく。せっかくなので、昔のプログラム掘り起こしてごりごり素性追加したら development で 88.6 まであがりました。ここから 1% が増えない。そ…
http://www.google.co.jp/events/anlp2007.html でましたね。英語版 5-gram データをこないだ研究室で買ったので、一昨日見ていたんですが、5 ってすごいですね。 I like a ... でも 5 単語です。この日本語データ、詳細が書いてないけどやはり N-gram かな…
たまにリファラのログを見てると、特定の問題を解決するために奔走している人を見ます。この日記の 1/3 くらいはそういう目的が含まれているわけです。こないだの VMWare のこととか。もっとも、自分用でもありますが。こういうときふつう重要そうなキーワー…
HITACHI の研究所の話題が出たので、どういうことやってるのか見てみたら、音声合成のデモがあった。 http://www.hqrd.hitachi.co.jp/crl/rc_technologies_naya.cfm !!! これはスゴイ! 真ん中らへんにリンクがあるので是非聞いてください。久々に感動し…
聞いてきました。 http://wikibana.socoda.net/wiki.cgi?Wiki%BE%AE%CF%C3%2FVol.7 Podcastle でぐぐると、まだ「もしかして」が出てしまう。がんばれ!さて、内容ですが興味のあった音声認識は全体の1/4位で、サーバーありのクライアントありのプロジェ…