研究室-Kikkerの改善-

とりあえず、サイトの解析をもっと効率よく精度を上げてやるにはどうすればいいか考えたり調べてみた。
すると
汎用連想計算エンジン GETA
http://geta.ex.nii.ac.jp/
話題性原指標計算ライブラリDREP
http://geta.ex.nii.ac.jp/getaN2002/doc/drep_man.pdf
なるものを見つけた。が、Linuxじゃないと動かないし、C言語の関数だけしかない(JNIを使えばJavaからでもどうにか使えるが)ので、面倒そう。

というわけで、また他の方法を考える。でCeekz氏に聞いてみたところtf/idfのidfの計算を,chasenとかmeCabの生起コストで置きかえればいいんじゃね?というのを教えてもらった。
なるほど。そうすればわざわざ毎回Bulkfeedsにアクセスしたり、Yahooでヒット件数調べたりしなくていいからラクちん。
とりあえず一つのプランとして試してみようっと。
↓アイデアとしてはこれと同じような感じ。
[Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた]
http://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/summarize.php


話は変わって、今日は結構致命的なバグを一つ見つけた。
というのも、今までキーワード抽出で変な結果ばかり返ってきていて、BulkfeedsAPIはタコだな!!とか思っていたのだが、実は原因は読み込んだWebページを正しくStringオブジェクトに変換できていなかったみたい。
そのせいで形態素解析も変な結果になってたし、HTMLパーサーもとんでもな結果を返してた。
で、直したらすごくうまいことキーワード抽出できるようになった。素晴らしい!!。

バグって怖いわぁ(投票)
http://ryogrid.myhome.cx:1234/