2006-04-29

Kikkerニュースサイト公開

やっとできました。

今までのKikkerでははてブをクロールした結果しか扱っていませんでしたが、CEEK.JP NEWS*1をクロールしてニュースサイトのようにしてみました(情報源はばっちりですよ)。

これによって、今までGeekしか使いようがなかった*2 Kikkerが、誰でも便利に使って情報を集められるKikkerになったわけです。

宣伝
あなたはどうやってWeb上のホットな話題を集めていますか？毎日たくさんのサイトを巡回して情報を集めてきているのですか？それには無駄な時間がかかりすぎていませんか？

Kikkerはそんなあなたの代わりに情報の取捨選択を行ってくれます。無駄な時間を削減してその時間をあなた与えてくれます。

是非ご覧になって下さい。
[Top Page]
http://ryogrid.myhome.cx:1234/
[ニュース表示のサンプル(Ryoに対してのリンク)]
http://ryogrid.myhome.cx:1234/?id=ryo&type=html&category=news

- - - - -

宣伝だけじゃなくて、Kikkerって何をやってるのかって事を抽象的に説明してみる。
今まででもはてブやCEEK.JP NEWSは広大なWebの海からある程度の粗さの網で情報をすくい出してきている(一次選別とでも言おうか)という意味で情報収集のコストを大幅に下げてくれてたんだけど、それらに対しての価値判断ってのはまだ甘くて、その部分をユーザーがしなくてはならないのが現状だった。そこでそれをラクにするためにKikkerはそれらに対してユーザーの価値観というフィルターをある程度まで自動でかけてあげる（２次選別）。

今まではただ有用っぽいなぁという情報への参照の羅列でしかなかったんだけど、それから一歩進めて、Kikkerは各個人向けのニュースサイト*3を生成してくれる。

*1:Ceekz氏が開発したニュース検索エンジンで、74のニュースサイトをクロールしてその結果をまとめている

*2:Geek好みの情報しかなかった

*3:ただ羅列するだけでなくて、誰かの価値判断によって情報の選択が行われて初めてニュースサイトだと自分は思ってる

2006-04-29

起床

13:00。昨晩寝たのはたしか１２時前。合計約13時間睡眠。死にたい・・・・。

2006-04-29

カゼ薬の力

ほけかんでもらってきた薬のうち、一つは飲むと眠くなると薬剤師の人に言われたのだが。これマジ。
１３時間寝たというのに、その薬を飲んだら頭がぼーっとして作業なんてできたもんではない。
危険すぎる。というわけで、これからはその薬（総合かぜ薬？らしい。つらさを抑えるだけだから(ﾟ⊿ﾟ)ｲﾗﾈ）は除いて飲むことにする。

2006-04-29

研究室-Kikkerの改善-

とりあえず、サイトの解析をもっと効率よく精度を上げてやるにはどうすればいいか考えたり調べてみた。
すると
汎用連想計算エンジン GETA
http://geta.ex.nii.ac.jp/
話題性原指標計算ライブラリDREP
http://geta.ex.nii.ac.jp/getaN2002/doc/drep_man.pdf
なるものを見つけた。が、Linuxじゃないと動かないし、C言語の関数だけしかない(JNIを使えばJavaからでもどうにか使えるが)ので、面倒そう。

というわけで、また他の方法を考える。でCeekz氏に聞いてみたところtf/idfのidfの計算を,chasenとかmeCabの生起コストで置きかえればいいんじゃね？というのを教えてもらった。
なるほど。そうすればわざわざ毎回Bulkfeedsにアクセスしたり、Yahooでヒット件数調べたりしなくていいからラクちん。
とりあえず一つのプランとして試してみようっと。
↓アイデアとしてはこれと同じような感じ。
[Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた]
http://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/summarize.php

話は変わって、今日は結構致命的なバグを一つ見つけた。
というのも、今までキーワード抽出で変な結果ばかり返ってきていて、BulkfeedsのAPIはタコだな!!とか思っていたのだが、実は原因は読み込んだWebページを正しくStringオブジェクトに変換できていなかったみたい。
そのせいで形態素解析も変な結果になってたし、HTMLパーサーもとんでもな結果を返してた。
で、直したらすごくうまいことキーワード抽出できるようになった。素晴らしい！！。

バグって怖いわぁ(投票)
http://ryogrid.myhome.cx:1234/