Kikkerニュースサイト公開
やっとできました。
今までのKikkerでははてブをクロールした結果しか扱っていませんでしたが、CEEK.JP NEWS*1をクロールしてニュースサイトのようにしてみました(情報源はばっちりですよ)。
これによって、今までGeekしか使いようがなかった*2Kikkerが、誰でも便利に使って情報を集められるKikkerになったわけです。
宣伝
あなたはどうやってWeb上のホットな話題を集めていますか?毎日たくさんのサイトを巡回して情報を集めてきているのですか?それには無駄な時間がかかりすぎていませんか?
Kikkerはそんなあなたの代わりに情報の取捨選択を行ってくれます。無駄な時間を削減してその時間をあなた与えてくれます。
是非ご覧になって下さい。
[Top Page]
http://ryogrid.myhome.cx:1234/
[ニュース表示のサンプル(Ryoに対してのリンク)]
http://ryogrid.myhome.cx:1234/?id=ryo&type=html&category=news
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
宣伝だけじゃなくて、Kikkerって何をやってるのかって事を抽象的に説明してみる。
今まででもはてブやCEEK.JP NEWSは広大なWebの海からある程度の粗さの網で情報をすくい出してきている(一次選別とでも言おうか)という意味で情報収集のコストを大幅に下げてくれてたんだけど、それらに対しての価値判断ってのはまだ甘くて、その部分をユーザーがしなくてはならないのが現状だった。そこでそれをラクにするためにKikkerはそれらに対してユーザーの価値観というフィルターをある程度まで自動でかけてあげる(2次選別)。
今まではただ有用っぽいなぁという情報への参照の羅列でしかなかったんだけど、それから一歩進めて、Kikkerは各個人向けのニュースサイト*3を生成してくれる。
起床
13:00。昨晩寝たのはたしか12時前。合計約13時間睡眠。死にたい・・・・。
カゼ薬の力
ほけかんでもらってきた薬のうち、一つは飲むと眠くなると薬剤師の人に言われたのだが。これマジ。
13時間寝たというのに、その薬を飲んだら頭がぼーっとして作業なんてできたもんではない。
危険すぎる。というわけで、これからはその薬(総合かぜ薬?らしい。つらさを抑えるだけだから(゚⊿゚)イラネ)は除いて飲むことにする。
研究室-Kikkerの改善-
とりあえず、サイトの解析をもっと効率よく精度を上げてやるにはどうすればいいか考えたり調べてみた。
すると
汎用連想計算エンジン GETA
http://geta.ex.nii.ac.jp/
話題性原指標計算ライブラリDREP
http://geta.ex.nii.ac.jp/getaN2002/doc/drep_man.pdf
なるものを見つけた。が、Linuxじゃないと動かないし、C言語の関数だけしかない(JNIを使えばJavaからでもどうにか使えるが)ので、面倒そう。
というわけで、また他の方法を考える。でCeekz氏に聞いてみたところtf/idfのidfの計算を,chasenとかmeCabの生起コストで置きかえればいいんじゃね?というのを教えてもらった。
なるほど。そうすればわざわざ毎回Bulkfeedsにアクセスしたり、Yahooでヒット件数調べたりしなくていいからラクちん。
とりあえず一つのプランとして試してみようっと。
↓アイデアとしてはこれと同じような感じ。
[Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた]
http://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/summarize.php
話は変わって、今日は結構致命的なバグを一つ見つけた。
というのも、今までキーワード抽出で変な結果ばかり返ってきていて、BulkfeedsのAPIはタコだな!!とか思っていたのだが、実は原因は読み込んだWebページを正しくStringオブジェクトに変換できていなかったみたい。
そのせいで形態素解析も変な結果になってたし、HTMLパーサーもとんでもな結果を返してた。
で、直したらすごくうまいことキーワード抽出できるようになった。素晴らしい!!。
ベンチャーに入りました(詳細)
5月から(株)arohamaに入ります。
http://www.arohama.com/
肩書きはクリエイティブディレクターとかになる予定。
とりあえず、いろいろと楽しいことをやりつつ、勉強していければいいな。
Today's (hoge)^2
- 最近グリッドじゃなくて、マイニングとかやってますが何か?俺は何やってんだろなんて思ったりもしますが何か?
- Ajax を使った手書き文字認識
http://chasen.org/~taku/software/ajax/hwr/
Ajax IMEの人がまたこんなもの作ってるようだ。この人は毎回クォリティの高いものを作っててすごい。