午後-Kikker独り立ち-

Kikkerの内部動作を結構大きく変えた。


というのも、今までのKikkerは一つのURLを解析するために、Bulkfeeds形態素解析 APIを一回リクエストして、んでもって、Yahooで8個ぐらいのキーワードについてヒット数を調べてたのね。
ただ、この処理がすごーく重くてクローラの性能を制限してたから、この部分を全て自前でやることにした。


とは言っても、TF-IDFのIDFの部分をchasenの持ってる辞書の生起コストで置き換えただけなんだけど。


というわけで、今のKikkerは独り立ちしました。ただ、まだまだ若造なので抽出するキーワードがおかしいかもしれません(´ヘ`;)
しかーし、クロールのコストが減ったので、その分各URLについてより大きなベクトルを得られるようにしました。よって、推薦の精度は上がるんじゃないかな(ベクトル計算の計算量が増えたのでページ生成は遅くはなったみたいだけど・・・)。


[関連記事]
http://d.hatena.ne.jp/kanbayashi/20060429#p4