http://www.coins.tsukuba.ac.jp/~i041184/distribute/tag_directory/top_page.html
時間があったら、これからは以下のことをやっていこうかなと思う
- より自然な階層構造の実現
- 真っ当にタグの共起頻度から求めるアルゴリズムを改良する
- 前(http://d.hatena.ne.jp/kanbayashi/20061111#p3)に述べたように、Yahooとかで語の一般度を調べてみる
- シソーラスを手に入れて、タグの共起頻度と組み合わせる。
ってな感じ。
特に3つ目は、それぞれ片方だけでは駄目な点をカバーしあえるミラクルソリューションじゃないかと個人的には思ってる。*1
- 情報発信元URL抽出の精度向上
情報の発信元URLごとにブクマ数をカウントするので、そのURLの抽出が正しくできないとだめ。
ex)
http://d.hatena.ne.jp/kanbayashi/20061111#p2 → http://d.hatena.ne.jp/kanbayashi
現状は、自分が適当に考えたヒューリスティクスでエントリのURLを削ってるだけなわけだが、たくさんのエントリのURLを溜め込んでいけば、一致部分などを考えることで、より妥当なURLを抽出できると思う。
ってか、こんなことできるAPIってどっかで提供されてないのかな?Bulkfeedsとかでさ。
- 利便性の向上
以上、メモでした。
土曜日