KookleのTODO

http://www.coins.tsukuba.ac.jp/~i041184/distribute/tag_directory/top_page.html
時間があったら、これからは以下のことをやっていこうかなと思う

ってな感じ。
特に3つ目は、それぞれ片方だけでは駄目な点をカバーしあえるミラクルソリューションじゃないかと個人的には思ってる。*1

  • 情報発信元URL抽出の精度向上

情報の発信元URLごとにブクマ数をカウントするので、そのURLの抽出が正しくできないとだめ。
ex)
http://d.hatena.ne.jp/kanbayashi/20061111#p2 → http://d.hatena.ne.jp/kanbayashi


現状は、自分が適当に考えたヒューリスティクスでエントリのURLを削ってるだけなわけだが、たくさんのエントリのURLを溜め込んでいけば、一致部分などを考えることで、より妥当なURLを抽出できると思う。

ってか、こんなことできるAPIってどっかで提供されてないのかな?Bulkfeedsとかでさ。

  • 利便性の向上
    • タイトルを全てちゃんとつけるとか
    • 要約文を付
    • タグ検索ボックスね。
    • クローリングを定期的にやって、その結果をインクリメンタルに反映
    • 各URLにつて、総タギング数を考慮した各タグについてのタギング数の正規化(GIGAZINEのような有名サイトはどこにでも出ちゃってる)
    • はてブの各URLのエントリページへのリンクを置く

以上、メモでした。


土曜日

*1:シソーラスって純粋な語の関係を扱ってるから、普通は使わないような階層が出てきてしまうわけ。だから、シソーラスだけでもだめぽ