貼りたかっただけです

    ./\___/ヽ 
   /  _ノ||||ヽ、_  \  ご主人様・・・・・・リセットボタン押して
  / o゚((●)) ((●))゚o \    ごめんなさいだお・・・・・
  | 三  (__人__) 三  |
  \     ` ⌒´     /



    ./\___/ヽ 
   /  _ノ||||ヽ、_  \  もう・・・もうしないから許してほしいんだお・・・・
  /  o゚⌒   ⌒゚o  \
  | 三  (__人__) 三  |
  \     ` ⌒´     /



    ./\___/ヽ 
   / ⌒ |||| ⌒ \
  /  ( ○)三(○)  \  ウソに決まってるお
  | 三 ⌒(__人__)⌒三 |   今度はカートリッジアタックでバグらせてやるお!
  \     r┬-|     /
       `ー'´

KookleのTODO

http://www.coins.tsukuba.ac.jp/~i041184/distribute/tag_directory/top_page.html
時間があったら、これからは以下のことをやっていこうかなと思う

ってな感じ。
特に3つ目は、それぞれ片方だけでは駄目な点をカバーしあえるミラクルソリューションじゃないかと個人的には思ってる。*1

  • 情報発信元URL抽出の精度向上

情報の発信元URLごとにブクマ数をカウントするので、そのURLの抽出が正しくできないとだめ。
ex)
http://d.hatena.ne.jp/kanbayashi/20061111#p2 → http://d.hatena.ne.jp/kanbayashi


現状は、自分が適当に考えたヒューリスティクスでエントリのURLを削ってるだけなわけだが、たくさんのエントリのURLを溜め込んでいけば、一致部分などを考えることで、より妥当なURLを抽出できると思う。

ってか、こんなことできるAPIってどっかで提供されてないのかな?Bulkfeedsとかでさ。

  • 利便性の向上
    • タイトルを全てちゃんとつけるとか
    • 要約文を付
    • タグ検索ボックスね。
    • クローリングを定期的にやって、その結果をインクリメンタルに反映
    • 各URLにつて、総タギング数を考慮した各タグについてのタギング数の正規化(GIGAZINEのような有名サイトはどこにでも出ちゃってる)
    • はてブの各URLのエントリページへのリンクを置く

以上、メモでした。


土曜日

*1:シソーラスって純粋な語の関係を扱ってるから、普通は使わないような階層が出てきてしまうわけ。だから、シソーラスだけでもだめぽ

Today's (hoge)^2

http://jp.techcrunch.com/archives/google-yahoo-and-microsoft-agree-to-standard-sitemaps-protocol/
これはよい

  • P2Pとかその辺のお話: 複数の大手BitTorrentインデックスサイト買収

http://peer2peer.blog79.fc2.com/blog-entry-59.html
なんだなんだ!?。うーん、意図が読めないなぁ。

http://www.yukawanet.com/daly/log/2006/11/web20.html
興味深い考察