http://d.hatena.ne.jp/kanbayashi/20061018#p4
↑昨日のエントリの続き。
とりあえず、昨日書いたクローリングのコードは、取得したデータの全てはメモリに載らず、うまく動かなかったので、一旦ファイルに書き出してみた。
とりあえず置いておくので、欲しい人はどうぞ。
favorite_link.csv"~⌒ ヽ(´ー` )ホレ
形式はCSV形式で、"A,B"という形式で行が続いています。それぞれの行は、AがBをお気に入りに入れていることを表しています。
※((相当の日数の間、新着エントリにリストされるようなエントリをブクマしなかった)&&(当初持っていた約一万人の人とそれらにお気に入りされた人達から一つもお気に入りされていない))||(はてブおせっかいのクローラが読みこぼした) というようユーザでないかぎり、上のファイルに含まれているはず。なので、ほとんどの人は含まれている・・・と思います(実際のところは確認しようがないけど)。
とりあえず、↑のファイルを自分のidでgrepすれば(別にエディタの検索とかでもいいと思うけど)、誰が自分をお気に入りに入れているか分かっておもしろいと思います。
#はてなの機能では分からないんだよね、たしか
あとは、平均的な人数を調べたりとか、誰がお気に入りに多く入れられているかとかEXCELで調べられるかも。
で、favorite_link.csvをJavaで読み込んで、以前(http://d.hatena.ne.jp/kanbayashi/20060923#p1)に作ったプログラムに突っ込むと、以下のようにクラスタ抽出ができましたよと。
自分の周辺50人
naoya氏の周辺50人
otsune氏の周辺50人
#追記
オレオレアルゴリズムでもやってみた。
こっちの方が思ったような結果が得られたっぽい、と思ったけど、愚集化された結果が出ているようにも思う。上の結果とどちらがいいかは好みの問題かな。
#追記2↑
方向付きグラフへの対応と、正規化がちゃんとできてなかったみたい。今やれば愚集化されていない結果がでるはず。
otsune氏の周辺50人
自分の周辺50人
ハブとなってる人に色を塗ってみた(ペイントでorz)。
naoya氏の周辺50人
有名どころの方々がちらほらと。各社の動きがいろいろと見えてきますねw
Kikker(http://ryogrid.myhome.cx:1234/)
はてブおせっかい(http://ryogrid.myhome.cx/osekkai/)
もよろしく。
#追記
サービスとして公開しました!!
[はてブ まわりのひと]
http://www.coins.tsukuba.ac.jp/~i041184/distribute/hatebu_mawarinohito/hatebu_mawarinohito.html
是非、使って下さい!!