会社のオフィスのあるフロアに「東大出身者たちがオモロジックを開発!!」みたいな記事が貼ってあって、興味をひかれたのだけど、実はSAGOOLの事だったみたい。
詳細は↓
新型検索エンジン「SAGOOL」は、独自のアルゴリズム“オモロアルゴリズム”の開発に成功し、Googleに代表される“Webサイトへのリンク数に重きが置かれるロボット型検索エンジン”では抽出することがだんだんに難しくなってきた 「人の主観・興味を反映した検索結果」を抽出することを目指しています。
「SAGOOL」は、
- より「おもしろいもの」を探す
- 表の世界ではなかなか知ることができない、より「ディープな情報」を見つける
- ツウなら納得な、より「コアなこと」を知る
ための検索エンジンです.
オモロアルゴリズムが気になってしょうがないので、どんな実装になっているのか想像してみた。
検索結果を見る限りでは、SBMとかアグリゲートサイト(ランキングサイトとか)からデータを引っ張ってきているような印象を受ける。BONSAGOOL(http://bon.sagool.jp/help/about)なんてサービスも同社はやっているわけだしな。
具体的には、googleとかのようなリンクをベースとした何らかのアルゴリズムの上で
SBMでブクマされたページや、ある特定のアグリゲートサイトからリンクされているページ
に重み付けしてるとかそんな感じなんじゃないかな。
あとは、上で挙げたようなものの集合から、ある次数以内の連結関係にあるような集合にもある程度の重み付けをしてるのかも。
はてさて、真実がどうなのかはわかりませんが。
最近思うことなんだけど、リンクの情報をベースにして検索エンジンを実装すると、どんなアルゴリズムを使おうと大した差異は出ないのではないかと思うんだよね。行き着くところは同じというか。
#google page lankぐらいしかアルゴリズム知らないのに、言い切ってしまうという冒険
そこで、リンクの情報以外に使える情報を考えてみると「ユーザの閲覧情報」なんてのがあると思う。「たくさん見られているページは価値が高い」という仮定に基づけば、結構自然な考えだと思うけど、おそらく現在の検索エンジンには取り入れられてないんじゃないかな。
ユーザの閲覧情報」を利用した検索エンジンを実装する方法としては
- alexaとかを使う
- google adsenceとかにユーザの閲覧行動をトラックできるようなスクリプトを入れておいてウマー
#googleさんしかできないけど
#M$しか(ry
#ユーザ層が偏るのが難点
なんて方法があると思う。一言で言えばユーザがクローラになる検索エンジン。英語で言うとUser Generated Search Engine。
#P2P型検索エンジンなんてのもいくらか前にいろいろ試されたらしいけど、nutchの作者によればうまくいかなかったらしい。でもクローラの部分だけを見れば十分行けるのではないかと個人的には思ってる。
というわけで、誰か4番の方法で実装してくれないかなー。あと他に何かいいアイデアがあれば教えて!!