先生にもらったサーベイ記事を読む。んでもってそこでリファーされてた論文をGoogle Scholarで検索してみた。
Hierarchical classification of Web content
http://portal.acm.org/citation.cfm?id=345508.345593
したら関連研究もどっさりと見つかった。
で、↓コレが特にkookleに近い感じ。
Acclimatizing taxonomic semantics for hierarchical content classification from semantics to data-driven taxonomy
http://portal.acm.org/citation.cfm?id=1150446&dl=GUIDE&coll=GUIDE&CFID=8897633&CFTOKEN=10809746
※大学の中からじゃないと読めないかも
以下に俺が読み取った論文の内容を簡単に書いておく。
- 目的
Webページの集合からディレクトリ構造を構築します(論文を書いた人たちからすればシソーラス?)
- 先行研究について
ベクトル計算を使ってやる方法(http://d.hatena.ne.jp/kanbayashi/20061122/p1)と、ベイズ分類とかでやる方法が試みられてるけど、俺らのやつよりは全然うまくいかないもんねー
- やったらしい事
1:適当なディレクトリ構造を用意
2:ディレクトリの構造を変える基本操作を3つ定義(行列での基本変形みたいなもの)して、それらの操作の積み重ねでディレクトリ構造をインクリメンタルに改良していく。
3:一回操作を加えるごとにディレクトリ構造を評価して3つの操作のうちどれを加えればよいか判断する。
※ベイズ分類とかにディレクトリ構造(シソーラス)を使うことで分類した結果の精度が上がるという性質により、その精度を評価関数として用いる。
5:改善率が一定閾値以下になったら計算終了。
- 結果
うまくいった。
ってな感じ。
評価関数の作り方がなかなか巧みですな。
#評価関数だけのためにベイズ分類のプログラム書くとか無理ぽ。俺はぬるくてもいいからベクトル計算でやろう・・・。