NutchとはオープンソースのJava謹製検索エンジンです。今はApache Luceneのサブプロジェクト。というわけで、早速試してみた。
http://lucene.apache.org/nutch/index.html
基本的には↓らへんを参考に。
※要シェル(Windowsならcygwinとか)
unokun研究室: nutchインストール
http://www.unokun.net/archives/000016.html
unokun研究室: nutchで自サイトをクロール
http://www.unokun.net/archives/000323.html
Nutch、ナッチ、なっち
http://www.airs.co.jp/blojsom/blog/bigmac/Opensource/2004/08/13/6F30214F784C89C1F220A7AF58FAC896.txt
まとめると
- 0:http://www.meisei-u.ac.jp/mirror/apache/dist/lucene/nutch/nutch-0.7.tar.gz*1をダウンロードして解凍
- 1:urls_XXXXというファイル(XXXXは好きな名前つけて)を作って、中身にクロール先のクロール開始アドレスを書く。んでもってNutchの解凍してできたディレクトリの直下に置く。
- 2:confディレクトリのcrawl-urlfilter.txtを編集。クロールするリンクの条件を書くんだけど、とりあえず
とか書いておけばいいみたい
- 3:
bin/nutch crawl urls_XXXX -dir クロールしたデータを置いておきたいディレクトリ名 -depth 何階層までクロールするか(10とかでよさげ)
とurls_xxxxを置いたところでコマンドを打ってクロール開始!!
- 4:nutch-0.7.warファイル*2をTomcatのwebapps以下に置く
- 5:"Tomcatの入ってるディレクトリ/bin/"以下にインデックスを作る時に指定したディレクトリの中のdb,index,segmentsディレクトリを置く
- 6:
Tomcatのある所/bin/catarina.bat start
を実行してTomcat起動
- 7:
にアクセスすれば検索アプリケーションが動いてる。(゚д゚)ウマ-
ってな感じ。ステップ5が分からなくてすごい苦労した。こんな時ソースを読んで原因究明ができるのはいいね。Javaマンセー。
とりあえず、皆さんも暇つぶしにでもお試しあれ。