Java製オープンソース検索エンジンNutchを試す

NutchとはオープンソースのJava謹製検索エンジンです。今はApache Luceneのサブプロジェクト。というわけで、早速試してみた。
http://lucene.apache.org/nutch/index.html

基本的には↓らへんを参考に。
※要シェル(Windowsならcygwinとか)

まとめると

0:http://www.meisei-u.ac.jp/mirror/apache/dist/lucene/nutch/nutch-0.7.tar.gz *1をダウンロードして解凍
1:urls_XXXXというファイル(XXXXは好きな名前つけて)を作って、中身にクロール先のクロール開始アドレスを書く。んでもってNutchの解凍してできたディレクトリの直下に置く。
2:confディレクトリのcrawl-urlfilter.txtを編集。クロールするリンクの条件を書くんだけど、とりあえず

+^http://d.hatena.ne.jp/kanbayashi

　とか書いておけばいいみたい

bin/nutch crawl urls_XXXX -dir クロールしたデータを置いておきたいディレクトリ名 -depth 何階層までクロールするか(10とかでよさげ)

　とurls_xxxxを置いたところでコマンドを打ってクロール開始!!

Tomcatのある所/bin/catarina.bat start

　
を実行してTomcat起動

http://localhost:8080/search.jsp

にアクセスすれば検索アプリケーションが動いてる。(ﾟдﾟ)ｳﾏ-

ってな感じ。ステップ5が分からなくてすごい苦労した。こんな時ソースを読んで原因究明ができるのはいいね。Java マンセー。
とりあえず、皆さんも暇つぶしにでもお試しあれ。

*1:現バージョンでは

*2:現バージョンでは