Java製オープンソース検索エンジンNutchを試す

NutchとはオープンソースJava謹製検索エンジンです。今はApache Luceneのサブプロジェクト。というわけで、早速試してみた。
http://lucene.apache.org/nutch/index.html

基本的には↓らへんを参考に。
※要シェル(Windowsならcygwinとか)


unokun研究室: nutchインストール
http://www.unokun.net/archives/000016.html
unokun研究室: nutchで自サイトをクロール
http://www.unokun.net/archives/000323.html
Nutch、ナッチ、なっち
http://www.airs.co.jp/blojsom/blog/bigmac/Opensource/2004/08/13/6F30214F784C89C1F220A7AF58FAC896.txt


まとめると

 

+^http://d.hatena.ne.jp/kanbayashi

 とか書いておけばいいみたい

  • 3:

bin/nutch crawl urls_XXXX -dir クロールしたデータを置いておきたいディレクトリ名 -depth 何階層までクロールするか(10とかでよさげ)

 とurls_xxxxを置いたところでコマンドを打ってクロール開始!!

Tomcatのある所/bin/catarina.bat start

 
を実行してTomcat起動

  • 7:

http://localhost:8080/search.jsp

にアクセスすれば検索アプリケーションが動いてる。(゚д゚)ウマ-


ってな感じ。ステップ5が分からなくてすごい苦労した。こんな時ソースを読んで原因究明ができるのはいいね。Javaマンセー
とりあえず、皆さんも暇つぶしにでもお試しあれ。

またいらぬものをいじってしまった( ̄ー ̄)(投票)

*1:現バージョンでは

*2:現バージョンでは