W-Dで

NIESに会う。で、検索エンジンについていろいろ語らううちに、
Nutchっていうオープンソース検索エンジンがあるんだよってのを説明してあげたりしてたら、NutchはJava製という事が判明。それもApacheのサブプロジェクトにいつのまにかなってるし。
ほー。
後で試してみよっと。

情報特別演習のミーティング

今後の方針について決めた。
んで具体的には

1:コラボレイティブフィルタ
2:LSA

という優先順位でやることに。


LSAに関してはSimple PCAという次元圧縮のためのアルゴリズムを教えてもらった。で、これすごいの。高校生でも分かるような単純なアルゴリズムなのに特異値分解するよりずーっと計算量が少なくて、んでもってLSAをやる上では精度もいい。
( ;∀;) カンドーシタ。
ってかLSAは案外すぐにできそうだなぁ。


話は変わるけどKikkerってEPIC 2014みたいになるんじゃない?って話が冗談として出て、自分は聞いたことも見たこともないので調べてみた。


http://bbnews.jp/archives/2005/09/16/233404.html
http://www.probe.jp/EPIC2014/ols-master.html


内容がリアルでなんか恐い((((;゚Д゚)))ガクガクガクブルブルブル。こんな時代がそのうち来るのかなぁ。

Googlezonか。今のうちにGooglezonに変わる存在に向かって歩き始めれば世界征服も夢じゃない・・・・・のかもしれない。なんて。

Java製オープンソース検索エンジンNutchを試す

NutchとはオープンソースJava謹製検索エンジンです。今はApache Luceneのサブプロジェクト。というわけで、早速試してみた。
http://lucene.apache.org/nutch/index.html

基本的には↓らへんを参考に。
※要シェル(Windowsならcygwinとか)


unokun研究室: nutchインストール
http://www.unokun.net/archives/000016.html
unokun研究室: nutchで自サイトをクロール
http://www.unokun.net/archives/000323.html
Nutch、ナッチ、なっち
http://www.airs.co.jp/blojsom/blog/bigmac/Opensource/2004/08/13/6F30214F784C89C1F220A7AF58FAC896.txt


まとめると

 

+^http://d.hatena.ne.jp/kanbayashi

 とか書いておけばいいみたい

  • 3:

bin/nutch crawl urls_XXXX -dir クロールしたデータを置いておきたいディレクトリ名 -depth 何階層までクロールするか(10とかでよさげ)

 とurls_xxxxを置いたところでコマンドを打ってクロール開始!!

Tomcatのある所/bin/catarina.bat start

 
を実行してTomcat起動

  • 7:

http://localhost:8080/search.jsp

にアクセスすれば検索アプリケーションが動いてる。(゚д゚)ウマ-


ってな感じ。ステップ5が分からなくてすごい苦労した。こんな時ソースを読んで原因究明ができるのはいいね。Javaマンセー
とりあえず、皆さんも暇つぶしにでもお試しあれ。

またいらぬものをいじってしまった( ̄ー ̄)(投票)

*1:現バージョンでは

*2:現バージョンでは

Today's (hoge)^2

  • なんかKikkerの調子が悪かったらしくひさしぶりにサーバを再起動した。原因不明。メンテナンスしたいけど暇がないな〜。と言い訳。

http://ryogrid.myhome.cx:1234/
最近、定常的に使ってくれている人が増えてきているようでうれしい限り。