2000年1月17日月曜日

[検索] ODIN~独自システムの国産サーチエンジン

[検索] ODIN~独自システムの国産サーチエンジン
ODIN
■ODINについて
ODINは,原田昌紀が東京大学在学時代にサービスを開始したサーチエンジンです. 
現在ODINは未来ねっと研究所の研究プロジェクトに運用を移行し,実験のために使用されています.
ODINの使用している全文検索エンジンは,以下のように変遷しています.
PROTO-TYPE (1995/10/20~)
C++で実装され,CGIとして呼び出していました.
TEST-TYPE (1996/03/04~)
C++で実装され,Apacheのモジュールから検索サーバにアクセスしていました. 独自の「絞り込み語提示機能」を持っていました.
PRODUCTION-TYPE (1997/12/24~)
C++で実装され,CGIとして呼び出されていました. PRODUCTION-TYPEに用いられている全文検索エンジンは,Freyaという名称でフリーウェアとして配付されています.
Jerky (1999/09/10~)
Javaで実装され,servletとして呼び出されています.
Jerky
現在のODINは,全文検索エンジンとしてJerky (開発コード名)を使用しています. 
Jerkyは今まで使用してきた全文検索エンジンとは大幅に設計を変更し,Java言語でまったく新規に実装しなおしました. Jerkyは,以下のような特徴を持ちます.
Unicode対応全文検索エンジン…日本語に限らず,さまざまな言語の情報を扱うことができます.
プラットフォーム独立性…Java 2 (J2SE) の動作する環境であればOSを問いません. また,ノートパソコンからサーバ専用機まで広く使用できます.
コンパクト性…システム全体が非常にコンパクトに実装されています.
Jerkyは,今後この研究プロジェクトがおこなう種々の研究に使用する予定の,重要な基本モジュールの一つです.
■ODINの特徴
ODINは,現在の多くのサーチエンジンとは,以下の点が異なっています.
1, Webページの選択収集
ODINでは,重要だと推測されるWebページを優先的に収集しています. 
そのために,索引サイズを小さく押さえていても,検索される内容を充実させることが可能です. 
ただし,日本,あるいは世界でほとんど存在しないような情報を探す用途には向きません.
2, 検索結果のグループ化
ODINでは,本来ひとつのドキュメントとして作成されたWebページ群を,できる限りまとめてに扱えるように配慮しています. 
さらに,同種のドキュメントが多量にある場合には,サイトごとに分類して閲覧することができます.
3, 適切な検索結果のスコアリング
個々のWebページの内容だけでなく,ハイパーテキストとしての性質を考慮することにより,従来より適切な検索結果のスコアリングが可能になりました. 
たとえば,"NTT"のような特定の組織の名称を入力した場合には,NTTのホームページが最上位に来るように,ロボット型サーチエンジンでありながら,ディレクトリサービス型サーチエンジンに近い性質も合わせ持っています,
4, キーワードの表現の違いへの対処
ODINでは,ある程度一般的におこなわれているキーワードの表現の違いに対処しているだけでなく,その表現がどの程度一般的に使用されているかという要素も考慮しています. ただし,このために,検索されたページに,検索に使用されたキーワードそのものが含まれないことがあります.
5, 検索できない単語
ODINでは,検索手法と運用手法の面の改良により,検索できない単語を極力減らしています. たとえば,多くのサーチエンジンでは,「プレステ2」を「プレステ」として検索しますので,どちらで検索しても検索結果数が変化しません. これは「2」という文字の出現頻度が多すぎるために無視しているのです. しかし,このような表現はよく使われますから,これらのサーチエンジンではうまく検索結果を絞り込めません.
技術的な詳しい解説は,現在発表されている,あるいは将来発表される私たちの論文やプレゼンテーション資料をご覧ください. また,今後も続々と新しい試みを行っていきます.
■システム構成
現在,ODINは以下のようなシステム構成で運用されています. ただし,高速化やバグ対策,セキュリティ維持などの目的のために,予告なしにシステム構成を変更することがあります. データ量も,徐々に増加させています.
なお,本研究プロジェクトでは,基本的に安価な汎用ハードウェアを使用しています. これは,将来的に実験に協力してくださる方々が汎用ハードウェアで運用できることを目指したテストを兼ねているからです.
ただし,ユーザ数の増加によっては,一時的に反応が悪化することも考えられ,これに対しても適時対処していく予定でいますが,研究予算の制約という大きな問題もあるので,充分な対処が遅れることも考えられます. 
その場合は,この事情をご理解の上,しばらくお待ちください.
ハードウェア
CPU Pentium III 850MHz (256k) x 2
メモリ 2048MB
ハードディスク 36GB x 4 (Ultra2 SCSI)
ソフトウェア
OS Solaris 2.8 Intel Edition
Java Runtime Java 2 SDK 1.3.1 beta HotSpot Server VM
Web Server Apache 1.3.14改
Servletコンテナ Tomcat 3.2.1改
全文検索エンジン Jerky 2000/10/25版
検索Servlet ODIN Servlet 1.0
データ
URL数 約1213万URL
索引ファイルサイズ 約31.3GB

Nippon Telegraph and Telephone Corporation
http://odin.ingrid.org/help/odin.html

0 件のコメント:

コメントを投稿