全文検索システム Namazu

Last Modified: 05/08/1998

概要

手軽に使えることを第一に目指した日本語全文検索エンジンです。 CGI として動作させることにより小中規模の WWW 全文検索システムを構築することができるほか、ハードディスク内のファイルを対象としたようなパーソナルな用途にも使えるようになっています。現在のところ Mule, Tcl/Tk, JAVA, Win32 用の検索ツールが用意されています。

UNIX, Win32, OS/2 の上で動作可能です。 Win32については広瀬@NECエンジニアリングさんによる全文検索システム Namazu for Win32のホームページがあります。 Win32版に関する詳しい情報はこちらを参照してください。
OS/2版に関する詳しい情報は清水さんによる OS/2 port of Namazu the full text retrieval search systemのページを参照してください。それぞれのページにはバイナリ・パッケージも用意されています。

Namazu の開発は多くの方たちの協力によって成り立っています。オープンな環境で開発を行うためのメーリングリストがあります。興味のある方はぜひ参加してください。

Namazu についての FAQ (よくある質問とその答え) を用意しました。

試してみよう

Namazu を実際に試して頂くために、 Linux 関連のドキュメントと RFC の全文検索システムを作ってみました。 Linux のドキュメントは開発用 Linux マシンの /usr/doc 以下の約 25 MB のファイルをインデックス化したもので、英文が多いですが、 JF による文書もあるので、日本語で検索することもできます。 RFC は 97 年 9 月頃までの 1719 のファイルをインデックス化しています。

検索式の例

Linux 関連のドキュメント

sendmail
IP Masquerade
( emacs | vi ) & replace & string

RFC

ftp
MIME BASE64
HTML 2.x I18N

おかしな動作を見つけましたら私の方まで連絡をくださるようお願いします。

検索の方法

大文字、小文字の区別はありません。foo* のように末尾にアスタリスクを指定することで前方一致検索が可能です。また、単語をスペース区切りで並べて書くとアンド検索になります。日本語は KAKASI/ChaSen によって分解され、「日本語情報処理」なら「日本語」「情報処理」というように 2 つの単語に分かれてアンド検索されます。日本語の単語の分解は完全ではありません。品質は辞書によって決定されます。

全角 (2 bytes) アルファベット・記号はすべて 1 byte として処理されます。記号を含む検索も可能で TCP/IP というような単語の検索も可能です。ただし、記号の処理は完全ではないので TCP IP のように分けてアンド検索をかけた方が取りこぼしがありません (その変わり余計なファイルまでヒットしてしまう可能性もありますが)。

括弧を含めたアンド検索とオア検索およびノット検索が可能になっており検索式に & | ! ( ) を用います。記号の代わりに and/or/not で指定することも可能です。検索式はひとつづつスペース区切りで入力しなければなりません。例えば

( sed | awk ) ! perl & regexp
または ( sed or awk ) not perl and regexp でも同じ

といった検索をすることができます。これは「 sed または awk が含まれ、perl は含まれない、そして regexp が含まれる」文書を検索するという意味になります。括弧のネストもできるので、さらに複雑な検索式で検索することも可能です。

主な仕様

この全文検索システムはインデックス作成の部分を Perl で行い、検索部分をC 言語によるプログラムで行う仕組みになっています。検索速度は OS のディスクキャッシュの効果が大きく影響してくるので厳密には測定できませんが、 Pentium 166 MHz, Memory 64 MB の Linux マシンで数十メガバイトのファイルを元に作成されたインデックスを検索した場合、大体 0.1 秒程度で検索が完了します (日本語の分解をしないとき)。アルゴリズムの性質上、検索時間はインデックスのサイズにそれほど影響されません (理論的には log 関数の伸びを示します)。

CGI としてだけでなく namazu.el を使って Mule から検索したり Tcl/Tk で作られた tknamazu という GUI な検索クライアントを用いることができます。また、 Win32 の環境では Search-S という GUI な検索クライアントを使うことができます。

検索プログラムはメモリをほんのわずかしか要求しませんし、単体で CGI として機能するので (日本語の分解には KAKASI/ChaSen を呼び出しますが) 、それなりに軽いはずです。

Mail/News を考慮したインデクシングを行うことが可能なため、特にメーリングリストやニューズの記事の全文検索システムを作るのにも適しています。

検索はアンド検索とオア検索およびノット検索をサポートしています。検索結果の表示はスコアの高い順にソートされ、 AltaVista や ODINのように要約の表示を行います。要約は HTML のヘディング構造を元に作成されます。また、一ページで表示しきれない分についてはページ単位 (ディフォルトでは 20 件単位) で表示できるようになっています。

スコアは単語の出現回数だけではなく <TITLE> <H[1-6]> <A> などの HTML タグによる重みを考慮して計算されます。また、<META NAME="keywords" CONTENT="foo bar"> にも対応しています。

インデックス作成の際に <IMG> タグから ALT 要素を取り出す、実体参照を復号する、検索結果の表示に ISO-2022-JP で HTML 4.0 Strict DTD に従った HTML を出力するなど、 HTML の扱いにはできるだけ配慮しています。また、出力する HTML については石川雅康@慶應 W3C さんの作成された jweblint で検証済みです。

インデックス作成にかかる時間は Pentium 166 MHz + 64 MB の Linux マシンで約 2000 個の合計 25 MB のファイルを処理した場合で約 50 分 (KAKASI を使用)。インデックスの更新は追加のみをサポートしています。

外部のサーヴァのファイルの取得は他のソフトに任せています。東北大学のくまがいまさあきさんの作成された httpdown や wget などをお使いください。日本語のわかち書きには京都大学の馬場肇さんがパッチをあてた kakasi-2.2.5, または奈良先端科学技術大学院大学の ChaSen を利用させていただいております。

さらに詳しい情報を知りたい方はマニュアルを参照してください。

ダウンロード

GPL2 (日本語訳)に従ったフリーソフトウェアとして公開します。

ソース配布

namazu-1122.tar.gz (約 170KB)

こちらは古い (枯れた) ヴァージョン

namazu-1115.tar.gz (約 96KB)
namazu-104b.tar.gz (約 62KB)

バイナリ・パッケージ

Win32用

Namazu のWin32用のパッケージを広瀬@NECエンジニアリングさんが用意してくださいました。 Win32版に関する詳しい情報は広瀬さんによる全文検索システム Namazu for Win32のページを参照してください。

Win32 で Namazu を使うには nkf32 と KAKASI および Perl5 が必要です。 Perl5 以外はここからダウンロードできます。

nmz1121.exe (約 450KB)
(広瀬@NECエンジニアリングさんがパッケージングしてくださった Win32用パッケージです)
ka225w11.exe (約 1.9MB)
(広瀬@NECエンジニアリングさんがパッケージングしてくださった KAKASI の Win32 用パッケージです)
cwdllb19.lzh (約 200KB)
(上の Namazu, KAKASI のバイナリを実行するために必要な DLL です。パスの通ったところに展開して置いてください)
nkf32162.lzh (約 50KB)
(COW さんの作成された Win32 版の nkf です。 Namazu でインデックスを作成するのに必要です)
Perl5 (約 1.5MB)
(ActiveState社のパッケージングによる Win32用 Perl5です。 CPAN からも取ってこれます)

OS/2用

Namazu のOS/2用のパッケージを清水@住友林業さんが用意してくださいました。 OS/2版に関する詳しい情報は清水さんによる OS/2 port of Namazu the full text retrieval search systemのページを参照してください。

namazu-1121.zip (約 470KB)
(清水@住友林業さんがパッケージングしてくださった OS/2用パッケージです)

歴史

01/07/1997: httpdown を手に入れる。
01/08/1997: SEEK & DESTROY の初期ヴァージョンの開発開始。
01/09/1997: SEEK & DESTROY の初期ヴァージョン完成。
この頃のヴァージョンはとてつもなく遅く、それを誤魔化すために検索結果をファイルに保存して次回からはそちらを参照するというセコイ手法に頼っていた。
2-3/*/1997: なぜかスノーボードにはまっていたため、すっかり忘れてしまう。
4/?/1997: SSE1.1 を入手するが、期待したほど速くなかったということと特許出願中という点が気になったため、ソースの解析は踏みとどまる。ただし、日本語の単語の区切り出しに京大の馬場肇さんによるパッチをあてた KAKASI を用いるという方法など、ドキュメントは参考にした。
4-6/*/1997: 部屋に発生した蟻軍団の退治にあけくれる。
06/30/1997: あたためていたアイディアをもとにコーディングを開始。
07/07/1997: とりあえず動くレヴェルにまで完成したので、 SEEK & DESTROY REVENGE として復活させ、内輪でテストを開始。
07/08/1997: 大胆にも linux-users Mailing List で宣伝をしてしまう。
07/09/1997: 大胆にも w3-search Mailing List で宣伝をしてしまう。
07/12/1997: サンプル用に /usr/doc 以下のファイルをデータベース化した。
07/24/1997: テスト・ヴァージョンを一部に公開、の予定だったが延期
07/25/1997: 馬場肇@京大さんとやまだあきらさんにテストを依頼(大変感謝しております)
07/29/1997: テスト版その 2 が完成
07/31/1997: 一般向けにテスト版 (Version 0.1.2) を公開
08/01/1997: Version 0.1.3 をテスト公開
08/04/1997: Version 0.1.4 をテスト公開
08/11/1997: Version 0.2.0 をテスト公開
08/11/1997: Version 0.2.1 をテスト公開
08/15/1997: Version 0.2.2 をテスト公開
08/18/1997: Version 0.3.0 をテスト公開
08/21/1997: Version 0.3.1 をテスト公開
08/21/1997: 大胆にも fj で宣伝をしてしまう
08/22/1997: Version 0.3.2 をテスト公開
08/28/1997: Version 0.3.3 をテスト公開
08/31/1997: Version 1.0.0 を正式公開
08/31/1997: fj.sources に投稿
09/07/1997: Version 1.0.1 を公開
09/15/1997: Version 1.0.2 を公開
09/15/1997: fj.sources に投稿
09/28/1997: Version 1.0.3 を公開
09/29/1997: patch.103a を公開
11/13/1997: Version 1.0.4 を公開
11/13/1997: fj.sources に投稿
11/14/1997: patch.104a を公開
11/20/1997: patch.104b を公開
12/21/1997: Version 1.1.0 を公開
12/21/1997: fj.sources に投稿
12/22/1997: patch.110a を公開
01/24/1998: メーリングリストを開設
02/12/1998: Version 1.1.1 を公開
02/16/1998: Version 1.1.1.1 を公開
02/21/1998: Version 1.1.1.2 を公開
02/27/1998: Version 1.1.1.3 を公開
03/02/1998: Version 1.1.1.4 を公開
03/09/1998: Version 1.1.1.5 を公開
03/31/1998: Version 1.1.2 を公開
04/22/1998: Version 1.1.2.1 を公開
05/08/1998: Version 1.1.2.2 を公開

プログラムの履歴に関しては ChangeLog を参照してください。

作者

氏名: 高林哲 Satoru Takabayashi
email: ccsatoru@vega.aichi-u.ac.jp

email: ccsatoru@vega.aichi-u.ac.jp
高林哲のトップページへ

ccsatoru@vega.aichi-u.ac.jp