hishidaの開発blog

EBシリーズ(EBPocket,EBWin,EBMac,EBStudio),KWIC Finder,xdoc2txt,読書尚友の開発者ブログ

次なるお題は全文検索インデックス

ユーザー辞書はまだマニュアルが未整備だったり、活用情報が少なかったりするが、いったん一区切りとし、次の課題に進みたい。
これも以前から要望があって手が付いていなかった全文検索インデックスをつけてみたい。現状でも全文検索はできるが、ファイル先頭からの逐次検索なので、Wikipedia青空文庫クラスになると実用性がいまいち。追加的に全文検索インデックスをつけれるようにしたい。
全文検索ではKWIC Finderでも使わせてもらっているHyper Estraierがあるが、Cインタフェースを見てもどうもファイル単位を想定しているような感じで、適応しにくい(私の理解が甘いだけかもしれないが)。
SQLでもできるような気がするがサイズが膨大になりそうなのと性能的にも苦しい気がする。
いろいろ考えた結果、もっとも単純に、STLのmapにN-gramとHONMON内のオフセットを記録し、シリアライズして保存すればいいのではないかと。
この線で1ヶ月くらいの期間で作れないか、実験してみようと思う。