hishidaの開発blog

EBシリーズ(EBPocket,EBWin,EBMac,EBStudio),KWIC Finder,xdoc2txt,読書尚友の開発者ブログ

全文検索インデックス進捗

EBWin4に全文検索インデックスをつける件、ゆっくり進んでいます。
まずHONMONの本文を順に走査してN-gramを作成するところまでは終了。
N-gramの保存は、当初はstd::multimapを使用することを考えたが、メモリにmapを常駐させると、wikipediaクラスの巨大辞書では動作しないような気がするので、sqlite3に保存することにした。オリジナルのHONMONの数倍程度に収まるようなので、とりあえずこれで進めることにする。
現在N-gramを使った検索ルーチンに入ったところ。あと1〜2ヶ月で形にしたいと思っている。