hishidaの開発blog

EBシリーズ(EBPocket,EBWin,EBMac,EBStudio),KWIC Finder,xdoc2txt,読書尚友の開発者ブログ

全文検索インデックス進捗(3)

インデックスの構造を見直すことで、容量を圧縮し、オリジナルのHONMONのサイズの等倍程度ですむようになった。(n-gramのキーだけsqlite3に保存し、n-gramの出現するオフセットのリストをバイナリファイルに保存)
広辞苑の場合、HONMON2のサイズ 150MBに対して、インデックスのサイズ92MB。
今のところ青空文庫英辞郎クラスの1GB以下のHONMONならインデックスが作成できるが、wikipediaのように4GB超のHONMONではngram方式ではメモリ容量の問題で作成ができない。
別途形態素解析型を追加する案もあるが、このあたりでいったんリリースすることを考えている。