インデックスの構造を見直すことで、容量を圧縮し、オリジナルのHONMONのサイズの等倍程度ですむようになった。(n-gramのキーだけsqlite3に保存し、n-gramの出現するオフセットのリストをバイナリファイルに保存)
広辞苑の場合、HONMON2のサイズ 150MBに対して、インデックスのサイズ92MB。
今のところ青空文庫や英辞郎クラスの1GB以下のHONMONならインデックスが作成できるが、wikipediaのように4GB超のHONMONではngram方式ではメモリ容量の問題で作成ができない。
別途形態素解析型を追加する案もあるが、このあたりでいったんリリースすることを考えている。