hishidaの開発blog

EBシリーズ(EBPocket,EBWin,EBMac,EBStudio),KWIC Finder,xdoc2txt,読書尚友の開発者ブログ

2015-01-01から1年間の記事一覧

読書尚友の最近のアップデートについて

地味ながらもAndroid用の青空文庫ビューア「読書尚友」の改良も続けている。最近の主なアップデートは、ルビの改良とファイラ機能の充実。 まずルビだが、(1)ルビ範囲の漢字よりルビの字数が少ない場合、均等配置する (2)ルビ範囲の漢字よりルビの文字数が多…

【重要】xdoc2txt DLL版の関数呼び出し規約について

Windowsでは関数の呼び出し規約にcdeclとstdcallがあり、C言語の呼び出しではcdecl、その他の言語ではstdcallが標準になっています。スタックの解放を呼び出し側が行うか、呼ばれる側が行うかの違いです。呼び出し規約が呼び出し側と呼ばれる側で違っている…

全文検索インデックス公開

EBWin4の全文検索インデックスはとりあえずHP上でプレリリース。若干の最適化を施した版をVectorにアップ予定。 手元では、EBWin4で作成した全文検索インデックスファイルを、EBMac、EBPocket for iOS/Androidにコピーして動作するところまでは検証している。…

全文検索インデックス進捗(3)

インデックスの構造を見直すことで、容量を圧縮し、オリジナルのHONMONのサイズの等倍程度ですむようになった。(n-gramのキーだけsqlite3に保存し、n-gramの出現するオフセットのリストをバイナリファイルに保存) 広辞苑の場合、HONMON2のサイズ 150MBに対…

全文検索インデックス進捗(2)

EBWin4に全文検索インデックスを追加する件、順調に進んでおり、広辞苑第六版の本文の検索が一瞬でできるようになった! 広辞苑第六版のHONMON2のサイズ154MBに対して、インデックスのサイズは574MBになった。広辞苑のHONMON2はもともとEPWING V4圧縮されて…

全文検索インデックス進捗

EBWin4に全文検索インデックスをつける件、ゆっくり進んでいます。 まずHONMONの本文を順に走査してN-gramを作成するところまでは終了。 N-gramの保存は、当初はstd::multimapを使用することを考えたが、メモリにmapを常駐させると、wikipediaクラスの巨大辞…

次なるお題は全文検索インデックス

ユーザー辞書はまだマニュアルが未整備だったり、活用情報が少なかったりするが、いったん一区切りとし、次の課題に進みたい。 これも以前から要望があって手が付いていなかった全文検索インデックスをつけてみたい。現状でも全文検索はできるが、ファイル先…

EBWin ユーザ辞書計画(5)

ユーザ辞書の項目の追加・削除・編集機能を追加したEBWin4.1.1をリリースした。これで一連のユーザ辞書計画は一区切りとする予定。 後はMac上での辞書作成ユーティリティを提供する必要はあるかもしれない。 EBPocket for iOSについて EBPocket for iOS版も…

EBWin ユーザ辞書計画(4)

ユーザー辞書対応のEBWin/EBMac/EBPocketを一斉にリリースしました。 プロダクト名 バージョン 公開場所 公開までの日数 EBWin4 4.1.0 Vectorオンライン 一週間程度 EBMac 1.27 Vectorオンライン 一週間程度 EBPocket for Android 1.20.3 Play ストア 即時 E…

EBWin ユーザ辞書計画(3)

CSVからEBWinユーザ辞書へのコンバータがかなり出来上がってきました。 PDICテキスト形式、もしくは任意のCSVからのインポートと、CSVへのエクスポートができる。 コンバータは当初Windows専用。 ユーザ辞書に対応したEBWin4,EBMacは今月リリース目標。

EBWin ユーザ辞書計画(2)

EBWin4/EBMac/EBPocketにユーザ辞書を搭載する計画の進捗状況です。 ユーザ辞書の形式はEBWin3と同様のsqlite3とするが、性能問題を改善するためにインデックスの持たせ方を若干変更。試しに英辞郎200万件を変換して実験したが、ほぼ実用になる速度になった…