Palm 版の辞書ファイルはバイナリです。一方、CE 版の辞書ファイルはテキストファイルです。Palm 版の辞書を CE 用に変換するには、まずバイナリの辞書ファイルをテキスト形式に変換します。
変換には、POBox インライン版のアーカイブに含まれている pdb2dic を使います。これは Perl スクリプトなので、実行には Perl が必要です。UNIX 系のシステムを使っている人は問題ないでしょうが、Windows な人は、Perl を実行できる環境をセットアップするか、あるいは KNOPPIX を使うという手もあります。しかし、Perl のためだけでなく、UNIX 的な環境が有ると、テキストの処理には何かと便利なので、ハードディスクに余裕が有るなら、Cygwin をインストールしておくことをおすすめします。
実際に変換するには、コマンドラインで次の様に実行します。 $ perl pdb2dic fugodic.pdb fugodic.txt これで、fugodic.pdb の内容を持つ fugodic.txt というテキストファイルが生成されますが、CE 版で使うためには、さらに加工する必要が有ります。
Palm 版の辞書の中身は、次の様な形式になっています。 パタン文字列 単語 コンテクスト それぞれの区切りはタブ文字です。パタン文字列は単語の読みで、ローマ字で記述します。単語は変換候補です。コンテクストはいわゆるフレーズ予測に使う文脈情報で、省略が可能です。これは、実際には次の様な形になります。 jisyo 辞書 富豪 また、Palm 版ではコンテクストを持つエントリと持たないエントリが一つの辞書ファイルの中に納められています。
一方、CE 版の辞書は、コンテクストを持つエントリを収録する例文辞書と、持たないエントリを収録する単語辞書に分かれています。このため、Palm 版の辞書を CE 版で使える形式に変換するには、この両者を分離する必要が有ります。
CE 版の例文辞書は、次の様な形式です。 コンテクスト 単語 パタン文字列 それぞれの区切りは半角空白です。パタン文字列はひらがなで、清音・大書きで記述します。実際には次の様な形になっています。 富豪 辞書 ししよ Palm 版の例文辞書に相当する部分をこの形式に変換するには、
CE 版の単語辞書は、次の様な形式です。 パタン文字列 単語 それぞれの区切りは半角空白です。パタン文字列も例文辞書と同様です。実際には次の様な形式です。 ししよ 辞書 Palm 版の単語辞書に相当する部分をこの形式に変換するには、例文辞書の説明で挙げた(2)と(3)の作業を行います。要は文字列を置き換えるだけなので、普通のテキストエディタを使っても同じ事ができますが、やはり sed の使い方とシェルスクリプトの書き方を少し知っていれば、手早く処理できる上、一度作った処理を使い回しできるので便利です。
ここまでの処理ができれば、後は簡易辞書ツールを使って分割する作業を行えば、一応は CE 版で使える形式の辞書になります。しかし、まだ問題が有ります。
Palm 版の辞書の中に次のようなエントリが有ります。 ab 浴 この b は送り仮名情報というものです。Palm 版は送り仮名情報に対応しているので、このエントリひとつから浴び・浴びる・浴びろなどの活用形を生成できます。しかし、CE 版はこれに対応していないので、辞書の中に あb 浴 というエントリがあっても、b は無視されて、 あ 浴 というエントリがあるのと同じ状態になります。
このため、Palm 版の辞書を CE 版で実用的なものにするには、
あひ 浴び
あひる 浴びる
あひれ 浴びれ
あひろ 浴びろ
といった活用形のエントリを追加する必要が有ります。語尾の活用はある程度規則的なものなので、工夫すればシェルスクリプトや Perl スクリプトなどで一気に処理できるかもしれません(私は手打ちでやりました)。