韓日ミニ辞典開発歴へ戻る

 検索枠に入力した文字はUnicodeで処理されますが,ブラウザの設定がUTF-8なので,これを取り出すと,3桁の16進数で表現されます。ブラウザーに表示する際にはこれで十分なのですが,形態素解析に利用しようとすると少々扱いにくい面があります。Unicode自体はコードが連続して割り当てられているのですが,UTF-8はコードが所々飛んでいます。
 コードが連続していれば,ㄷ変則語幹の듣から들を派生するには,듣のコードに1を加えるだけで들のコードが得られますし,ㅅ変則語幹の짓を지に変更するには,짓のコードから18を引くだけで済みます。ところが,コードが連続していなければ計算がかなり複雑になります。そこで,3桁の16進数を10進数のUnicodeに変換することにします。こうすることによって,가각갂は,それぞれ44032,44033,44034のように連続した数値として表現できるだけでなく,28で割りきれれば母音で終わる文字,28で割って1余ればㄱパッチムを持つ文字,2余ればㄲパッチムを持つ文字,ということが即座に判るので,形態素解析処理が簡単になるという利点も生じます。
 ちなみに,上記の44032というのは,ブラウザーをShift-JISにした場合のハングルコードです。htmlファイルに가각갂と書いてブラウザーで表示すると,가각갂と表示されます。

韓日ミニ辞典開発歴へ戻る


トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2011-06-06 (月) 08:54:02 (3326d)