韓日ミニ辞典開発歴に戻る

 합니다体(格式丁寧体)現在の形態素解析を考えてみましょう。
 ㄹ語幹においては,動詞語幹に現在連体形語尾の는を接続した時と同様に,語幹末のㄹの復元処理が必要になるだけでなく,語尾に습니다とㅂ니다の2種類が存在する点も,アルゴリズムを多少なりとも複雑にします。
 格式丁寧体の形態素解析をごく手短に解説すると,

(i)語末が습니다あるいは습니까である場合は,それを形態素解析の境界としてABの2つに分割する。
(ⅱ)Aがㄹ以外の子音で終わっている場合は,A(用言語幹)+B(格式丁寧体語尾)と表示して形態素解析を終了する。Aが母音またはㄹで終わっている場合は,整合性に欠けるので,「未知語です」あるいは「入力間違いの可能性があります」と表示して形態素解析を終了する。
(ⅲ)語末がㅂ니다で終わっている場合は,それを形態素解析の境界としてABの2つに分割し,2通りの解析結果を表示する。
すなわち,
【解析結果1】として,A(用言語幹)+B(格式丁寧体語尾)を表示する。次に,Aにパッチムとしてㄹを追加したCを生成した後,
【解析結果2】として,C(ㄹ用言語幹)+B(格式丁寧体語尾)を表示する。

 ところで,녹습니다には,通常のアルゴリズムで予測できる녹다以外に,予測不可能な녹슬다の可能性が存在します。従って,形態素解析(2)で述べた가지는と同様に,辞書の見出し項目として別途登録しておく必要があります。

韓日ミニ辞典開発歴に戻る


トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2011-07-03 (日) 07:39:58 (3375d)