韓日ミニ辞典開発歴に戻る

 ここでは,用言+語尾の形態素解析を考えてみましょう。これも第一歩として,用言語幹に1文字の語尾が接続したものから分析を始めます。1文字の語尾としては,並列語尾の고,様態語尾の게,連体形語尾の던,는,을などを挙げることができます。このうち고,게,던は語幹に直接接続するので,体言に助詞の도や에が付いた形態を解析する時と同様の手法を用いることができますが,는,을にはいくつかの検討すべき課題が存在します。
 最初の問題点は,同形異語の存在です。가지는という文字列には,

(i)가지という体言に助詞の는が付いた可能性があるだけでなく,
(ii)動詞가지다の語幹가지に,現在連体形語尾の는が付いた可能性もあり,さらには
(iii)動詞가다の語幹가に,否定形形成語尾の지に,さらに対比の助詞는が付いた可能性もあります(가지는 않았다)

 これを最長一致法や品詞数最少法で解析しようとすると,(i)と(ii)の가지+는は拾えますが,(iii)の가+지+는は抜け落ちてしまいます。これらを全て拾い上げるためには,가지는全体を辞書に登録しておくしかありません。日韓ミニ辞典では,가지는を辞書の見出し語として登録しておき,3通りの解析結果を示すとともに,가지と가지다と가다にリンクを張るようにしてあります。(もちろん,リンク先に当該の見出し語が登録されていないこともあり得ます。その場合は「未知語」と表示されます。)
 을の場合は,적을のような同形異語の存在に加えて,깨달을や지을のような変則活用の存在があります。ただ,この場合は,形態素分割の境界が全て一致するので,基本的にはアルゴリズムのみで解決可能です。例えば,

(i)적(体言)+을(助詞),
(ii)적(用言語幹)+을(未来連体形語尾),

のように分析して画面に表示します。  上で,「基本的に」と述べたのは,必要のない解析結果を減らすことをシステムに取り入れるためには,辞書の存在が必要になることがあるからです。例えば,흔드는という文字列を考えてみましょう。現時点での形態素解析システムでは,

(i)흔드(体言)+는(助詞),
(ii)흔드(用言語幹)+는(現在連体形語尾),
(iii)흔들(用言語幹)+는(現在連体形語尾)

のように分析して画面に表示することになりますが,(i)と(ii)は,実際には存在しない形態素を抽出しています。アルゴリズムのみに依存する形態素解析では,このような一見ムダとも思える解析結果を排除できません。しかしながら,初級段階の学習者に,テキストの解釈に際しては,さまざまな可能性が存在することを気付かせるためには,必ずしもムダとは言えません。このような判断に基づき,韓日ミニ辞典では,このままにしておきます。
 とは言え,実際に存在しない解析結果を排除する方法がないわけではありません。上記の例を取り上げて説明すると,出現頻度が最も低いㄹ語幹のみを形態素解析辞書に登録しておき,(i)と(ii)を排除する方法が最も効率的であろうと思われます。
 日韓ミニ辞典では,変則活用の処理を行なわないという方針で形態素解析を進め,変則活用の処理はこの次に予定している日韓小辞典で実装することにします。ただし,ㄹ語幹と하語幹は初級段階でも頻出するので,日韓ミニ辞典でも扱うことにします。試しに,検索枠に나는と入力してみてください。

韓日ミニ辞典開発歴に戻る


トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2011-06-23 (木) 09:42:32 (3309d)