韓日ミニ辞典開発歴に戻る

 形態素解析とは,入力された文章を単語(より正確には形態素:意味を持つ最小の言語単位)に分割し,それぞれの形態素に品詞情報を付与するという作業を行うものです。
 通常は何十万語という大規模な辞書を準備しておいて,その辞書との照合を行いながら解析作業を進めますが,日韓ミニ辞典のシステムは,辞書を準備することなく,アルゴリズムのみで形態素解析を行うことを大きな特徴としています。
 韓国語は分かち書きの末尾に文法的な特徴が現れるので,文字列を末尾から調べることで,アルゴリズムによる形態素解析が可能になります。例えば,ある文字列が母音字+가で終わっていれば,体言+助詞の可能性があるので,文字列A(体言)+가(助詞)のように分析して画面に表示します。この形態素解析に際しては,辞書を全く利用していない点に注目してください。
 ところで,韓国語の主格助詞には가と이の2種類があり,母音で終わる体言には前者が,子音で終わる体言には後者が接続します。しかしながら,韓国語学習を始めたばかりの人は,子音で終わる体言にも,이ではなく가を付けるという間違いを犯すことがしばしば見受けられます。「本」に対応する韓国語は책と言います。この単語は子音で終わっているので,책이と書くのが正しいにもかかわらず,うっかり책가と書いてしまう学習者が,相当数存在します。このような事態に対処する方法としては,2通りが考えられます。(i)「分析不可能」と表示する。(ii)「助詞の付け間違いの可能性があります。正しい候補は책이です。」と表示する。
 日韓ミニ辞典のシステムでは,どちらの方式を採用すべきでしょうか。実は,「対処法は一通りに定まらない」というのが正解です。語彙が制限されている初級段階の学習者だけが利用することを想定したシステムでは,(ii)の対処法が望ましいと言えるでしょうが,語彙に制限がないシステムでは,単に辞書が十分整備されていないことが原因である可能性を排除できないからです。例えば,작가という文字列の解析を考えてみましょう。작という体言には가という助詞がつかないので,上述の方針(ii)に従えば「助詞の付け間違いの可能性があります。正しい候補は작이です。」と表示することになりますが,実は,작가(作家)という単語が存在するので,この場合は,「分析不可能」と表示する(i)の対処法の方が望ましいと言えます。
 前置きがずいぶん長くなりましたが,第一歩として,体言に1文字の助詞がついた形式の分析から始めることにしましょう。

1)入力された文字列の長さを調べ,最後の1文字Xを取り出します。 2)文字Xがどれかの助詞に当てはまれば,全体を体言+助詞に切り分けて結果を出力します。 3)ただし,助詞Xが가/이/는/은/를/을などの場合は,その前が母音であるか子音であるかを判定する必要があります。  すなわち,가の前が母音である,あるいは,이の前が子音であるならば体言+助詞という解析結果を出力するが,가の前が子音である,あるいは,이の前が母音であるならば,文法的整合性に欠けるので,「未知語です」と出力して終了するという動作が要求されます。

 具体的にはこちらで「책이, 개가, 집에」などと入力して見てください。 ⇒ 日韓ミニ辞典

韓日ミニ辞典開発歴に戻る


トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2011-06-22 (水) 21:49:42 (3161d)