ざっくり言うと
文章を形態素に分割すること。形態素とは、言語で意味を持つ最小単位。
Wikipediaを読みながら、ざっくりとまとめる。
日本語の形態素解析の手法
英語は単語区切りが明確だが、日本語は単語区切りが明確ではないという特徴がある。そんな日本語の形態素解析には、大まかに2つの方法がある。
・規則による方法
・確率的言語モデル
日本語の形態素解析の4つの問題
単語の境界判別の問題
「うらにわにはにわとりがいる」
・裏庭 / には / 鶏 / が / いる
・裏庭 / には / 二 / 羽 / トリ / が / いる
・裏 / に / ワニ / は / 鶏 / が / いる
・裏庭 / に / 埴輪 / 取り / が / いる
「埴輪取り」なるものが存在しないことは人間は経験的に分かるが、存在しないことをコンピュータに網羅的に教えることはできない。
品詞判別の問題
日本語よりも英語で問題になる。
未知語の問題
固有名詞、限られた企業内の固有表現、新語に対応できないという問題。「固有表現抽出」で対応する必要あり。
ルーズな文法の問題
話し言葉や電子メール、チャットなどの表現。
形態素解析エンジン
・
ChaSen
・
Mecab
形態素解析辞書
・
IPAdic(ChaSen用)
・
UniDic(Mecab用)
辞書の課題
IPAdicの最終更新日は2007年、UniDicの最終更新日は2013年。未知語問題への対応ができておらず、別途「固有表現抽出」が必要ということ、かな。
編集履歴
・2018.05.02 初版