S b953c14c80d01b0921279dedf6b9db80 形態素解析

ざっくり言うと

文章を形態素に分割すること。形態素とは、言語で意味を持つ最小単位。Wikipediaを読みながら、ざっくりとまとめる。

日本語の形態素解析の手法

英語は単語区切りが明確だが、日本語は単語区切りが明確ではないという特徴がある。そんな日本語の形態素解析には、大まかに2つの方法がある。
・規則による方法
・確率的言語モデル

日本語の形態素解析の4つの問題

単語の境界判別の問題

「うらにわにはにわとりがいる」
・裏庭 / には / 鶏 / が / いる
・裏庭 / には / 二 / 羽 / トリ / が / いる
・裏 / に / ワニ / は / 鶏 / が / いる
・裏庭 / に / 埴輪 / 取り / が / いる
「埴輪取り」なるものが存在しないことは人間は経験的に分かるが、存在しないことをコンピュータに網羅的に教えることはできない。

品詞判別の問題

日本語よりも英語で問題になる。

未知語の問題

固有名詞、限られた企業内の固有表現、新語に対応できないという問題。「固有表現抽出」で対応する必要あり。

ルーズな文法の問題

話し言葉や電子メール、チャットなどの表現。

形態素解析エンジン

ChaSen
Mecab

形態素解析辞書

IPAdic(ChaSen用)
UniDic(Mecab用)

辞書の課題

IPAdicの最終更新日は2007年、UniDicの最終更新日は2013年。未知語問題への対応ができておらず、別途「固有表現抽出」が必要ということ、かな。

編集履歴

・2018.05.02 初版

もしかして

    他の人の「形態素解析」

    S b953c14c80d01b0921279dedf6b9db80

    Future Center/R&D/Knowledge Management/Wiki/EGMフォーラム/読書家/思想家/語り部/探検家/歴史/作家志望/ 時々仮説・持論を独白します。突っ込み歓迎。

    最新

      最新エントリ

        関連ツイート