MeCabでの形態素解析の誤解析例: 助詞で/でも 2015/08/29
昨今流行っている自然言語処理では、MeCabで形態素解析して名詞を抽出することがよく行われています。名詞の抽出は辞書に登録されている単語であれば、まあだいたい正確に抽出できます。ただ、それ以外の、特に助詞・助動詞などの付属語ではたまにおかしな解析をしている例を見かけます。
最近見つけたのはこの例
“家ででもできる”
ipadicの辞書だと
家 | 名詞,一般 |
で | 助詞,格助詞,一般 |
でも | 助詞,副助詞 |
できる | 動詞,自立,一段,基本形 |
たぶんこれは合ってます。
ところが、unidicの辞書だと
家 | 名詞-普通名詞-一般 |
で | 助動詞 助動詞-ダ 連用形-一般 |
で | 助動詞 助動詞-ダ 連用形-一般 |
も | 助詞-係助詞 |
できる | 動詞-非自立可能 上一段-カ行 終止形-一般 |
“ででも” の部分がだいぶ間違ってると思います。
次は “でも” でも間違っている例
“このくらいの荷物なら車でも運べるよ”
この文は、意味を考えると、”車で運べる” という手段を表す格助詞 “で” に、係助詞または副助詞とされる “も” が付加されていると考えられます。
ipadic
でも | 助詞,副助詞 |
unidic
で | 助詞-格助詞 |
も | 助詞-係助詞 |
この文では、unidicのほうが合ってると思います。
同じく “でも” でも違う意味の例
“このフェリーで車でも運ぼうか”
この文は、”車を運ぶ” という文に係助詞または副助詞 “でも” を使った形と考えられます。
ipadic
でも | 助詞,副助詞 |
unidic
で | 助詞-格助詞 |
も | 助詞-係助詞 |
従って、ipadicのほうが合ってると思います。
隣接する単語の関係から最小コスト法で形態素解析するのでは、こういう区別は難しいのでしょうね。