[mecab-users 403] mecab0.98 + naist-jdic アルファベットの扱い

Back to archive index

YAMANEKO/Mao yneko****@yamam*****
2010年 3月 3日 (水) 14:26:24 JST


お世話になります、もりもとと申します。

mecab0.98 + mecab-naist-jdic-0.4.3-20080917 で使用しているのですが、
連続したアルファベット2文字の扱いが不可解で躓いております。

「ay」の場合:
a       記号,アルファベット,*,*,*,*,a,エイ,エイ
y       記号,アルファベット,*,*,*,*,y,ワイ,ワイ

「これはayです」の場合:
これ    名詞,代名詞,一般,*,*,*,これ,コレ,コレ
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
ay      名詞,一般,*,*,*,*,*
です    助動詞,*,*,*,特殊・デス,基本形,です,デス,デス

「これはay装置です」の場合:
これ    名詞,代名詞,一般,*,*,*,これ,コレ,コレ
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
a       記号,アルファベット,*,*,*,*,a,エイ,エイ
y       記号,アルファベット,*,*,*,*,y,ワイ,ワイ
装置    名詞,サ変接続,*,*,*,*,装置,ソウチ,ソーチ
です    助動詞,*,*,*,特殊・デス,基本形,です,デス,デス

どうも、連続した2文字のアルファベットは、前後の文章によって
記号二つに分解される場合と、名詞一般になる場合があるようです。
(アルファベット3文字以上だとこのようなことは起きません)

恐らく、unk.defあたりの記述が関係しているのでは?と思うのですが・・・
これを一貫して、名詞一般として認識するようにするには、
どのように設定すると良いのでしょうか?

ちなみに、ipadicでは全く問題ないのですが、
既にnaist-jdicをベースに、いろいろ単語を追加・編集してしまっているので、
切り替えは困難な状況です。。

よろしくお願いいたします。。

- YAMANEKO / Mao
http://wiki.livedoor.jp/yamamaya_com/
http://yamamaya.com/




mecab-users メーリングリストの案内
Back to archive index