[mecab-users 478] mecab-dict-indexの'-a'オプションがユーザ指定したコスト/Idを上書きするのを避けることは可能でしょうか?

Back to archive index

Hiroki Watanabe hwata****@gmail*****
2015年 11月 8日 (日) 23:08:20 JST


はじめまして。渡邉と申します。

mecab-dict-indexの'-a'オプションがユーザ指定したコスト/Idを上書きするのを避けることは可能でしょうか?

-aオプションはモデルファイルと一緒に使うことで、コスト値/文脈IDが空のCSVファイルに対して自動的にそれらを埋めて新しいCSVファイルを作成してくれます。

このとき、もしユーザがすでにCSVファイル内でコスト値/文脈IDを明示的に指定してある部分については、そのままにしておくことは可能でしょうか?
現状はすべて新たな推定値で上書きされてしまいます。

例えば、以下のようなレコードを含むCSVファイルを用意して(文脈IDは空、コストは3000)、

    田町,,,3000,名詞,固有名詞,地域,一般,,,田町,タマチ,タマチ

以下のコマンドを実行すると(ipadicとモデルファイルが必要)、

    mecab-dict-index -m mecab-ipadic.model -d ipadic -u foo2.csv -f euc-jp
-t euc-jp -a foo.csv

以下の出力を得ます。

    田町,1293,1293,8067,名詞,固有名詞,地域,一般,,,田町,タマチ,タマチ

空にしておいた文脈IDだけではなく、指定したコスト値3000も8067に上書きされています。

以下のように、空にしておいた文脈IDのみ埋めるようにしたいです。

    田町,1293,1293,3000,名詞,固有名詞,地域,一般,,,田町,タマチ,タマチ

-aオプションを使わずに、直接バイナリの辞書を生成する場合は、空以外の値を設定すると、その値が優先されるようです。-aオプションの場合もこの動作を期待します。

-- 
Hiroki Watanabe
hwata****@gmail*****
-------------- next part --------------
HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B...
下载 



mecab-users メーリングリストの案内
Back to archive index