Hiroki Watanabe
hwata****@gmail*****
2015年 11月 8日 (日) 23:08:20 JST
はじめまして。渡邉と申します。 mecab-dict-indexの'-a'オプションがユーザ指定したコスト/Idを上書きするのを避けることは可能でしょうか? -aオプションはモデルファイルと一緒に使うことで、コスト値/文脈IDが空のCSVファイルに対して自動的にそれらを埋めて新しいCSVファイルを作成してくれます。 このとき、もしユーザがすでにCSVファイル内でコスト値/文脈IDを明示的に指定してある部分については、そのままにしておくことは可能でしょうか? 現状はすべて新たな推定値で上書きされてしまいます。 例えば、以下のようなレコードを含むCSVファイルを用意して(文脈IDは空、コストは3000)、 田町,,,3000,名詞,固有名詞,地域,一般,,,田町,タマチ,タマチ 以下のコマンドを実行すると(ipadicとモデルファイルが必要)、 mecab-dict-index -m mecab-ipadic.model -d ipadic -u foo2.csv -f euc-jp -t euc-jp -a foo.csv 以下の出力を得ます。 田町,1293,1293,8067,名詞,固有名詞,地域,一般,,,田町,タマチ,タマチ 空にしておいた文脈IDだけではなく、指定したコスト値3000も8067に上書きされています。 以下のように、空にしておいた文脈IDのみ埋めるようにしたいです。 田町,1293,1293,3000,名詞,固有名詞,地域,一般,,,田町,タマチ,タマチ -aオプションを使わずに、直接バイナリの辞書を生成する場合は、空以外の値を設定すると、その値が優先されるようです。-aオプションの場合もこの動作を期待します。 -- Hiroki Watanabe hwata****@gmail***** -------------- next part -------------- HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B... 下载