■ - kermitonphd’s diary

mecabの辞書に顔文字を追加してみた．
エスケープ文字がどう処理されているのかよくわからないが，

( 0,0,無品詞,顔文字,*,*,*,*,"がんがれ,*,*,顔文字,
ミ 0,0,0,無品詞,顔文字,*,*,*,*,"ちびふさ,*,*,顔文字,

が，たくさん出力される．なぜだろうか．．．

ちなみに，辞書のフォーマットはEUC-JPと，改行コードはUnixのLFを使っている．
nkf -g でファイルスタイルを確認すると，
kaomoji.csvはCP51932(EUCの一種らしい)で，naist-jdic.csvはEUC-JPとなるのが気になる．