mecabの辞書に顔文字を追加してみた.
エスケープ文字がどう処理されているのかよくわからないが,
( 0,0,無品詞,顔文字,*,*,*,*,"がんがれ,*,*,顔文字,
ミ 0,0,0,無品詞,顔文字,*,*,*,*,"ちびふさ,*,*,顔文字,
が,たくさん出力される.なぜだろうか...
ちなみに,辞書のフォーマットはEUC-JPと,改行コードはUnixのLFを使っている.
nkf -g でファイルスタイルを確認すると,
kaomoji.csvはCP51932(EUCの一種らしい)で,naist-jdic.csvはEUC-JPとなるのが気になる.