■ - kermitonphd’s diary

Project Gutenbergを使って、単語の出現頻度を調べる。
http://www.gutenberg.org/

１、テキストファイルをダウンロード
２、テキストファイルのヘッダとフッタの不要な部分を削除
３、空白を改行に置き換えて、英語アルファベット以外を削除するとよい

sed 's/ /\n/g' AlicesAdventureInWonderland.txt | sed 's/[^a-zA-Z]//g' >> Word_Alice.txt

英語以外の作品もあるので便利。
ただしアルファベット以外の削除の処理はしないように気をつけよう。

sed 's/ /\n/g' DonQuijote.txt | sed 's/[,.;]//' >> Word_Don.txt

こんな感じでとりあえず個別対応。

追記．gsubを使ってawkで対応した例．スペースから？まで（数字含む）を削除，改行も削除して出力．

awk '{for(i=1;i<=NF;i++){gsub(/[ -?]/,"",$i);gsub(/\r\n/,"",$i);if(length($i)>0)print tolower($i)}}' LeRougeEtLeNoir.txt > Words_LeRouge.txt