• awkなどを駆使して累積分布を書く。

あらかじめ、データサイズNは調べておく必要あり。

awk '{print $1}' Data.csv | sort -nr | awk 'BEGIN{N=30108}{print $1,NR/N}' > CDFData.csv

Igorの時と考え方は同じ。
もっといい方法を思い出したら、後で書く。

awk '{print $1}' Data.csv | sort -nr | awk '{a[NR]=$1;}END{for(i=1;i<=NR;i++)print a[i],i/NR;}'  > CDFData.csv


ついでに間引く場合

sort -k2.2 -k1.2 -gr CDFData.csv |awk 'BEGIN{T=-1;}{if($1!=T)print $0;T=$1}' > MabikiCDF.csv

gnuplotで書くときは with stepsを使う

  • 乱数を利用して辞書からランダムに抜き出す。

形態素解析の辞書から、ランダムにY単語を抜き出す。
あらかじめ辞書サイズNは調べておく必要あり。

awk 'BEGIN{FS=",";N=3032;Y=10}{X[NR]=$1;}END{i=0;while(i<Y){n1=int((N+1)*rand());print n1,X[n1];i++;}}' Adverb.csv

awkの乱数は0から1までの範囲だが、0と1は含まないのでプラス1とかしてある。