■
あらかじめ、データサイズNは調べておく必要あり。
awk '{print $1}' Data.csv | sort -nr | awk 'BEGIN{N=30108}{print $1,NR/N}' > CDFData.csv
Igorの時と考え方は同じ。
もっといい方法を思い出したら、後で書く。
awk '{print $1}' Data.csv | sort -nr | awk '{a[NR]=$1;}END{for(i=1;i<=NR;i++)print a[i],i/NR;}' > CDFData.csv
ついでに間引く場合
sort -k2.2 -k1.2 -gr CDFData.csv |awk 'BEGIN{T=-1;}{if($1!=T)print $0;T=$1}' > MabikiCDF.csv
gnuplotで書くときは with stepsを使う
- 乱数を利用して辞書からランダムに抜き出す。
形態素解析の辞書から、ランダムにY単語を抜き出す。
あらかじめ辞書サイズNは調べておく必要あり。
awk 'BEGIN{FS=",";N=3032;Y=10}{X[NR]=$1;}END{i=0;while(i<Y){n1=int((N+1)*rand());print n1,X[n1];i++;}}' Adverb.csv
awkの乱数は0から1までの範囲だが、0と1は含まないのでプラス1とかしてある。