The meta book and size-dependent properties of written language
S. Bernhardsson, L. E. Correa da Rocha and P. Minnhagen
New J. Phys. 11 (2009) 123015


作家ごとのZipfの法則を調べ、そのべき指数\gammaが本の長さ、
すなわち文章に含まれる全単語数Mに依存する、という実データ解析論文。


さらに、異なる語彙数Nは全単語数Mによって決まる、
というHeap's law(1978)

N \propto M^{\alpha}

(where  0<\alpha<1) 経験則が言語学ではある。


ここまでは、既に知られていたことで、彼らがさらに一歩突っ込んだのが、2点ある。
1つは、このHeap's lawのべき指数\alphaはさらに、全単語数Mによって
決まる、ということを経験的に示したこと。
\alphaM=1のときは\alpha=0で、M=\inftyのときは\alpha=1となる。
また、同じようにM \rightarrow small のときは\gamma=2で、M \rightarrow \inftyのときは\gamma=1の極限に近づくとのこと。(この部分は、先行研究でも知られていた。)
もう1つは、作家ごとに、この傾向が少しずつ違っている、という解析結果も彼らのウリ。


ともあれ、Zipf則のべき指数は定数1で固定ではなく、文章全体の長さによって決まる、
という以前の自分の解析結果は既に知られた事実でだったことに気づけてよかった。