■
The meta book and size-dependent properties of written language
S. Bernhardsson, L. E. Correa da Rocha and P. Minnhagen
New J. Phys. 11 (2009) 123015
作家ごとのZipfの法則を調べ、そのべき指数が本の長さ、
すなわち文章に含まれる全単語数に依存する、という実データ解析論文。
さらに、異なる語彙数は全単語数によって決まる、
というHeap's law(1978)
(where ) 経験則が言語学ではある。
ここまでは、既に知られていたことで、彼らがさらに一歩突っ込んだのが、2点ある。
1つは、このHeap's lawのべき指数はさらに、全単語数によって
決まる、ということを経験的に示したこと。
はのときはで、のときはとなる。
また、同じようにのときはで、のときはの極限に近づくとのこと。(この部分は、先行研究でも知られていた。)
もう1つは、作家ごとに、この傾向が少しずつ違っている、という解析結果も彼らのウリ。
ともあれ、Zipf則のべき指数は定数1で固定ではなく、文章全体の長さによって決まる、
という以前の自分の解析結果は既に知られた事実でだったことに気づけてよかった。