A practical approach to language complexity: a Wikipedia case study
Taha Yasseri, András Kornai, János Kertész
arXiv:1204.2765


Wikipediaのデータ解析の研究が多い著者らによる言語に関する論文.
Zipf則やHeaps則は基本的な言語の法則として紹介される.
また,Heaps則はHerdan-Heaps' lawとなっいる.
モデリングなどはいっさいないし,既存の計測法を使った比較.
比較したのは英語の,普通版とSimple版.
Simple版と普通版は,単純にDistinct tokensで比べるとSimple版の方が多い.
また,「Gunning fog index」のFというのがあって,それは文章の複雑さを決める指標なのだが,
まずはその指標を使って文書の複雑さを定義する.
Fが大きい程,複雑であると判定される.


何がSimple版をSimpleにしているかというと,Fの値がほぼどのカテゴリーでもSimple版の方が小さい.
他に決め手となるのは,1文あたりの単語数やに代表される「構造」であるという結論.
実際にZipf則やHeaps則は二者ではほぼ変わらないが,n-gramにしてnを増やしていくと,Zipf則で結果がどんどん乖離していく様子が見える.(図2)
このやり方は面白いと思った.


また他にも,「哲学」「物理」といった抽象概念の説明と「マドンナ」「オバマ」などの具体的な人物の説明では,Fの値が後者の方が小さいとか,編集者同士の議論ページにもFを比較して,
編集者同士が争っている議論ページを持つ方が,記事と議論ページのFの差が大きいなどの結論もある.


ちょっとGunning fog indexのFの式の中に「# of complex words」というのがあって,それが
論文中ではあまり説明されてないのが気になる.
もとの論文を読めばよいのだろうが,この部分にちょっと任意性がのこって不安が残る.
ともあれ,n-gramにして比較すると差が明らかになる,というのは新たな発見で面白いと思う.