■ - kermitonphd’s diary

A practical approach to language complexity: a Wikipedia case study
Taha Yasseri, András Kornai, János Kertész
arXiv:1204.2765

Wikipediaのデータ解析の研究が多い著者らによる言語に関する論文．
Zipf則やHeaps則は基本的な言語の法則として紹介される．
また，Heaps則はHerdan-Heaps' lawとなっいる．
モデリングなどはいっさいないし，既存の計測法を使った比較．
比較したのは英語の，普通版とSimple版．
Simple版と普通版は，単純にDistinct tokensで比べるとSimple版の方が多い．
また，「Gunning fog index」のFというのがあって，それは文章の複雑さを決める指標なのだが，
まずはその指標を使って文書の複雑さを定義する．
Fが大きい程，複雑であると判定される．

何がSimple版をSimpleにしているかというと，Fの値がほぼどのカテゴリーでもSimple版の方が小さい．
他に決め手となるのは，1文あたりの単語数やに代表される「構造」であるという結論．
実際にZipf則やHeaps則は二者ではほぼ変わらないが，n-gramにしてnを増やしていくと，Zipf則で結果がどんどん乖離していく様子が見える．(図２)
このやり方は面白いと思った．

また他にも，「哲学」「物理」といった抽象概念の説明と「マドンナ」「オバマ」などの具体的な人物の説明では，Fの値が後者の方が小さいとか，編集者同士の議論ページにもFを比較して，
編集者同士が争っている議論ページを持つ方が，記事と議論ページのFの差が大きいなどの結論もある．

ちょっとGunning fog indexのFの式の中に「# of complex words」というのがあって，それが
論文中ではあまり説明されてないのが気になる．
もとの論文を読めばよいのだろうが，この部分にちょっと任意性がのこって不安が残る．
ともあれ，n-gramにして比較すると差が明らかになる，というのは新たな発見で面白いと思う．