Modular networks of word correlations on Twitter
Joachim Mathiesen, Pernille Yde & Mogens H. Jensen
Scientific Reports 2, Article number: 814 (2012)

同一著者らのThe emergence of complex patterns in online human communicationの論文だと思われる.


ノードが単語で,ツイッターで同一ツイートに含まれていれば,リンク,というネットワーク.言語は英語.
ブランド名,名詞,都市名のカテゴリーでどちらもA&Bの単語が含まれる割合は,ベキ分布になる.ベキ指数は1.4程度.
もし,AとBが相関を持たず,AとBがZipf則に従って,ベキ指数αの分布から発生しているとすると,ベキ分布にはならず,z^{-α}log(z^2)になるはず.(z=a*bで単語AとBのそれぞれのベキ分布からの発生確率.)この辺りで,すでに非自明な相関が出ているということらしい.
これはsocial bookmarkのデータでも同じことが以前から指摘されている.
さらに単語A単独の出現頻度もZipf則には従わない.


さらに,ツイートだけではなく普通にハックルベリーフィンの冒険などの物語の文章で同じことを行う.この場合,同一文章でリンクを張る.
すると,単語A単独の出現頻度ではきれいなベキ指数が1程度のベキ分布になり,さらにAかつBの出現頻度はベキ分布で,ベキ指数は2.2から2.3程度でツイートとは指数が異なる.


まとめると,

text from human communication on social media leads to a self-organized state that appears to have no resemblance with the structure of written texts

ということなので,ソーシャルメディアの文章特有の,自己組織化的な状態が実現しているのではないかと指摘.
多分,それが単語間の相関なのだろう.それ以上は深く触れられてはいない.

しかし,この論文,Received 03 September 2012, Accepted 05 October 2012, Published 08 November 2012というスピードはうらやましい.