The blogosphere as an excitable social medium: Richter's and Omori's Law in media coverage
P. Klimek, W. Bayer and S. Thurner
arXiv:1102.2091


主に2008年のU.S. Presidential electionの670日間のブログをクロールして、単語の出現頻度をみる。
データは168のブログサイトを核にしてクロールし、
そこからリンクのあるブログサイトもクロールしてデータベースSQLで保存したとのこと。
Javaクローラーは作っている。


最も書き込まれる日をピークとして、その前後での書き込み数の推移が、地震学での大森法則、
書き込み数の分布がGutenberg-Richter則になるという結論。
で、ExogenousとEndogenousの二つのパターンがあるとし、
Exogenousの代表例として、「Palin」(サラ・ペイリン)、
Endogenousの代表例として、「inauguration」(就任)という
言葉をあげているが、この二つの分類方法につては、全く触れられてなくて残念。
およそ1000のexogenous eventと、150のendogenous eventのデータを得られたとある。


どの期間までをフィッティングするかはピークから14日前(後)から
30日前(後)まででフィッティングしてAICを計算し、もっとも小さい値をとるときの日付で決定する。
この日にちの分布もどのくらいになるかが気になるのだが、平均値や分布等には触れられていない。


論文のうりは、ブログ上での単語の出現頻度が地震と同じ法則で語れるよ、ということなのだろうが、モデル提起もないし、
フィッティングもラフにアドホックにやって、あまり議論も深くない。
「だから何?」といってしまいたくなるような。
面白くかけるはずのトピックなのに、持ったないというのが感想。