■ - kermitonphd’s diary

Temporal patterns of happiness and information in a global social network: Hedonometrics and Twitter
Peter Sheridan Dodds, Kameron Decker Harris, Isabel M. Kloumann, Catherine A. Bliss, Christopher M. Danforth
arXiv:1101.5120

昨年の11月に読んだHappinessに関する論文と
同じ著者による、Twitterの大規模データを使ったHappinessの解析論文。
この方、どうやらSocial network系では有名人？
Wattsとの共著論文も多いし、他も前に読んだScienceの論文の著者でもある。

データは2008.9.9 - 2010.12.31までの約28ヶ月。
28.446 billion words, 2.772 billion tweets, over 50 million usersとのこと。
その中にANEW study words(心理学で分類されてる言葉群)が1.046 billion wordsある。

途中でデータ形式がxmlからjsonに変わったこととか、
botについてもちょっと述べていたりして、データ自体にもかなり詳しい印象。

論文の目的は２つ。

the potential for describing universal human patterns
the current importance of Twitter across all of media

式(1)でthe weighted average level of happinessを
テキストTに対して定義して、その値が人間の周期性(曜日とか大きなイベント)でもって変動していることを指摘。
その後、２つのテキストの比較をする。
比較には２つの指標を用いる。

同一テキスト内の単語iのhappiness
比較テキストに対して、単語iはどれだけ使われているかの頻度

例えば、木曜の言葉の使われ方を考える。
木曜に使われる言葉の中でhappinessの値が大きい語は、
love、party、freeなど。（これはどの曜日でも同じだろうが。。。）
土曜よりも木曜に多く使われる言葉が、
free、news、officeなど。
で、これらの合算で考えて、プラス方向、マイナス方向のシフト量で比較する。
プラス方向へのシフトが大きい単語が、love、party、fun。
興味深いのはマイナス方向のシフトが大きい単語が、bored、free。
boredはhappinessが小さく、土曜に多く使われる。
freeはhappinessは大きめだが、土曜にはあまり使われない、という結論。
他にも、時間帯ごととかで比較。

文章のdiversityの指標にSimposon's concentrationというのを使っている。
diversity と単語iの周辺を含めたambient happinessは無相関。(r=-0.016:スピアマンの順位相関)
すなわち、結論としてはhappiness and information levels are generally uncorrelatedということ。

各単語がテキストに対してhappinessを変えるのにどう寄与しているか、というダイナミクス(?)の
部分の考察も先のhappinessのシフト量からあったが、いまいち釈然としない。