■
Temporal patterns of happiness and information in a global social network: Hedonometrics and Twitter
Peter Sheridan Dodds, Kameron Decker Harris, Isabel M. Kloumann, Catherine A. Bliss, Christopher M. Danforth
arXiv:1101.5120
昨年の11月に読んだHappinessに関する論文と
同じ著者による、Twitterの大規模データを使ったHappinessの解析論文。
この方、どうやらSocial network系では有名人?
Wattsとの共著論文も多いし、他も前に読んだScienceの論文の著者でもある。
データは2008.9.9 - 2010.12.31までの約28ヶ月。
28.446 billion words, 2.772 billion tweets, over 50 million usersとのこと。
その中にANEW study words(心理学で分類されてる言葉群)が1.046 billion wordsある。
途中でデータ形式がxmlからjsonに変わったこととか、
botについてもちょっと述べていたりして、データ自体にもかなり詳しい印象。
論文の目的は2つ。
- the potential for describing universal human patterns
- the current importance of Twitter across all of media
式(1)でthe weighted average level of happinessを
テキストTに対して定義して、その値が人間の周期性(曜日とか大きなイベント)でもって変動していることを指摘。
その後、2つのテキストの比較をする。
比較には2つの指標を用いる。
- 同一テキスト内の単語iのhappiness
- 比較テキストに対して、単語iはどれだけ使われているかの頻度
例えば、木曜の言葉の使われ方を考える。
木曜に使われる言葉の中でhappinessの値が大きい語は、
love、party、freeなど。(これはどの曜日でも同じだろうが。。。)
土曜よりも木曜に多く使われる言葉が、
free、news、officeなど。
で、これらの合算で考えて、プラス方向、マイナス方向のシフト量で比較する。
プラス方向へのシフトが大きい単語が、love、party、fun。
興味深いのはマイナス方向のシフトが大きい単語が、bored、free。
boredはhappinessが小さく、土曜に多く使われる。
freeはhappinessは大きめだが、土曜にはあまり使われない、という結論。
他にも、時間帯ごととかで比較。
文章のdiversityの指標にSimposon's concentrationというのを使っている。
diversity と単語iの周辺を含めたambient happinessは無相関。(r=-0.016:スピアマンの順位相関)
すなわち、結論としてはhappiness and information levels are generally uncorrelatedということ。
各単語がテキストに対してhappinessを変えるのにどう寄与しているか、というダイナミクス(?)の
部分の考察も先のhappinessのシフト量からあったが、いまいち釈然としない。