Measuring the Happiness of Large-Scale Written Expression: Songs, Blogs, and Presidents
P. S. Dodds and C. M. Danforth
Journal of Happiness Studies Volume 11, Number 4, 441-456 (2010)


twitterのムードからDOWを予想する論文で引用されていた文献。
Affective Norms for English Words (ANEW) study (by Bradley and Lang 1999)を使う。
ANEWでは1034の言葉を

  • good-bad (psychological valence)
  • active-passive (arousal)
  • strong-weak (dominance)

の尺度で1-9までの間を0.5刻みで評価するらしい。
この論文では、特にpsychological valenceを使って、サンプルの文章を解析する。


対象としたサンプルのコーパスは以下

  • 歌のタイトルと歌詞 [232574 songs, 20025 artists, 1960-2007]
  • ブログ [2.3 M unique blogs, 9113772 sentences, Aug. 2005- Jun. 2009]
  • 米大統領の一般教科書演説(State of the Union addresses) [ワシントンからブッシュまで1790-2009]


歌詞ではvalenceの値が1960ころは6.7だったのが、
以降はずっと下降傾向で2000年頃には6くらいになる。
ロックとか、レゲエとかメタルとかジャンル別に見るとほぼ横ばいだから、
新しいジャンルの音楽が、ネガティブな言葉を発していると思われるらしい。
ちなみに歌詞でよく使われるポジティブな言葉はLoveで、ネガティブはLonely。
ポジティブアーティストはAll 4 Oneで、ネガティブはSlayer。


ブログでは、クリスマスやバレンタインの特定の日にはどーんと、
大きな値を取る他は、valenceは、ほぼ5.8-5.9の横ばい。
年齢別で見ると、山形のvalence分布になっていて、10代から40代にかけては
上昇傾向、40代以降は下降傾向であり、これは収入や健康とも関係あるのでは?
と、本文で言及されている。sickやdepressedが年齢とともに増えるから。
曜日別ではやっぱり日曜日がvalenceがいい値5.85強で、水曜が最も低く5.84弱。
とはいえ、あまりに細かいところの差。
面白いのは、緯度別でもみてみたところ。
緯度別でも緩やかな山形になっていて、中央あたりで高い。
サンプル数の偏りがあるとはいえ、赤道あたりだと
sad、boredが多くて、緯度が高くなるとsick 、coldが増える。
男女別だとvalence値は平均値は同じだが、分散が女性の方が大きい。
すなわち、女性の方が極端な言葉を使いがち、っぽい。


大統領演説は、J. F. Kennedyがvalence値が6.41でトップ、
Black MondayとかWW2に突入するころは下落していた。
でもこれって、そういう出来事がおこるとどうしてもネガティブな
debt、crisisとかを使うから仕方がない気もする。


読みなれない分野の論文は、英単語など知らないものも多くて、
文章も長くてちょっと時間がかかった。