言語工学

  • 識別語 discriminatory words : 著者の特徴となる単語

by Mosteller and Wallance (1964)
ex)upon alghough commonly enough while as at by of on would

  • 機能語 function words : 文法的な機能や役割を有する語

by Ellegard (1962)
ex)前置詞、接続詞、助動詞、冠詞など

  • n-gram : 隣接しているn個を1つの組としたもの。自然言語の機械処理に広く用いられている。

n-gramの分布を用いた著者の推定などに有効。
by Claude Elwood Shannon ()
ex)保吉はずっと以前からこの店の主人を見知っている

    • n=1 保 吉 は ず っ と 以 前 か ら ・・・・
    • n=2 保吉 吉は はず ずっ っと と以 ・・・
    • n=3 保吉は 吉はず はずっ ずっと っと以 ・・・
  • K特性値 : 単語の出現頻度はポアソン分布を仮定している。

K=10^4\frac{[\sum_{i=1}^N V(i,N)i^2]-N}{N^2}
V(i,N):延べ語数Nの文中にi回出現した単語数
ex)V(1,100)=50 延べ語数が100単語ある文中に、1回だけ出現した単語は50個あった。
by Yule (1944)

教師あり学習[supervised learning]
データに内在する規則性のことを機械学習の分野こう呼ぶ。
「20代後半、東京在住、正社員」は会員になりやすい、とか。
教師の決定木でデータを解析して、集中的にDMを出すなどすると有効。


言語と心理の統計―ことばと行動の確率モデルによる分析 (統計科学のフロンティア 10)

言語と心理の統計―ことばと行動の確率モデルによる分析 (統計科学のフロンティア 10)