言語工学
- 識別語 discriminatory words : 著者の特徴となる単語
by Mosteller and Wallance (1964)
ex)upon alghough commonly enough while as at by of on would
- 機能語 function words : 文法的な機能や役割を有する語
by Ellegard (1962)
ex)前置詞、接続詞、助動詞、冠詞など
→n-gramの分布を用いた著者の推定などに有効。
by Claude Elwood Shannon ()
ex)保吉はずっと以前からこの店の主人を見知っている
- n=1 保 吉 は ず っ と 以 前 か ら ・・・・
- n=2 保吉 吉は はず ずっ っと と以 ・・・
- n=3 保吉は 吉はず はずっ ずっと っと以 ・・・
- K特性値 : 単語の出現頻度はポアソン分布を仮定している。
V(i,N):延べ語数Nの文中にi回出現した単語数
ex)V(1,100)=50 延べ語数が100単語ある文中に、1回だけ出現した単語は50個あった。
by Yule (1944)
教師あり学習[supervised learning]
データに内在する規則性のことを機械学習の分野こう呼ぶ。
「20代後半、東京在住、正社員」は会員になりやすい、とか。
教師の決定木でデータを解析して、集中的にDMを出すなどすると有効。
言語と心理の統計―ことばと行動の確率モデルによる分析 (統計科学のフロンティア 10)
- 作者: 甘利俊一,金 明哲,村上征勝,永田昌明,大津起夫,山西健司
- 出版社/メーカー: 岩波書店
- 発売日: 2003/03/12
- メディア: 単行本
- クリック: 19回
- この商品を含むブログ (6件) を見る