言語工学

不要語[stop words] by Hans Peter Luhn

  • 機能語[function words](副詞、接続詞・・・)

※機能語を用いた書き手の推定など行われた。Ellegard(1962)

  • 内容語(名詞、動詞)のうち高頻度で出現する一般的な語
  • 内容語のうち出現頻度が低い語
  • 英語だと冠詞(the a)などが該当

<-> 識別語[discriminatory words] 索引語のような感じ。文章の特徴となる単語。

文書構造は「行列」「ベクトル」で表現できる。
索引語[index term]の重みでベクトルを作り、検索語との距離=内積で照合を行う。
(索引語はいろいろな単語から不要語を抜いたもの。)
文書と索引語で膨大な大きさの行列を作り、解析することが一般的。
時系列の場合には、日付と索引語で行列を作ることが一般的。

web上の大きさというのは未知であり、今だに学会で論じられている。
→ 全文書量を知ることは不可能に近い。 → 不要語で大きさを憶測することの意味。