■
Macroeconomics and Econophysics Workshop
- 日 時:2010/12/02, 18:30〜
- 報告者: 荒牧英治 (ARAMAKI, Eiji), 東京大学 知の構造化センター 講師, 科学技術振興機構 さきがけ「情報環境と人」研究員
- Title: 自然言語処理のこれまでとこれから
- Abstract: 近年ウェブの発達にともない利用可能なテキスト情報が増加するとともに,言語処理のニーズは高まっています.しかし,言語処理技術は,一部の学習系の研究者やIT企業にとっては親しみがあるものの,まだ一般的な認知度が低い状態です.その結果,不幸にも「言語処理はA(例えば,検索クエリのサジェスト)はできても,B(文法チェック,WORDの赤や緑の下線を適切に出す)もできないのか」など,否定的なコメントを受けることもしばしばです.本発表では,これまでの言語処理研究の流れ,最近のトレンド,現状での応用についてお話し,正しい言語処理との付き合い方,応用の機会を模索できればと思います.
- 研究会メモ
- twitterのデータはgoogleのキャッシュ検索で入手
- 形態素解析 < 構文解析 < 意味解析
- Bag of words (BOW) = 文章中に出てくる言葉の順番にはこだわらない
- 構文解析の構文木は一般的に日本語の方が英語より楽で、すべての言語において構文木が交差しない、という非交差制約が成立している。
- 言語処理のベンチマークサンプルとして、京大コーパス(毎日新聞を使ったもの)がある。
- いろいろな言葉のツリー構造の一覧がシソーラスで、国立情報学研究所の語彙分類表が有名。
- Patric PantnelのEspressoはポジネが分析でよく知られたアルゴリズム。
- TFiDFは今は、Okapi BM25として改良版がある。
- 雑感
人工知能と言語処理の違い。
言語処理を自動的にするため、SVMを導入するにしても、どうしても人力での正解(教師)データの作成が必要で、すべてをシステマティックにすることはできないのだろう。
自動翻訳から言語処理はスタートしたらしい。
構文解析も、意味解析も、最終的には人間の意思を表す表現としての言葉の解析だから、言語ごとに違う手法をするのではなく、最終的には、どんな言語も統一的な1つの言語に翻訳(or置き換え)して、その上で構文解釈、意味解釈という手続きになるのかも、とも思った。