特徴抽出

この機能は、ユーザーがテキスト文書のコレクションから特徴ベクトルを抽出することを可能にする。XLSTAT総計解析ソフトウェアを用いてExcel内で利用可能。

特徴抽出とは何か?

特徴抽出は、テキスト・データの大規模な集合を記述するために必要なリソースを軽減することを目的とするテキスト・マイニング手法である。それは、十分な正確さでデータを記述しながら、これらの問題を解決する変数の組み合わせを構築する手法の一般的な用語である。

特徴抽出は、各ワードが文書内で発生する頻度を分類器のトレーニングのための特徴量として使用する文書分類の手法で広く使用される。

XLSTATでの特徴抽出モデル

Bag-of-words 表現

ベクトル空間モデルとしても知られる。このモデルでは、テキスト(文章または文書のような)が、文法や語順を度外視して、そのワードのマルチセットとして表現される。伝統的なアウトプットは、文書-検索語行列である。

XLSTATでの特徴抽出のアウトプット

文書-検索語行列: これは、データセット内のすべての単語をボキャブラリとして用いる。それは、文書のコレクション内で発生する検索語の頻度を記述する数学的な行列オブジェクトである。文書-検索語行列では、行列の各行が文書に対応し、各列が文書内の検索語(ワード)に対応する。各セルは、対応する文書での対応するワードの頻度(発生数)を表す。

それに先立って、トークン化(単語の切り分け)ステップが、スペースを区切りとして用いて、文書からワードを分離するために実行される。さらに、たくさんの種類のフィルタリングの組み合わせを適用して、行列を構築するのに重要な意味を持たないワードを削除することができる。このプロセスは、 ストップワード除去という(ストップワードとは、a、the、thatなどのような語)。その他のフィルタリング手順は、スパースな検索語(文書全体で一定の割合よりも多くは存在しない検索語)を除去、または必要なワードから語尾変化を除去するためのステミング(したがって変化したワードをそれらの語幹に還元する)を実行することができる。