潜在意味解析 (LSA)

文書のコーパス内のワードの隠れた意味を発見するには、潜在意味解析(LSA: Latent Semantic Analysis) を使用します。XLSTATソフトウェアを用いてExcel内で利用可能です。

潜在意味解析とは何か?

潜在意味解析(LSA: Latent Semantic Analysis) は、文書や用語に関連する概念(またはトピック)を構築することにより、ワードの隠されていて、根底にある(潜在する)意味を発見することを可能にします。LSAは、文書内の用語のグループの発生を記述する入力の文書-検索語行列を使用します。これは、行が文書に、列が用語に対応する疎な行列です。

LSAには、下記のような複数の応用があります:

  • 低次元空間で文書を比較 (データ・クラスタリング、文書分類)。
  • 翻訳された文書のベースセットを分析した後、言語をまたいで類似した文書を見つける(言語横断情報検索)。
  • 用語間の関係を見つける (同義性および多義性)。

XLSTATでの潜在意味解析オプション

LSAダイアログ・ボックスには、下記のようなさまざまなオプションがあります:

トピック数: 潜在意味解析が適用されるトピック数を入力します。

文書クラスタリング: 作成された意味空間で文書クラスを作成したい場合は、このオプションを有効にします。これらのクラスは、チャート・タブの文書-文書相関行列のチェックボックスの下にあるクラスごとに色付けオプションから表示できます。

用語クラスタリング: 作成された意味空間で用語クラスを作成したい場合は、このオプションを有効にします。 これらのクラスは、チャート・タブの用語-用語相関行列のチェックボックスの下にあるクラスごとに色付けオプションから表示できます。

クラスタリングのタイプ: 上記の2つのクラスタリング・オプションに関係するクラスタリングのタイプを選択するには、2つのオプションのうちの1つを有効にします。

  • ハード : 各要素(用語/文書)が一度に1つのトピックのみに属することができるように、新しく作成された意味空間で分類を実行するには、このオプションを選びます(ハード・クラスタリング)。
  • ファジィ : 各要素(用語/文書)一度に複数のトピックに属することができるように、新しく作成された意味空間で分類を実行するには、このオプションを選びます(ソフト・クラスタリング)。

XLSTATでの潜在意味解析の結果

要約表 : 要約表は各トピックでのそれらを構成する文書-用語の合計数を示します。ユーザーは、この後、相関行列に関係するグラフやトピック表で、これらのすべてを表示することができます。

固有値と対応するスクリー・プロットも表示されます。累積分散は、計算されたトピックの関連性の指標を提供します。後者が高いほど、"打ち切られた" SVDの結果をよりよく近似します。

トピック表 : この表は、関係するトピックへの関係性の降順で、左から右へ用語/トピックのリストが表示されます。

最近傍用語 : この表は、選択された用語に関係するn個の近傍用語を類似度の降順で、ドロップ・ダウン・リストに表示します。

相関行列 :相関グラフ(用語-用語、文書-文書)は、用語(用語-用語相関行列)または文書(文書-文書相関行列)の間の類似度(コサイン類似度)を、それらの個別の空間で可視化することを可能にします。 類似度は0から1の間で、値1は両方の方向(負と正)で完全な類似に一致します。