Latent Semantic Analysis (LSA)

Utilisez l'Analyse Sémantique Latente afin de découvrir la sémantique cachée et sous-jacente (latente) de mots dans un corpus de documents. Disponible dans Excel avec le logiciel XLSTAT.

Qu’est-ce que l'Analyse Sémantique Latente ?

L'Analyse Sémantique Latente ou Latent Semantic Analysis (LSA) permet de découvrir la sémantique cachée et sous-jacente (latente) de mots dans un corpus de documents en construisant des "concepts" liés aux documents et aux termes. La LSA utilise une matrice documents-termes en entrée qui décrit l'occurrence de certains termes dans les documents. C'est une matrice creuse dont les lignes correspondent aux "documents" et dont les colonnes correspondent aux "termes".

Utilisations de la LSA

Il existe plusieurs applications pour la LSA, parmi lesquelles :

  • la comparaison de documents dans l'espace des concepts (classification et catégorisation de documents, partitionnement de données) 
  • la recherche de documents similaires entre différentes langues, en ayant accès à un dictionnaire de documents multilingues 
  • la recherche de relations entre les termes (résolution de synonymie et de polysémie) 

Options de la fonctionnalité Analyse Sémantique Latente dans XLSTAT

Nombre de thématiques : entrez le nombre de thématiques envisagé pour lequel l'Analyse Sémantique Latente sera appliquée.

Regrouper par document : activez cette option si vous voulez créer des classes de documents dans l'espace sémantique crée. Ces classes peuvent être affichées via l'option Colorer par classe en dessous de la case à cocher Matrice de corrélation document-document dans l'onglet graphique.

Regrouper par terme : activez cette option si vous voulez créer des classes de termes dans l'espace sémantique crée. Ces classes peuvent être affichées via l'option Colorer par classe en dessous de la case à cocher Matrice de corrélation terme-terme dans l'onglet graphique.

Type de classification : vous pouvez activer l'une des deux options suivantes afin de choisir le type de classification relativement aux deux options de regroupement expliqués ci-dessous :

  • Absolue : choisissez cette option pour effectuer une classification dans le nouvel espace sémantique créé dans lequel chaque élément (terme / document) ne peut appartenir qu'à une seule thématique à la fois pour représenter une classe (hard clustering).
  • Floue : choisissez cette option pour effectuer une classification dans le nouvel espace sémantique créé dans lequel chaque élément (terme / document) peut appartenir à plusieurs thématiques à la fois pour représenter une classe(Soft clustering en anglais).

Sorties de la fonctionnalité Analyse Sémantique Latente dans XLSTAT

Tableau de synthèse : activez cette option pour afficher la synthèse de l'Analyse Sémantique Latente. Ceci inclut une énumération du nombre de termes et documents pour chacune des thématiques ainsi que le tableau (scree plot) des valeurs propres liées aux thématiques latentes issues de la décomposition. Les valeurs sont affichées dans un ordre décroissant d'amplitude et de variabilité expliquée.

Tableau des thématiques : activez cette option pour afficher le tableau des termes composant chaque thématique.

Max. termes/thématique : activez cette option afin de spécifier le nombre de termes au maximum à afficher dans la tableau des thématiques. Cette valeur sera également appliquée sur l'affichage des matrices de corrélations dans les graphiques.

Termes les plus similaires : activez cette option pour afficher le tableau des termes les plus similaires pour un terme donné dans l'espace sémantique crée.

Scree plot : activer cette option pour afficher le graphique (scree plot) des valeurs propres liées aux thématiques latentes issues de la décomposition. Les valeurs sont affichées dans un ordre décroissant d'amplitude et de variabilité expliquée.

Matrice de corrélation terme-terme : activez cette option pour afficher la matrice de corrélation représentant les corrélations (similarités) terme-terme dans le nouvel espace sémantique.

Matrice de corrélation document-document : activez cette option pour afficher la matrice de corrélation représentant les corrélations (similarités) document-document dans le nouvel espace sémantique.