Extraction de caractéristiques

Cet outil vous permet d'extraire des vecteurs de caractéristiques à partir d'une collection de documents texte. Disponible dans Excel avec le logiciel XLSTAT.

Qu'est-ce que l'extraction de caractéristique ?

L'extraction de caractéristique est utilisée pour réduire la quantité de ressources requises pour décrire un grand nombre de données textuelles. C'est un terme générique pour décrire les méthodes de construction de combinaisons de variables pour résoudre cette problématique tout en décrivant les données avec une précision suffisante.

Les caractéristiques extraites sont couramment utilisées dans les méthodes de classification de documents dans lesquelles la fréquence d'occurrence de chaque mot dans un document est utilisée comme caractéristique pour l'apprentissage d'un classificateur.

Extraction de caractéristique dans XLSTAT

Représentation sac-de-mots

Mieux connu sous le nom de modèle sémantique vectoriel. Dans ce modèle, un texte (comme une phrase ou un document) est représenté par l’ensemble de ses mots, sans tenir compte de la grammaire ni même de l'ordre des mots. Une sortie classique est la matrice de documents-termes.

Sorties de la fonction Extraction de caractéristiques dans XLSTAT

XLSTAT vous permet de créer et exporter la matrice documents-termes dans un fichier csv. 

La matrice documents-termes utilise tous les mots de l'ensemble des données comme vocabulaire. C'est un objet matriciel mathématique faisant apparaitre la fréquence des termes d’une collection de documents. Dans une matrice fréquentielle document-terme, chaque ligne de la matrice correspond à un document et chaque colonne correspond à un terme (mot) dans le document. Chaque cellule représente la fréquence (nombre d'occurrences) du mot correspondant dans le document correspondant.

Avant cela, une étape dîtes de « tokenisation » est effectuée afin d’extraire les mots de chaque document en utilisant le caractère espace comme séparateur. En plus de cela, nombreuses options de filtrage peuvent être appliquées telles que la suppression des mots n’ayant pas d'importance significative dans la construction de la matrice. Ce prétraitement est appelé suppression des mots d'arrêt (les mots d'arrêt signifiant les mots tels un, le, et, etc…). D'autres procédures de filtrage peuvent être effectuées comme la suppression des termes nuls (termes non présents au-dessus d'une certaine proportion sur l'ensemble des documents), ou bien la désuffixation des mots (les réduisant chacun à leur radical).



Fonctionnalités corollaires