Simulations Monte Carlo

Les simulations de Monte Carlo sont un outil décisionnel essentiel dans l'analyse statistique des risques des modèles pouvant contenir des valeurs incertaines. Elles sont disponibles dans Excel via XLSTAT.

sim-box-plots.png

Les simulations de Monte Carlo sont un outil décisionnel essentiel dans l'analyse statistique des risques des modèles pouvant contenir des valeurs incertaines. Elles sont disponibles dans Excel via XLSTAT.

Qu'est-ce qu'une simulation de Monte Carlo dans XLSTAT?

La simulation Monte Carlo est un module qui permet de construire et de calculer des modèles de simulation. C’est une méthode innovante pour estimer des variables dont la valeur exacte n'est pas connue, mais pouvant être estimée au moyen de la simulation répétée de variables aléatoires qui suivent certaines lois théoriques. Avant d'exécuter le modèle, il faut créer le modèle, en définissant une série de variables d'entrée et de sortie (ou de résultats).

Les modèles de simulation nous permettent d'obtenir des informations, telles que la moyenne ou la médiane, sur des variables qui n'ont pas de valeur exacte, mais pour lesquelles nous pouvons connaître, supposer ou calculer une distribution. Si certaines variables « résultat » dépendent de ces variables « distribuées » par le biais de formules connues ou supposées, alors les variables « résultat » auront également une distribution. XLSTAT SIM vous permet de définir les distributions, puis d'obtenir par des simulations une distribution empirique des variables d'entrée et de sortie ainsi que les statistiques correspondantes.

Les modèles de simulation sont utilisés dans de nombreux domaines tels que la finance et l'assurance, la médecine, la prospection pétrolière et gazière, la comptabilité ou la prévision des ventes.

Quatre éléments interviennent dans la construction d'un modèle de simulation :

  • Les distributions sont associées aux variables aléatoires. XLSTAT propose un choix de plus de 20 distributions pour décrire l'incertitude des valeurs que peut prendre une variable. Par exemple, vous pouvez choisir une distribution triangulaire si vous avez une quantité qui varie entre deux bornes, mais pouvant prendre une valeur plus probable (le mode). À chaque itération de calcul du modèle de simulation, un tirage aléatoire est effectué dans chaque distribution définie.
  • Les variables de scénario permettent d'inclure dans le modèle de simulation une quantité qui est fixe dans le modèle, sauf dans le cas de l'analyse tornado où elle peut varier entre deux bornes.
  • Les variables de résultat correspondent aux sorties du modèle. Elles dépendent directement ou indirectement, à travers une ou plusieurs formules Excel, des variables aléatoires auxquelles des distributions ont été associées et, si elles sont disponibles, des variables du scénario. L'objectif du calcul du modèle de simulation est d'obtenir la distribution des variables de résultat.
  • Les statistiques permettent de suivre une statistique donnée comme variable de résultat. Par exemple, on peut vouloir suivre l'écart type d'une variable de résultat.

Un modèle correct doit comprendre au moins une distribution et un résultat. Les modèles peuvent contenir un nombre quelconque de ces quatre éléments.

Un modèle peut se limiter à une seule feuille Excel ou utiliser un classeur Excel entier.

Les modèles de simulation peuvent prendre en compte les dépendances entre les variables d'entrée décrites par les distributions. Si vous savez que deux variables sont généralement liées de telle sorte que le coefficient de corrélation entre elles est de 0.4, alors le but est de conserver cette propriété pour les valeurs échantillonnées pour ces deux variables lors des simulations. Ceci est possible dans les Simulations de Monte-Carlo en entrant dans la boîte de dialogue “Exécuter” la matrice de corrélation ou de covariance entre certaines ou toutes les variables aléatoires d'entrée utilisées dans le modèle.

Comment configurer une simulation de Monte Carlo dans XLSTAT ?

Onglet Général :

Limitation du modèle : cette option permet de définir la taille du modèle de simulation actif. Limitez de préférence votre modèle à une seule feuille Excel. Les options suivantes sont disponibles :

  • Feuille : seules les fonctions de simulation de la feuille Excel active seront utilisées dans le modèle de simulation. Les autres feuilles sont ignorées.
  • Classeur : toutes les fonctions de simulation du classeur actif seront incluses dans le modèle de simulation. Cette option permet d'utiliser plusieurs feuilles Excel pour un seul modèle.

Méthode d'échantillonnage : cette option permet de choisir la méthode de génération de l'échantillon. Deux possibilités sont disponibles :

  • Classique : les échantillons sont générés en utilisant des simulations de Monte Carlo.
  • Hypercubes latins : les échantillons sont générés à l'aide de la méthode des hypercubes latins. Cette méthode divise la fonction de distribution de la variable en sections de même taille et génère ensuite des échantillons de taille égale dans chaque section. Cela conduit à une convergence plus rapide de la simulation. Vous pouvez saisir le nombre de sections. La valeur par défaut est de 500.

Mémoire pas à pas : entrez le nombre maximal de pas de simulation qui seront stockés dans le mode pas à pas afin de calculer les champs de statistiques. Lorsque la limite est atteinte, la fenêtre avance (la première itération est oubliée et la nouvelle est stockée). La valeur par défaut est de 500. Vous pouvez augmenter cette valeur si nécessaire.

Nombre d'itérations par étape : entrez la valeur du nombre d'itérations de simulation qui sont effectuées au cours d'une étape. La valeur par défaut est 1.

Onglet Format :

Utilisez ces options pour définir le format des différents éléments du modèle qui sont affichés sur les feuilles Excel :

  • Distributions : vous pouvez définir la couleur de la police et la couleur du fond des cellules dans lesquelles sont stockées les définitions des variables aléatoires d'entrée et leurs distributions correspondantes.
  • Variables de scénario : vous pouvez définir la couleur de la police et la couleur de l'arrière-plan des cellules dans lesquelles sont stockées les variables de scénario.
  • Variables de résultat : vous pouvez définir la couleur de la police et la couleur de l'arrière-plan des cellules dans lesquelles les variables de résultat sont stockées.
  • Statistiques : vous pouvez définir la couleur de la police et la couleur de l'arrière-plan des cellules dans lesquelles sont stockées les statistiques.

Onglet Convergence :

Conditions d'arrêt : activez cette option pour arrêter la simulation si les critères de convergence sont atteints.

  • Critère : sélectionnez le critère qui doit être utilisé pour tester la convergence. Il y a trois options disponibles :
    • Moyenne : les moyennes des "variables de résultat" surveillées (voir ci-dessous) du modèle de simulation seront utilisées pour vérifier si les conditions de convergence sont remplies.
    • Écart type : l'écart-type des "variables de résultat" surveillées (voir ci-dessous) du modèle de simulation sera utilisé pour vérifier si les conditions de convergence sont remplies.
    • Percentile : les percentiles des "variables de résultat" surveillées (voir ci-dessous) du modèle de simulation seront utilisés pour vérifier si les conditions de convergence sont remplies. Choisissez le Percentile à utiliser. La valeur par défaut est 90 %.
  • Fréquence du test : saisissez le nombre d'itérations à effectuer avant de vérifier de nouveau les critères de convergence. La valeur par défaut est 100.
  • Convergence : saisissez la valeur en % de l'évolution des critères de convergence d'un contrôle à l'autre, qui, lorsqu'elle est atteinte, signifie que l'algorithme a convergé. La valeur par défaut est 3 %.
  • Intervalle de confiance (%) : entrez la taille en % de l'intervalle de confiance qui est calculé autour du critère sélectionné. La limite supérieure de l'intervalle est comparée à la valeur de convergence définie ci-dessus, afin de déterminer si la convergence est atteinte ou non. La valeur par défaut est 95 %.
  • Monitoring de la convergence : sélectionnez les variables de résultat du modèle de simulation qui doivent être surveillées pour la convergence. Deux options sont disponibles :
    • Toutes les variables résultat : toutes les variables de résultat du modèle de simulation seront surveillées pendant le test de convergence.
    • Variables résultat activées : seules les variables de résultat dont le paramètre ConvActive est égal à 1 sont surveillées.

Onglet Références :

Référence aux cellules Excel : sélectionnez la manière dont les références aux noms des variables des modèles de simulation sont générées :

  • Référence absolue : XLSTAT crée des références absolues (par exemple $A$4) à la cellule.
  • Référence relative : XLSTAT crée des références relatives (par exemple A4) à la cellule.

Note : la référence absolue ne sera pas modifiée si vous copiez et collez la formule XLSTAT_Sim, contrairement à la référence relative.

Onglet Résultats :

Niveau de filtre des résultats : sélectionnez le niveau de détail qui sera affiché dans le rapport. Cela concerne les tableaux de statistiques descriptives et les histogrammes des différents éléments du modèle :

  • Tout : les détails sont affichés pour tous les éléments du modèle.
  • Activés : les détails ne sont affichés que pour les éléments dont la valeur du paramètre Visible est fixée à 1.
  • Aucun : aucun détail ne sera affiché pour les éléments du modèle.

Quels sont les résultats d'une simulation de Monte Carlo dans XLSTAT ?

Lorsque vous lancez le modèle, une série de résultats est affichée. Tout en donnant les statistiques essentielles telles que l'information sur la distribution des variables d'entrée et de résultat, les résultats permettent également d'interpréter les relations entre les variables. Une analyse de sensibilité est également disponible si des variables de scénario ont été incluses.

Statistiques descriptives

Le rapport généré après la simulation contient des informations sur les distributions du modèle. L'utilisateur peut choisir parmi une gamme de statistiques descriptives les indicateurs les plus importants qui doivent être intégrés dans le rapport afin d'interpréter facilement les résultats. Une sélection de diagrammes est par ailleurs disponible pour représenter graphiquement les relations.

Les détails et formules relatifs aux statistiques descriptives sont accessibles dans la section description de l'outil Statistiques descriptives de XLSTAT.

Corrélations

Une fois les calculs terminés, le rapport de simulation peut contenir des informations sur les corrélations entre les différentes variables incluses dans le modèle de simulation. Trois coefficients de corrélation différents sont disponibles :

Le coefficient de corrélation de Pearson : ce coefficient correspond au coefficient de corrélation linéaire classique. Il est bien adapté aux données continues. Sa valeur est comprise entre -1 et 1, et il mesure le degré de corrélation linéaire entre deux variables. Remarque : le coefficient de corrélation de Pearson au carré donne une idée de la part de la variabilité d'une variable expliquée par l'autre variable. Les p-valeurs calculées pour chaque coefficient permettent de tester l'hypothèse nulle selon laquelle les coefficients ne sont pas significativement différents de 0. Cependant, il faut être prudent lors de l'interprétation de ces résultats, car si deux variables sont indépendantes, leur coefficient de corrélation est nul, mais l'inverse n'est pas vrai.

Coefficient de corrélation de Spearman (rho) : ce coefficient est basé sur les rangs des observations et non sur leur valeur. Il est adapté aux données ordinales. Comme pour la corrélation de Pearson, on peut interpréter ce coefficient en termes de variabilité expliquée, mais ici, on parle de la variabilité des rangs.

Le coefficient de corrélation de Kendall (tau) : comme pour le coefficient de Spearman, il est bien adapté aux variables ordinales car il est également basé sur les rangs. Toutefois, ce coefficient est conceptuellement très différent. Il peut être interprété en termes de probabilité : il s'agit de la différence entre les probabilités que les variables varient dans le même sens et les probabilités que les variables varient dans le sens opposé. Lorsque le nombre d'observations est inférieur à 50 et qu'il n'y a pas d'égalité, XLSTAT donne la p-value exacte. Dans le cas contraire, une approximation est utilisée. Cette dernière est dite fiable lorsqu'il y a plus de 8 observations.

Analyse de sensibilité

L'analyse de sensibilité donne des informations sur l'impact des différentes variables d'entrée sur une variable de sortie. Sur la base des résultats de la simulation et du coefficient de corrélation choisi (voir ci-dessus), les corrélations entre les variables aléatoires d'entrée et les variables de résultat sont calculées et affichées dans un ordre décroissant d'impact sur la variable de résultat.

Analyses tornado et araignée

Les analyses tornado et araignée ne sont pas basées sur les itérations de la simulation mais sur une analyse point par point de toutes les variables d'entrée (variables aléatoires avec distributions et variables de scénario).

Lors de l'analyse tornado, pour chaque variable de résultat, chaque variable aléatoire d'entrée et chaque variable de scénario sont étudiées une à une. On fait varier leur valeur entre deux bornes et on enregistre la valeur de la variable de résultat afin de connaître l'impact de chaque variable aléatoire et de scénario sur les variables de résultat. Pour une variable aléatoire, les valeurs explorées peuvent être soit autour de la médiane, soit autour de la valeur de la cellule par défaut, les bornes étant définies par les percentiles ou l'écart. Pour une variable de scénario, l'analyse est effectuée entre deux bornes spécifiées lors de la définition des variables. Le nombre de points est une option qui peut être modifiée par l'utilisateur avant d'exécuter le modèle de simulation.

L'analyse araignée n'affiche pas seulement la variation maximale et minimale de la variable résultat, mais également la valeur de la variable résultat pour chaque point de données des variables aléatoires et de scénario. Ceci est utile pour vérifier si la dépendance entre les variables de distribution et les variables de résultat est monotone ou non.

Quels graphiques sont affichés pour une simulation de Monte Carlo dans XLSTAT ?

Les graphiques suivants sont disponibles pour afficher des informations sur les variables :

  • Les diagrammes en boîte : ces représentations univariées d'échantillons de données quantitatives sont parfois appelées « boîtes à moustaches ». Il s'agit d'une représentation simple et assez complète. En effet, le minimum, le 1er quartile, la médiane, la moyenne et le 3ème quartile sont affichés dans la version fournie par XLSTAT, ainsi que les deux limites (les extrémités des « moustaches ») au-delà desquelles les valeurs sont considérées comme anormales. La moyenne est affichée avec un + rouge, et une ligne noire correspond à la médiane.
  • Scattergrammes : ces représentations univariées donnent une idée de la distribution et de la pluralité éventuelle des modes d'un échantillon. Tous les points sont représentés avec la moyenne et la médiane.
  • Graphes P-P (distribution normale) : les graphiques P-P (pour Probabilité-Probabilité) sont utilisés pour comparer la fonction de distribution empirique d'un échantillon avec celle d'une variable normale pour une même moyenne et un même écart. Si l'échantillon suit une distribution normale, les données se trouveront le long de la première bissectrice du plan.
  • Graphes Q-Q (distribution normale) : les graphiques Q-Q (pour Quantile-Quantile) permettent de comparer les quantités de l'échantillon à celles d'une variable normale pour une même moyenne et un même écart. Si l'échantillon suit une distribution normale, les données se trouveront le long de la première bissectrice du plan.
ternary diagramneural network diagram

analysez vos données avec xlstat

essayez gratuitement pendant 14 jours