SYSTÈMES INFORMATIQUES Systèmes d'aide à la décision
Le modèle OLAP multidimensionnel
Le modèle multidimensionnel, également appelé modèle OLAP, a été proposé en 1993 par Edgar F. Codd – déjà père du modèle de données relationnel – en remplacement du modèle relationnel pour le stockage des données décisionnelles. Il permet de stocker les données dans un modèle plus adapté au besoin des décideurs.
Les concepts du stockage OLAP
Un hypercube OLAP – plus couramment appelé cube par abus de langage – modélise des faits qui se produisent, c'est-à-dire des événements qui caractérisent l'activité que l'on veut analyser et que l'on peut mesurer par des indicateurs. L'exemple de la figure 3a montre un cube correspondant à l'activité de vente. L'hypercube peut stocker tout type d'événements : un fait de passage de transaction boursière, un fait de consultation médicale, un fait de dépense dans un hôpital, un fait d'absence en cours, un fait de marquage de but au football, etc.
Chaque cellule de l'hypercube correspond à une occurrence du fait. Sur l'exemple de la figure 3a, chaque cellule représente un fait de vente. Par exemple, la première cellule en bas à gauche correspond aux ventes d'Astérix à Paris en janvier. Celle en haut à droite correspond aux ventes de Harry Potter à Caen en mars.
Chaque cellule contient des indicateurs également appelés variables, métriques ou mesures. Les indicateurs permettent de quantifier les faits à analyser, ce sont des valeurs qui ont un intérêt pour l'analyse. Par exemple, le fait de vente de la figure 3a se mesure grâce à l'indicateur « quantité vendue » : il a été vendu 100 Astérix en janvier à Paris, et 30 Tintin à Lille en mars. Une cellule contient généralement plusieurs indicateurs, par exemple un fait de vente peut être caractérisé non seulement par l'indicateur « quantité vendue » mais aussi par les indicateurs « chiffre d'affaires », « bénéfice », « marge brute », etc. D'autres exemples peuvent être le nombre de visiteurs dans un établissement, le taux d'occupation des lits dans un hôpital, le coût d'une hospitalisation, le nombre d'articles en stock, le taux de remplissage d'un avion, le temps d'attente moyen au supermarché, le nombre de connexions sur un site Web, la durée des communications sur un site Web, etc.
Les axes d'analyse, également appelés dimensions, contiennent un ensemble de valeurs. Sur l'exemple de la figure 3a, la dimension « géographie » possède les valeurs « Paris », « Lille », « Caen ».
Remarque : Il n'y a pas de limite dans le nombre de dimensions, et il en faut en moyenne une dizaine pour décrire un fait. Tous les outils permettent d'en spécifier au moins 25. Le choix d'exactement trois dimensions n'est pris ici que dans un but pédagogique afin de pouvoir s'imaginer et dessiner un cube.
Des hiérarchies sont spécifiées sur les dimensions, afin de permettre une consolidation des indicateurs. Par exemple, sur la figure 3a la hiérarchie : « pays -> région -> ville » définie sur la dimension « géographie » permettra d'agréger les ventes par région puis par pays et de produire ainsi automatiquement les chiffres sur la France : 250 Astérix vendus en janvier, 37 en février. Voici d'autres exemples de hiérarchies : « continent -> pays -> région -> ville -> magasin », « année -> trimestre -> mois -> jour », « catégorie-> sous-catégorie -> produit ».
Chaque indicateur a une fonction d'agrégat (on peut les additionner, ou calculer le minimum, le maximum ou la moyenne) afin d'être exploité sur la hiérarchie. Par exemple, le nombre de ventes est additif (il se somme sur toutes les dimensions), le niveau du stock est semi-additif (il se somme sur les produits, mais pas sur le temps), la[...]
La suite de cet article est accessible aux abonnés
- Des contenus variés, complets et fiables
- Accessible sur tous les écrans
- Pas de publicité
Déjà abonné ? Se connecter
Écrit par
- Elisabeth METAIS : professeur des Universités en informatique au Conservatoire national des arts et métiers, Paris
Classification
Médias