STATISTIQUES TESTS D'HYPOTHÈSES

Article modifié le 29/01/2025

Tests d'ajustement

La construction de modèles stochastiques est une étape importante de l'analyse statistique de données. Pour valider un modèle stochastique à partir des données observées, il faut disposer d'un test répondant à la question : le modèle construit correspond-il bien aux données ? Il s'agit donc du problème suivant.

Soit (X₁, ..., X_n) un échantillon de variables aléatoires indépendantes identiquement distribuées de fonction de répartition F inconnue. Il faut tester l'hypothèse (19) H₀ : F = F₀ contre H₁ : F ≠ F₀, où F₀ est une fonction de répartition donnée. L'hypothèse H₀ est simple si la fonction F₀ est complètement connue et elle est composite sinon. Par exemple, F₀ peut être la fonction de répartition d'une loi normale de paramètres arbitraires (il s'agit dans ce cas de tester la « normalité » de l'échantillon) ou d'une loi normale de paramètres partiellement arbitraires.

Les méthodes vues précédemment étaient orientées vers des tests d'hypothèses concernant une ou plusieurs contraintes dans l'espace du ou des paramètres. Ces méthodes ne permettent pas de tester, par exemple, l'hypothèse de normalité de l'échantillon, car il faut alors tester l'hypothèse que la fonction de répartition appartient à toute une famille de lois normales contenant un nombre infini de lois. Le problème de tests d'hypothèses de type 19 est donc non paramétrique.

On appelle test d'ajustement tout test servant à tester des hypothèses de type 19. Le premier test d'ajustement a été proposé par K. Pearson en 1900. Considérons-le dans le cas de variables aléatoires discrètes et d'une hypothèse simple.

Soit (X₁, ..., X_n) un échantillon de variables aléatoires indépendantes de même loi, où chaque X_k est à valeurs dans {1, ..., m} et suit une loi inconnue p = (p₁, ..., p_m) avec p_i = P(X_k = i), 1 = i = m. Supposons que l'on veuille tester l'hypothèse simple H₀ : p = π contre H₁ : p ≠ π, où π = (π₁, ..., π_m) est une loi donnée avec π_i > 0, 1 ≤ i ≤ m. Désignons par

, la fréquence de la valeur i dans l'échantillon et constituons une sorte de distance entre les fréquences théoriques (np₁, ..., np_m) et celles empiriques (N₁(n), ..., N_m(n)), appelée distance du « khi-deux » :

. Cette statistique converge en loi (sous l'hypothèse H₀) vers une variable aléatoire suivant la loi du « khi-deux » à m – 1 degrés de liberté, (20)

. Ce résultat incite à définir un test déterministe ϕ_n basé sur la statistique D_n(π) de région critique R_c_,_n(ϕ_n) = {ω ; ω ∈ Ω et D_n(π) > C_α}, où la constante C_α est la solution de l'équation P(χ_m_–1² > C_α) = α, où α est un niveau de test donné. Ce test s'appelle test d'ajustement du « khi-deux ». D'après l'expression 20, le test ϕ_n est asymptotiquement de niveau α. La puissance de ce test tend vers 1, lorsque n tend vers + ∞. Cela provient du fait que, d'après la loi forte des grands nombres, sous toute loi p appartenant à H₁, on a n^–1N(n) → p ≠ π presque sûre, lorsque n → + ∞, et par conséquent,

Donc

, où P_H_₁ est une loi arbitraire de H₁.

Exemple. On effectue 200 jets d'une pièce et on observe 110 piles et 90 faces. Supposons que la probabilité de pile soit p et que l'on veuille tester l'hypothèse H₀ selon laquelle la pièce est bien équilibrée : H₀ : p = ½ contre H₁ : p ≠ ½. En identifiant la pile avec 1 et la face avec 0, on peut dire qu'on observe un échantillon (X₁, ..., X₂₀₀) de variables aléatoires indépendantes de même loi à valeurs dans {0, 1}. Avec les notations précédentes, m = 2, n = 200, π = (½, ½), N₀(n) = 90, N₁(n) = 110, et les fréquences théoriques valent 100. La statistique D_n(π) est égale à :

. Au niveau α = 0,05, on trouve la valeur critique C_α dans la table de la loi de χ₁² : C_α = 3,84. La valeur numérique de D_n(π), à savoir 2, n'appartient pas à la région critique ]3,84, + ∞[. L'hypothèse H₀ ne peut donc pas être rejetée à ce niveau.

On utilise aussi le test du « khi-deux » pour tester l'hypothèse 19 lorsque la fonction F₀ est continue. Pour cela, on fait une partition de l'ensemble des valeurs de la variable aléatoire en m intervalles, puis on calcule la distance du « khi-deux » pour les fréquences théoriques associées à ces intervalles et pour les fréquences empiriques. Ensuite, on applique la procédure donnée plus haut.

Lorsque la fonction F₀ de l'hypothèse 19 est continue, il existe d'autres tests d'ajustement que celui du « khi-deux », en particulier le test de Kolmogorov et le test de von Mises-Smirnov. Le premier est basé sur la statistique

et le second sur

, où F_n^∗ est la fonction de répartition empirique.

— Leonid I. GALTCHOUK

Accédez à l'intégralité de nos articles

Des contenus variés, complets et fiables
Accessible sur tous les écrans
Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

Leonid I. GALTCHOUK : professeur de l'université de Strasbourg-I

Carte mentale
Élargissez votre recherche dans Universalis

Classification

Autres références

STATISTIQUE
- Écrit par Georges MORLAT
- 13 899 mots
- 1 média
...pas faire œuvre scientifique en adoptant à chaque instant les hypothèses qui expliquent le mieux les données observées, et donc excluent les miracles. En fait, on a constaté, vers les années trente, qu'une théorie cohérente des tests contraignait à prendre en compte non seulement l'hypothèse testée,...

Voir aussi

Pays	Indicateurs	Années	Graphe
Jusqu'à 12 pays	Toutes les données	De 1960 à nos jours	Affiché en courbe Affiché en barre
De 13 à 50 pays	5 données simultanées	De 1960 à nos jours	Masqué en courbe Affiché en barre
51 pays et plus	1 seule donnée	Sur une durée de 25 ans maximum	Masqué en courbe Masqué en barre

STATISTIQUES TESTS D'HYPOTHÈSES

Tests d'ajustement

STATISTIQUE

Aide