Abonnez-vous à Universalis pour 1 euro

STATISTIQUES TESTS D'HYPOTHÈSES

Article modifié le

Tests d'ajustement

La construction de modèles stochastiques est une étape importante de l'analyse statistique de données. Pour valider un modèle stochastique à partir des données observées, il faut disposer d'un test répondant à la question : le modèle construit correspond-il bien aux données ? Il s'agit donc du problème suivant.

Soit (X1, ..., Xn) un échantillon de variables aléatoires indépendantes identiquement distribuées de fonction de répartition F inconnue. Il faut tester l'hypothèse (19) H0 : F = F0 contre H1 : F ≠ F0, où F0 est une fonction de répartition donnée. L'hypothèse H0 est simple si la fonction F0 est complètement connue et elle est composite sinon. Par exemple, F0 peut être la fonction de répartition d'une loi normale de paramètres arbitraires (il s'agit dans ce cas de tester la « normalité » de l'échantillon) ou d'une loi normale de paramètres partiellement arbitraires.

Abonnez-vous à Universalis pour 1 euro

Les méthodes vues précédemment étaient orientées vers des tests d'hypothèses concernant une ou plusieurs contraintes dans l'espace du ou des paramètres. Ces méthodes ne permettent pas de tester, par exemple, l'hypothèse de normalité de l'échantillon, car il faut alors tester l'hypothèse que la fonction de répartition appartient à toute une famille de lois normales contenant un nombre infini de lois. Le problème de tests d'hypothèses de type 19 est donc non paramétrique.

On appelle test d'ajustement tout test servant à tester des hypothèses de type 19. Le premier test d'ajustement a été proposé par K. Pearson en 1900. Considérons-le dans le cas de variables aléatoires discrètes et d'une hypothèse simple.

Soit (X1, ..., Xn) un échantillon de variables aléatoires indépendantes de même loi, où chaque Xk est à valeurs dans {1, ..., m} et suit une loi inconnue p = (p1, ..., pm) avec pi = P(Xk = i), 1 = i = m. Supposons que l'on veuille tester l'hypothèse simple H0 : p = π contre H1 : p ≠ π, où π = (π1, ..., πm) est une loi donnée avec πi > 0, 1 ≤ i ≤ m. Désignons par

, la fréquence de la valeur i dans l'échantillon et constituons une sorte de distance entre les fréquences théoriques (np1, ..., npm) et celles empiriques (N1(n), ..., Nm(n)), appelée distance du « khi-deux » :
. Cette statistique converge en loi (sous l'hypothèse H0) vers une variable aléatoire suivant la loi du « khi-deux » à m – 1 degrés de liberté, (20)
. Ce résultat incite à définir un test déterministe ϕn basé sur la statistique Dn(π) de région critique Rc,nn) = {ω ; ω ∈ Ω et Dn(π) > Cα}, où la constante Cα est la solution de l'équation Pm–12 > Cα) = α, où α est un niveau de test donné. Ce test s'appelle test d'ajustement du « khi-deux ». D'après l'expression 20, le test ϕn est asymptotiquement de niveau α. La puissance de ce test tend vers 1, lorsque n tend vers + ∞. Cela provient du fait que, d'après la loi forte des grands nombres, sous toute loi p appartenant à H1, on a n–1N(n) → p ≠ π presque sûre, lorsque n → + ∞, et par conséquent,
Donc
, où PH1 est une loi arbitraire de H1.

Abonnez-vous à Universalis pour 1 euro

Exemple. On effectue 200 jets d'une pièce et on observe 110 piles et 90 faces. Supposons que la probabilité de pile soit p et que l'on veuille tester l'hypothèse H0 selon laquelle la pièce est bien équilibrée : H0 : p = ½ contre H1 : p ≠ ½. En identifiant la pile avec 1 et la face avec 0, on peut dire qu'on observe un échantillon (X1, ..., X200) de variables aléatoires indépendantes de même loi à valeurs dans {0, 1}. Avec les notations précédentes, m = 2, n = 200, π = (½, ½), N0(n) = 90, N1(n) = 110, et les fréquences théoriques valent 100. La statistique Dn(π) est égale à :

. Au niveau α = 0,05, on trouve la valeur critique Cα dans la table de la loi de χ12 : Cα = 3,84. La valeur numérique de Dn(π), à savoir 2, n'appartient pas à la région critique ]3,84, + ∞[. L'hypothèse H0 ne peut donc pas être rejetée à ce niveau.

On utilise aussi le test du « khi-deux » pour tester l'hypothèse 19 lorsque la fonction F0 est continue. Pour cela, on fait une partition de l'ensemble des valeurs de la variable aléatoire en m intervalles, puis on calcule la distance du « khi-deux » pour les fréquences théoriques associées à ces intervalles et pour les fréquences empiriques. Ensuite, on applique la procédure donnée plus haut.

Lorsque la fonction F0 de l'hypothèse 19 est continue, il existe d'autres tests d'ajustement que celui du « khi-deux », en particulier le test de Kolmogorov et le test de von Mises-Smirnov. Le premier est basé sur la statistique

et le second sur
, où Fn est la fonction de répartition empirique.

— Leonid I. GALTCHOUK

Accédez à l'intégralité de nos articles

  • Des contenus variés, complets et fiables
  • Accessible sur tous les écrans
  • Pas de publicité

Découvrez nos offres

Déjà abonné ? Se connecter

Écrit par

Classification

Autres références

  • STATISTIQUE

    • Écrit par
    • 13 899 mots
    • 1 média
    ...pas faire œuvre scientifique en adoptant à chaque instant les hypothèses qui expliquent le mieux les données observées, et donc excluent les miracles. En fait, on a constaté, vers les années trente, qu'une théorie cohérente des tests contraignait à prendre en compte non seulement l'hypothèse testée,...

Voir aussi