Compléments du chapitre 09. Inférence statistique.

Tout le code avec R.

F. Bertrand et M. Maumy

2021-07-20

if(!("sageR" %in% installed.packages())){install.packages("sageR")}
library(sageR)

Compléments. Tests non-paramétriques pour un échantillon.

Test des signes

Soit un échantillon aléatoire \((X_1, X_2,\dots,X_n)\) ayant pour loi parente une loi continue, caractérisée par la fonction de répartition \(F_X\) dont la médiane est notée \(m_e\) et la moyenne \(\mu\).

Hypothèses testées

Le test des signes permet de tester l’hypothèse suivante : \[{\mathcal{H}}_{0}:\quad m_e=0\] ou de façon équivalente \[\mathbb{P}\left(X_i>0\right)=1/2\] contre \[{\mathcal{H}}_{1}:\quad m_e\not=0\] ou de façon équivalente \[\mathbb{P}\left(X_i>0\right)\not=1/2.\]

Remarques :

  1. Lorsque \(m_0\) est un nombre réel, ce test permet de tester plus généralement l’hypothèse nulle \[{{\mathcal{H}}_{0}}:{{m}_{e}}={{m}_{0}}\] contre l’hypothèse alternative \[{{\mathcal{H}}_{1}}:{{m}_{e}}\not{=}{{m}_{0}}.\] Pour cela, il suffit de considérer l’échantillon aléatoire \((Y_1,\ldots,Y_n)\) avec \(Y_i=X_i-m_0\) et nous sommes ramenés au test précédent.
  2. La formulation de ce test est bien sûr la formulation d’un test bilatéral. Nous pouvons envisager les deux tests unilatéraux correspondants qui s’écrivent : \[{{\mathcal{H}}_{1}}\prime :\mathbb{P}\left( {{X}_{i}}>0 \right)<1/2\quad \textrm{ou} \quad {{\mathcal{H}}_{1}}\prime \prime :\mathbb{P}\left( {{X}_{i}}>0 \right)>1/2.\] Dans le cas plus général d’une comparaison avec une norme \(m_0\), ils s’écrivent : \[{{\mathcal{H}}_{1}}\prime :{{m}_{e}}<{{m}_{0}} \quad\textrm{ou}\quad {{\mathcal{H}}_{1}}\prime \prime :{{m}_{e}}>{{m}_{0}}.\]

Absence d’observations nulles parmi les données

Statistique du test

La statistique \(S_n^+\) du test des signes se définit par le nombre de variables aléatoires \(X_i\), \(1\leqslant i\leqslant n\), qui prennent une valeur positive ou encore : \[S_n^+=\sum_{i=1}^n \mathbf{1}_{\{X_i>0\}}.\]

Remarque :

La loi de la statistique \(S_n^+\) ne dépend pas de la loi continue \(F_X\). Propriétés : Lorsque l’hypothèse nulle \(\mathcal{H}_0\) est vraie, la variable aléatoire \(S_n^+\) a les trois propriétés suivantes : 1) \(S_n^+\) suit la loi binomiale \(\mathcal{B}(n;p)\) de paramètres \(n\) et \(p=1/2\). Cette distribution binomiale est symétrique. 2) \(\mathbb{E}\left(S_n^+\right)=np=n/2\) et \(\mathrm{Var}\left(S_n^+\right)=np(1-p)=n/4\). 3) Pour \(n\) grand (\(n\geqslant 40\)), nous utiliserons l’approximation normale avec correction de continuité : \[\mathbb{P}_{\mathcal{H}_0}\left(S_n^+\leqslant k\right)=\mathbb{P}_{\mathcal{H}_0}\left(S_n^+\geqslant n-k\right)=\Phi\left(\frac{2k-n+1}{\sqrt n}\right)\]\(\Phi\) est la fonction de répartition de la loi normale centrée-réduite \(\mathcal{N}(0;1)\) et \(k\) est un nombre entier compris entre 0 et \(n\).

Règle de décision et conclusion du test

  • Premier cas : La taille \(n\) est inférieure à \(40\). Pour un seuil donné \(\alpha\), nous cherchons, dans des tables de la loi binomiale \(\mathcal{B}(n;p)\), le plus grand nombre entier \(k_{\alpha}\) tel que \(\mathbb{P}_{\mathcal{H}_0}\left(S_n^+\leqslant k_{\alpha}\right)\leqslant \alpha/2\). Alors nous décidons : \[\left\{ \begin{align} & \begin{matrix} si\ S_{n}^{+}(obs)\notin ]{{k}_{\alpha }};n-{{k}_{\alpha }}[ & {{\mathcal{H}}_{1}}\ est\ vraie, \\ \end{matrix} \\ & \begin{matrix} si\ S_{n}^{+}(obs)\in ]{{k}_{\alpha }};n-{{k}_{\alpha }}[ & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \\ \end{align} \right.\]
  • Second cas : La taille \(n\) est supérieure ou égale à \(40\). La statistique \(S_n^+\) suit approximativement la loi normale \(\mathcal{N}(n/2;\sqrt(n)/2)\) et nous utilisons alors la statistique suivante qui tient compte de la correction de continuité : \[Z_n=\frac{2S_n^+-n+1}{\sqrt{n}}\cdot\] Pour un seuil donné \(\alpha\), une table de la loi normale centrée-réduite nous fournit une valeur critique \(c_{\alpha}\) telle que \(\mathbb{P}_{\mathcal{H}_0}\left(-c_{\alpha}<Z_n<c_{\alpha}\right)=1-\alpha\). Alors nous décidons : \[\left\{ \begin{align} & \begin{matrix} si\ {{Z}_{n}}(obs)\notin ]-{{c}_{\alpha }};+{{c}_{\alpha }}[ & {{\mathcal{H}}_{1}}\ est\ vraie, \\ \end{matrix} \\ & \begin{matrix} si\ {{Z}_{n}}(obs)\in ]-{{c}_{\alpha }};+{{c}_{\alpha }}[ & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \\ \end{align} \right.\]

Remarques :

  1. Dans le premier cas (\(n \leqslant 40\)), le niveau de signification réel du test est égal à \(2\mathbb{P}_{\mathcal{H}_0}\left(S_n^+\leqslant k_{\alpha}\right)\) qui est généralement strictement inférieur à \(\alpha\).
  2. Dans le cas où il y a des ex quo dans les données, le protocole ne change pas.

Présence d’observations nulles parmi les données

Pour traiter ce problème, la méthode recommandée est la suivante : les éliminer et se ramener à un jeu de données de taille \(n\prime\), où \(n\prime\) est le nombre d’observations non nulles, puis le traiter comme ci-dessus.

Test des rangs signés de Wilcoxon

Soit un échantillon aléatoire \((X_1, X_2,\dots,X_n)\) ayant pour loi parente, une loi continue caractérisée par la fonction de répartition \(F_X\) dont la médiane est notée \(m_e\) et la moyenne \(\mu\).

Hypothèses testées

Le test des rangs signés de Wilcoxon permet de tester l’hypothèse suivante : \[{{\mathcal{H}}_{0}}: \ \textrm{La loi continue $F_X$ est symétrique par rapport à l’origine}\] contre \[{{\mathcal{H}}_{1}}: \ \textrm{La loi continue $F_X$ n’est pas symétrique par rapport à l’origine.}\] Ici l’origine c’est \(0\).

Remarques :

  1. Nous pouvons remplacer la valeur \(0\) dans les hypothèses ci-dessus par une valeur fixée à l’avance, comme par exemple : 1, 2 ou \(\pi\).
  2. Si nous savons que la loi continue \(F_X\) est symétrique (pour le savoir, par exemple, tracer un histogramme), alors le test des rangs signés de Wilcoxon permet de tester l’hypothèse nulle suivante : \[{\mathcal{H}}_{0}:\quad \mu=0\] contre \[{\mathcal{H}}_{1}:\quad \mu\not=0\] ce qui permet de s’intéresser à la moyenne \(\mu\) de la loi continue \(F_X\). Nous rappelons que, dans le cas d’une loi symétrique, la moyenne et la médiane sont confondues.
  3. Nous introduisons l’échantillon \(Y_1,\ldots,Y_n\), avec \(Y_i=X_i-\mu_0\), pour tester l’hypothèse : \[{\mathcal{H}}_{0}:\quad \mu=\mu_0\] contre \[{\mathcal{H}}_{1}:\quad \mu\not=\mu_0.\]
  4. La formulation de ce test est la formulation d’un test bilatéral. Nous pourrions envisager d’étudier les deux tests unilatéraux correspondants.

Absence d’ex quo parmi les valeurs absolues

Soit \(\left(x_1,\ldots,x_n\right)\) une réalisation de l’échantillon précédent.

À chaque \(x_i\) nous attribuons le rang \(r_i^a\) qui correspond au rang de \(|x_i|\) lorsque les \(n\) réalisations sont classées par ordre croissant de leurs valeurs absolues. Le rang \(r_i^a\) est la réalisation d’une variable aléatoire \(R_i^a\).

Remarque :

La lettre \(a\) est là pour rappeler que nous travaillons sur les valeurs absolues des \(x_i\).

Statistique du test

Nous déterminons alors la somme \(W_{n}^{+}(obs)\) des rangs \(r_i^a\) des seules observations strictement positives. La statistique \(W_n^{+}\) du test des rangs signés de Wilcoxon est la variable aléatoire qui prend pour valeur la somme \(W_{n}^{+}(obs)\).

Par conséquent, la statistique \(W_n^{+}\) du test des rangs signés de Wilcoxon de l’échantillon se définit par : \[W_n^{+}=\sum_{\begin{array}{c}1\leqslant i \leqslant n X_i>0\end{array}}R_i^{a}.\]

Remarque :

La loi de la statistique \(W_n^{+}\) ne dépend pas de la loi continue \(F_X\) des variables aléatoires \(X_i\).

Propriétés :

Lorsque l’hypothèse nulle \(\mathcal{H}_0\) est vraie, la variable aléatoire \(W_n^{+}\) a les trois propriétés suivantes : 1) \(W_n^{+}\) est symétrique autour de son espérance \(\mathbb{E}\left(W_n^{+}\right)=n(n+1)/4\). 2) \(\mathrm{Var}\left(W_n^{+}\right)=n(n+1)(2n+1)/24\). 3) \(W_n^{+}\) est tabulée pour de faibles valeurs de \(n\). 4) Pour \(n\geqslant 15\), nous utiliserons l’approximation normale en tenant compte de la correction de continuité : \[\displaystyle\mathbb{P}_{\mathcal{H}_0}\left(W_n^{+}\leqslant w\right)=\Phi\left(\frac{2w-\displaystyle\frac{n(n+1)}{2}+1}{\displaystyle\sqrt{\frac{n(n+1)(2n+1)}{6}}}\right)\]\(\Phi\) est la fonction de répartition de la loi normale centrée-réduite \(\mathcal{N}(0;1)\) et \(w\) est un nombre entier compris entre 0 et \(n(n+1)/2\).

Règle de décision et conclusion du test

  • Premier cas : La taille \(n\) est inférieure à \(15\). Pour un seuil donné \(\alpha\), nous cherchons, dans les tables de la loi de Wilcoxon, le plus grand nombre entier \(w_{\alpha}\) tel que \[\mathbb{P}_{\mathcal{H}_0}\left(W_n^{+}\leqslant w_{\alpha}\right)\leqslant \alpha/2.\] Alors nous décidons : \[\left\{ \begin{matrix} si\ W_{n}^{+}(obs)\notin ]{{w}_{\alpha }};n(n+1)/2-{{w}_{\alpha }}[ & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ W_{n}^{+}(obs)\in ]{{w}_{\alpha }};n(n+1)/2-{{w}_{\alpha }}[ & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\]
  • Second cas : La taille \(n\) est supérieure ou égale à \(15.\) La statistique \(W_n^{+}\) suit approximativement la loi normale \(\mathcal{N}(n(n+1)/4;\sqrt{n(n+1)(2n+1)/24})\) et nous utilisons alors la statistique suivante qui tient compte de la correction de continuité : \[Z_{n}=\frac{2W_n^{+}-\displaystyle\frac{n(n+1)}{2}+1}{\sqrt{\displaystyle\frac{n(n+1)(2n+1)}{6}}}\cdot\] Pour un seuil donné \(\alpha\), une table de la loi normale centrée-réduite nous fournit une valeur critique \(c_{\alpha}\) telle que \(\mathbb{P}_{\mathcal{H}_0}\left(-c_{\alpha}<Z_n<c_{\alpha}\right)= 1-\alpha\). Alors nous décidons : \[\left\{ \begin{matrix} si\ {{Z}_{n}}(obs)\not{\in }]-{{c}_{\alpha }};+{{c}_{\alpha }}[ & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ {{Z}_{n}}(obs)\in ]-{{c}_{\alpha }};+{{c}_{\alpha }}[ & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\]

Remarques :

  1. Dans le premier cas, lorsque nous rejetons \(\mathcal{H}_0\), nous décidons que \(\mathcal{H}_1\) est vraie avec un risque d’erreur de première espèce au plus égal à \(\alpha\). En effet, le niveau de signification réel du test est égal à \(2\mathbb{P}_{\mathcal{H}_0}\left(W_n^{+}\leqslant w_{\alpha}\right)\) qui est généralement strictement inférieur à \(\alpha\).
  2. Lorsque nous conservons \(\mathcal{H}_0\), c’est avec un risque d’erreur de deuxième espèce \(\beta\) qui est difficile à évaluer.

Présence d’ex quo parmi les valeurs absolues : Méthode des rangs moyens

Cette méthode est la plus utilisée, en particulier dans la plupart des logiciels statistiques.

Les observations \(x_1,\ldots,x_n\) peuvent présenter des ex quo et a fortiori leurs valeurs absolues.

Statistique du test

En associant à la variable \(X_i\) son rang moyen \(R_i^{a{\star}}\) dans le classement des valeurs absolues et en sommant tous les rangs pour lesquels \(X_i>0\) nous obtenons la statistique : \[W_n^{+\star}=\sum_{\begin{array}{c}1\leqslant i \leqslant n\\ X_i>0\end{array}}R_i^{a{\star}}.\]

Remarque :

Le symbole \(\star\) est là pour rappeler que nous sommes dans le cas où il y a des ex quo. Les valeurs absolues observées \(|x_1|,\ldots,|x_n|\) sont ordonnées puis regroupées en classes d’ex quo, \(C_0\) pour la première classe qui est constituée des nombres \(|x_i|\) nuls, s’il en existe, et \(C_j\), \(1\leqslant j \leqslant h\) pour les autres nombres.

Certaines classes \(C_j\) peuvent comporter un seul élément, si cet élément n’a pas d’ex quo. Notons \(d_j\) le nombre d’ex quo de la classe \(C_j\). Nous avons : \[d_0+\displaystyle{\sum_{j=1}^h}d_j=n.\]

Propriétés :

Lorsque l’hypothèse nulle \(\mathcal{H}_0\) est vraie, la variable aléatoire \(W_n^{+\star}\) a les trois propriétés suivantes : 1) \(\mathbb{E}(W_{n}^{+\star })={{m}^{\star }}=\frac{n(n+1)-{{d}_{0}}({{d}_{0}}+1)}{4}\) 2) \[\text{Var}(W_{n}^{+\star })={{\left( {{\sigma }^{\star }} \right)}^{2}}=\frac{n(n+1)(2n+1)-{{d}_{0}}({{d}_{0}}+1)(2{{d}_{0}}+1)}{24}-\frac{\sum\limits_{j=1}^{h}{\left( d_{j}^{3}-{{d}_{j}} \right)}}{48}\cdot\] 3) Pour \(n>15\), nous admettrons que la variable aléatoire \(\frac{W_n^{+\star}-m^{\star}}{\sigma^{\star}}\) suit approximativement la loi normale centrée-réduite \(\mathcal{N}(0\,;1)\)\(m^{\star}\) et \(\sigma^{\star}\) ont été définis ci-dessus.

Règle de décision et conclusion du test

Premier cas : L’effectif de l’échantillon \(n\) est inférieur à \(15.\) Pour ces valeurs de \(n\), les calculs « à la main » sont fastidieux. Mais il existe des logiciels qui traitent parfaitement ce cas. Nous conclurons grâce à la \(p\)-valeur qui sera calculée.

Second cas : Même règle et même conclusion que dans le cas où il n’y a pas d’ex quo en remplaçant \(W_n^+\) par \(W_n^{+\star}\).

Remarques :

  1. Lorsque nous utilisons cette méthode des rangs moyens, nous ne pouvons pas utiliser les tables statistiques usuelles qui concernent la distribution de la statistique \(W_n^{+}\).
  2. Par extension nous pourrons utiliser la procédure ci-dessus lorsque la loi \(F_X\) des variables aléatoires \(X_i\) est discrète.

Test de Mann-Whitney

Le test de Mann-Whitney a été introduit en 1947 indépendamment du test de la somme des rangs de Wilcoxon qui a été élaboré en 1945. Ces deux tests, d’une formulation différente, sont en fait équivalents. En fonction de l’outil informatique utilisé, la dénomination du test pourra être l’une des suivantes : Test de Mann-Whitney, Test de la somme des rangs de Wilcoxon ou encore Test de Wilcoxon-Mann-Whitney. L’approche de Mann et Whitney paraît souvent plus facile à mettre en pratique.

Si nous devons utiliser une table, il nous faudra déterminer quelle a été l’approche utilisée par le logiciel statistique et nous servir de l’une des tables appropriées.

Nous observons, de manière indépendante, une variable aléatoire \(X\) de loi continue sur deux populations ou sur une population divisée en deux sous-populations.

Nous obtenons ainsi deux séries d’observations notées \((x_{1,1},\ldots,x_{1,n_1})\) pour la première et \((x_{2,1},\ldots,x_{2,n_2})\) pour la seconde.

Nous notons \(\mathcal{L}_i(X)\) la loi de la variable aléatoire \(X\) sur la \(i\)-eme (sous-)population.

Sans faire d’hypothèses spécifiques, le test de Mann-Whitney-Wilcoxon ne permet pas de tester l’égalité des moyennes ni celle des médianes entre les deux (sous-)populations même dans le cas où les variances ou les mads (median of absolute differences to the median, voir la Section correspondante de la variable \(X\) sont égales sur les deux (sous-)populations. Pour s’en convaincre, il suffit de s’intéresser à l’exemple suivant :

Premier_echantillon <- c(1,2,3,4,5,6,7,8,9,20,21,22,23,24,25,26,27,28,29)
sd(Premier_echantillon)
#> [1] 10.39146
mad(Premier_echantillon,constant = 1)
#> [1] 9
Second_echantillon <- c(10,11,12,13,14,15,16,17,18,19,30,31,32,33,34,35,36,37,38)
sd(Second_echantillon)
#> [1] 10.39146
mad(Second_echantillon,constant = 1)
#> [1] 9

Hypothèses testées

Le test de Mann-Whitney permet de tester l’hypothèse suivante : \[{\mathcal{H}}_{0}:\quad \mathcal{L}_1(X)=\mathcal{L}_2(X)\] contre \[{\mathcal{H}}_{1}:\quad \mathcal{L}_1(X)\not=\mathcal{L}_2(X).\]

Absence d’ex quo parmi les observations

Statistique du test

Pour obtenir la statistique \(U_{n_1,n_2}\) du test de Mann-Whitney, en général, nous devons procéder à des calculs successifs : 1. Nous classons par ordre croissant l’ensemble des observations des deux échantillons \((x_{1,1},\ldots,x_{1,n_1})\) et \((x_{2,1},\ldots,x_{2,n_1})\) de taille respective \(n_1\) et \(n_2\). 2. Nous affectons le rang correspondant. 3. Nous effectuons les sommes des rangs pour chacun des deux échantillons, notées \(R_{n_1}\) et \({{R}_{{{n}_{2}}}}.\) 4. Nous en déduisons les quantités \(U_{n_1}\) et \(U_{n_2}\) qui se calculent ainsi : \[U_{n_1}=n_1 n_2 +\frac{n_1(n_1+1)}{2}-R_{n_1} \quad\mbox{et}\quad U_{n_2}=n_1 n_2 +\frac{n_2(n_2+1)}{2}-R_{n_2}=n_1 n_2-U_{n_1}.\] Enfin, la statistique \(U_{n_1,n_2}\) du test de Mann-Whitney se définit comme étant la plus petite des deux valeurs \(U_{n_1}\) et \(U_{n_2}\).

Propriétés :

Lorsque l’hypothèse nulle \(\mathcal{H}_0\) est vraie, la variable aléatoire \(U_{n_1,n_2}\) a les trois propriétés suivantes : 1. \(U_{n_1,n_2}\) est symétrique autour de son espérance \(\mathbb{E}\left(U_{n_1,n_2}\right)=n_1n_2/2\). 2. \(\mathrm{Var}\left(U_{n_1,n_2}\right)=n_1n_2(n_1+n_2+1)/12\). 3. \(U_{n_1,n_2}\) est tabulée pour de faibles valeurs de \(n_1\) et de \(n_2\). 4. Pour \(n_1> 20\) et \(n_2> 20\), nous utiliserons l’approximation normale avec correction de continuité : \[\displaystyle\mathbb{P}_{\mathcal{H}_0}\left(U_{n_1,n_2}\leqslant u\right)=\Phi\left(\frac{2u+1-n_1n_2}{\sqrt{\displaystyle\frac{n_1n_2(n_1+n_2+1)}{3}}}\right)\]\(\Phi\) est la fonction de répartition de la loi normale centrée-réduite et \(u\) est un nombre entier.

Remarque :

La statistique de Wilcoxon, notée \(W_{n_1,n_2}\), est égale à la somme des rangs pour le premier échantillon : \(W_{n_1,n_2}=R_{n_1}\). Nous avons les égalités suivantes : \(\mathbb{E}\left(W_{n_1,n_2}\right)=n_1\left(n_1+n_2+1\right)/2\) et \(\mathrm{Var}\left(W_{n_1,n_2}\right)=n_1n_2(n_1+n_2+1)/12\).

Règle de décision et conclusion du test

  1. Premier cas : Les tailles \(n_1\) ou \(n_2\) sont inférieures ou égales à \(20.\) Pour un seuil donné \(\alpha\), des tables de la loi de Mann-Whitney nous fournissent une valeur critique \(c_{\alpha}\). Alors nous décidons : \[\left\{ \begin{matrix} si\ {{U}_{{{n}_{1}},{{n}_{2}}}}(obs){{c}_{\alpha }} & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ {{U}_{{{n}_{1}},{{n}_{2}}}}(obs)>{{c}_{\alpha }} & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\] Le niveau de signification réel du test est généralement strictement inférieur à \(\alpha\).
  2. Second cas : Les tailles \(n_1\) et \(n_2\) sont supérieures strictement à \(20.\) La statistique \(U_{n_1,n_2}\) suit approximativement la loi normale \(\mathcal{N}(n_1n_2/2;\sqrt{n_1n_2(n_1+n_2+1)/12})\) et nous utilisons alors la statistique suivante qui tient compte de la correction de continuité : \[Z_{n_1,n_2}=\frac{2U_{n_1,n_2}+1-n_1n_2}{\sqrt{\displaystyle\frac{n_1n_2(n_1+n_2+1)}{3}}}\cdot\] Pour un seuil donné \(\alpha\), une table de la loi normale centrée-réduite nous fournit une valeur critique \(c_{\alpha}\) telle que \(\mathbb{P}_{\mathcal{H}_0}\left(-c_{\alpha} < Z_{n_1,n_2} < c_{\alpha}\right)=1-\alpha\). Alors nous décidons : \[\left\{ \begin{matrix} si\ {{Z}_{{{n}_{1}},{{n}_{2}}}}(obs)\notin ]-{{c}_{\alpha }};+{{c}_{\alpha }}[ & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ {{Z}_{{{n}_{1}},{{n}_{2}}}}(obs)\in ]-{{c}_{\alpha }};+{{c}_{\alpha }}[ & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\]

Lorsque nous rejetons \(\mathcal{H}_0\), nous décidons que \(\mathcal{H}_1\) est vraie avec un risque d’erreur de première espèce \(\alpha\).

Lorsque nous conservons \(\mathcal{H}_0\), c’est avec un risque d’erreur de deuxième espèce \(\beta\).

Présence d’ex quo parmi les observations : Méthode des rangs moyens

Cette méthode est la plus utilisée, en particulier dans la plupart des logiciels statistiques.

Modification de la statistique du test

Les observations \(x_1\), \(\ldots\), \(x_{n_1}\), \(y_1\), \(\ldots\), \(y_{n_2}\) peuvent présenter des ex quo. Les valeurs observées \(x_1\), \(\ldots\), \(x_{n_1}\), \(y_1\), \(\ldots\), \(y_{n_2}\) sont ordonnées puis regroupées en \(h\) classes d’ex quo \(C_j\), \(1\leqslant j \leqslant h\).

Certaines classes \(C_j\) peuvent comporter un seul élément, si cet élément n’a pas d’ex quo. Notons \(d_j\) le nombre d’ex quo de la classe \(C_j\). Nous avons : \[\displaystyle{\sum_{j=1}^h}d_j=n_1+n_2.\] En associant à la variable \(X_i\) son rang moyen \(R_i^{\star}\) dans ce classement et en sommant les rangs de tous les éléments \(X_i\) du premier échantillon, nous obtenons la statistique de Wilcoxon modifiée pour prendre en compte la présence d’ex quo, \(W_{n_1,n_2}^{\star}\) : \[W_{n_1,n_2}^{\star}=\sum_{i=1}^{n_1}R_i^{\star}.\]

Propriétés :

Lorsque l’hypothèse nulle \(\mathcal{H}_0\) est vraie, la variable aléatoire \(W_{n_1,n_2}^{\star}\) a les trois propriétés suivantes : 1. \(\mathbb{E}\left(W_{n_1,n_2}^{\star}\right)=m^{\star}=n_1\left(n_1+n_2+1\right)/2\). 2. \[\text{Var}\left( W_{{{n}_{1}},{{n}_{2}}}^{\star } \right)={{\left( {{\sigma }^{\star }} \right)}^{2}}=\frac{{{n}_{1}}{{n}_{2}}\left( {{n}_{1}}+{{n}_{2}}+1 \right)}{12}-\frac{\frac{{{n}_{1}}{{n}_{2}}}{({{n}_{1}}+{{n}_{2}})({{n}_{1}}+{{n}_{2}}-1)}\sum\limits_{j=1}^{h}{\left( d_{j}^{3}-{{d}_{j}} \right)}}{12}\cdot \] 3. Pour \(n_1>15\) et \(n_2>15\), nous utiliserons l’approximation normale avec correction de continuité : \[\displaystyle\mathbb{P}_{\mathcal{H}_0}\left(W_{n_1,n_2}^{\star}\leqslant u\right)=\Phi\left(\frac{u-m^{\star}+1/2}{\sigma^{\star}}\right)\]\(\Phi\) est la fonction de répartition de la loi normale centrée-réduite et \(u\) est un nombre entier.

Remarques :

  1. Lorsque nous utilisons cette méthode des rangs moyens, nous ne pouvons pas utiliser les tables statistiques usuelles qui concernent la distribution de la variable aléatoire \(W_{n_1,n_2}\), ni celle de \(U_{n_1,n_2}\).
  2. Par extension nous pourrons utiliser cette procédure lorsque les lois \(\mathcal{L}_1\) et \(\mathcal{L}_2\) des variables aléatoires \(X_i\) sont discrètes.

Règle de décision et conclusion du test

  • Premier cas : Les tailles \(n_1\) ou \(n_2\) sont inférieures ou égales à \(15.\) Pour ces valeurs, les calculs « à la main » sont fastidieux. Il est conseillé d’avoir recours à un logiciel qui sait traiter ce cas. Nous conclurons grâce à la \(p\)-valeur qu’il calculera.
  • Second cas : Les tailles \(n_1\) et \(n_2\) sont supérieures strictement à \(15.\) La statistique \(W_{n_1,n_2}^{\star}\) suit approximativement la loi normale \(\mathcal{N}(m^{\star};\sigma^{\star})\) et nous utilisons alors la statistique suivante qui tient compte de la correction de continuité : \[Z_{n_1,n_2}^{\star}=\frac{W_{n_1,n_2}^{\star}-m^{\star}+1/2}{\sigma^{\star}}\cdot\] Pour un seuil donné \(\alpha\), une table de la loi normale centrée réduite nous fournit une valeur critique \(c_\alpha\) telle que \(\mathbb{P}_{\mathcal{H}_0}\left(-c_{\alpha} < Z_{n_1,n_2}^{\star}< c_{\alpha}\right)=1-\alpha\). Alors nous décidons : \[\left\{ \begin{matrix} si\ Z_{{{n}_{1}},{{n}_{2}}}^{\star }(obs)\notin ]-{{c}_{\alpha }};+{{c}_{\alpha }}[ & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ Z_{{{n}_{1}},{{n}_{2}}}^{\star }(obs)\in ]-{{c}_{\alpha }};+{{c}_{\alpha }}[ & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\] Remarque pour les deux cas :
  • Lorsque nous rejetons \(\mathcal{H}_0\), nous décidons que \(\mathcal{H}_1\) est vraie avec un risque d’erreur de première espèce \(\alpha\).
  • Lorsque nous conservons \(\mathcal{H}_0\), c’est avec un risque d’erreur de deuxième espèce \(\beta\).

Test de la médiane de Mood

Nous considérons deux échantillons aléatoires indépendants \((X_1,\ldots,X_{n_1})\) et \((Y_1,\ldots,Y_{n_2})\). \((X_1,\ldots,X_{n_1})\) est distribué suivant une loi continue \(\mathcal{L}_X\) de fonction de répartition \(F_X\) et \((Y_1,\ldots,Y_{n_2})\) suivant une loi continue \(\mathcal{L}_Y\) de fonction de répartition \(G_Y\).

Hypothèses testées

Le test de la médiane de Mood permet de tester l’hypothèse suivante : \[{\mathcal{H}}_{0}:\quad \textrm{Les deux lois continues} \ \mathcal{L}_X\ \textrm{et} \ \mathcal{L}_Y \ \textrm{sont égales}\] contre \[{\mathcal{H}}_{0}:\quad \textrm{Les deux lois continues} \ \mathcal{L}_X\ \textrm{et} \ \mathcal{L}_Y \ \textrm{ne sont pas égales}\]

Cette hypothèse peut également se résumer ainsi : \[{\mathcal{H}}_{0}:\quad F_X=G_Y\] contre \[{\mathcal{H}}_{1}:\quad F_X\neq G_Y.\]

Remarque :

Ce test permet également de réaliser des tests unilatéraux.

Procédure du test

Statistique du test

Après regroupement des \(n_1+n_2\) valeurs des deux échantillons, \(n_1 \times M_{N}\) est le nombre d’observations \(X_i\) qui sont supérieures à la médiane des \(N=n_1+n_2\) observations.

Propriétés :

Lorsque l’hypothèse nulle \(\mathcal{H}_0\) est vraie, la variable aléatoire \(n_1 \times M_{N}\) a les cinq propriétés suivantes : 1. La variable aléatoire \(n_1 \times M_{N}\) peut prendre les valeurs \(0\), \(1\), \(\ldots\), \(n_1\) selon la distribution hypergéométrique suivante : \[\mathbb{P}_{\mathcal{H}_0}\left(n_1\times M_N = k\right)=\frac{C_{n_1}^k C_{n_2}^{N/2-k}}{C_{N}^{N/2}}\cdot\] 2. \(\displaystyle\mathbb{E}\left(n_1\times M_N\right)=\frac{n_1(n_1+n_2-\epsilon_{N})}{2N}\cdot\) 3. \(\displaystyle\mathrm{Var}\left(n_1\times M_N\right)=\frac{n_1 n_2 (n_1+n_2+1)}{4(n_1+n_2-1+\epsilon_N)(n_1+n_2+1-\epsilon_N)}\)\(\epsilon_N=0\) si \(N\) est pair et \(\epsilon_{N}=1\) si \(N\) est impair. 4. Lorsque les tailles \(n_1\) et \(n_2\) sont grandes, c’est-à-dire \(n_1 \geqslant 25\) et \(n_2 \geqslant 25\), nous utiliserons l’approximation normale avec correction de continuité : \[\displaystyle\mathbb{P}_{\mathcal{H}_0}\left(n_1\times M_N\leqslant m\right)=\Phi\left(\frac{n_1\times m-\mathbb{E}\left(n_1\times M_N\right)+1/2}{\sqrt{\mathrm{Var}\left(n_1\times M_N\right)}}\right)\]\(\Phi\) est la fonction de répartition de la loi normale centrée-réduite et \(u\) est un nombre entier. 5. La distribution est symétrique lorsque \(N\) est pair. Règle de décision et conclusion du test * Premier cas : Les tailles \(n_1\) et \(n_2\) sont petites, c’est-à-dire \(n_1 \leqslant 25\) et \(n_2 \leqslant 25\). Pour un seuil donné \(\alpha\), nous cherchons, dans les tables de la loi hypergéométrique, le plus grand entier \(k_{\alpha}\) tel que \(\mathbb{P}_{\mathcal{H}_0}\left(n_1\times M_N \leqslant k_{\alpha}\right) < \alpha/2\) et le plus grand entier \(k\prime _{\alpha}\) tel que \(\mathbb{P}_{\mathcal{H}_0}\left(n_1 \times M_N \geqslant n_1-k\prime_{\alpha}\right) < \alpha/2\). Nous prenons alors la décision du test en fonction de la valeur de la réalisation de la statistique du test calculée à l’aide de l’échantillon, \(n_1\times M_{N}(obs)\). Alors, nous décidons : \[\left\{ \begin{matrix} si\ {{n}_{1}}\times {{M}_{N}}(obs)\notin ]{{k}_{\alpha }};{{n}_{1}}-k{{\prime }_{\alpha }}[ & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ {{n}_{1}}\times {{M}_{N}}(obs)\in ]{{k}_{\alpha }};{{n}_{1}}-k{{\prime }_{\alpha }}[ & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\] * Second cas : Les tailles \(n_1\) et \(n_2\) sont grandes, c’est-à-dire \(n_1 \geqslant 25\) et \(n_2 \geqslant 25\). Nous utiliserons alors l’approximation normale avec correction de continuité présentée ci-dessus.

Remarques :

Si nous utilisons un logiciel de statistique celui-ci nous fournit une \(p\)-valeur. Alors nous décidons : \[\left\{ \begin{matrix} si\ p\text{-valeur}\alpha & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ p\text{-valeur}>\alpha & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\] 1. Dans le premier cas, lorsque nous rejetons \(\mathcal{H}_0\), nous décidons que \(\mathcal{H}_1\) est vraie avec un risque d’erreur de première espèce au plus égal à \(\alpha\). En effet, le niveau de signification réel du test est égal à \(\mathbb{P}_{\mathcal{H}_0}\left(n_1\times M_N \leqslant k_{\alpha}\right)+\mathbb{P}_{\mathcal{H}_0}\left(n_1 \times M_N \geqslant n_1-k\prime_{\alpha}\right)\) qui est généralement strictement inférieur à \(\alpha\). 2. Lorsque nous conservons \(\mathcal{H}_0\), c’est avec un risque d’erreur de deuxième espèce \(\beta\).

Test de Wilcoxon

Nous considérons deux variables aléatoires \(X\) et \(Y\) de lois continues, observées toutes les deux sur les mêmes unités d’un échantillon aléatoire de taille \(n\). Nous supposons que la loi de la différence, \(X-Y\), entre les deux variables étudiées \(X\) et \(Y\) est symétrique par rapport à 0. Les observations se présentent alors sous la forme d’une suite de couples \((x_1,y_1),\ldots,(x_n,y_n)\).

Hypothèses testées

Le test de Wilcoxon permet de tester l’hypothèse suivante : \[{\mathcal{H}}_{0}:\quad\mathbb{E}(X)=\mathbb{E}(Y)\] contre \[{\mathcal{H}}_{1}:\quad\mathbb{E}(X)\not=\mathbb{E}(Y).\]

Remarque :

Ce test suppose que la loi de la différence, \(X-Y\), entre les deux variables étudiées \(X\) et \(Y\) est symétrique par rapport à 0. Dans le cas contraire, les hypothèses auxquelles le test permettrait de s’intéresser seraient : \[{\mathcal{H}}_{0}:\quad \textrm{La loi continue de $X-Y$ est symétrique par rapport à l’origine}\] contre \[{\mathcal{H}}_{1}:\quad \textrm{La loi continue de $X-Y$ n’est pas symétrique par rapport à l’origine.}\]

Absence d’ex quo parmi les observations

Statistique du test

Pour obtenir la statistique du test notée \(W_n^+\) en général, nous devons procéder à des calculs successifs : 1. Après avoir calculé les différences \(d_i\), nous classons par ordre croissant les \(|d_i|\) non nulles, c’est-à-dire les \(d_i\) sans tenir compte des signes. 2. Nous attribuons à chaque \(|d_i|\) le rang correspondant. 3. Nous restituons ensuite à chaque rang le signe de la différence correspondante. 4. Enfin, nous calculons la somme \(W_n^+\) des rangs positifs (\(P\)) et la somme \(W_n^-\) des rangs négatifs (\(M\)). La somme \(W_n^+\) des rangs positifs (\(P\)) permet de tester l’hypothèse nulle \(\mathcal{H}_0\).

Règle de décision et conclusion du test

  • Premier cas : La taille \(n\) est inférieure strictement à 15. Pour un seuil donné \(\alpha\), nous cherchons, dans les tables de la loi de Wilcoxon, le plus grand nombre entier \(k_{\alpha}\) tel que \(\mathbb{P}_{\mathcal{H}_0}\left(W_n^{+}\leqslant k_{\alpha}\right)\leqslant \alpha/2\). Alors nous décidons : \[\left\{ \begin{matrix} si\ W_{n}^{+}(obs)\notin ]{{k}_{\alpha }};n(n+1)/2-{{k}_{\alpha }}[ & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ W_{n}^{+}(obs)\in ]{{k}_{\alpha }};n(n+1)/2-{{k}_{\alpha }}[ & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\]
  • Second cas : La taille \(n\) est supérieure ou égale à 15. Nous utilisons l’approximation normale avec correction de continuité : \[\mathbb{P}_{\mathcal{H}_0}\left(W_n^+ \leqslant k\right)=\Phi\left(\frac{2k+1-\displaystyle\frac{n(n+1)}{2}}{\sqrt{\displaystyle\frac{n(n+1)(2n+1)}{6}}}\right)\]\(\Phi\) est la fonction de répartition de la loi normale centrée-réduite et \(k\) un nombre entier compris entre 0 et \(n\).
  1. Dans le premier cas, lorsque nous rejetons \(\mathcal{H}_0\), nous décidons que \(\mathcal{H}_1\) est vraie avec un risque d’erreur de première espèce au plus égal à \(\alpha\). En effet, le niveau de signification réel du test est égal à \(2\mathbb{P}_{\mathcal{H}_0}\left(W_n^{+}\leqslant w_{\alpha}\right)\) qui est généralement strictement inférieur à \(\alpha\).
  2. Lorsque nous conservons \(\mathcal{H}_0\), c’est avec un risque d’erreur de deuxième espèce \(\beta\) qui est difficile à évaluer.

Présence d’ex quo parmi les observations

Ce cas se traite de la même manière que pour la statistique du test des rangs signés de Wilcoxon (voir section correspondante).

Présence d’observations nulles parmi les données

Ce cas se traite de la même manière que pour la statistique du test des rangs signés de Wilcoxon (voir section correspondante).

Test d’Ansari-Bradley de comparaison de deux variances

Le test d’Ansary-Bradley est basé sur l’étude des rangs observés dans les deux échantillons. Il s’applique en présence de deux variables aléatoires continues quelconques.

Cadre d’application

Soit \(X\) et \(Y\) deux variables aléatoires continues et \(h\) une fonction de densité. Nous notons \(f_X\) la fonction de densité de \(X\) et \(g_Y\) celle de \(Y\). Nous supposons que \(f_X(t)=h((t-m)/s)/s\) et \(g_Y(t)=h(t-m)\)\(m\) est un paramètre de nuisance et \(s\) est le paramètre d’intérêt qui est égal au rapport des paramètres d’échelle des distributions.

Par exemple, si nous appliquons ce test à deux variables qui suivent des lois normales, le rapport des paramètres d’échelle \(s\) est égal au rapport des écarts-types de ces deux variables.

Procédure de test

Hypothèses testées

Le test d’Ansari-Bradley permet de réaliser le test bilatéral sur la valeur du rapport \(s\) \[{\mathcal{H}}_{0}:\quad s=1\] contre \[{\mathcal{H}}_{1}:\quad s\neq 1\] ou /et les deux tests unilatéraux sur la valeur du rapport \(s\) suivants : \[{\mathcal{H}}_{0}:\quad s=1\] contre \[{\mathcal{H}}_{1}:\quad s<1\] ou bien \[{\mathcal{H}}_{0}:\quad s=1\] contre \[{\mathcal{H}}_{1}:\quad s>1.\]

Conditions d’application du test

Il faut que l’échantillon \(x_1,\dots,x_{n_1}\) soit formé des réalisations indépendantes de la variable aléatoire \(X\) de densité \(f\left( \left( t-m \right)/s \right)/s\) et que le second échantillon \(y_1,\dots,y_{n_2}\) soit aussi formé des réalisations indépendantes de la variable aléatoire \(Y\) qui suit une loi de densité \(f(t-m)\)\(m\) est un paramètre inconnu. De plus, les variables aléatoires \(X\) et \(Y\) doivent être indépendantes. Par contre, les effectifs \(n_1\) et \(n_2\) ne sont pas forcément égaux.

Statistique du test

Pour obtenir la statistique \(AB_{n_1,n_2}\) du test d’Ansari-Bradley, nous devons procéder à des calculs successifs : 1. Nous classons par ordre croissant l’ensemble des observations des deux échantillons \((x_1,\ldots,x_{n_1})\) et \((y_1,\ldots,y_{n_2})\) de taille respective \(n_1\) et \(n_2\). 2. Nous affectons le rang correspondant en partant de 1 et à partir des deux extrémités en direction du centre de l’échantillon. Si \(n_1+n_2\) est pair, nous attribuons donc les rangs suivants :\(1,3,5,\ldots,(m+n)/2,(m+n)/2,\ldots,5,3,1\) aux observations. Si \(n_1+n_2\) est impair, nous attribuons donc les rangs suivants :\(1,3,5,\ldots,(m+n-1)/2,(m+n+1)/2,(m+n-1)/2,\ldots,5,3,1\) aux observations. 3. La réalisation de la statistique \(AB_{n_1,n_2}(obs)\) du test d’Ansari-Bradley est égale à la somme des rangs des observations de l’échantillon \(x_1,\dots,x_{n_1}\).

Propriétés :

Lorsque l’hypothèse nulle \(\mathcal{H}_0\) est vraie, la variable aléatoire \(AB_{n_1,n_2}\) a les trois propriétés suivantes : 1. si \(n+m\) est pair, \(\mathbb{E}\left(AB_{n_1,n_2}\right)=n_1(n_1+n_2+2)/4\) et \(\mathrm{Var}\left(AB_{n_1,n_2}\right)=(n_1n_2)(n_1+n_2-2)(n_1+n_2+2)/(48(n_1+n_2-1))\). 2. si \(n+m\) est impair, \(\mathbb{E}\left(AB_{n_1,n_2}\right)=n_1(n_1+n_2+1)^2/(4(n_1+n_2))\) et \(\mathrm{Var}\left(AB_{n_1,n_2}\right)=(n_1n_2)(n_1+n_2+1)(3+(n_1+n_2)^2)/(48(n_1+n_2)^2)\). 3. \(AB_{n_1,n_2}\) est tabulée pour de faibles valeurs de \(n_1\) et de \(n_2\). Pour \(n_1> 20\) et \(n_2> 20\), nous utiliserons l’approximation normale avec correction de continuité : \[\displaystyle\mathbb{P}_{\mathcal{H}_0}\left(AB_{n_1,n_2}\leqslant u\right)=\Phi\left(\frac{u-\mathbb{E}\left(AB_{n_1,n_2}\right)+1/2}{\sqrt{\displaystyle\mathrm{Var}\left(AB_{n_1,n_2}\right)}}\right)\]\(\Phi\) est la fonction de répartition de la loi normale centrée-réduite et \(u\) est un nombre entier.

Règle de décision et conclusion du test

  • Premier cas : Les tailles \(n_1\) ou \(n_2\) sont inférieures ou égales à \(20.\) Pour un seuil donné \(\alpha\), les tables d’Ansari-Bradley nous fournissent deux valeurs critiques \(c_{\alpha}\) et \(c_{1-\alpha}\). Alors nous décidons : \[\left\{ \begin{matrix} si\ A{{B}_{{{n}_{1}},{{n}_{2}}}}(obs)\in ]{{c}_{\alpha }};{{c}_{1-\alpha }}[ & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ A{{B}_{{{n}_{1}},{{n}_{2}}}}(obs)\not{\in }]{{c}_{\alpha }};{{c}_{1-\alpha }}[ & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\]
  • Second cas : Les tailles \(n_1\) et \(n_2\) sont supérieures strictement à \(20.\) Nous utilisons la statistique \(\frac{AB_{n_1,n_2}-\mathbb{E}\left(AB_{n_1,n_2}\right)}{\sqrt{\displaystyle\mathrm{Var}\left(AB_{n_1,n_2}\right)}}\) et l’approximation normale présentée ci-dessus.

Remarque :

Les tests unilatéraux se déduisent facilement des tests bilatéraux que nous venons d’introduire.

Test du coefficient de corrélation de Spearman

Cadre d’application

La mesure de la dépendance au sens de Spearman entre deux variables aléatoires continues \(X\) et \(Y\) est notée \(\rho_{\mathcal{S}}(X,Y)\).

Elle pourra être estimé par la statistique de Spearman \(\rho_{\mathcal{S},n}(X,Y)\) définie sur un échantillon aléatoire \(((X_1,Y_1),\ldots,(X_n,Y_n))\) suivant la loi de \((X,Y)\). La statistique de Spearman \(\rho_{\mathcal{S},n}(X,Y)\) est basée sur l’étude de la corrélation des rangs et est appelée le coefficient de corrélation de Spearman.

Ce coefficient a le même champ d’application que la statistique de Kendall \(\tau_n(X,Y)\) (voir correspondante), qui lui est généralement préférée. Elle permet de tester l’indépendance ou de mesurer le degré de dépendance entre deux variables aléatoires appariées continues quelconques.

Remarques :

La statistique \(\rho_{\mathcal{S},n}(X,Y)\) permet de réaliser plusieurs tests bilatéraux et unilatéraux.

Le coefficient de corrélation \(\rho_{\mathcal{S}}(X,Y)\) de Spearman

Généralités

Le coefficient de corrélation de Spearman est un nombre associé à \((X,Y)\) qui sert à mesurer le degré de dépendance qui lie \(X\) et \(Y\).

Il peut être défini comme étant le coefficient de corrélation simple du couple aléatoire \((F_X(X),G_Y(Y))\), où \(F_X\) est la fonction de répartition de \(X\) et \(G_Y\) celle de \(Y\).

Il est noté \(\rho_{\mathcal{S}}(X,Y)\) et défini par : \[\rho_{\mathcal{S}}(X,Y)=\rho(F_X(X),G_Y(Y)).\]

Il possède les propriétés suivantes :

  1. \(-1\leqslant\rho_{\mathcal{S}}(X,Y)\leqslant 1\);
  2. « \(X\) et \(Y\) indépendantes » implique \(\rho_{\mathcal{S}}(X,Y)=0\);
  3. \(\rho_{\mathcal{S}}(X,Y)=1\) (respectivement \(\rho_{\mathcal{S}}(X,Y)=-1\)) si et seulement si il existe une fonction \(\phi\) croissante (respectivement décroissante) de \(\mathbb{R}\) dans \(\mathbb{R}\) telle que \(Y = \phi(X)\);
  4. si \(\phi\) et \(\psi\) désignent deux fonctions croissantes de \(\mathbb{R}\) dans \(\mathbb{R}\) alors \(\rho_{\mathcal{S}}(\phi(X),\psi(Y))=\rho_{\mathcal{S}}(X,Y)\).

Estimation de \(\rho_{\mathcal{S}}(X,Y)\)

À chaque couple \((x_i,y_i)\) de l’échantillon nous associons le couple d’entiers \((r_i,s_i)\)\(r_i\) est le rang de \(x_i\) dans \(x_1,\ldots,x_n\) et \(s_i\) est le rang de \(y_i\) dans \(y_1,\ldots,y_n\).

Nous appelons \(R_i\) la variable aléatoire associée au rang d’un \(X_i\), et \(S_i\) celle associée au rang d’un \(Y_i\), puis nous posons \(R=\left(R_1,\ldots,R_n\right)\) et \(S=\left(S_1,\ldots,S_n\right)\). Nous calculons alors simplement le coefficient de corrélation des rangs : \[\begin{align} & {{\rho }_{\mathcal{S},n}}(X,Y)=\widehat{\rho (R,S)}=\frac{\sum\limits_{i=1}^{n}{\left( {{R}_{i}}-\bar{R} \right)\times \left( {{S}_{i}}-\bar{S} \right)}}{\widehat{{{\sigma }_{R}}}\widehat{{{\sigma }_{S}}}}=\frac{12}{{{n}^{3}}-n}\sum\limits_{i=1}^{n}{\left[ \left( {{R}_{i}}-\frac{n+1}{2} \right)\left( {{S}_{i}}-\frac{n+1}{2} \right) \right]} \\ & =1-\frac{6}{{{n}^{3}}-n}\sum\limits_{i=1}^{n}{{{\left( {{R}_{i}}-{{S}_{i}} \right)}^{2}}}. \end{align}\]

La réalisation \(\rho_{\mathcal{S},n}(X,Y)(obs)\) de la statistique \(\rho_{\mathcal{S},n}(X,Y)\) sur l’échantillon \(((x_1,y_1),\ldots,(x_n,y_n))\) possède les propriétés suivantes :

  • \(-1\leqslant\rho_{\mathcal{S},n}(X,Y)(obs)\leqslant 1\);
  • \(\rho_{\mathcal{S},n}(X,Y)(obs)=1\) si et seulement si \(\forall i = 1\ldots n, r_i=s_i\);
  • \(\rho_{\mathcal{S},n}(X,Y)(obs)=-1\) si et seulement si \(\forall i = 1\ldots n, r_i=n+1-s_i\).

Nous introduisons souvent une variable auxiliaire \(D^2_{\mathcal{S},n}(X,Y)=\sum_{i=1}^n\left(R_i-S_i\right)^2\).

Dans certaines tables, nous trouverons les valeurs de \(D_{\mathcal{S},n}\).

Nous avons alors la relation suivante : \[{{\rho }_{\mathcal{S},n}}(X,Y)=1-\frac{6D_{\mathcal{S},n}^{2}(X,Y)}{{{n}^{3}}-n}.\] La statistique \(\rho_{\mathcal{S},n}(X,Y)\) possède les propriétés suivantes :

  1. \(\rho_{\mathcal{S},n}(X,Y)\) est un estimateur convergent avec biais de \(\rho_{\mathcal{S}}(X,Y)\). \[\mathbb{E}\left(\rho_{\mathcal{S},n}(X,Y)\right)=\rho_{\mathcal{S}}(X,Y)+\frac{3\left(\tau(X,Y)-\rho_{\mathcal{S}}(X,Y)\right)}{n+1}.\] Pour la définition de \(\tau(X,Y)\), voir Section 9.3.2(c). Nous notons donc désormais \(\rho_{\mathcal{S},n}(X,Y)\) par \(\widehat{\rho_{\mathcal{S}}(X,Y)}\).
  2. Sous l’hypothèse nulle \(\mathcal{H}_0\) « \(X\) et \(Y\) sont indépendantes » nous avons :
  1. \(\mathbb{E}\left(\widehat{\rho_{\mathcal{S}}(X,Y)}\right)=0\) et \(\mathrm{Var}\left(\widehat{\rho_{\mathcal{S}}(X,Y)}\right)=\displaystyle\frac{1}{n-1}\).
  2. Pour \(4\leqslant n \leqslant 19\), la distribution de \(\widehat{\rho_{\mathcal{S}}(X,Y)}\) se déduit de celle de \(D_{\mathcal{S},n}^2(X,Y)\) qui est tabulée.
  3. Pour \(20\leqslant n \leqslant 30\), nous utilisons la variable \(\displaystyle R_n(X,Y)=\sqrt{n-2}\frac{\widehat{\rho_{\mathcal{S}}(X,Y)}}{\sqrt{1-\widehat{\rho_{\mathcal{S}}(X,Y)}^2}}\) qui suit approximativement la loi de Student à \(n-2\) degrés de liberté.
  4. Pour \(n>30\), nous avons l’approximation normale \(\sqrt{n-1}\widehat{\rho_{\mathcal{S}}(X,Y)}\approx\mathcal{N}(0;1)\).

Procédure de test

Absence d’ex quo dans les observations

La statistique \(\widehat{\rho_{\mathcal{S}}(X,Y)}\) permet de tester l’hypothèse nulle \(\mathcal{H}_0\) : « \(X\) et \(Y\) sont indépendants » contre plusieurs alternatives (cf. supra). \({\mathcal{H}}_{0}:\quad X\) et \(Y\) sont indépendantes contre \({\mathcal{H}}_{1}:\quad X\) et \(Y\) sont liées

Si nous cherchons un niveau de signification de \(\alpha\), nous cherchons \(r_{\alpha}\) tel que : \[\mathbb{P}\left(\widehat{\rho_{\mathcal{S}}(X,Y)}\geqslant r_{\alpha}\right)\leqslant\frac{\alpha}{2}.\]

Nous rejetons l’hypothèse nulle \(\mathcal{H}_0\) si, pour notre échantillon, \(\widehat{\rho_{\mathcal{S}}(X,Y)}(obs) \not \in \left]-r_{\alpha},r_{\alpha}\right[\). \({\mathcal{H}}_{0}:\quad X\) et \(Y\) sont indépendantes contre \({\mathcal{H}}_{1}:\quad \rho_{\mathcal{S}}(X,Y)>0\), i.e. les valeurs prises par \(X\) et \(Y\) ont tendance à être concordantes

Si nous cherchons un niveau de signification de \(\alpha\), nous cherchons \(r_{\alpha}\) tel que : \[\mathbb{P}\left(\widehat{\rho_{\mathcal{S}}(X,Y)}\geqslant r_{\alpha}\right)\leqslant\alpha.\]

Nous rejetons l’hypothèse nulle \(\mathcal{H}_0\) si, pour notre échantillon, \(\widehat{\rho_{\mathcal{S}}(X,Y)}(obs) \geqslant r_{\alpha}\). \({\mathcal{H}}_{0}:\quad X\) et \(Y\) sont indépendantes contre \({\mathcal{H}}_{1}:\quad \rho_{\mathcal{S}}(X,Y)<0\), i.e. les valeurs prises par \(X\) et \(Y\) ont tendance à être discordantes

Si nous cherchons un niveau de signification de \(\alpha\), nous cherchons \(r_{\alpha}\) tel que : \[\mathbb{P}\left(\widehat{\rho_{\mathcal{S}}(X,Y)}\leqslant r_{\alpha}\right)\leqslant\alpha.\]

Nous rejetons l’hypothèse nulle \(\mathcal{H}_0\) si, pour notre échantillon, \(\widehat{\rho_{\mathcal{S}}(X,Y)}(obs) \leqslant r_{\alpha}\).

Présence d’ex quo dans les observations

Voici maintenant une statistique corrigée \(\rho_{\mathcal{S},n}^{\star}\) adaptée au cas où les variables ne sont pas continues ou au cas où nous avons observé des ex quo.

Nous nous donnons un échantillon formé des réalisations d’un échantillon aléatoire distribué suivant la loi de \((X,Y)\).

Les \(n\) valeurs observées \(x_1,\ldots,x_n\) sont regroupées en \(h\) classes d’ex quo \(C_1,\ldots,C_h\). Certaines de ces classes peuvent ne comporter qu’un seul élément, si cet élément n’a pas d’ex quo. Nous regroupons de même les valeurs \(y_i\) en \(k\) classes d’ex quo \(C_i\prime\). Au couple de rangs réels \((r_i,s_i)\) associé à \((x_i,y_i)\) nous substituons le couple de rangs fictifs \((r_i^{\star},s_i^{\star})\)\(r_i^{\star}\) est le rang moyen du groupe d’ex quo auquel appartient \(x_i\) et \(s_i^{\star}\) est le rang moyen du groupe d’ex quo auquel appartient \(y_i\). Nous notons \(d_i=\mathrm{Card}(C_i)\) et \(d_i\prime =\mathrm{Card}(C_i\prime)\).

Nous calculons alors \(\delta(obs)=\sum_{i=1}^n{(d_i^3-d_i)}\) et \(\delta\prime (obs)=\sum_{i=1}^n{((d_i\prime)^{3}-d_i\prime)}\).

Dans le cas d’ex quo, la valeur prise par la statistique \(\rho_{\mathcal{S},n}^{\star}\) est égale à : \[\begin{align} & \rho _{\mathcal{S},n}^{\star }(X,Y)(obs)=\frac{12}{\sqrt{({{n}^{3}}-n-\delta )({{n}^{3}}-n-\delta \prime )}}\sum\limits_{i=1}^{n}{\left[ \left( r_{i}^{\star }-\frac{n+1}{2} \right)\left( s_{i}^{\star }-\frac{n+1}{2} \right) \right]} \\ & =\frac{12\sum\limits_{i=1}^{n}{\left( r_{i}^{\star }\times s_{i}^{\star } \right)}-3n{{(n+1)}^{2}}}{\sqrt{({{n}^{3}}-n-\delta )({{n}^{3}}-n-\delta \prime )}}. \end{align}\] \(\rho_{\mathcal{S},n}^{\star}(X,Y)\) est donc la variable aléatoire associée à \(\rho_{\mathcal{S},n}^{\star}(X,Y)(obs)\).

Lorsque \(n>20\) et \((\delta(obs)+\delta\prime (obs))/n^3<0,1\) nous utilisons l’approximation normale : \[\sqrt{n-1}\rho_{\mathcal{S},n}(X,Y)^{\star}\approx\mathcal{N}(0;1).\] Dans les autres situations, il n’y a pas de table numérique.

Test du coefficient de corrélation de Kendall

Cadre d’application

La mesure de la dépendance au sens de Kendall entre deux variables aléatoires continues \(X\) et \(Y\) sera notée \(\tau(X,Y)\).

Ce nombre pourra être estimé par la statistique de Kendall \(\tau_n\) définie sur un échantillon \(((X_1,Y_1),\ldots,(X_n,Y_n))\) indépendant et identiquement distribué.

La statistique \(\tau_n\) permet de réaliser plusieurs tests bilatéraux et unilatéraux.

Le coefficient de corrélation \(\tau(X,Y)\) de Kendall

Considérons deux paires \((x_i,y_i)\) et \((x_j,y_j)\) issues d’une réalisation de l’échantillon \(((X_1,Y_1)\), \(\ldots\), \((X_n,Y_n))\).

Elles sont dites : * concordantes si \((x_i-x_j)(y_i-y_j)>0\), c’est-à-dire si nous avons simultanément \((x_i>x_j)\) et \((y_i>y_j)\) ou \((x_i<x_j)\) et \((y_i<y_j)\). * discordantes si \((x_i-x_j)(y_i-y_j)<0\), c’est-à-dire si nous avons simultanément \((x_i>x_j)\) et \((y_i<y_j)\) ou \((x_i<x_j)\) et \((y_i>y_j)\). Considérons deux couples de variables aléatoires \((X_1,Y_1)\) et \((X_2,Y_2)\) de même loi que celle du couple étudié \((X,Y)\). Une concordance parfaite est telle que \(X_2>X_1 \ \Leftrightarrow \ Y_2>Y_1\), c’est-à-dire : [((X_2>X_1)(Y_2>Y_1))+((X_2<X_1)(Y_2<Y_1))=1

  ((X_2-X_1)(Y_2-Y_1)>0)=1.] Une discordance parfaite est telle que \(X_2>X_1 \ \Leftrightarrow \ Y_2<Y_1\), c’est-à-dire : [((X_2>X_1)(Y_2<Y_1))+((X_2<X_1)(Y_2>Y_1))=1

  ((X_2-X_1)(Y_2-Y_1)<0)=1.] Nous introduisons donc \(\tau^+(X,Y)\) et \(\tau^-(X,Y)\) qui mesurent respectivement la concordance et la discordance du couple \((X,Y)\) : \[\begin{align} & {{\tau }^{+}}(X,Y)=\mathbb{P}\left( ({{X}_{2}}-{{X}_{1}})({{Y}_{2}}-{{Y}_{1}})>0 \right) \\ & {{\tau }^{-}}(X,Y)=\mathbb{P}\left( ({{X}_{2}}-{{X}_{1}})({{Y}_{2}}-{{Y}_{1}})<0 \right). \end{align}\]

Le coefficient \(\tau(X,Y)\) de Kendall est défini par : \[\tau (X,Y)={{\tau }^{+}}(X,Y)-{{\tau }^{-}}(X,Y).\]

Il mesure le degré de concordance si \(\tau(X,Y)>0\), ou, au contraire, le degré de discordance si \(\tau(X,Y)<0\) et possède les propriétés suivantes :

  1. \(-1\leqslant\tau(X,Y)\leqslant 1\);
  2. si les variables aléatoires \(X\) et \(Y\) sont indépendantes alors \(\tau(X,Y)=0\);
  3. \(\tau(X,Y)=1\) (resp. \(\tau(X,Y)=-1\)) si et seulement si il existe une fonction \(\phi\) croissante (resp. décroissante) de \(\mathbb{R}\) dans \(\mathbb{R}\) telle que \(Y = \phi(X)\);
  4. si \(\phi\) et \(\psi\) désignent deux fonctions croissantes de \(\mathbb{R}\) dans \(\mathbb{R}\) alors \(\tau(\phi(X),\psi(Y))=\tau(X,Y)\);
  5. si \((X,Y)\) suit une loi normale bivariée alors \(\tau(X,Y)\) et \(\rho(X,Y)\) sont liés par la relation : \(\rho(X,Y)=\sin{\left(\pi/2 \times \tau(X,Y)\right)}\).

Estimation de \(\tau(X,Y)\)

L’estimation se fait de manière « naturelle » : nous commençons par compter le nombre de paires de couples concordants \(c\) et le nombre de paires de couples discordants \(d\) dans l’échantillon \((x_1,y_1),\ldots,(x_n,y_n)\).

Il apparaît ici une difficulté supplémentaire par rapport à la théorie. En effet, la loi de \((X,Y)\) est continue ; donc la probabilité que \(X_1=X_2\) ou que \(Y_1=Y_2\) est nulle.

Mais dans l’échantillon il se peut néanmoins que nous observions plusieurs fois la même valeur. Nous notons alors \(e\) le nombre de ces paires de couples. Ce sont celles pour lesquelles nous avons \((x_j-x_i)(y_j-y_i)=0\). Dans un premier temps, nous supposerons qu’il n’y a pas d’ex quo. \[\begin{align} & c=\text{le nombre de paires de couples }({{x}_{i}},{{y}_{i}}),({{y}_{i}},{{y}_{j}})\text{ tels que }({{x}_{j}}-{{x}_{i}})({{y}_{j}}-{{y}_{i}})>0\text{ avec }1i<jn. \\ & d=\text{le nombre de paires de couples }({{x}_{i}},{{y}_{i}}),({{y}_{i}},{{y}_{j}})\text{ tels que }({{x}_{j}}-{{x}_{i}})({{y}_{j}}-{{y}_{i}})<0\text{ avec }1i<jn. \\ & e=\text{le nombre de paires de couples }({{x}_{i}},{{y}_{i}}),({{y}_{i}},{{y}_{j}})\text{ tels que }({{x}_{j}}-{{x}_{i}})({{y}_{j}}-{{y}_{i}})=0\text{ avec }1i<jn. \end{align}\] Rappelons que pour le moment, nous supposons que \(e=0\). Toute paire de couples est forcément du type \(c\) ou du type \(d\) et ainsi \(c+d=n(n-1)/2\) qui est le nombre total de paires de couples qu’il est possible de faire.

Nous notons \(C_n\), \(D_n\) et \(E_n\) les variables aléatoires associées à \(c\), \(d\) et \(e\) et nous définissons alors : \[{{\tau }_{n}}(X,Y)=\frac{2{{C}_{n}}-\frac{n(n-1)}{2}}{\frac{n(n-1)}{2}}=\frac{4{{C}_{n}}}{n(n-1)}-1.\]

Sous l’hypothèse nulle \(\mathcal{H}_0\) « \(X\) et \(Y\) sont indépendantes », la distribution de \(\tau_n\) a les propriétés suivantes :

  1. \(-1\leqslant\tau_n\leqslant 1\) ; une valeur proche de 1 suggère une forte concordance entre les valeurs prises par \(X\) et \(Y\)tandis qu’une valeur proche de -1 suggère une forte discordance entre les valeurs prises par \(X\) et \(Y\).
  2. \(\tau_n(X,Y)\) est un estimateur sans biais et convergent de \(\tau(X,Y)\). Nous le notons donc désormais \(\tau_n(X,Y)=\widehat{\tau(X,Y)}\).
  3. Sous l’hypothèse nulle \(\mathcal{H}_0\) « \(X\) et \(Y\) sont indépendantes », la distribution de \(\widehat{\tau(X,Y)}\) a les caractéristiques suivantes :
  1. \(\mathbb{E}\left(\widehat{\tau(X,Y)}\right)=0\) et \(\mathrm{Var}\left(\widehat{\tau(X,Y)}\right)=\displaystyle\frac{2(2n+5)}{9n(n-1)}\),
  2. \(\frac{\widehat{\tau(X,Y)}}{\sqrt{\mathrm{Var}\left(\widehat{\tau(X,Y)}\right)}}\approx\mathcal{N}(0;1)\).

Pour réaliser des tests avec des effectifs inférieurs à 20, nous nous reporterons donc à des tables spécifiques ou nous utiliserons un logiciel disposant de statistiques exactes.

Procédure de test

Absence d’ex quo dans les observations

La statistique \(\widehat{\tau_(X,Y)}\) permet de tester l’hypothèse nulle \(\mathcal{H}_0\) : « \(X\) et \(Y\) sont indépendantes » contre plusieurs alternatives (cf. supra). \({\mathcal{H}}_{0}:\quad X\) et \(Y\) sont indépendantes contre \({\mathcal{H}}_{1}:\quad X\) et \(Y\) sont liées

Si nous cherchons un niveau de signification de \(\alpha\), nous cherchons \(t_{\alpha}\) tel que : \[\mathbb{P}\left(\widehat{\tau(X,Y)}\geqslant t_{\alpha}\right)\leqslant\frac{\alpha}{2}.\]

Nous rejetons l’hypothèse nulle \(\mathcal{H}_0\) si \(\widehat{\tau(X,Y)} \not \in \left]-t_{\alpha},t_{\alpha}\right[\). \({\mathcal{H}}_{0}:\quad X\) et \(Y\) sont indépendantes contre \({\mathcal{H}}_{1}:\quad \tau(X,Y)>0\), i.e. les valeurs prises par \(X\) et \(Y\) ont tendance à être concordantes

Si nous cherchons un niveau de signification de \(\alpha\), nous cherchons \(t_{\alpha}\) tel que : \[\mathbb{P}\left(\widehat{\tau(X,Y)}\geqslant t_{\alpha}\right)\leqslant\alpha.\]

Nous rejetons l’hypothèse nulle \(\mathcal{H}_0\) si \(\widehat{\tau(X,Y)} \geqslant t_{\alpha}\). \({\mathcal{H}}_{0}:\quad X\) et \(Y\) sont indépendantes contre \({\mathcal{H}}_{1}:\quad \tau(X,Y)<0\), i.e. les valeurs prises par \(X\) et \(Y\) ont tendance à être discordantes Si nous cherchons un niveau de signification de \(\alpha\), nous cherchons \(t_{\alpha}\) tel que : \[\mathbb{P}\left(\widehat{\tau(X,Y)}\leqslant t_{\alpha}\right)\leqslant\alpha.\]

Nous rejetons l’hypothèse nulle \(\mathcal{H}_0\) si \(\widehat{\tau(X,Y)} \leqslant t_{\alpha}\).

Présence d’ex quo dans les observations

Voici maintenant une statistique corrigée \(\tau_n^{\star}\) adaptée au cas où les variables ne sont pas continues ou au cas où nous avons observé des ex quo.

Les \(n\) valeurs observées \(x_1,\ldots,x_n\) sont regroupées en \(h\) classes d’ex quo \(C_1,\ldots,C_h\). Certaines de ces classes peuvent ne comporter qu’un seul élément, si cet élément n’a pas d’ex quo. Nous regroupons de même les valeurs \(y_j\) en \(k\) classes d’ex quo \(C_j\prime\).

Nous notons \(d_i=\mathrm{Card}(C_i)\) et \(d_j\prime =\mathrm{Card}(C_j\prime)\). Enfin \(d=\sum_{i=1}^h{d_i(d_i-1)}\) et \(d\prime =\sum_{j=1}^k{d_j\prime (d_j\prime -1)}\).

Nous calculons alors : \[{{s}^{\star }}=1\times \text{Nombre de concordants}+(-1)\times \text{Nombre de discordants}+0\times \text{Nombre de cas d }\!\!'\!\!\text{ }\!\!\acute{\mathrm{e}}\!\!\text{ galit }\!\!\acute{\mathrm{e}}\!\!\text{ }.\]

Puis nous posons : \[{{\tau }^{\star }}=\frac{2{{s}^{\star }}}{\sqrt{(n(n-1)-d)(n(n-1)-d\prime )}}.\] \(\tau_n^{\star}\) est alors la variable aléatoire associée à \(\tau^{\star}\) et \(S_n^{\star}\) celle associée à \(s^{\star}\).

Lorsque \(n>10\), \(d/n^2<0,1\) et \(d\prime /n^2<0,1\) nous utilisons l’approximation normale : \[\frac{\sqrt{18}S^{\star}_n}{\sqrt{n(n-1)(2n+5)-\delta-\delta\prime }}\approx\mathcal{N}(0;1)\]\(\delta=\sum_{i=1}^h{d_i(d_i-1)(2d_i+5)}\) et \(\delta\prime =\sum_{j=1}^k{d_j\prime (d_j\prime -1)(2d_j\prime +5)}\).

Compléments. Analyse de la variance des rangs

Test de Kruskal-Wallis. Comparaisons multiples.

Contexte du test

Conditions d’application

Nous observons, de manière indépendante, une variable aléatoire \(X\) de loi continue sur \(k\geqslant 3\) populations ou sur une population divisée en \(k\geqslant 3\) sous-populations. Nous supposons ainsi que nous disposons de \(k\) échantillons aléatoires indépendants \((X_{1,1},\ldots,X_{1,n_1})\), \(\ldots\), \((X_{k,1},\ldots,X_{k,n_k})\) et de \(k\geqslant 3\) séries d’observations \((x_{1,1}\), \(\ldots\), \(x_{1,n_1})\) pour la première, \(\ldots\), \((x_{k,1}\), \(\ldots\), \(x_{k,n_k})\) pour la dernière. Nous notons \(\mathcal{L}_i(X)\) la loi de la variable aléatoire \(X\) sur la (sous-)population d’ordre \(i\) avec \(1\leqslant i\leqslant k\). Sans faire d’hypothèses spécifiques, le test de Kruskal-Wallis ne permet pas de tester l’égalité des moyennes ni celle des médianes.

Hypothèses du test

Le test de Kruskal-Wallis est utilisé pour tester les hypothèses suivantes : \({\mathcal{H}}_{0}:\quad \mathcal{L}_1(X)=\cdots=\mathcal{L}_i(X)=\cdots=\mathcal{L}_k(X)\) contre \({\mathcal{H}}_{1}:\quad\)Les lois \(\mathcal{L}_1(X)\), \(\ldots\), \(\mathcal{L}_k(X)\) ne sont pas toutes identiques

Absence d’ex quo dans les observations

Statistique de test

Calculons le rang \(R_{i,j}\) de \(X_{i,j}\) parmi les \(n_{\bullet}\) valeurs, puis la somme des rangs associée à chaque échantillon : \(R_{i,\bullet}=\sum_{j=1}^{n_i}R_{i,j}\) et enfin la moyenne des rangs de chaque échantillon : \(\overline{R_{i,\bullet}}={R_{i,\bullet}}/{n_{i}}\). La statistique de Kruskal-Wallis \(KW_{n_{\bullet}}\) prend en compte l’écart entre la moyenne des rangs de chaque échantillon et la moyenne de tous les rangs, qui vaut \((n_{\bullet}+1)/2\) : \[K{{W}_{{{n}_{\bullet }}}}=\frac{12}{{{n}_{\bullet }}({{n}_{\bullet }}+1)}\sum\limits_{i=1}^{k}{{{n}_{i}}{{\left( \overline{{{r}_{i,\bullet }}}-\frac{{{n}_{\bullet }}+1}{2} \right)}^{2}}}=\frac{12}{{{n}_{\bullet }}({{n}_{\bullet }}+1)}\sum\limits_{i=1}^{k}{\frac{{{r}_{i,\bullet }}^{2}}{{{n}_{i}}}}-3({{n}_{\bullet }}+1).\]

Propriétés :

Lorsque l’hypothèse nulle \(\mathcal{H}_0\) est vraie, la variable aléatoire \(KW_{n_{\bullet}}\) a les trois propriétés suivantes : 1. Pour \(i=1,\ldots,k\), \(W_i=n_i\overline{R_{i,\bullet}}\) est la statistique de Wilcoxon qui compare le \(i-\)ème traitement aux \(k-1\) autres traitements. Sous l’hypothèse nulle \(\mathcal{H}_0\), nous en déduisons que \(\mathbb{E}\left(W_i\right)=n_i(n_{\bullet}+1)/2\) et \(\mathrm{Var}\left(W_i\right)=n_i (n_{\bullet}-n_i) (n_{\bullet}+1)/12\). Par conséquent, nous avons : \[KW_{n_{\bullet}}=\frac{1}{n_{\bullet}}\sum_{i=1}^k(n_{\bullet}-n_i)\frac{\left(W_i-\mathbb{E}\left(W_i\right)\right)^2}{\mathrm{Var}\left(W_i\right)}\cdot\] Nous calculons alors l’espérance et la variance de \(KW_{n_{\bullet}}\) sous l’hypothèse nulle \(\mathcal{H}_0\) : \[\mathbb{E}\left( K{{W}_{{{n}_{\bullet }}}} \right)=k-1,\text{Var}\left( K{{W}_{{{n}_{\bullet }}}} \right)=2(k-1)-\frac{2\left[ 3{{k}^{2}}-6k+{{n}_{\bullet }}(2{{k}^{2}}-6k+1) \right]}{5{{n}_{\bullet }}({{n}_{\bullet }}+1)}-\frac{6}{5}\sum\limits_{i=1}^{k}{\frac{1}{{{n}_{i}}}}\] 2. Il est possible de déterminer la distribution de \(KW_{n_{\bullet}}\) bien que le calcul soit complexe. Elle est tabulée pour les faibles valeurs des \(n_i\).

Règle de décision et conclusion du test

  • Premier cas : L’un des effectifs \(n_i\), \(1\leqslant i\leqslant k\), est inférieur ou égal à 4. Pour un seuil donné \(\alpha\), des tables de la loi de Kuskal-Wallis nous fournissent une valeur critique \(c_{\alpha}\). Alors nous décidons : \[\left\{ \begin{matrix} si\ K{{W}_{{{n}_{\bullet }}}}(obs){{c}_{\alpha }} & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ K{{W}_{{{n}_{\bullet }}}}(obs)<{{c}_{\alpha }} & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\] Le niveau de signification réel du test est généralement strictement inférieur à \(\alpha\).
  • Second cas : Si \(n_i \geqslant 5\), pour tout \(1\leqslant i \leqslant k\), nous utilisons l’approximation \(KW_{n_{\bullet}} \approx \chi^2(k-1)\). Pour un seuil donné \(\alpha\), des tables de la loi du \(\chi^2\) nous fournissent une valeur critique \(c_{\alpha}\) telle que \(\mathbb{P}_{\mathcal{H}_0}\left(-c_{\alpha} < Z_{n_1,n_2} < c_{\alpha}\right)=1-\alpha\). Alors nous décidons : \[\left\{ \begin{matrix} si\ K{{W}_{{{n}_{\bullet }}}}(obs){{c}_{\alpha }} & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ K{{W}_{{{n}_{\bullet }}}}(obs)<{{c}_{\alpha }} & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\] Lorsque nous rejetons \(\mathcal{H}_0\), nous décidons que \(\mathcal{H}_1\) est vraie avec un risque d’erreur de première espèce \(\alpha\). Lorsque nous conservons \(\mathcal{H}_0\), c’est avec un risque d’erreur de deuxième espèce \(\beta\).

Présence d’ex quo dans les observations : la méthode des rangs moyens

À chaque nombre appartenant à un groupe d’ex quo, nous attribuons le rang moyen du groupe auquel il appartient puis nous déterminons la somme \(T=\sum_{l=1}^h(t_l^3-t_l)\)\(t_l\) désigne le nombre d’éléments du \(l-\)ème groupe d’ex quo. Il est d’usage de substituer à \(KW_{n_{\bullet}}\) la variable \(KW_{n_{\bullet}}^{\star}\) définie par : \[KW_{n_{\bullet}}^{\star}=\displaystyle\frac{KW_{n_{\bullet}}}{\displaystyle 1-\frac{T}{n_{\bullet}^3-n_{\bullet}}}.\]

Comparaisons multiples

Test de Steel-Dwass-Critchlow-Fligner

\(W_{n_i,n_{i\prime}}\) est la statistique de Wilcoxon qui compare le \(i-\)ème traitement au \(i\prime -\)ème traitement (voir Section 9.3.1(b)). Les observations des deux groupes \(i\) et \(i\prime\) sont ordonnées puis regroupées en \(h\) classes d’ex quo \(C_j\), \(1\leqslant j \leqslant h\). Notons \(d_j\) le nombre d’ex quo de la classe \(C_j\) et \(m_{i,i\prime }=n_i+n_{i\prime }\). Nous décidons qu’au seuil global \(\boldsymbol{\alpha}\), deux lois \(\mathcal{L}_i(X)\) et \(\mathcal{L}_{i\prime }(X)\), parmi les \(\boldsymbol{k(k-1})\) comparaisons que nous allons faire, sont significativement différentes si : \[\left|W_{n_i,n_{i\prime }}-\frac{n_{i}(m_{i,i\prime }+1)}{2}\right|\geqslant {q\prime (k;+\infty;1-\alpha)}\sqrt{\frac{n_{i}n_{i\prime }(m_{i,i\prime }+1)}{24}\left(\displaystyle 1-\frac{\sum_{j=1}^h\left(d_j^3-d_j\right)}{m_{i,i\prime }^3-m_{i,i\prime }}\right)}\]\(q\prime (k;+\infty;1-\alpha)\) est le quantile d’ordre \(1-\alpha\) pour la loi du maximum du module studentisé pour \(k\) moyennes et \(+\infty\) degrés de liberté. Contrairement aux trois autres approches présentées ci-dessous, le test Steel-Dwass-Critchlow-Fligner n’est pas qu’une procédure de comparaisons multiples : c’est une alternative complète au test de Kruskal-Wallis.

Test basé sur l’application de la méthode de Scheffé

Si nous rejetons l’hypothèse nulle \(\mathcal{H}_0\), nous nous demandons quelles sont les lois \(\mathcal{L}_i(X)\) qui diffèrent. Les formules ci-dessous sont valables en l’absence ou en présence d’ex quo. En l’absence d’ex quo, le terme \(1-T/(n_{\bullet}^3-n_{\bullet})\) est égal à 1. Nous décidons qu’au seuil \(\boldsymbol{\alpha}\) deux lois \(\mathcal{L}_i(X)\) et \(\mathcal{L}_{i\prime}(X)\) sont significativement différentes si : \[\left|\overline{R_{i,\bullet}}-\overline{R_{i\prime,\bullet}}\right|\geqslant \sqrt{\chi^2(k-1;1-\alpha)}\sqrt{\frac{n_{\bullet}(n_{\bullet}+1)}{12}\left(\displaystyle 1-\frac{T}{n_{\bullet}^3-n_{\bullet}}\right)}\sqrt{\frac{1}{n_i}+\frac{1}{n_{i\prime}}},\]\(\chi^2(k-1;1-\alpha)\) est le quantile d’ordre \(1-\alpha\) pour la loi du \(\chi^2\) à \(k-1\) degrés de liberté.

Test basé sur l’inégalité de Bonferroni

Nous décidons qu’au seuil global \(\boldsymbol{\alpha}\), deux lois \(\mathcal{L}_i(X)\) et \({{\mathcal{L}}_{i\prime }}(X)\), parmi les \(\boldsymbol{k(k-1})\) comparaisons que nous allons faire, sont significativement différentes si : \[\left|\overline{R_{i,\bullet}}-\overline{R_{i\prime,\bullet}}\right|\geqslant u\left(1-\frac{\alpha}{k(k-1)}\right)\sqrt{\frac{n_{\bullet}(n_{\bullet}+1)}{12}\left(\displaystyle 1-\frac{T}{n_{\bullet}^3-n_{\bullet}}\right)}\sqrt{\frac{1}{n_i}+\frac{1}{n_{i\prime }}},\]\(\displaystyle u(1-\alpha/(k(k-1)))\) est le quantile d’ordre \(1-\alpha/(k(k-1))\) pour la loi normale centrée-réduite. Il s’agit d’une application des inégalités de Bonferroni. Cette procédure est plus puissante que la précédente. Il existe aussi une variante de ce test basée sur l’inégalité de Holm-Bonferroni : le test de Dunn.

Test de Nemenyi

Nous décidons qu’au seuil global \(\boldsymbol{\alpha}\), deux lois \(\mathcal{L}_i(X)\) et \(\mathcal{L}_{i\prime }(X)\), parmi les \(\boldsymbol{k(k-1})\) comparaisons que nous allons faire, sont significativement différentes si : \[\left|\overline{R_{i,\bullet}}-\overline{R_{i\prime,\bullet}}\right|\geqslant {q(k;+\infty;1-\alpha)}\sqrt{\frac{n_{\bullet}(n_{\bullet}+1)}{12}\left(\displaystyle 1-\frac{T}{n_{\bullet}^3-n_{\bullet}}\right)}\sqrt{\frac{1}{2}\left(\frac{1}{n_i}+\frac{1}{n_{i\prime }}\right)},\]\(q(k;+\infty;1-\alpha)\) est le quantile d’ordre \(1-\alpha\) pour la loi de l’étendue studentisée pour \(k\) moyennes et \(+\infty\) degrés de liberté. Il s’agit d’une procédure analogue à celle de Tukey-Kramer dans le cas paramétrique et valide asymptotiquement. Elle est généralement plus puissante que les deux approches précédentes.

Tests de Levene et de Fligner d’égalité des variances

Plusieurs tests non paramétriques permettent de tester l’égalité de plusieurs variances. Parmi ceux-ci, les plus utilisés sont le test de Levene et le test de Fligner.

Test de Fligner

Hypothèses testées

\({\mathcal{H}}_{0}:\quad \sigma_1^2=\sigma_2^2= \ldots =\sigma_I^2\) contre \({\mathcal{H}}_{1}:\quad\)Les variances \(\sigma_i^2\) ne sont pas toutes égales.

Conditions d’application

Les observations sur lesquelles le test est réalisé, doivent être des réalisations indépendantes de variables issues d’une loi continue. Statistique du test La statistique du test n’est pas détaillée ici car sa formule est trop complexe.

Règle de décision et conclusion du test

Ce test est généralement réalisé à l’aide d’un logiciel de statistique qui nous fournit une \(p\)-valeur. Alors nous décidons : \[\left\{ \begin{matrix} si\ p\text{-valeur}\alpha & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ p\text{-valeur}>\alpha & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\]

Test de Levene

Hypothèses testées

\({\mathcal{H}}_{0}:\quad \sigma_1^2=\sigma_2^2= \ldots =\sigma_I^2\) contre \({\mathcal{H}}_{1}:\quad \textrm{Les variances } \sigma_i^2\) ne sont pas toutes égales. Conditions d’application Les observations sur lesquelles le test est réalisé, doivent être des réalisations indépendantes de variables issues d’une loi continue.

Statistique

La statistique du test n’est pas détaillée ici car sa formule est trop complexe.

Règle de décision et conclusion du test

Ce test est généralement réalisé à l’aide d’un logiciel de statistique qui nous fournit une \(p\)-valeur. Alors nous décidons : \[\left\{ \begin{matrix} si\ p\text{-valeur}\alpha & {{\mathcal{H}}_{1}}\ est\ vraie, \\ si\ p\text{-valeur}>\alpha & {{\mathcal{H}}_{0}}\ est\ vraie. \\ \end{matrix} \right.\]

Pratique du test de Kruskal-Wallis

Exemple

Nous voulons appliquer le test de Kruskal-Wallis aux données de la Section 9.5.1(c). Nous commençons par mettre en œuvre les tests de Fligner et de Levene aux données de l’application de la Section 9.5.1(c).

Vérification des conditions fondamentales

Indépendance

L’indépendance des variables observées résulte des conditions expérimentales qui ont été suivies pour réaliser l’expérience : les mesures ont porté sur 90 objets qui ont été choisis au hasard.

Test de Fligner :

library(sageR)
data(Marque.Valeur)
str(Marque.Valeur)
#> 'data.frame':    90 obs. of  2 variables:
#>  $ Marque: Factor w/ 3 levels "Marque 1","Marque 2",..: 1 1 1 1 1 1 1 1 1 1 ...
#>  $ Valeur: num  1.5 1.95 1.84 1.08 1.28 2.07 -0.33 1.9 1.94 3.69 ...
options(contrasts = c("contr.sum","contr.sum"))
lm.Marque.Valeur <- lm(Valeur~Marque, data=Marque.Valeur)
anova(lm.Marque.Valeur)
#> Analysis of Variance Table
#> 
#> Response: Valeur
#>           Df  Sum Sq Mean Sq F value    Pr(>F)    
#> Marque     2 110.676  55.338  60.502 < 2.2e-16 ***
#> Residuals 87  79.575   0.915                      
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
res.model.MV <- residuals(lm.Marque.Valeur)
fligner.test(res.model.MV, Marque.Valeur$Marque)
#> 
#>  Fligner-Killeen test of homogeneity of variances
#> 
#> data:  res.model.MV and Marque.Valeur$Marque
#> Fligner-Killeen:med chi-squared = 2.5929, df = 2, p-value = 0.2735

En utilisant un logiciel de statistique, nous calculons la \(p\)-valeur qui vaut \(0,2735\). Comme la \(p\)-valeur est \(>0,05\), nous décidons, au seuil \(\alpha =5\ %,\)que rien ne vient contredire l’hypothèse nulle \(\mathcal{H}_0\), c’est-à-dire que l’hypothèse d’homogénéité des variances est vérifiée.

Test de Levene :

library(car)
leveneTest(res.model.MV,Marque.Valeur$Marque)
#> Levene's Test for Homogeneity of Variance (center = median)
#>       Df F value Pr(>F)
#> group  2  1.2809  0.283
#>       87

En utilisant un logiciel de statistique, nous calculons la \(p\)-valeur qui vaut \(0,283\). Comme la \(p\)-valeur est \(>0,05\), nous décidons, au seuil \(\alpha =5\ %,\)que rien ne vient contredire l’hypothèse nulle \(\mathcal{H}_0\), c’est-à-dire que l’hypothèse d’homogénéité des variances est vérifiée. La condition d’homogénéité des variances des variables observées est bien remplie qu’elle soit vérifiée à l’aide du test de Fligner (\(p\)-valeur égale à \(0,2735\)) ou du test de Levene (\(p\)-valeur égale à \(0,283\)). Nous sommes en présence d’ex quo, nous devons donc utiliser la statistique de test \(KW_{n_{\bullet}}^{\star}\) à la place de la statistique de test \(KW_{n_{\bullet}}\).

if(!("PMCMRplus" %in%  installed.packages())){install.packages("PMCMRplus")}
library(PMCMRplus)
PMCMRplus::kruskalTest(Marque.Valeur$Valeur,Marque.Valeur$Marque)
#> Warning in kruskalTest.default(Marque.Valeur$Valeur,
#> Marque.Valeur$Marque): Ties are present. Quantiles were
#> corrected for ties.
#> 
#>  Kruskal-Wallis test
#> 
#> data:  Marque.Valeur$Valeur and Marque.Valeur$Marque
#> chi-squared = 53.986, df = 2, p-value = 1.893e-12

kruskal.test(Marque.Valeur$Valeur,Marque.Valeur$Marque)
#> 
#>  Kruskal-Wallis rank sum test
#> 
#> data:  Marque.Valeur$Valeur and Marque.Valeur$Marque
#> Kruskal-Wallis chi-squared = 53.986, df = 2, p-value
#> = 1.893e-12

Règle de décision à l’aide d’une valeur critique

Nous calculons la valeur de \(KW_{n_{\bullet}}^{\star}\) sur l’échantillon : \(KW_{{{n}_{\bullet }}}^{\star }(obs)=53,986\). Pour un seuil \(\alpha =5\ %,\) la valeur critique d’un Khi-deux à \(2\) degrés de liberté, est \(c_{0,05}=5,99\). Comme \(KW_{n_{\bullet}}^{\star}(obs) \leqslant c_{0,05}\), nous décidons de rejeter l’hypothèse nulle \(\mathcal{H}_0\), et que l’hypothèse alternative \(\mathcal{H}_1\) est vraie. Il y a une influence significative, au seuil \(\alpha =5\ %,\)de la marque sur les prix de vente des objets. Le risque associé à cette décision est un risque de première espèce qui vaut \(\alpha =5\ %.\)

Remarque :

La valeur non-corrigée de \(KW_{n_{\bullet}}(obs)\) est égale à \(53,979\). Nous remarquons la différence apportée par la correction pour prendre en compte les ex quo.

Règle de décision à l’aide d’une p-valeur

En utilisant un logiciel de statistique, nous calculons la \(p\)-valeur du test de Kruskal-Wallis. Il faut bien vérifier qu’elle tient compte des ex quo. Elle vaut dans cas \(1,893e-12\). Comme la \(p\)-valeur est \(\leqslant 0,05\), nous décidons, au seuil \(\alpha =5\ %,\)de rejeter l’hypothèse nulle \(\mathcal{H}_0\), et décidons que l’hypothèse alternative \(\mathcal{H}_1\) est vraie. Il y a une influence significative, au seuil \(\alpha=5\%\), \(\alpha =5\ %,\)de la marque sur les prix de vente des objets. Le risque associé à cette décision est un risque de première espèce qui vaut \(\alpha =5\ %.\)

Comparaisons multiples pour le test de Kruskall-Wallis

Test basé sur la méthode de Scheffé

Les \(p\)-valeurs reproduites dans le Tableau 14 indiquent que tous les tests de comparaison deux à deux des distributions des groupes sont significatifs au seuil \(\alpha=5\%\).

Tableau 14 : résultats des comparaisons multiples du test basé sur la méthode de Scheffé.

if(!("PMCMR" %in%  installed.packages())){install.packages("PMCMR")}
library(PMCMR)
PMCMR::posthoc.kruskal.nemenyi.test(Valeur~Marque, data=Marque.Valeur, dist="Chisquare")
#> Warning in posthoc.kruskal.nemenyi.test.default(c(1.5, 1.95, 1.84, 1.08, : Ties
#> are present. Chi-sq was corrected for ties.
#> 
#>  Pairwise comparisons using Nemenyi-test with Chi-squared    
#>                        approximation for independent samples 
#> 
#> data:  Valeur by Marque 
#> 
#>          Marque 1 Marque 2
#> Marque 2 0.00021  -       
#> Marque 3 2.2e-12  0.00575 
#> 
#> P value adjustment method: none

Test basé sur l’inégalité de Bonferroni

Les \(p\)-valeurs reproduites dans le Tableau 15 indiquent que tous les tests de comparaison deux à deux des distributions des groupes sont significatifs au seuil \(\alpha=5\%\).

Tableau 15 : résultats des comparaisons multiples du test basé sur l’inégalité de Bonferroni.

PMCMR::posthoc.kruskal.dunn.test(Valeur~Marque, data=Marque.Valeur, dist="Tukey", 
       p.adjust="bonf")
#> Warning in posthoc.kruskal.dunn.test.default(c(1.5, 1.95, 1.84, 1.08, 1.28, :
#> Ties are present. z-quantiles were corrected for ties.
#> 
#>  Pairwise comparisons using Dunn's-test for multiple 
#>                          comparisons of independent samples 
#> 
#> data:  Valeur by Marque 
#> 
#>          Marque 1 Marque 2
#> Marque 2 0.00012  -       
#> Marque 3 7e-13    0.00395 
#> 
#> P value adjustment method: bonferroni

Test de Dunn

Les \(p\)-valeurs reproduites dans le Tableau 16 indiquent que tous les tests de comparaison deux à deux des distributions des groupes sont significatifs au seuil \(\alpha=5\%\).

Tableau 16 : résultats des comparaisons multiples du test de Dunn.

PMCMR::posthoc.kruskal.dunn.test(Valeur~Marque, data=Marque.Valeur, dist="Tukey")
#> Warning in posthoc.kruskal.dunn.test.default(c(1.5, 1.95, 1.84, 1.08, 1.28, :
#> Ties are present. z-quantiles were corrected for ties.
#> 
#>  Pairwise comparisons using Dunn's-test for multiple 
#>                          comparisons of independent samples 
#> 
#> data:  Valeur by Marque 
#> 
#>          Marque 1 Marque 2
#> Marque 2 7.7e-05  -       
#> Marque 3 7.0e-13  0.0013  
#> 
#> P value adjustment method: holm

Test de Nemeyi (adapté de Tukey-Kramer)

Les \(p\)-valeurs reproduites dans le Tableau 17 indiquent que tous les tests de comparaison deux à deux des distributions des groupes sont significatifs au seuil \(\alpha=5\%\).

Tableau 17 : résultats des comparaisons multiples du test de Nemeyi.

PMCMR::posthoc.kruskal.nemenyi.test(Valeur~Marque, data=Marque.Valeur, dist="Tukey")
#> Warning in posthoc.kruskal.nemenyi.test.default(c(1.5, 1.95, 1.84, 1.08, : Ties
#> are present, p-values are not corrected.
#> 
#>  Pairwise comparisons using Tukey and Kramer (Nemenyi) test  
#>                    with Tukey-Dist approximation for independent samples 
#> 
#> data:  Valeur by Marque 
#> 
#>          Marque 1 Marque 2
#> Marque 2 0.00011  -       
#> Marque 3 7.2e-13  0.00377 
#> 
#> P value adjustment method: none

Test de Friedman

Nous nous plaçons dans le cas où les \(k\) échantillons utilisés pour tester l’influence d’un facteur à \(I\) modalités ne sont pas indépendants.

Individu \(\backslash\) Facteur 1 \(\cdots\) \(I\)
1 \(x_{1,1}\) \(\cdots\) \(x_{I,1}\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
\(k\) \(x_{1,k}\) \(\cdots\) \(x_{I,k}\)

Le tableau ci-dessus présente la situation où il n’y a qu’une seule observation \(x_{i,j}\) pour chacune des cellules du tableau. Dans l’éventualité où il y aurait plusieurs observations \(x_{i,j,k}\) dans certaines cellules du tableau, nous les remplaçons par leur moyenne \(\overline{x_{i,j}}\).

Individu \(\backslash\) Facteur 1 \(\cdots\) \(I\)
1 \(\overline{x_{1,1}}\) \(\cdots\) \(\overline{x_{I,1}}\)
\(\vdots\) \(\vdots\) $ \(\vdots\)
\(k\) \(\overline{x_{1,k}}\) \(\cdots\) \(\overline{x_{I,k}}\)

Nous construisons alors le tableau des rangs :

Individu \(\backslash\) Facteur 1 \(\cdots\) \(I\) Totaux
1 \(r_{1,1}\) \(\cdots\) \(r_{I,1}\) \({I(I+1)}/{2}\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\) \({I(I+1)}/{2}\)
\(k\) \(r_{1,k}\) \(\cdots\) \(r_{I,k}\) \({I(I+1)}/{2}\)
Totaux \(r_{1,\bullet}\) \(\cdots\) \(r_{I,\bullet}\) \(k{I(I+1)}/{2}\)

Hypothèses testées

\({\mathcal{H}}_{0}:\quad\)Les niveaux du facteur ont tous la même influence contre \({\mathcal{H}}_{1}:\quad\)Les niveaux du facteur n’ont pas tous la même influence.

Absence d’ex quo dans les observations

Statistique de test

La statistique de Friedman \(F_{k,I}\) est définie par : \[ F_{k,I}=\frac{12k}{I(I+1)}\sum_{i=1}^I\left(\frac{{R_{i,\bullet}}}{k}-\frac{I+1}{2}\right)^2=\frac{12}{kI(I+1)}\sum_{i=1}^I R_{i,\bullet}^2-3k(I+1). \] Nous admettons que sous l’hypothèse nulle \(\mathcal{H}_0\), les distributions pour chaque individu ne diffèrent que par un paramètre de position, ce que nous ne pouvons qu’évaluer graphiquement.

Règle de décision et conclusion du test

  • Pour de petites valeurs de \(k\), nous utilisons une table spécifique au test de Friedman. Nous pouvons également utiliser une table du coefficient de concordance \(W_{k,I}\) de Kendall car il existe un lien entre le coefficient de concordance \(W_{k,I}\) et la statistique de Friedman \(F_{k,I}=k(I-1)W_{k,I}\).
  • Pour des valeurs de \(k\) assez grandes, nous utilisons l’approximation asymptotique suivante \(F_{k,I}\approx\chi^2_{I-1}\) et nous concluons grâce à la lecture d’une table de la loi du \(\chi^2\) à \(I-1\) degrés de liberté. Nous rejetons l’hypothèse nulle \(\mathcal{H}_0\) si la valeur prise par \(F_{k,I}\) est trop grande.

Présence d’ex quo dans les observations : Méthode des rangs moyens

Dans chaque classement présentant des ex quo, nous attribuons à chacun de ceux-ci le rang moyen du groupe d’ex quo auquel ils appartiennent et qui n’est pas nécessairement un entier. Lorsque le classement numéro \(m\) a \(h_m\) groupes d’ex quo, nous lui attribuons la somme \(T_m = \displaystyle\sum_{l=1}^{h_m}\left(t_{l,m}^3-t_{l,m}\right)\)\(t_{l,m}\) désigne le nombre d’éléments du \(l\)-ème de ces \(h_m\) groupes. S’il n’y a pas d’ex quo, nous avons évidemment \(T_m=0\) puisque la répartition des \(I\) entiers du classement en classes de nombres égaux donne \(h_m=I\) et \(t_{l,m}=1\) pour tout \(l\). Alors la statistique de Friedman corrigée est définie par : \[ F_{k,I}^{\star }=\frac{12k(I-1)}{\left( {{I}^{3}}-I \right)-\frac{1}{k}\sum\limits_{m=1}^{k}{{{T}_{m}}}}\sum\limits_{l=1}^{I}{{{\left( \frac{{{r}_{l,\bullet }}}{k}-\frac{I+1}{2} \right)}^{2}}}=\frac{{{F}_{k,I}}}{1-\frac{1}{({{I}^{3}}-I)}\frac{1}{k}\sum\limits_{m=1}^{k}{{{T}_{m}}}}\cdot \]

Compléments. Comment améliorer un estimateur ?

Statistiques exhaustives. Famille exponentielle

Définition 37 Statistique exhaustive

Soit le modèle statistique \((D_X, \mathbb{P}_{\theta})\), où \(D_X\) est l’ensemble des valeurs de la variable aléatoire \(X\) et où \(\mathbb{P}_{\theta}\) est la loi de probabilité sur \(D_X\) dont la densité (ou la probabilité) au point \(x\) est \(f_X(x,\theta)\). \(S\) est une statistique exhaustive si la loi conditionnelle de \(X\) sachant \(S(x)=s\) est indépendante du paramètre \(\theta\), soit \(\mathbb{P}\left(X|S(x)=s\right)\) indépendante de \(\theta\).

Remarque :

Cela signifie que la donnée de \(S\) seule renseigne complètement sur la valeur du paramètre \(\theta\) et que les valeurs de \(X\) n’apportent aucune information supplémentaire.

Théorème : Principe de factorisation.

Soit le modèle statistique \((D_X, \mathbb{P}_{\theta})\) et \(S\) une statistique. \(S\) est une statistique exhaustive si et seulement si \(f_X(x,\theta)\) se met sous la forme : \[ f_X(x,\theta)=g_X(x)\times h_S(S(x),\theta), \]\(g_X(x)\geqslant 0\) et où \(h_S\) est la densité de la statistique \(S\).

Remarque :

Le principe de factorisation fournit un moyen de reconnaître si une statistique est exhaustive, mais ne permet pas de la construire ou même de savoir s’il en existe une. La famille exponentielle, parfois dite de Darmois ou de Koopman, est fondamentale en statistique.

Définition 38 Modèle exponentiel

Un modèle statistique \((D_X, \mathbb{P}_{\theta})\) est exponentiel s’il existe une mesure positive \(\mu\) \(\sigma-\)finie, un entier naturel \(r\), des fonctions réelles mesurables \(x \rightarrow h(x)>0\), \(x \rightarrow T_1(x),\ldots,x \rightarrow T_r(x)\) et des fonctions réelles \(\theta \rightarrow c(\theta)\) et \(\theta \rightarrow \alpha_1(\theta),\ldots,\theta \rightarrow \alpha_r(\theta)\) telles que \(\mathbb{P}_{\theta}\) admette pour densité par rapport à \(\mu\) : \[ f_X(x,\theta)=c(\theta)h(x)\exp\left(\sum_{j=1}^r\alpha_j(\theta)T_j(x)\right). \] La famille des probabilités \((\mathbb{P}_{\theta}, \theta \in \Theta)\) est appelée famille exponentielle. \(T=(T_1,\ldots,T_r)\) est appelée statistique privilégiée du modèle.

Théorème de Darmois.

Soit une variable aléatoire \(X\) dont le domaine de définition ne dépend pas de \(\theta\). Une condition nécessaire et suffisante pour que l’échantillon \((X_1,\dots,X_n)\) admette une statistique exhaustive est que la forme de la densité soit : \[ f(x,\theta)=\exp\left(\beta(\theta)+b(x)+\sum_{j=1}^r\alpha_j(\theta)a_j(x)\right)\quad\mbox{(famille exponentielle).} \] Si la densité est de cette forme alors \(T=(\sum_{i=1}^n a_1(X_i),\ldots,\sum_{i=1}^n a_r(X_i))\) est une statistique exhaustive particulière.

Remarques :

  1. Si le domaine de définition de \(X\) dépend de \(\theta\), le théorème de Darmois ne s’applique pas, ce qui n’empêche pas de trouver dans certains cas des statistiques exhaustives.
  2. La plupart des lois usuelles, loi de Poisson, loi de Laplace-Gauss, lois \(\gamma\) sont de la forme exponentielle.
  3. Toute fonction injective d’une statistique exhaustive est encore exhaustive.

Estimateur sans biais de variance minimale

Théorème :

S’il existe un estimateur de \(\theta\) sans biais, de variance minimale, il est unique presque sûrement.

Théorème de Rao-Blackwell :

Soit \(T\) un estimateur sans biais de \(\theta\), \(S\) une statistique exhaustive de \(\theta\), \(h(S)=\mathbb{E}(T|S=s)\) est un estimateur sans biais pour \(\theta\), préférable au sens large à \(T\), c’est-à-dire tel que \(\mathrm{Var}(T)\geqslant \mathrm{Var}(h(S))\), avec \(h\) indépendant de \(\theta\).

Propriété :

S’il existe une statistique exhaustive \(U\), alors l’estimateur sans biais \(T\) de \(\theta\) de variance minimale ne dépend que de \(U\).

Définition 39 Statistique complète

Si \(X\) est une variable aléatoire à valeurs dans \(D_X\) de loi de probabilité \(\mathbb{P}_{\theta}\), la statistique \(\boldsymbol{U}\) est complète ou la famille \((D_X,\mathbb{P}_{\theta})\)} est complète, si : \[ \forall \theta \in \Theta ,\ \mathbb{E}\left( h(U) \right)=0\Rightarrow h=0\quad \text{presque}\ \text{sûrement}. \]

Propriété :

La statistique exhaustive d’une famille exponentielle est complète.

Théorème de Lehmann-Scheffe :

Si \(T^*\) est un estimateur sans biais de \(\theta\), dépendant d’une statistique exhaustive complète \(U\), alors \(T^*\) est l’unique estimateur sans biais de variance minimale de \(\theta\). En particulier, si nous disposons déjà de \(T\), estimateur sans biais de \(\theta\), alors \(T^*=\mathbb{E}(T|U)\).

Compléments. Tests paramétriques.

Comparaison de deux espérances de lois quelconques de variances inconnues

Soit \(X\) une variable aléatoire d’espérance égale à \(\mu_1\) et d’écart-type égal à \(\sigma_1\) et \(Y\) une variable aléatoire d’espérance égale à \(\mu_2\) et d’écart-type égal à \(\sigma_2\) avec \(\sigma_1\) et \(\sigma_2\) inconnus.

Hypothèses testées

Ce sont les mêmes hypothèses que dans la première section.

Conditions d’application du test

Les effectifs \(n_1\) et \(n_2\) sont tous les deux supérieurs à 30.

Statistique du test

La variable aléatoire \(\zeta_{n_1,n_2}=\frac{\displaystyle{\widehat{\mu}_{n_1}-\widehat{\mu}_{n_2}}}{\sqrt{\displaystyle\frac{S_{n_1}^2}{n_1-1}+\frac{S_{n_2}^2}{n_2-1}}}\) suit approximativement la loi normale \(\mathcal{N}(0;1)\).

Règle de décision et conclusion du test

La valeur critique du test, notée \(c_{\alpha}\), est lue dans une table de la loi normale centrée-réduite.

Si la valeur absolue de la valeur de la statistique calculée sur l’échantillon, notée \(\zeta_{n_1,n_2}(obs)\), est supérieure ou égale à \(c_{\alpha}\), alors le test est significatif. Nous rejetons \(\mathcal{H}_0\) et nous décidons que \(\mathcal{H}_1\) est vraie avec un risque de première espèce \(\alpha\).

Si la valeur absolue de la valeur de la statistique calculée sur l’échantillon, notée \(\zeta_{n_1,n_2}(obs)\), est strictement inférieure à \(c_{\alpha}\), alors le test n’est pas significatif. Nous conservons \(\mathcal{H}_0\) avec un risque de deuxième espèce \(\beta\).