Statistique
3.1 Liaison linéaire entre deux variables quantitatives
On considère un couple de variables (X, Y ). On dispose d’observations de ce couple de variables sur un échantillon de taille n : pour chaque individu on connaît le couple d’observations (xi , yi ).
3.1.1
Covariance n Définition 1. On définit la covariance de X et Y par : 1 Cov(X, Y ) = n [(xi − x)(yi − y )] . ¯ ¯ i=1 L’unité dans laquelle est exprimée la covariance est le produit des unités de X et de Y . Remarque 1. Lien avec la variance : Cov(X, X) = V ar(X). Remarque 2. Formule pratique : Cov(X, Y ) = 1 n n xi y i i=1 − xy . ¯¯
Exemple : on s’intéresse à la liaison entre la taille T et la pointure P dans une population de 20 individus. On connaît l’ensemble des observations du couple : {(ti , pi ), 1 ≤ i ≤ 20}. A partir de ces observations, on a calculé les quantités suivantes : 20 20 20 2 20 20 2 i=1 ti = 34.91, i=1 pi = 832, i=1 ti = 61.10, i=1 pi = 34774, i=1 ti pi = 1454.91. Caculer la covariance entre la taille et la pointure.
21
Statistique descriptive - L1 MASS 2010-2011 - Hélène Boistard - www.boistard.fr Propriété 1. Changement d’échelle : soient a, b, c, d des constantes réelles. On a Cov(aX + b, cY + d) = acCov(X, Y ). Proposition 1. Expression de la variance d’une somme de variables : V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ). Proposition 2. Inégalité de Cauchy-Schwarz : |Cov(X, Y )| ≤ σX σY .
22
Exemple : Dans l’exemple précédent du couple (T, P ), calculer les écart-types des deux variables et vérifier l’inégalité.
Preuve de la proposition 2 : Pour tout réel a, on peut développer grâce à la Proposition 1 la quantité V ar(X + aY ) ≥ 0 : V ar(X + aY ) = V ar(X) + V ar(aY ) + 2Cov(X, aY ) = V arX + a2 V ar(Y ) + 2aCov(X, Y ) par la Propriété 1 ≥ 0.
(3.1)
Le polynôme du second degré en a étant de signe constant, son discriminant est négatif ou nul : 4 (Cov(X, Y ))2 − 4V ar(X)V ar(Y ) ≤ 0, d’où