Analyses factorielles simples
•
Xavier BRY
Analyses factorielles simples Xavier BRY
^
ECONOMICA
49, rue Héricart,...
66 downloads
1260 Views
4MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Analyses factorielles simples
•
Xavier BRY
Analyses factorielles simples Xavier BRY
^
ECONOMICA
49, rue Héricart, 75015 Paris
© E d . E C O N O M I C A , 1995 Tous droiis île reproduction, de traduction, d'adaptation el d'exécution réservé:; pour tous les pays.
INTRODUCTION
"Un bon dessin vaut mieux qu'un long discours" se dit, en statistique : "un bon graphique vaut mieux qu'une montagne de chiffres". L'analyse factorielle est un principe géométrique permettant de convertir automatiquement un gros tableau de données en images synthétiques, qui en dégagent les principales structures. Examinons en d'ores et déjà une petite illustration parlante : Répartition d'une population parfigeet par loisir préféré (en nombre d'individus) - d e 15 15 à 24 ans ans TV 322 114 Théâtre 17 1 Cinéma 90 220 Lecture 38 23 Restaurant 53 7 Night-Club 0 87 Concert 27 153
25à39 ans 72 85 192 57 158 109 130
40à60 ans 135 92 87 73 49 21 47
+ de«0 ans 130 14 7 80 13 0 1
Analyse Factorietlel population jeune
- d e 15 ans '
15 à 24 ans V Cinéma \ V Night^ Chib \ \— extérieures 25 à 39 ""^'"^"^'••^ ans
distractions domestiques bon marché
Restaurant
+ dc60 ans lecture
néâtre population âgée
Chaque type de tableau requiert un traitement adapté ; il existe donc plusieurs méthodes d'analyse factorielle. Mais le principe général de la "photographie" est toujours le même. Exigeant un calcul matriciel volumineux, sa mise en œuvre pratique dut attendre la vulgarisation de l'ordinateur. Depuis les années 80, tout utilisateur d'un microordinateur peut aisément traiter de gros tableaux à l'aide de cette technique. L'analyse factorielle est utilisée dans tous les domaines où l'on a affaire à des données massives : sociologie et marketing (analyse d'enquêtes d'opinion, segmentation de marchés), banque (crédit scoring), météorologie, médecine, etc. Les méthodes d'analyse factorielle simples donnent le même rôle à toutes les variables d'un même tableau. Elles ne font donc intervenir aucun a priori quant à l'orientation des dépendances entre variables. Lorsqu'on dispose d'un tel a priori (si l'on pense par exemple qu'une variable particulière est, par un lien de cause à effet, déterminée par un groupe d'autres variables), préciser ces liaisons requiert un traitement qui en tienne compte dès le départ. On peut regrouf)er sous le concept d'analyses factorielles multiples les méthodes géométriques qui partent d'une séparation des variables en différents groupes (sous-tableaux) et visent à dégager certaines liaisons entre ces groupes. Ces méthodes feront l'objet d'un second ouvrage. Une pratique rigoureuse de l'analyse factorielle ne requiert pas obligatoirement la maîtrise de ses développements théoriques, mais repose sur une intuition spatiale solide. Nous avons donc choisi d'insister sur l'aspect photographique de cette technique. Les développements mathématiques non totalement élémentaires sont relégués en encadré. Leur lecture est facultative, la substance des phénomènes étant donnée dans le corps du texte sous forme intuitive. Cet ouvrage peut donc être lu à deux niveaux. Nous conseillons au lecteur, quelle que soit sa familiarité avec le calcul matriciel, une première lecture excluant les démonstrations, afin de bien fixer les quelques idées générales autour desquelles s'articule la technique, et d'en bien saisir l'utilisation pratique. Dans un second temps, l'examen éventuel des développements mathématiques approfondira la compréhension des mécanismes mis en œuvre. Tous les rappels d'algèbre linéaire nécessaires à la compréhension des démonstrations sont donnés en annexe.
CHAPITRE 1
Données et statistiques élémentaires
• r 1. Quelques tableaux de données M.
; >
Le tableau croisé
Un tableau croisé ventile une certaine quantité selon les modalités de deux caractères qualitatifs. Par exemple on peut ventiler l'effectif d'une population selon la tranche d'âge et le loisir préféré (cf. introduction), ou encore la valeur ajoutée réalisée dans une économie selon les secteurs et les régions, etc. valeur ajoutée Nord(en MF) par secteur Littoral Landes et par région industries extractives agriculture
1.234 3,987
7,985 12,768
On constate dans ce cas une parfaite symétrie de rôle entre lignes et colonnes du tableau. De plus, les sommes des cases pour chaque ligne et pour chaque colonne ont un sens (ici, respectivement : la valeur ajoutée dégagée par un secteur, et par une région). 1.2. Le ial^u logique
Un tel tableau présente en ligne des individus statistiques (personnes, entreprises, produits...) décrits en colonne par des variables qualitatives, i.e. caractérisées chacune par plusieurs modalités. Chaque colonne représente une modalité. Au croisement d'une ligne et d'une
c o l o n n e , o n t r o u v e le c h i f f r e 1 si l ' i n d i v i d u p o s s è d e l a m o d a l i t é , et 0 s i n o n . L e s tableaux l o g i q u e s p e r m e t t e n t t y p i q u e m e n t de coder les r é s u l t a t s d ' e n q u ê t e s d ' o p i n i o n . N o u s supposerons q u ' u n tel tableau est m i s sous f o r m e disjonctive complète, i.e. q u ' u n i n d i v i d u p o s s è d e une et une seule m o d a l i t é pour chaque c a r a c t è r e . C'est le cas d u tableau suivant (les 0 ont é t é o m i s p o u r plus de l i s i b i l i t é ) : état matrimonial
sexe caractères F H sondés
célibataire
marié divorcé ou ou concubin séparé
1 n°l37
fumeur
veuf non
régulier
1
1 1
occasionnel
1
1
E n cas d ' e n q u ê t e s comportant des questions à r é p o n s e s m u l t i p l e s , i l faut, p o u r obtenir un tableau d i s j o n c t i f c o m plet, faire de chaque m o d a l i t é une variable à part e n t i è r e , p o s s é d a n t d e u x m o d a l i t é s , oui et non. Par e x e m p l e , la q u e s t i o n suivante : vous aimez... les jus de fruit • le vin • la bière • les sodas • sera c o d é e ainsi : jus de fruits oui
vin
non
oui
1
1
bière non
oui
i
1 1
1
sodas non
oui
non 1
1
Remarque : toute variable quantitative peut ê t r e transf o r m é e en variable qualitative en la d é c o u p a n t en tranches. Par exemple, l'âge d'une personne peut ê t r e c o d é c o m m e un n o m b r e d ' a n n é e s ( 4 3 ) o u c o m m e l ' a p p a r t e n a n c e à une tranche d ' â g e (40-50 ans). A i n s i , l'ensemble des r é p o n s e s aux questions d'une e n q u ê t e peut toujours ê t r e c o d é sous la forme d'un tableau logique d i s j o n c t i f complet ( T L D C ) . J.J. [eto6/eoude mesures U n tel tableau p r é s e n t e c o n v e n t i o n n e l l e m e n t en l i g n e des i n d i v i d u s s t a t i s t i q u e s d é c r i t s e n c o l o n n e p a r des variables quantitatives. Ces variables sont a priori hétérogènes, i.e. d ' u n i t é s d i f f é r e n t e s .
variables entreprises
effectif
GenPress InterElec
75.721 12.457
chiffre salaire d'affaires moyen annuel ( M F ) mensuel (kF) 153 102
1352 106
Remarque 1 : i l peut se t r o u v e r que ces variables soient homogènes, p o u r u n t a b l e a u d ' a g r é g a t s f i n a n c i e r s par e x e m p l e . M a i s elles c o n t i n u e n t à r e p r é s e n t e r des choses e s s e n t i e l l e m e n t d i f f é r e n t e s , n ' é t a n t pas a priori sommables : l a s o m m e d'une v a l e u r a j o u t é e et d'une masse salariale n'a aucun sens ! Remarque 2 : i l est f r é q u e n t d'avoir pour i n d i v i d u s statistiques des dates. O n a alors u n tableau de s é r i e s c h r o n o l o g i q u e s {a priori h é t é r o g è n e s ) . Par e x e m p l e , le tableau s u i v a n t ^ concernant une entreprise p a r t i c u l i è r e : variables dates
1970 1971
...
chiffre d'afl'aires taux de marge annuel ( M F )
1243 1352
0.2 0.1
taux de rentabilité financière
...
0.05 0.02
2. La statistique descriptive élémentaire - ses insuffisances L a statistique, de m a n i è r e g é n é r a l e , a pour v o c a t i o n de p r o d u i r e des r é s u m é s de l ' i n f o r m a t i o n . Les r é s u m é s statistiques de base peuvent prendre une f o r m e n u m é r i q u e o u graphique. L a q u a l i t é d'un r é s u m é est d'autant m e i l l e u r e q u ' i l est p l u s c o n c i s et p l u s e x h a u s t i f ( d e u x c a r a c t é r i s tiques a priori antagonistes)
1. Attention : de tels tableaux sont souvent publiés dans l'autre sens (les dates en colonne). Pour y voir un tableau de mesures tel que présenté plus haut, il faut alors impérativement transposer le tableau. E n effet, pour représenter les valeurs d'une même variable, les chiffres d'une même colonne doivent avoir le même sens, et en particulier la m ê m e unité. Il est donc absurde de considérer les dates comme "variables" et les indicateurs comme individus statistiques.
2.]. Devant un ia^u croisé Résumés
graphiques
Les histogrammes classiques permettent de visualiser l'allure des p r o f i l s des lignes et des colonnes : Valeur ajoutée réalisée par l'économie landalte par secteur
Valeur ajouta réalisée par let indiutrict eniractives selon les réglons
fioràLHMry
IndusEricaAgrk^ulEu
Lindu
I l est Utile de p r o d u i r e les d e u x m a r g e s d u t a b l e a u obtenues en additionnant l'ensemble des lignes d'une part (on o b t i e n t la r é p a r t i t i o n de la valeur a j o u t é e par r é g i o n , tous secteurs c o n f o n d u s ) , et d'autre part l'ensemble des colonnes (on obtient la r é p a r t i t i o n de la valeur a j o u t é e par secteur, toutes r é g i o n s confondues). O n construit alors les histogrammes correspondants. I l subsiste quelques d i f f i c u l t é s : - Si l'on veut v o i r ce q u i d i f f é r e n c i e entre eux les divers p r o f i l s - l i g n e s , o n d o i t p r o d u i r e l ' e n s e m b l e des h i s t o g r a m m e s des lignes. I l en va de m ê m e p o u r les p r o f i l s des colonnes. Cela fait beaucoup ! - E n outre, dans ces histogrammes, l ' i n f o r m a t i o n de p r o f i l n'est pas s é p a r é e de celle de poids. L ' i n f o r m a t i o n de p r o f i l pure est souvent traduite grap h i q u e m e n t par un "camembert": Valeur ajoutée réalisée par l'économie landaise par secteur 31%
•• .^ '
•
" Industries extractives Agriculture 23% 37% Si deux r é g i o n s ont exactement le m ê m e p r o f i l é c o n o m i q u e (i.e. les colonnes q u i leur correspondent sont p r o p o r t i o n n e l l e s ) mais que la p r e m i è r e p r o d u i t d i x fois plus que la seconde, les histogrammes correspondants seront, b i e n que d'allure s i m i l a i r e , d i f f é r e n t s . D e m ê m e p o u r deux secteurs ayant e x a c t e m e n t l a m ê m e r é p a r t i t i o n g é o g r a p h i q u e (lignes proportionnelles).
I
Nord-littoral
primaire
Q
secondaire
Landes
teniaire
Si l ' o n d é s i r e s y n t h é t i s e r l'ensemble d u tableau sur u n m ê m e graphique, o n pense naturellement à u n graphique de type " M a n h a t t a n " ( h i s t o g r a m m e en perspective). M a i s un p r o b l è m e de lecture a p p a r a î t , d û au fait que certaines barres en cachent d'autres. D'autre part, l ' i n f o r m a t i o n de p r o f i l n'est toujours pas s é p a r é e de l ' i n f o r m a t i o n de poids.
Littoral
E n f i n , d a n s a u c u n e r e p r é s e n t a t i o n de t y p e h i s t o g r a m m e o n n'a d ' i n d i c a t i o n s y n t h é t i q u e claire concernant la liaison e n t r e les l i g n e s et les c o l o n n e s ( d a n s n o t r e e x e m p l e , les associations p a r t i c u l i è r e s entre secteurs et r é g i o n s ) . L a n o t i o n de d é p e n d a n c e entre deux c a r a c t è r e s est d é t a i l l é e ci-dessous d'un p o i n t de vue n u m é r i q u e . Résumés numériques
•:>•• ^«v
L'analyse de l ' i n f o r m a t i o n d'un tableau c r o i s é passe par le c a l c u l de divers p r o f i l s ( o u distributions).
Distribution jointe U n tableau croisant deux c a r a c t è r e s Cj et Cj est une matrice d'effectifs à / lignes et J colonnes. L ' é l é m e n t figurant à l'intersection de la l i g n e ï et de la c o l o n n e j est n o t é 1, . L a s o m m e des é l é m e n t s d u t a b l e a u est n o t é e
/ J
rt = ^ ^ . C'est l'effectif total ventilé dans le tableau (=I;=1 (dans notre exemple, la valeur ajoutée totale dégagée par l'économie du pays). Le pourcentage de l'effectif total "y
r e p r é s e n t é par une case (i, j) est fii= — \t la fré^ n quence absolue de la case (dans notre exemple, la part de la sidérurgie landaise dans la valeur ajoutée globale). La matrice de ces fréquences représente la distribution croisée des deux caractères, notée : / i l "Aj -fiJ fi\
-fiJ
fi\ fij •• fiJ
La somme des fréquences d'une distribution vaut tou/ J
jours l'unité :
XX-Zi;
=1-
(=iy=l
Distributions marginales L a somme des f r é q u e n c e s d'une m ê m e l i g n e / : J
^fij
= fi représente le pourcentage global de cette ligne
j=\
dans l'effectif total, c'est donc la fréquence globale de la modalité / (part du secteur sidérurgique dans la V A globale). L'ensemble de ces fréquences forme le profil marginal colonne. C'est la distribution globale du caractère Cj (distribution sectorielle de la V A ) . On calcule de m ê m e la /
fréquence
g l o b a l e de la m o d a l i t é j
:
^fij^fj1=1
L'ensemble de ces fréquences compose le profil marginal ligne. C'est la distribution globale du caractère Cj (distribution régionale de la V A ) . On peut ainsi résumer ces diverses sommations :
colonne
profil colonne marginal
j
ligne
i
fu
• f-^j
•
fu
/l.
fil
•
fij
•
fu
fi
fn
• f'J
•
fu
fl.
• • f.J
1
profil ligne •
marginal
fj
Distributions conditionnelles Si l'on s'intéresse à la distribution à l'intérieur
d'une
ligne i (distribution régionale de la V A d'un secteur particulier), on doit rapporter les éléments de celle-ci à leur total. On obtient ainsi les fréquences relatives des modalités de CJ dans la ligne i : fj = ~~ (lire "fréquence de j Ji.
sachant i " ) . Comme pour toute distribution, on a bien sûr •f
.
'^fj = 1 . Cette distribution / / .. fj .. fj sera a p p e l é e j=\ profil ligne i. On peut de m ê m e calculer les fréquences fi
relatives
des modalités de C/ dans la colonne j : f/ = — fj
(fréquence de / sachant j). On a J ] / , ' = 1. Cette distribution sera appelée profil colonne j (distribution sectorielle de la V A d'une région). On remarque que le profil-colonne marginal est la moyenne des profils-colonnes pondérés par la fréquence de ces colonnes (la distribution sectorielle globale de la V A est la moyenne des distributions sectorielles dans les régions, pondérées par le poids économique de ces régions) :
A. fi.
fl.
/i'
= /i
+•••+/,
//
//
f,' +-+f.j
f'
fl
'fl
//
J fi
= I / . fl
Symétriquement, le profil-ligne marginal s'avère être la moyenne des profils-lignes pondérés par la fréquence de ces lignes. Les profils marginaux sont donc aussi les profils moyens.
Indépendance entre deux caractères I l y a une situation qui m é r i t e une attention partic u l i è r e : celle ou les deux c a r a c t è r e s c r o i s é s dans le tableau sont indépendants. Dans notre exemple, l'indépendance signifierait par exemple que le profil régional ne dépend pas du secteur. Ce profil régional commun serait donc le profil régional global. Mathématiquement, cela se traduit immédiatement par : pour tout i soit, pour tout couple de modalités (i. j) :
Cette écriture faisant jouer aux lignes et aux colonnes des rôles symétriques, i l apparaît que l'indépendance est une notion symétrique : si le profil régional ne dépend pas du secteur, le profil sectoriel ne dépend pas de la région. En l'absence de liaison entre les deux caractères croisés, l'information du tableau se résume aux deux profils marginaux ligne et colonne (distributions régionale et sectorielle globales). La situation précédemment décrite est celle d'une indépendance empirique parfaite. En pratique, on s'en approche plus ou moins. On essaie alors de mesurer un "degré de dépendance". On calcule ainsi une sorte d'écart entre la distribution jointe et ta distribution produit des marges (et on s'attend à ce qu'il soit d'autant plus grand qu'on est loin de l'indépendance) : ^ ^ ^^'^ ~ ^''^'^ ^ 1= 1 j=l fi.f.j Il existe une justification précise à ce calcul : le test d'indépendance du khi2. Ce test n'a de validité que lorsque le tableau est issu d'un échantillonnage, c'est-à-dire lorsque les unités ventilées dans le tableau ont été tirées "complètement au hasard" (i.e. les unes indépendamment des autres) dans une
population. Dans ce cadre, et si les deux caractères sont indépendants dans la population d'origine, alors la quantité D=n^
/ J ^—
(•=iy=i
(f.-ff)^ —— est une quantité aléatoire (puisqu'elle f'-fj
dépend de l'échantillon tiré) distribuée suivant une loi du khi2 ^(I - i) (J - I) degrés de liberté. Sa distribution est donc parfaitement connue. On s'attend alors à ce qu'elle tombe dans une région à forte densité de probabilité de cette loi du khi2. Si elle ne le fait pas, en tombant dans la région rare des valeurs élevées, on rejette l'hypothèse d'indépendance, alors trop peu vraisemblable : densité de probabilité
région peu probable (5 %) des valeurs élevées valeurs deD C
id-JHJ-J»
0.95
Si l'on conclut sur ces bases à une dépendance entre les deux caractères, il reste un problème : la non-explicitation de ce qui/air la liaison : quelles modalités de C/ et Cj sont plus souvent/rarement associées ?
2.2. Devant un tableau logique l^ésumés graphiques et
numériques
Ce sont ceux qui sont attachés aux tableaux croisés qu'on peut calculer à partir du tableau l o g i q u e , par exemple :
Femmes Hommes
non fumeurs
fumeurs occasionnels
fumeurs réguliers
78 63
47 58
32 62
2,3. Devant un ht^u
de mesures
Résumés graphiques
On peut visualiser la distribution d'une variable de manière approchée en faisant un histogranune. Pour cela, on découpe le domaine de la variable en tranches, et pour chaque tranche, on note le nombre des observations qui y appartiennent Distribution des revenus annuels dans un échantillon de 120 personnes
nombre de pcnonne» <mF
N-llOkF ll*-imiiFI8«-140liF>I4*kF
Deux variables, une fois leurs domaines découpés en tranches, permettent de construire un tableau croisé. On dispose alors des graphiques correspondants : histogrammes et graphique "Manhattan" permettant de visualiser approximativement la distribution jointe de ces deux variables. Mais on peut aussi utiliser le graphe xy qui représente cette distribution jointe sous la forme d'un nuage de points : valeur salaire ajoutée salaire moyen moyen par tête
entreprise i
^? entrepnse i
108 237 237 ^ valeur ajoutée par tête
On peut éventuellement déceler une liaison entre les deux variables (si les différents points du nuage ont l'air d'être grosso modo distribués sur une courbe simple.
Avec 3 variables, un problème de lisibilité apparaît salaire valeur chiffre salaire ajoutée d'affaire moyen moyen
parcéie p a r l ê i e
108 entreprise i entreprise i
108 237 340
237^ valeur 340/ [/ ajoutée ^ par tête chiffre d'affaires par tête
La visualisation d'éventuelles liaisons entre des variables de ce lot pose aussi un problème : une telle liaison serait caractérisée grosso modo par l'appartenance de tous les points à une même surface, ce qui ne peut se voir sur un tel graphique. Pour 4 variables et plus, cette représentation devient impossible. Y a-t-il alors une possibilité de visualiser, en la résumant, l'image multidimensionnelle du nuage ? Y at-il également une possibilité de visualiser globalement certaines liaisons inter-variables ?
Résumés numér/ques
;
!
Pour une variable : Moyenne et dispersion Moyenne : Considérons une variable z mesurée sur / individus. Sa valeur pour l'individu i est n o t é e z,-. La moyenne de est :
' -
-il''
Dispersion : elle est mesurée par la mriance o^, qui est l'écart (carré) moyen de z à sa moyenne (la racine carrée 0^ de la variance est l'écart-type) : I Z^2 Remarque : une variable de moyenne nulle est dite centrée. On centre donc toute variable en lui soustrayant sa moyenne. Une variable d'écart-type égal à I est dite réduite. On réduit donc toute variable en la divisant par son écart-type. La variable centrée réduite correspondant à z est donc définie par : Zi
= Zi
-z
J5
La moyenne et la variance d'une variable ne sont que deux résumés très partiels de sa distribution. En particulier les individus y sont amalgamés. Une même moyenne et une même variance peuvent correspondre à des distributions très différentes, masquant par exemple des effets de groupes. On concédera ainsi que les deux situations suivantes ne sont pas socialement équivalentes : revenu 0--0--0--0-0-0-0--0-0-*-C>--0
revenu ^
«H»0
distribution homogène
OCHMl
OOOC
>
présence de groupes
Pour deux variables : la corrélation
^ ^ ,^ iiî g g S ti
I
Considérons deux variables z et t mesurées sur / individus. On dit que ces variables sont corrélées (positivem e n t ) l o r s q u ' e l l e s v a r i e n t dans le m ê m e sens, en moyenne. Par exemple, l'ancienneté dans l'entreprise et le salaire sont corrélés positivement. Les variables sont anticorrélées lorsqu'elles varient en sens opposé, en moyenne. La durée de vie et la consommation de tabac sont anti-corrélées. Les variables sont décorrélées dans le cas intermédiaire, lorsque les fortes valeurs de l'une ne sont pas particulièrement associées aux fortes ni aux faibles valeurs de l'autre. Pour mesurer la corrélation entre les variables z et t, on définit leur coefficient de corrélation :
P(z,t) = -J^Ziti
=-'£(-i—)(-L—)
La corrélation ainsi calculée ne prend en compte que les écarts de chaque variable à sa moyenne, ces écarts étant ramenés à la m ê m e échelle. Peu importe alors l'unité de mesure de chaque variable, ce qui est une excellente chose (la corrélation entre la température et la consommation de fuel est la même, que la première soit mesurée en d° celsius ou en d° fahrenheit, et la seconde en litres ou en gallons !). La corrélation résumant une liaison entre 2 variables, i l faut calculer toutes les c o r r é l a t i o n s 2 à 2 entre les variables du tableau. On n'a pas jusque là d'image globale des corrélations. Par ailleurs, la corrélation ne mesure qu'une liaison de type linéaire (de degré 1) entre deux variables. La corrélation entre deux variables z et f n'est en effet parfaite (1 ou - 1) que si l'on a pour tout / : z^ ~ at+ h. La partie non linéaire d'une liaison n'est pas "vue" par la corrélation. Ainsi, dans les 3 cas ci-après, la corrélation
entre x et y est pratiquement nulle, y ne croissant ni ne décroissant particulièrement avec x.
y
V
y
o.-o o
-a
0 rf' o
i
liaison parfaite ;
y = jr^
ys
liaison bruitée : , , .
X
+ perturbation
. ,. . pas de liaison
Enfin, les individus sont là encore amalgamés dans ce calcul de la corrélation. Une même corrélation entre deux variables peut correspondre à des situations très différentes, en particulier sans ou avec groupements observables :
3. Principe de l'Analyse Foctoneile
/" phase : T r a d u i r e le tableau dans u n espace, sous la forme d ' u n nuage de points (principe du graphe xy). I l y a 2 manières de le faire. La première (traduction directe) consiste à traduire chaque "individu" comme un point dans un espace dirigé par les variables. La seconde (traduction duale) consiste à traduire chaque "variable" comme un point dans un espace dirigé par les individus. 2e phase : Chercher à visualiser les nuages obtenus sur les meilleures photos (projections planes) possibles. Qu'est-ce qu'une "bonne photo"? On considérera empiriquement que la meilleure photo est celle où l'objet photographié s'étale au maximum, parce qu'on espère ainsi en voir le mieux les détails. C'est ce principe d'étalement maximum des nuages sur les photographies qui fonde toute l'analyse factorielle. Celle-ci est donc une technique permettant de photographier la diversité, et m ê m e de la résumer en un petit nombre de facteurs.
]7
vtriabte J (taux (le
chômagr)
individu i (Alsace)
Iraduelion directe variable J taux de
chômage
variable j ' ri^ven u/habt tiins
En pratique, on fournit à l'ordinateur le tableau à analyser en lui indiquant la méthode factorielle adaptée, l i se charge alors de produire les photographies. L'analyste n'a donc aucun calcul à faire. Mais qui réduirait le travail d'un radiologue à la prise d'un c l i c h é par une machine ? Essentielle est l'interprétation des radiographies ! En analyse factorielle aussi, le travail de réflexion de l'analyste est de loin le plus important : i l faut faire preuve de rigueur et de finesse pour interpréter les photos fournies. Cette interprétation requiert impérativement d'avoir bien compris non seulement le principe général de l'analyse factorielle, mais aussi les particularités de chaque méthode.
CHAPTTRE II
Analyse en Composantes Principales réduite
Dans un cadre mathématique simplifié. la démarche commune à toutes les analyses factorielles est entièrement visible dans l'exposé de la méthode d'ACP réduite. L ' A C P réduite concerne les tableaux de mesures a priori hétérogènes. Elle vise à produire des photographies des variables, où l'on voie instantanément l'essentiel des corrélations qu'elles présentent les unes avec les autres. Nous prendrons pour exemple d ' a p p l i c a t i o n les 26 régions françaises (nos individus) décrits par divers indicateurs (nos variables) concernant la d é m o g r a p h i e , l'économie, etc. La plupart des indicateurs sont des taux par habitant : l'usage de variables intensives permet de ne pas inclure dans l'analyse l'effet de taille des régions, mais seulement analyser leurs disparités qualitatives. Ainsi également, on évite la corrélation massive "évidente" entre toutes les variables économiques et démographiques absolues liées à la taille : PNB, population, etc. Les variables sont les suivantes' (années 1988 ou 1989) : Démographie : densité de population au km^, taux d'accroissement de la population, part des moins de 25 ans dans la population, proportion des naissances hors mariage, taux de natalité (= naissances vivantes pour I 000 habitants), taux de mortalité (= décès pour 1 000 habitants), taux de mortalité infantile (= décès de moins d'un an pour I 000 habitants), indice synthétique de fécondité (= nombre d'enfants par femme), espérance de vie à la naissance, proportion des ménages d'une personne (personne seule), proportion des ménages de plus de cinq personnes, proportion des familles monoparentales. conomie : Produit Intérieur Brut par habitant, taux de chômage (nb chômeurs/[populaiion active + chômeurs)), revenu par habi• Source : L.a France et ses régions - INSEE. édition 1993.
8
19
tant, part de la population active travaillant dans le secteur agricole, part de la population active travaillant dans le secteur industriel, part de la population active travaillant dans le secteur des services, pourcentage d'emplois "stables" (contrats à durée indéterminée), dette en capital des régions (par habitant). Formation : proportion des sans diplômes dans la population de plus de 15 ans. proportion des diplômés du supérieur (> bac + 2) dans la population de plus de 15 ans, dépenses de la région (par habitant) pour la formation continue. Société : proportion des ménages bénéficiaires du RMI, taux de criminalité (nombre de crimes et délits relevés par habitant), aide sociale départementale par habitant, taux d'administration locale (nombre d'agents des collectivités locales pour 1 000 hbts). Conditions de vie : profKtrtion des ménages propriétaires de leur logement, nombre de médecins pour I 000 habitants, nombre de lits d'hôpital pour I 000 habitants, véhicules automobiles pour 100 habitants, pourcentage de la population habitant en commune rurale, nombre de résidences secondaires pour I 000 habitants.
1. Promenades dons l'espace : nuages... • Notre tableau de mesures X décrit / individus à l'aide de J variables. La valeur de la variable j pour l'individu i est notée x/. Géométriquement, on aimerait traduire directement ces individus et ces variables comme indiqué à la fin du chapitre précédent. Chaque individu étant décrit dans le tableau par une ligne de J chiffres (les valeurs prises pour lui par les J variables) i l peut donc être représenté par un point dans un espace à J dimensions (espace direct). De m ê m e , chaque variable étant traduite dans le tableau par une colonne de / chiffres (les valeurs qu'elle prend pour les / individus), elle peut donc être représentée par un point dans un espace à / dimensions (espace dual). Cependant, cette traduction g é o m é t r i q u e "naïve" du tableau n'est pas ici la plus a d é q u a t e , pour une raison essentielle : elle n'intègre pas notre parti pris initial d'analyser le tableau en ternies de corrélations. Remarque : pourquoi s'intéresser autant à la c o r r é lation ? I l est clair que les variables du tableau ayant des unités différentes, leurs variations ne pourront être mises en rapport qu'une fois réduites à une même échelle. Or, on a vu que la corrélation fait intervenir les variables sous leur forme centrée réduite.
Une pefite transformation du tableau de données Comment transformer le tableau pour l'analyser en termes de corrélations ? On remarque que la corrélation est du point de vue géométrique, un produit scalaire :
p(y./) =
X^/^/
I
en posant zf =77
xj-x^
Pour que le produit scalaire de deux vecteurs-variables soit leur corrélation, on transforme donc le tableau initial comme suit : j
transformé en ZI
_
=
JrJ 1 Xi 41
Sur ce tableau transformé que l'on appellera Z. on opère la traduction géométrique en deux nuages évoquée plus haut. On s'intéresse en priorité au nuage de pointsvariables obtenu. Le nuage des variables Les points-variables se trouvent tous sur la sphère de centre O et de rayon 1 de l'espace dual. 2
Preuve : Le poini représentant ta variable j est : ^} = 21
On a bien sûr : i^'
= pjj
et par conséquent :
Cette sphère matérialise bien tous les phénomènes de corrélation entre les variables du tableau. Deux pomts y sont d'autant plus proches que leur produit scalaire est proche de I , i.e. que les variables correspondantes sont corrélées. Des variables ayant une corrélation très négative (proche de - 1 ) sont matérialisées par des points opposés sur la sphère, et des variables non corrélées (corlation nulle) sont matérialisées par des points situés dans des directions perpcndiculaii 1 aires.
indiv 3 Alsace
cos e = z ' ' z*
rayon = 1
/ 2 0 / /
=p(5,6) .
JS,
z^
Q
\ avec z^
\/
— \
avec
z* carrelées
r
indiv 2 Nord-Pas-de-Calais
indiv 1 Corse
S\X
f^"^ chômage % de ménages RMIstes
2. Analyse Factorielle du nuoge des variables M a l h e u r e u s e m e n t , c e t t e "planète des c o r r é l a t i o n s " f i g u r e dans u n espace de d i m e n s i o n / (en général, p l u sieurs centaines), et p o u r cette raison n'est pas directement appréhendable. I l faut donc essayer d'en faire de "bons " clichés. F a i r e u n " b o n " cliché, c'est t r o u v e r u n p l a n s u r lequel, en projection, le nuage des v a r i a b l e s s'étale le plus. O n se p o s e a l o r s t h é o r i q u e m e n t l e s p r o b l è m e s suivants : 1. C o m m e n t mesurer l'étalement? 2 . Q u e l est d'abord l'axe, puis le plan, et plus généralement le sousespace de d i m e n s i o n p le l o n g d u q u e l l ' a l l o n g e m e n t est maximal ?
2. ï . Mesure de /'éto/emenf, propnéfés Projetons le nuage des p o i n t s - v a r i a b l e s sur u n sousespace E, et regardons cette projection.
% des ménages RMIstes
L'étalement (dispersion) des points de cette projection autour d u point o r i g i n e O sera mesuré par :
C'est l a d i s p e r s i o n des p o i n t s - v a r i a b l e s a u t o u r de O dans la direction de E. Cette mesure de dispersion, par analogie avec la mécanique d'un système de points matériels, a été baptisée inertie, ce q u i n'est pas très heureux. O n la notera en abrégé : ïn^. Cette mesure de la dispersion peut être justifiée par les propriétés agréables qu'elle possède : Propriété
de Pythagore
O n a u n e propriété d'additivité de l ' i n e r t i e e n t r e sous-espaces orthogonaux : Si £• et F sont deux sous-espaces orthogonaux engendrant le sous-espace £ + F, o n a : In^ '^=: In^ + In^ Preuve : le théorème de Pythagore, pour un point-variable et sa projection, donne 1
i-
1K \
i ^
! l
23
O-
'
WlP+L>lP
En faisant la somme membre à membre de ces égalités, on obtient : 2 y'
4^
2
'
Il
k
-'H—
• L'inertie le long d'un axe dirigé par un vecteur v unitaire a une expression matricielle simple. Si le vecteur ^ est unitaire (i.e. de norme 1 ), on a :
donc:
Or:
= Z Z
Xs^5^'' =
Par conséquent : M " - ^ = V ' ( Z Z ' ) V
•a i
î;||î^|| = £v;'(i>5>')v= v'( j ; ^ ^ ^ ^ ' ) v
L a matrice
F = Z Z " est appelée matrice d'inertie du
nuage des variables. Elle est à l'évidence symétrique positive (cf. annexe). Remarque : si le vecteur ^ n'est pas norme, on en fait un vecteur norme en le divisant par sa norme. L'inertie le long de < > est donc ; V
V
v'Fv . . . y
2.2.
v' V
Axe principal d'allongement
24
O n cherche l a d i r e c t i o n < £ > de dispersion m a x i m a l e d u nuage.
• < Rhône-Alpes
axe d'aUongemtnt
principal
L'expression matricielle permet de déterminer cette direction. On cherche à réaliser : Max V
V V
Cette fonction du vecteur ^ est maximale lorsque sa dérivée par rapport à K est nulle, ce qui donne : {2rv)(v'v)-(2v)(v/rv) = 0 En posant : X = ^^
^
LY = (=-==)v
= In*^-^ le vecteur ^ cherché est
caractérisé par : T v = H s'agit donc d'un vecteur propre de r . associé à la valeur propre X. Celle-ci représentant l'inertie dans la direction de i ; , elle doit être maximale. L a m a t r i c e d ' i n e r t i e ZZ' est symétrique, ses vecteurs propres sont donc deux à deux orthogonaux. Normes, ils forment une base orthonormée. Les valeurs propres sont toutes positives. O n peut ordonner et numéroter les vecteurs propres i^^ E j . . . par ordre de valeurs propres k/, ^ j - • • décroissantes. L e v e c t e u r v cherché ( q u e l ' o n p o u r r a n o r m e r p o u r s i m p l i f i e r ) est le vecteur p r o p r e de 22' associé à sa plus g r a n d e v a l e u r p r o p r e Xj, Cette v a l e u r p r o p r e est exactement l ' i n e r t i e d u nuage dans l a d i r e c t i o n de v^.
I
2.3. Plan principal d'allongement etc. O n m o n t r e q u e le p l a n p r i n c i p a l d ' a l l o n g e m e n t est celui q u ' e n g e n d r e n t et v e c t e u r s p r o p r e s d e 22' associés a u x d e u x p l u s g r a n d e s v a l e u r s p r o p r e s Xj et L ' i n e r t i e d u n u a g e le l o n g d e ce p l a n est l a s o m m e des i n e r t i e s le l o n g de ces axes, soit : Xj + A.^. Iitdiv 3 Rhône-Alpes
p l a n d'HlIongemcnt p r i n c i p a l
25
Preuve : le plan le long duquel le nuage s'étale le plus contient nécessairement le premier axe < i:/ > ; en effet, on pourrait sinon le rapporter à la base orthogonale suivante :
On aurait alors : Iti^-^ < In"^-^ ^ ( est la direction d'allongement maximal) donc In soit :
+In ,
In
p
< In
+ In ~
,
. c'est < 22 > ^ u l donne l'allongement maximum. Or :
In^'-'Uln^^^Kln^'-^'+In^'-^^ =>
In^'Kln^'-'-'-^^
On a donc : p=
In'''''=In''-'^-^In'''-^'=Xi+X2
O n peut de manière analogue m o n t r e r que le sousespace de d i m e n s i o n p le long d u q u e l le nuage s'allonge le plus (appelé sous-espace factoriel de dimension p et noté E ) e s t e n g e n d r é p a r les p p r e m i e r s v e c t e u r s propres. L ' i n e r t i e le long de E^ est l a s o m m e des p p r e mières v a l e u r s p r o p r e s .
2.4. Premien graphiques O n a d o n c trouvé les m e i l l e u r e s photos d u n u a g e des variables. L a meilleure est l a projection s u r le plan (1,2) d e s d e u x p r e m i e r s a x e s f a c t o r i e l s . L e m e i l l e u r complément de cette photo est l'axe 3, ce q u i p e r m e t de t i r e r l e s p h o t o s (1,3) e t (2,3). E t a i n s i d e s u i t e ' . L'ordinateur représentera les points-variables sur u n p l a n ( a , P) e n calculant leurs coordonnées, dites faciorielles, sur les axes a et p. ». •••, -i' Coordonnées
factorielfes
La coordonnée du praint-variable j sur l'axe a est obtenue par produit scalaire :
3
En "empilant" ces équations, on obtient le vecteur formé par toutes les coordonnées des variables sur Taxe a : z''
=
^^l'i. plus brièvement : O
—a
^,
=
Z — -a
• >>i 1 on a p a r e x e m p l e décidé de l i m i t e r son a n a l y s e aux 4 p r e -
^ j e r s axes, on peui tirer les photos {i.l). (U). (2.3), (1.4), (2.4) et (3.4). lant'^'^''^"*^'^^ '^^'^ p a r m i c e s 6 photos c e l l e s q u i s o n ! l e s p l u s " p a r • l e les m i e u x interprétables.
27
O n peut alors p o r t e r les p o i n t s - v a r i a b l e s s u r le g r a phique ( a , p ) :
Interpréfation
des positions des variables sur les photos
O n v o i t sur le dessin ci-contre que si u n p o i n t - v a r i a b l e , en p r o j e c t i o n sur u n plan, se trouve près d u cercle unité, c'est que dans l'espace i l n'est pas très l o i n d u p l a n de p r o jection.
O n en c o n c l u t facilement que : ' pour deux variables proches d u cercle dans u n p l a n factoriel : - p l u s elles sont près l ' u n e d e l ' a u t r e , plus elles sont positivement corrélées, - p l u s elles sont diamétralement opposées, p l u s elles sont négativement corrélées, - si elles forment presque u n angle droit, l e u r corrélation est négligeable ; • p o u r deux v a r i a b l e s loin d u c e r c l e d a n s u n p l a n factoriel, o n ne peut r i e n dire ! (leur proximité en p r o j e c t i o n n ' i m p l i q u e pas d u tout l e u r proximité dans l'espace, donc leur corrélation - v o i r les variables 2^ et if c i dessus).
• Enfin, si une seule des variables est proche d u cercle, mais que l'autre fait dans le plan u n angle droit avec elle : toutes les variables ayant leur projection sur ce segment...
...se trouvent nécessairement sur ce cercle...
... donc pratiquement orthogonales à z_
.. .on se c o n v a i n c r a sans peine que dans l'espace, ces deux variables ne peuvent toujours faire q u ' u n angle d r o i t : o n peut donc c o n c l u r e à l e u r décorrélation'.
L'exemple des régions françaises L ' A C P des régions françaises donne le p r e m i e r p l a n factoriel (1,2) suivant : 2
rurales
ociale/hhi • % ménages RMI • chômage • % ménages > 5 pers. 'JHf'Sans diplômes formation continue • % pop < 25 ans
parc an
29
résidences secondaires nitles monoparentales tances •dette cap tal région espér.de vie * '•mariage lits d'hôpiial/hht * re\ .
variation pop mortalité infantile i m pop active ^ds services
pauvreté & dynamisme démographique
PlB/hah' 'ois stables
'/o personnes médecitù/hbt.
seules
dens té pop % dipi > bac + 2 crû linalité
richesse équipement
• Lorsque l'on regarde en face la projection des variables sur un plan surî*"'^'' d'imaginer que l'on a face à soi un globe transparent . . ^ ^ i ^ s l l e s se trouvent en réalité les variables, e l d'essayer de voir m e n f ™ " ' leurs positions possibles, sur l'avant ou sur l'arrière du globe.
O n observe sur la gauche d u graphique une forte corrélation globale entre 13 variables de type démograp h i q u e o u s o c i a l : natalité, fécondité, familles nombreuses, naissances hors-mariage, familles monoparentales, jeunesse de la population, ménages bénéficiaires du RMI, chômage, non-diplômés, etc. D u côté diamétral e m e n t opposé, o n trouve les variables q u i leur sont très anti-corrélées : revenu et PIB par tête, taux d'équipement en véhicules automobiles et en médecins, et p r o p o r t i o n de personnes seules. L e sens de l'axe 1 est d o n c particulièr e m e n t c l a i r : i l oppose chômage et d y n a m i s m e démog r a p h i q u e à richesse et équipement. O n notera que le t a u x de mortalité se situe, n o n d u côté de l a pauvreté, m a i s nettement d u côté de la richesse, a i n s i que l'espérance de v i e , ce q u i peut paraître p a r a d o x a l . E n fait, cela s'explique b i e n à l'aide d u graphique : la p o p u l a t i o n des régions les plus pauvres est la p l u s j e u n e , et par conséq u e n t , toutes choses égales par a i l l e u r s , soumise à une mortalité m o i n s élevée. L a p o p u l a t i o n des régions p l u s r i c h e v i t plus longtemps, mais étant p l u s âgée, subit une mortalité n a t u r e l l e p l u s é l e v é e . O n v o i t i c i l ' u n e des grandes forces de l ' A C P : e n présentant simultanément toutes les corrélations, elle force à e x a m i n e r les phénomènes d a n s l e u r globalité. O n évite a i n s i l a t e n t a t i o n , ayant constaté une forte corrélation entre deux variables (taux de mortalité et taux d'équipement automobile), de c o n c l u r e hâtivement à u n l i e n de cause à effet direct entre les deux ( i c i , l'espérance de v i e étant v i s i b l e m e n t corrélée à l'équipement a u t o m o b i l e , o n peut a f f i r m e r que les d a n gers de la route n'ont r i e n à v o i r avec la corrélation précédente !). En bas d u graphique se trouve le taux de criminalité. I l est plutôt p o s i t i v e m e n t corrélé à la part des services dans l'emploi et à l a proportion de diplômés d'études supérieures. Ces variables sont globalement opposées à la p r o p o r t i o n de ménages propriétaires de leur logement, plutôt corrélée à l a ruralité de la région {part de l'agriculture dans l'emploi et proportion de la population vivant en commune rurale). L'axe 2 p o u r r a i t être en quelque sorte u n axe d'enracinement ou d'intégration, q u i recoupe p o u r partie l ' o p p o s i t i o n u r b a i n - r u r a l . Des réserves d o i v e n t évid e m m e n t être émises : le taux de criminalité tient c o m p t e des crimes et délits p o u r v u que c e u x - c i soient relevés... et c'est sans doute en contexte u r b a i n qu'ils le sont le m i e u x .
• On note que dans cette analyse du nuage des variables, on a apparemment perdu la trace des individus. Si ceux-ci présentent la moindre importance à titre individuel (c'est le cas de nos régions), i l va donc falloir les réintroduire dans l'analyse, et les remettre en rapport avec les variables.
3. Analyse du nuage des individus et dualité Tout ce qu'on a fait pour les variables, on peut le faire pour les individus, puisqu'eux aussi sont traduits sous forme de nuage. Certes, dans la majorité des ACP réduites, les individus forment un échantillon tiré d'une population. Ils sont alors nombreux et individuellement peu importants. Mais dans le cas contraire, il est important qu'ils soient photographiés aussi. A l'occasion de la représentation des individus, on met le doigt sur le phénomène le plus important de l'Analyse Factorielle : une correspondance très forte entre analyse des individus et analyse des variables. Ce n'est pas pour surprendre : nuage des individus et nuage des variables sont deux traductions différentes de la même information : celle du tableau de données. En fait, la liaison entre les deux analyses est si forte et si simple que c'est merveille. le nuage des mdiWdus
Retournons au tableau transformé Z, dont les lignes représentent nos individus, et à la représentation directe. On traduit chaque individu par le vecteur correspondant à i^etle ligne. variable j taux de chômage
individu 1 = vecteur^j " Alsace variable j " taux de natalité \
\ j' revenu/habt
3)
Exactement comme dans le cas des points-variable s, mesurons l'étalement du nuage de ces points-individus le long d'un sous-espace E par :
^
(où (• est la projec-
tion orthogonale de i- sur E). On a, comme précédemment, dans la direction d'un vecteur unitaire a particulier : In'^-"
=U{ZZ)u
On appellera Q = Z'Z cette matrice d'inertie des individus. Q n'est autre que la matrice des corrélations des variables, son terme général d'indices (j, j') étant :
l ^ s / s / = p(;./ )
3.2. Axes principaux d'allongement du nuage des individus
UJ
1 32
Le raisonnement est exactement le même que pour le cas des variables, et donne pour vecteurs principaux les vecteurs propres ji^ de la matrice d'inertie des individus : G = Z'Z. Comme dans l'analyse des variables, on ordonne ces vecteurs dans l'ordre décroissant des valeurs propres correspondantes. Le sous-espace de dimension p le long duquel le nuage des individus est le plus allongé est celui qu'engendrent les p premiers vecteurs propres ainsi ordonnés. L'inertie du nuage le long de ce sous-espace est la somme des valeurs propres correspondantes. Coordonnées
factorielles des individus (composantes
principales}
La représentation des individus sur les plans factoriels se fait en calculant leurs coordonnées sur les axes de ces plans. P Réunion individu i
m Rhône-Alpes Guyane
L a coordonnée de l'individu i sur l'axe a est donnée par ;
En empilant ces coordonnées, on obtient le vecteur formé par les / coordonnées des individus sur l'axe a : F^ = Zu^ Remarque : on peut l'écrire aussi :
Z ,..,Z-' ,:,Z
=1
£ ^ est donc une combinaison linéaire particulière des variables du tableau, une sorte de variable de synthèse. On l'appelle usuellement/acreur a (ou composante principale a ) . Les variables du tableau Z étant de moyenne nulle, le facteur a est aussi centré. Sa variance se calcule simplement :
'
1=1
'
Dans l'exemple des régions, nous obtenons le premier plan factoriel (1,2) suivant : , .
Poi li>u - Cha ren tes Pays de la Loire , Basse- Jo^andie
GttOiteloape Vf)
Départements d'Outre-Mer
•
Limousin
• Franche-Comté Pica die^''^'^^ ' Centre ' Bourgogne Chamf^agne-Ardenne ''uAuvergne Haute\ornjandie I Lorraine Aquitaine Midi'Pyrénees Alsace • Rhône-Alpes
rd-Pas-de-Calais
La
nguedoc-Roussillon
Pnivencf-Aip^.i Z-^CSud'Mur
.
33
1 Ce premier plan factoriel dépiste principalement l'ori- • ginalité des départements d'outre-mer par rapport aux régions de la métropole. L a question se pose alors de ] décrire cette originalité à l'aide des variables. Or, en fai-1 sant cette photographie des individus, on a apparemment] perdu la trace des variables. | Toutefois, en rapprochant cette photo de celle que l'on] a fait des variables sur leur premier plan factoriel, o n î constate rapidement un p h é n o m è n e troublant : l e s j variables de pauvreté et de dynamisme démographique sel trouvent du même côté que les DOM, les variables d'équi-| pement et de richesse globalement du même côté que les] régions de la métropole, le taux de criminalité en b a s i comme la Guyane et l'Ile-de-France... Bizarre, bizarre. I 3.3. Relations de dualité
5
34
L e s relations de dualité entre les deux analyses, comme on vient de le soupçonner sur notre exemple, sont extrêmement fortes. Il est assez intuitif que les axes directs et duaux se correspondent deux à deux. Prenons un axe dual témoignant de la forte corrélation de quelques variables. Si elles le sont, c'est par l'intermédiaire d'individus assez nombreux à prendre des valeurs fortes (ou faibles) en même temps pour ces variables. Il y a donc, de par la présence de ces variables, des individus assez nombreux à être originaux de la même façon. On peut donc s'attendre, dans l'analyse directe, à la formation d'un axe traduisant l'originalité de ces individus. Réciproquement, s'il existe un paquet assez important d'individus s'étalant globalement dans une même direction de l'espace direct, c'est-à-dire ayant un même type d'originalité, il est clair que les variables à la base de cette originalité vont être liées par l'intermédiaire de ces individus. Leur corrélation sera alors d'autant plus nette que ces individus seront nombreux. Et plus leur corrélation sera grande (en valeur absolue), plus ces variables vont "réclamer" un axe de l'espace dual ! Le lecteur pressé peut passer sur les développements encadrés et se contenter d'examiner les relations de la troisième forme, reliant les coordonnées factorielles des variables à celles des individus. En effet, ce sont essentiellement ces relations qui permettent l'interprétation conjointe des graphiques factoriels directs et duaux.
Maihématiquemenl, les relations de transition proviennent de ce que la matrice d'inertie des variables, 2 2 ' et celle des individus, 2 2 . ont exactement les mêmes valeurs propres, et que les vecteurs propres unitaires des deux matrices associés à la même valeur propre se correspondent deux à deux. Relations de transition de la 1 ™ forme
Les vecteurs propres de 2 2 ' sont caractérisés par ; Multiplions à gauche les deux membres par Z' ; «
Zl.ZU-KZla
=t
Pour rendre v i s i b l e l a distance dj^, i l suffit de transformer les points à l'aide de la matrice M'^, ce q u i revient à o p é r e r des dilatations (si nij > 1) o u des contractions (si m< 1) le l o n g des axes de c o o r d o n n é e s . L a distance " à l'œil n u " entre les p o i n t s t r a n s f o r m é s est alors l a distance entre les points o r i g i n e l s .
]
2 1/3
M
1/9
0
0
4
W
=
0 2
i 66
Plus généralement, si M est une matrice symétrique, elle a des vecteurs propres (unitaires) n.^ deux à deux orthogonaux et si elle est positive, les valeurs propres correspondantes dj sont positives. Diagonaiiser M permet d'écrire (cf. annexe) : J M = ydiww' = WDW. —
. ;=i
On pose alors :
M!^
est une matrice symétrique appelée racine carrée de la
matrice M.- On vérifie bien que l'on a : M = fd^iMYl,
et l'on
peut procéder à la même manipulation que dans le cas où M est diagonale.
D u p o i n t de vue de notre tableau de données, la transf o r m a t i o n que nous venons de faire du nuage des pointsi n d i v i d u s r e v i e n t à t r a n s f o r m e r le tableau K en . O n raisonnera à p a r t i r d ' i c i sur les données ainsi transformées, c'est à dire dans l'espace tout étoile, où les distances e n t r e i n d i v i d u s p e u v e n t être j u g é e s à vue d'œil.
•" ' "
2.3. Inertie le long d'un sous-espace, ek. • I l n'y a aucune m o d i f i c a t i o n à apporter à la démarche de l ' A C P réduite. L ' i n e r t i e d'un nuage le l o n g d'un sousespace est l'inertie du nuage projeté o r t h o g o n a l e m e n t sur ce sous-espace.
*
o
*
/
Les propriétés agréables, c o m m e celle de P y t h a g o r e , restent tout à fait valides. E x p r e s s i o n matricielle de l'inertie le long d ' u n a x e Prenons un axe dirigé par un vecteur u* de norme 1 : hj
'ii^
(=1
i=i
^iXii y )=
)^
1=1
La matrice Q* = ^Piî.*x*' tie des individus.
(liai
i=l
= X ' PX
est la matrice d'iner-
Remarque : la matrice d'inertie s'exprime encore comme : G* = On a : /n^ï'> =
K PXMy2
U'G'U'
Si u* est un vecteur quelconque, i l faut simplement le normer pour appliquer la formule ci-dessus. L'expression de l'inertie le long de < a ' > devient alors : In -
=
— > u u
3. Analyse Factorielle directe L e r a i s o n n e m e n t et les résultats sont e x a c t e m e n t les m ê m e s q u e dans le cas de l ' A C P réduite. O n trouve que le sous-espace factoriel de d i m e n s i o n p est celui q u ' e n g e n d r e n t les p p r e m i e r s v e c t e u r s p r o p r e s u*,U2,—u*p de
G* = K*' E.K*
ordonnés p a r v a l e u r s p r o p r e s Xj,
A,2, -.. Xp décroissantes. L ' i n e r t i e d u nuage le long d e c e sous-espace est l a s o m m e de ces v a l e u r s p r o p r e s . • C o m p o s a n t e s Principales ( c o o r d o n n é e s f a c t o r i e l l e s des i n d i v i d u s ) : On a, comme dans le cas de l'ACP réduite :
Soit, en empilant verticalement ces composantes :
4. Dualité C o m m e dans l ' A C P réduite, o n a des r e l a t i o n s très fortes entre les résultats des analyses directe et duale. E n p r a t i q u e , o n retiendra p r i n c i p a l e m e n t l'existence de r e l a tions entre les positions des i n d i v i d u s sur leurs plans f a c -
l o r i e l s et celles des variables sur les leurs. Ces relations d é p e n d e n t , dans l e u r détail, des p o n d é r a t i o n s c h o i s i e s pour les variables dans l'analyse duale. • L a source des relations de transition est la même qu'en ACP réduite. La matrice que l'on diagonalise ici dans l'analyse directe peut se mettre sous la forme : G ' ^ T T
avec
T = py2X*
Pour obtenir le genre de relations de transition que l'on a vu en ACP réduite, il faut que l'analyse duale consiste à diagonaliser la matrice E* = Z ZI- Ce faisant, on obtient une base orthonormée de vecteurs propres unitaires Vp...v*,..,Vy
asso-
ciés aux mêmes valeurs propres Xj, X2,... X^ que dans l'analyse directe.
Relations de transition (1 forme) On a, exactement comme dans l'ACP réduite, les relations suivantes entre vecteurs propres directs et duaux : •
1 T •
•
1 T- •
• Une analyse factorielle ne se réduit pas à une diagonalisation : i l faut aller jusqu'aux coordonnées factorielles des points. De l'analyse duale on sait qu'elle doit conduire à la diagonalisation de 77". niais il faut en préciser les caractéristiques (quel nuage, quels poids, quelle métrique). Force est alors de constater qu'il y a plusieurs analyses duales envisageables. En effet : p* = ( p i ^ X M / 4 )(P>2 XMVI
)' = pVi X M X p K
La matrice se met donc sous la forme générale d'une matrice d'inertie : r'=Y*'MY'
avec
Y^^XpVl
- Solution A : on voit que ce peut être la matrice d'inertie obtenue en faisant l'analyse factorielle du nuage des lignes de X.\ i.e. des points-variables je' (colonnes de 20. avec les poids mj et la métrique - Solution B : si on ne souhaite pas prendre M pour matrice diagonale des poids des colonnes, mais une autre matrice ^ , alors il faut écrire ; r = X M Y I = Y''^Y'
a - K AA-VIMYI avec
X PYI
Y' = A ' V I M Y I X pVl
Remarque : dans tous les cas, on pourrait aussi ne pas vouloir prendre £ comme métrique, mais ce choix-là, au contraire de celui des poids, est sans conséquence, car en définitive, ce sont les données étoilées Y' {réduites à la métrique usuelle) que l'on analyse. El Y*, qui incorpore la métrique, ne dépend finalement que des poids choisis pour les Par contre, un choix de poids différents donne des analyses différentes.
• O n ne déterminera, à s i m p l e titre d'exemple, q u e les relations de t r a n s i t i o n de l a solution notée A . E l l e présente une correspondance parfaite, au niveau des écritures, entre l'analyse directe et la duale ; analyse tableau métrique poids tableau transformé matrice d'inertie
directe
duale
X
t =K £ M
M. P
x'=xMy2 G'=X''PX*
Y'=)çpy2 Y' =
Y'-MY*
vecteurs propres coordonnées factorielles
ta
=^'Ù
Relations de transition (2® forme) Ces relations expriment grosso modo que les facteurs d'une analyse sont les vecteurs propres de l'autre. On calcule le vecteur des coordonnées factorielles des individus : f a =2^* «a . ..soit : PyEa=ylKÙ
Pa=^Ya)
On remarquera que l'obtention de cette relation de transition n'a pas fait intervenir l'analyse duale retenue. Elle reste donc vraie quelle que soit la solution choisie. Pour la solution A . la complète symétrie du problème nous dispense des calculs. On obtient, concernant les coordonnées factorielles des variables :
Relation de transition (3* forme) C e s r e l a t i o n s e x p r i m e n t grosso modo les c o o r d o n nées f a c t o r i e l l e s d ' u n e a n a l y s e c o m m e s o m m e d e s coordonnées factorielle de l ' a u t r e , pondérées p a r les éléments d u tableau de données. M a i s dans le cas général, les poids des i n d i v i d u s et l a métrique i n t e r v i e n n e n t . O n obtient ainsi pour la solution A : 1
Preuve : Soit:
^
= K'ul_ = XMVIMVIU^
=2^M(-7^^a)
•••••••
F^ = 'Y=KM.^a
symétriquement : ^ „ =
-X^XPF^^
5. Interprétah'on O n utilise les aides à l'interprétation suivantes :
Le C 0 2 et le Q L T : ces indicateurs sont définis et u t i l i ses exactement c o m m e en A C P réduite. La distance d'un point à l'origine : elle mesure l ' o r i g i nalité absolue de ce p o i n t (par rapport au p o i n t de référence, placé dès l e départ à l ' o r i g i n e ) . M a i s , d a n s ce cas général, les di^érents poids affectés a u x points des n u a g e s ne p e u v e n t se v o i r s u r les p h o t o s . O r , ils c o m p t e n t d a n s l a détermination d e s axes. O n utilise d o n c e n plus des deux i n d i c a t e u r s précédents : La contribution absolue d'un point à l'inertie (INR) : c'est l a part de l'inertie d u nuage i m p u t a b l e a u p o i n t , soit par e x e m p l e , pour u n i n d i v i d u : ii2 inertie du point i Pi INRU) = inertie totale du nuage ,,2 k=\
§
I
g
|
Cet i n d i c a t e u r c o m b i n e donc l'originalité et le poids. L o r s q u ' i l est fort, le p o i n t concerné aura tendance à c o n t r i buer f o r t e m e n t au positionnement des axes. La contribution relative d'un point à l'inertie d'un axe (CTR) : c'est la part de l'inertie d u nuage le l o n g de l'axe q u i est i m p u t a b l e au p o i n t , soit par exemple, p o u r u n i n d i vidu : /"T-o
•
Cr/^{() =
inertie du point i sur t axe a
•
——
inertie totale au nuage sur i axe a
ipkfa'W
^«
^
U n p o i n t ayant une forte C T R sur u n axe a f o r t e m e n t c o n t r i b u é à son p o s i t i o n n e m e n t . L a C T R p e r m e t d o n c d'expliquer le positionnement d'un axe, sa f o r m a t i o n . M a i s e x p l i q u e r cette f o r m a t i o n n'est pas interpréter : c'est le C 0 2 q u i permet d'expliciter le sens de l'axe. Pour illustrer cette différence o n peut e m p l o y e r une image : un m o t se trouve sur une page parce qu'on l'y a écrit ; ça n'en donne pas pour autant le sens. O n constate à la définition d u C T R q u ' o n peut a d d i t i o n n e r les C T R de différents points sur u n m ê m e axe. O n obtient ainsi la part d'inertie sur l'axe due à ce groupe de points.
CHAPITRE IV
Analyse Factorielle des Correspondances
L ' A F C est u n e méthode spécifique d ' a n a l y s e d e s t a b l e a u x d e c o n t i n g e n c e . M a i s p a r e x t e n s i o n , o n peut considérer c o m m e te! tout tableau dont l a somme des éléments de chaque ligne et de chaque colonne a un sens précis. N o u s n o u s r é f é r e r o n s , t o u t a u l o n g des d é v e l o p p e ments, à l ' e x e m p l e d'un tableau v e n t i l a n t l a p o p u l a t i o n active o c c u p é e de France métropolitaine par région ( l i g n e ) et secteur d'activité (colonne) en 1 9 8 9 ' . L ' A F C vise à a n a l y s e r simultanément l ' e n s e m b l e des lignes et c e l u i des colonnes en termes de profils^. Dans notre e x e m p l e , deux régions de poids différents a priori dans l ' e m p l o i mais ayant le m ê m e p r o f i l sectoriel devront êtres traduites par un m ê m e point dans l'espace, et ainsi également p o u r deux secteurs ayant le m ê m e p r o f i l d ' i m p l a n t a t i o n géographique. Dans u n tableau de contingence ventilant une p o p u l a t i o n selon d e u x caractères croisés, i l n'y a pas d " ' i n d i v i dus" n i de "variables" au sens propre de ces termes : les l i g n e s et les c o l o n n e s j o u e n t des rôles t o u t à f a i t i d e n tiques. E t a n t de m ê m e n a t u r e , l'analyse f a c t o r i e l l e d o i t l o g i q u e m e n t les traiter de l a m ê m e manière. T o u t ce q u i sera énoncé concernant les lignes sera donc évidemment vrai p o u r les colonnes, et réciproquement.
!- Source : I N S E E R E S U L T A T S 1992 : statistiques et indicateurs Jes régions françaises. 2. On se reportera au premier chapitre pour le calcul des profils el les notations.
1. Traduction géométrique des profils • L e p r o f i l - l i g n e i est :
// •• f] - fj
(dans notre
e x e m p l e , le p r o f i l sectoriel de l ' e m p l o i dans la région /). Ce p r o f i l est associé à la modalité / d u l^"" caractère. O n le traduit immédiatement en p o i n t géométrique dans l'espace à y dimensions. L a modalité / a pour fréquence absolue dans l a p o p u l a t i o n ventilée (dans notre e x e m p l e , l a part de l a p o p u l a t i o n active française employée dans l a région /). O n prendra assez naturellement cette fréquence p o u r poids d u p o i n t D e même p o u r le nuage dual : o n traduit chaque p r o f i l - c o l o n n e j ( p r o f i l régional de l ' e m p l o i d u secteur j) par u n p o i n t ^ de l'espace à / d i m e n s i o n s , pondéré par la fréquence fj (part de la p o p u l a t i o n f r a n çaise e m p l o y é e dans le secteur j). O n o b t i e n t d o n c les nuages suivants : Nuage direct
Nuage dual
//
8 points
-
fi f'j
7A
, poidsj^'
points
- f.'
, poids/y
fi
• Les p o i n t s - p r o f i l s d'un espace quelconque de d i m e n sion K ne se t r o u v e n t pas n'importe o i i . E x a m i n o n s ce q u i se passe en d i m e n s i o n 3 : les éléments d'un p r o f i l étant t o u j o u r s positifs et leur s o m m e faisant t o u j o u r s 1, i l est aisé de v o i r que le p o i n t correspondant se trouve toujours dans la p o r t i o n correspondant a u x coordonnées positives d'un p l a n particulier.
E n d i m e n s i o n K, les p o i n t s - p r o f i l s se t r o u v e n t dans cette même p o r t i o n d'un sous-espace de d i m e n s i o n K - l, appelée simplexe des distributions. • O n a v u que le p r o f i l - l i g n e m a r g i n a l ( p r o f i l sectoriel de l a F r a n c e ) est l a m o y e n n e des p r o f i l s - l i g n e s ( p r o f i l s sectoriels régionaux) pondérés par l a fréquence de ces lignes (poids des régions dans l ' e m p l o i français). I l en v a de même p o u r les colonnes (le p r o f i l régional g l o b a l de l ' e m p l o i est la m o y e n n e des p r o f i l s régionaux dans chaque secteur, pondérés par les p o i d s des secteurs dans l ' e m ploi). L e p o i n t m o y e n d u nuage d i r e c t représente d o n c l e p r o f i l - l i g n e m a r g i n a l ( d i s t r i b u t i o n globale d u caractère Q ) et l e p o i n t m o y e n d u nuage d u a l représente l e p r o f i l colonne m a r g i n a l ( d i s t r i b u t i o n globale d u caractère Cj). Nuage direct
Nuage dual
profil-ligne i profil sectoriel de l'emploi en Bretagne (distribution de Cj sachant la modalité i de agriculture
Corse
profîl'Colonne moyen profil régional de l'emploi français (distribution globale de Cj ) J J I trofil-ligne moyen ' \ sectoriel transports \ , • t de i emploi français (jgC (distribulion globale
[le-de-France profil-ligne colonne J profil régional de l'emploi dans les transports (distribution ) ^ ^1 sachant la modalité j de Cj )
2. Analyse Foctorielle C o m m e n t mesurer l a dispersion de ces nuages de p r o fils ? A u t r e m e n t d i t , quelle métrique c h o i s i r dans chacun des espaces pour o b t e n i r une " b o n n e " analyse ? O n a v u qu'en général, les relations de t r a n s i t i o n de l a 3^ f o r m e d'une analyse factorielle e x p r i m e n t grosso modo la p o s i t i o n d ' u n i n d i v i d u sur u n p l a n factoriel c o m m e somme des positions des variables (dans le plan f a c t o r i e l d u a l c o r r e s p o n d a n t ) pondérées p a r l e s v a l e u r s de ces variables p o u r l ' i n d i v i d u . Ce q u i fait qu'en superposant u n plan f a c t o r i e l d i r e c t avec s o n h o m o l o g u e d u a l , les
75
variables ayant de fortes valeurs p o u r u n i n d i v i d u r " a t t i rent" de leur côté sur les photos. N o u s allons demander à l ' A P C des relations de p o s i t i o n n e m e n t m u t u e l particulièrement simples : Dans notre e x e m p l e , o n cherche, en superposant grap h i q u e d i r e c t et d u a l , à o b t e n i r des p h o t o g r a p h i e s telles que chaque région se t r o u v e à l'emplacement o b t e n u e n prenant l a moyenne des positions des secteurs, pondérées par l a part de ces secteurs dans l ' e m p l o i de la région. E t symétriquement, o n v e u t que chaque secteur o c c u p e l a p o s i t i o n m o y e n n e des régions pondérées par leur p o p u l a t i o n employée dans ce secteur. secteur prédominant en Ile-de-France et en et Provence-Alpes-C d'Azur
Provence-Alpes -Côte d'Azur •~~-«
transports
• Ile-de-France
agriculture
région d'activités principalement agricole et agroaUmentaire
Bretagne industries agro-alimentaires
D e manière générale, donc, (et à u n coefficient p o s i t i f près le l o n g de chaque axe, o n ne peut pas éviter ç a ) , u n point-ligne d e v r a se t r o u v e r à l'endroit obtenu en f a i s a n t l a m o y e n n e des p o s i t i o n s d e s modalités de C y (points colonnes) pondérées p a r l e u r s fréquences r e l a tives d a n s l a ligne. D e même, U n point-colonne d e v r a se t r o u v e r à l ' e n d r o i t obtenu e n faisant l a m o y e n n e des positions des modalités de Cj (points lignes) pondérées p a r l e u r s fréquences relatives d a n s l a colonne. Soit, mathématiquement, p o u r tout axe a : ' Ax(0 = 7 „ . i / i l > a O ) >1
2.1.
;
^aU)
= ya-îfi' 1=1
Fa(0
Qwlkmétrique?
L e s r e l a t i o n s précédentes p e r m e t t e n t entièrement de déterminer l a métrique a v e c l a q u e l l e o n v a a n a l y s e r chaque nuage.
En effet, posons : /il " / l ;
l/l.
-hj
/l
fl\
C=
1=
A = fil -fij -fu -fu
/y
fl.
(Il s'agit respectivement du tableau de fréquences, de la matnce diagonale des poids des lignes, et de celle des poids des colonnes). On veut avoir : J I >=l
,
,
,
'"-1
En empilant ces relations, on obtient les relations matricielles : £«=Ya L - ' A ...qui impliquent à leur tour : fa=Ya
i
iL-'àÇ-'^)
F„
Or, on a vu que la première des relations de transition de la deuxième forme est toujours : P^F^
~V^-â'
^^^^ notre
cas, puisque la matrice diagonale des poids des lignes est cela donne :
= -^j^v*^. Par conséquent :
^
ù=yliL~'/^àÇ-'Ary2){^
On a donc : L-y2AÇ-^AL'y2
=
avec
Xa=\ Ya
De par la symétrie complète du problème, entre lignes et colonnes, on a aussi : Ç - K a ' £ . - U Ç - 3 ^ « • = X„u*
avec
K=-T y a
Quelles matrices d'inertie peut-on voir dans ces matrices, compte tenu de la traduction géométrique adoptée pour les profds. et des poids que l'on s'est fixés ? Considérons le problème d i r e c t . I l faut m e t t r e Ç'V^
A
AÇ~yi
sous l a f o r m e d'une m a t r i c e d ' i n e r t i e
X'-LX*:
On en déduit: X'
=L-^AÇ-'/2
Or, Xest le tableau dont les lignes sont les points-individus, par conséquent ici, le tableau des profils-lignes, soit : X=L-^A
Si l'on désigne par M. la métrique (inconnue) avec laquelle on souhaite analyser les lignes, on a alors : ^XMYi
O n analysera donc le nuage des profils-lignes avec la métrique Q^. De manière tout à fait symétrique, on doit analyser le nuage des profils-colonnes avec la métrique Z.''. On vérifie très facilement que faire les analyses des profils lignes et colonnes avec ces métriques donne bien les relations de positionnement mutuel recherchées.
78 '
Les relations de positionnement m u t u e l désirées nous o b l i g e n t donc à u t i l i s e r une distance particulière entre p r o f i l s . P r e n o n s l ' e x e m p l e des p r o f i l s - l i g n e s . L a d i s t a n c e entre deux d'entre eux sera mesurée par :
X: - X;.
L a distance entre les p r o f i l s sectoriels de deux régions se c a l c u l e r a d o n c en pondérant chaque secteur par l ' i n verse de sa part dans l ' e m p l o i . L a différence e n t r e les parts d ' u n m ê m e secteur d a n s deux régions c o m p t e r a d ' a u t a n t plus d a n s le c a l c u l de l e u r d i s s e m b l a n c e q u e ce secteur est globalement r a r e . Cela peut se j u s t i f i e r par le fait que ce q u i est rare est d'autant plus caractéri.stique.
I l en va de même p o u r les profils-colonnes : l ' i m p l a n t a t i o n dans une région où l ' o n s'implante rarement sera d'autant plus fortement prise en compte dans la dissemblance entre profds régionaux de deux secteurs. On appelle distance du khi2 entre deux distributions è et £ centrée sur une troisième d i s t r i b u t i o n a la quantité : d„ {b,c)=
V
. On reconnaît donc dans notre dis-
tance entre profils-lignes celle du khi2 centrée sur le profd ligne moyen.
Une autre interprétation des métriques trouvées Lorsque la population ventilée dans le tableau est celle d'un échantillon aléatoire (uniquement!), on peut interpréter l'usage des métriques trouvées en liaison avec le test d'indépendance du khi2. En effet, la statistique utilisée pour faire ce test est :
i=\j=\
or :
,=i
où
=(//)>=ifly
et g =
;=i
,=|
(fj)j^i^
Cette quantité représente donc (au facteur n près) l'inertie des profils-lignes autour de leur moyenne, calculée avec la métrique utilisée dans notre analyse. L'écriture de cette quantité faisant jouer aux indices des lignes et des colonnes des rôles tout à fait symétriques, c'est aussi l'inertie des profilscolonnes autour de leur moyenne. Quelle allure auraient les nuages de profils si les deux caractères croisés dans le tableau étaient indépendants ? Tous les profils-lignes seraient identiques au profil-ligne moyen, et le nuage correspondant étant concentré en un seul point, son inertie serait donc nulle. La dépendance des deux caractères étant mesurée avec l'inertie du nuage des lignes (respectivement colonne), chaque profil-ligne (colonne), en s'écartant du profil moyen, contribue à cette dépendance en proportion de son poids et son originalité.
2.2. L'analyse • L ' a n a l y s e d u nuage des p r o f i l s - l i g n e s ' à p a r t i r d l ' o r i g i n e p r o d u i t pour premier axe u n axe très p a r t i c u l i e r , mais sans intérêt : , axe q u ' o n éliminera p o u r l'analyse. La matrice d'inertie est en effet ici :
et on m o n t r e très f a c i l e m e n t que G*g*
= g'
g* =Ç'^^^g
vérifie :
(on voit plus loin que les autres valeurs propres
sont inférieures à 1 ).
De plus, o n m o n t r e que est o r t h o g o n a l au s i m plexe où se t r o u v e n t tous les p r o f i l s . Soit d. une d i s t r i b u t i o n q u e l c o n q u e . M o n t r o n s que ^ - i i est o r t h o g o n a l à g (au sens de notre métrique iT^) •
1
/i
=
(noté e)
1
fj
Donc :
J
J
Cet axe < £ > n'est pas intéressant, p u i s q u ' e n project i o n , tous les p o i n t s d u nuage s'y t r o u v e n t c o n f o n d u s . L ' o r d i n a t e u r ne f o u r n i t d o n c l e s a x e s qu'à p a r t i r d u deuxième. Ces axes 2, 3 , . . . sont évidemment les axes 1, 2 , . . . q u ' o n obtiendrait en centrant l'analyse d u nuage sur le p r o f i l m o y e n g.
I . Rappel : tout ce qui est dit pour les lignes est automatiquement' valable pour les colonnes.
U n e fois éliminé le p r e m i e r axe, L ' A F C revient donc à une analyse de la dispersion des profds-lignes ( p r o f i l s sectoriels des régions) autour de leur moyenne ( p r o f i l sectoriel g l o b a l ) . I d e m pour les profils-colonnes. L'ensemble de ces écarts à l a m o y e n n e faisant la dépendance entre les deux caractères croisés dans le tableau, l ' A F C est une analyse de cette dépendance.
3. Interprétarion d'une AFC • Puisque l ' A F C analyse les écarts des p r o f i l s à l e u r m o y e n n e (le p r o f i l m a r g i n a l c o r r e s p o n d a n t ) , i l est p r i m o r d i a l , a v a n t d'interpréter l ' A F C , de c o m m e n t e r les d e u x p r o H l s m a r g i n a u x , i.e. l a d i s t r i b u t i o n de Cj et celle de Cj. Ce n'est qu'à partir de là q u ' i l n'y a de sens à interpréter les axes, q u i sont les d i r e c t i o n s p r i n c i p a l e s d'écart au p r o f i l m o y e n . L e s p r o f i l s portés sur les plans tactoriels sont situés relativement au profil moyen. Reprenons notre exemple. L'étude de la répartition g l o bale de l ' e m p l o i par secteur d'activité donne une idée des poids q u ' y o n t les différents secteurs. O n constate une prééminence des services (hors commerce, transports et organ i s m e s f i n a n c i e r s ) . U n e étude d u secteur t e r t i a i r e à u n n i v e a u p l u s f i n de n o m e n c l a t u r e s ' i m p o s e r a i t d o n c de manière p r i o r i t a i r e . L e m ê m e e x a m e n r a p i d e de l a répartition g é o g r a phique globale de l ' e m p l o i montre une très forte prééminence de l a région Ile-de-France dans ce d o m a i n e . U n e étude de cette région par département d e v r a i t être envisagée.
3 000
..
i n i r - . | r - . , n , n i n i n , r - i , n p ,
1 i I -Mil
1 ? m
P
M
J I «
ifull
M i l " i i^i " S
s
000^
4 500 • 4 000
.
3 500
.
3 000 2 500
82
iJUiJl i I
ë s s ë=
I llllllu l l ^ ^ I
§ a i
5£
O n p e u t à présent procéder a u dépouillement, p a r l ' A F C , de l ' i n f o r m a t i o n croisée : quels sont les régions r e m a r q u a b l e s par leur p r o f i l sectoriel d ' e m p l o i , et quels sont les secteurs remarquables par l ' i m p l a n t a t i o n géographique de leur e m p l o i ? • L'interprétation des axes se fait exactement c o m m e dans toute A C P généralisée (cf. chapitre 3) : à l'aide des indicateurs C 0 2 et C T R .
Reprenons notre exemple. L e l i s t i n g o r i g i n a l des résultats donne, p o u r régions et secteurs, l a distance de chaque p r o f i l au p r o f i l m o y e n . C'est u n i n d i c a t e u r d'originalité. O n décèle ainsi les p r o f i l s "peu o r i g i n a u x " : - secteurs possédant une i m p l a n t a t i o n régionale s i m i l a i r e à l a répartition moyenne de l ' e m p l o i : commerce de gros et détail, bâtiment, services marchands et non marchands. Rien que de très n o r m a l : ce sont des secteurs q u i épousent n a t u r e l l e m e n t l a répartition des h o m m e s ! A u contraire de secteurs c o m m e la construction navale, i l s ne sont pas contraints géographiquement ; - région possédant u n p r o f i l sectoriel " m o y e n " : p r i n c i p a lement la région Centre.
Combien d'axes retenir ? %
1 1
2 3
4 5
% valeur d'inertie propre d'inertie cumulé (lAI fil .y)'* 1 24,90 .026 .on 11,21 81,94 M .005 4.89 86.83 M .004 3,63 90.46 jm
W
•• •
I l y a u n décrochement net entre l e 3^ et le axes. D e plus, les trois premiers axes permettent d'analyser plus de 80 % de l a dispersion des p r o f i l s par rapport aux p r o f i l s moyens. O n se contentera i c i de ces trois axes. O n se demande d'ores et déjà quels sont les points m a l représentés s u r l e sous-espace f a c t o r i e l des 3 p r e m i e r s axes (mauvais Q L T sur E^). L e l i s t i n g o r i g i n a l des résultats permet de déceler ces p o i n t s . I l s'agit p r i n c i p a l e m e n t de : ^££îmr^ : Bâtiment et génie ( Q L T 3 = 0,32), commerce de détail (0,37), matériaux de construction (0,39), énergie (0,48), .services non marchands (0,48). L'originalité de l ' i m p l a n t a t i o n géographique de ces secteurs ne peut être analysée sur ces 3 axes. Eigims : Haute Normandie ( Q L T 3 = 0,47), Corse (0,52) L'originalité sectorielle de ces d e u x régions ne p e u t être analysée sur nos 3 axes. Pour tous les autres secteurs et régions, l'examen des graphiques sur les 3 premiers axes permettra de conclure.
Interprétation des axes Pour chaque axe, o n a rassemblé dans u n petit tableau de synthèse les éléments les p l u s i m p o r t a n t s , i.e. les régions et les secteurs les p l u s c o n t r i b u t i f s , i l l u s t r a t i f s , et/ou situés de manière extrême à gauche et à d r o i t e sur l'axe. Ces points sont classés de chaque côté par ordre de c o n t r i b u t i o n ( C T R ) décroissante. O n obtient ainsi : AXEI : région Ue-de-France
côté
côté +
-
coorCTR donnée
C02
C02
CTR
coordonnée
région
-034
0,93
0,58 0,74 0.73 0.72
7,8 5,4 4,6 4,5
0,28 0,22 0.28 0.29
Bretagne Pays de la LA)ire Poitou-Charcnies Basse Normandie
55
L ' a x e 1 oppose très c l a i r e m e n t le p r o f i l sectoriel de l'Ile-de-France à ceux des régions ouest de la France. L a c o n t r i b u u o n de l ' I d F est énorme, mais cela est en partie dû à son poids, très i m p o r t a n t dans l ' e m p l o i . C o m m e n t interpréter cette o p p o s i t i o n en termes sectoriels ? côté secteur
coor- CTR donnée
Ser. marchds -0,13 Org. financiers -0,33 Transports -0,22
9.7 7,7 4,8
côté +
C02
C02
CTR
coordonnée
0.79 0,71 0,81
0,93 0,66
62,2 6,3
0,67 0,32
secteur Agriculture Agro-alim.
Sur l'axe I , les points c o n t r i b u t i f s sont également b i e n i l l u s t r a t i f s ( b o n C 0 2 ) . L'interprétation est d o n c aisée. L'axe 1 oppose l'ensemble des services marchands à l ' a g r i c u l t u r e et i n d u s t r i e s a g r o - a l i m e n t a i r e s . L ' e m p l o i dans l'ouest de la France a une part a g r i c o l e plus grande que dans l'ensemble d u pays, au contraire de l'Ile-de-France, où s o n t concentrées b e a u c o u p d'activités de s e r v i c e : banques, assurances, services i n f o r m a t i q u e s . . , et b i e n sûr, transports (cette région est le centre d u réseau S N C F , d u réseau routier, et dans une large mesure d u réseau aérien). Si l ' o n v o u l a i t résumer très grossièrement, o n d i r a i t que l'axe l oppose les p r o f i l s plus tertiaires (hors c o m m e r c e ) aux p r o f i l s plus p r i m a i r e s (hors mines).
• L a seule particularité d'interprétation de l ' A F C vient des relations de p o s i t i o n n e m e n t m u t u e l q u i la fondent. O n superposera donc systématiquement graphiques direct et d u a l h o m o l o g u e s . S u r l e s g r a p h i q u e s superposés, u n p o i n t - l i g n e se t r o u v e , à u n coefficient p o s i t i f près, dans la p o s i t i o n m o y e n n e des modalités colonnes pondérées par leur i m p o r t a n c e relative dans la ligne. Les positions des points-colonnes sont déterminées de même par celles des lignes. Ces coefficients positifs sont des facteurs de dilauition le l o n g des axes.
Montrons que le coefficient y „ = - - = = - est supérieur à 7. En effet, pour tout / : J
W
= Ya • Z/j
* a ( » ^ Ya
Max{^a.U))
Donc
Mar(F„(()) < YaA/ax{cI>„0)). ' j Mais symétriquement, on établit de la même façon : Maj:(OaO)) < y „ j
Donc, on a :
I
Max{F^{i)).
< Ya Max{Fa{i)). M a i s la plus i i grande des coordonnées factorielles des points-lignes est nécessairement positive, puisque l'axe trivial g ayant été supprimé, c'est comme si c'était le point-ligne moyen qui était à Max{Ff^{i))
l'origine. Donc, en simplifiant, i l vient : l < Y a ,
I
• t^Ya85
Les véritables positions moyennes subissent donc des dilatations le long des axes.
L'interprétation des p o s i t i o n n e m e n t s m u t u e l s est très i n t u i t i v e . U n e modalité i de Cj a t t i r e d'autant p l u s une modalité j de l'autre caractère que la part de la modalité i est grande dans la colonne j . M a i s attention !, ce n'est pas parce que j est proche de i que c'est nécessairement / q u i l'a attirée là ; sa p o s i t i o n peut être la résultante d'attract i o n s diverses. L e seul e n d r o i t où l'équivoque n'est pas permise est éventuellement au b o r d d u nuage. O n résume l'ensemble des possibilités sur la figure (totalement a r t i f i cielle !) suivante :
/ ,-•
•.
agro-alimentaire / i
Nord
•
Centres
• • textile i Landes
.
,, ,
•
mécanique
/
/Plateaux m • éd tion
V /// •' 'Bassins
informatique ) sidérurgie
\
•
é l e c t r o n i q u e
I : Les attirances sont sans ambiguïté : le N o r d ne peut se t r o u v e r là que parce q u ' i l est attiré par l ' a g r o - a l i m e n taire : ce secteur est donc d o m i n a n t dans l'économie d u N o r d . D e même i c i , l ' a g r o - a l i m e n t a i r e n'a p u être attiré que p a r le N o r d , c'est d o n c p r i n c i p a l e m e n t dans cette région qu'est concentrée sa p r o d u c t i o n . // : Centre et Landes n'ont p u être attirées là que par le t e x t i l e , les é c o n o m i e s de ces d e u x régions s o n t d o n c dominées par le secteur textile. Par contre, l'attirance d u t e x t i l e peut être le f a i t d o m i n a n t d'une seule des d e u x régions c o m m e elle peut v e n i r des deux de manière équilibrée. O n ne peut donc pas savoir, à la seule vue de ces positions, c o m m e n t la p r o d u c t i o n totale d u secteur t e x t i l e est répartie entre ces deux régions ( i l est par e x e m p l e possible que l'économie d u Centre soit u n i q u e m e n t t e x t i l e , mais i n s i g n i f i a n t e à côté de celle des L a n d e s . . . ) . O n sait c e p e n d a n t de manière c e r t a i n e q u ' a u c u n e des a u t r e s régions n'a de part i m p o r t a n t e dans la V A d u secteur textile. /// : L e p o s i t i o n n e m e n t de la région des Bassins est sans équivoque : son économie est v i s i b l e m e n t dominée de manière équilibrée par les secteurs mécanique et sidér u r g i q u e . M a i s aucun de ces deux secteurs ne se t r o u v a n t à côté des Bassins, o n peut d i r e que l e u r p r o d u c t i o n ne p r o v i e n t pas e x c l u s i v e m e n t de cette région. Par e x e m p l e , le secteur mécanique est c l a i r e m e n t attiré par la région N o r d : sa valeur ajoutée est donc essentiellement partagée entre le N o r d et les Bassins.
/ V : O n ne peut absolument rien dire de ces p o s i t i o n nements : l'édition peut aussi bien a v o i r été attirée là par le L i t t o r a l o u les Plateaux que de manière équilibrée par le N o r d et le D e l t a , o u les Landes et les Bassins, etc. D e même pour les positions des Plateaux et d u L i t t o r a l . I l y a une infinité de c o m b i n a i s o n s envisageables, l'ambiguïté est totale ! L a seule s o l u t i o n , outre remonter au tableau de données, est de regarder les autres plans factoriels : si sur l'un d'eux, ces points se retrouvent au b o r d d u nuage, l ' a m biguïté peut être au m o i n s partiellement levée. V : C h a c u n des deux secteurs i n f o r m a t i q u e et électronique n'a p u être attiré là que par la paire Delta & Vallée, mais o n ne sait pas dans q u e l r a p p o r t . T o u t ce que l ' o n sait, c'est qu'aucune des autres régions n'a de part i m p o r tante dans l a V A de ces secteurs. D e même, dans l'économie de ces deux régions, les secteurs autres que l ' i n f o r m a tique et l'électronique o n t une part presque négligeable, mais dans aucune de ces régions o n ne peut savoir lequel de ces deux secteurs l'emporte à la seule vue de ce grap h i q u e . 11 faut chercher à lever cette ambiguïté p a r t i e l l e sur les autres plans factoriels. N o t e : l ' i n t e r s e c t i o n des axes représente t o u j o u r s le p r o f i l m o y e n ( p r o f i l m a r g i n a l ligne sur les plans directs, colonne sur les plans d u a u x ) . Ce p o i n t p a r t i c u l i e r est l u i aussi "attiré" par les modalités lourdes de son p r o f i l . S i ce point o r i g i n e est assez excentré par rapport au nuage, o n peut donc v o i r sur les graphiques quelles sont ces m o d a l i tés lourdes.
87
sidérurgie mécanique
•
textile •
édition
profil sectoriel global
agriculture
^ g S ^ %
• •
informatique électronique
Par e x e m p l e , ci-dessus, le p r o f i l s e c t o r i e l g l o b a l de l'économie ( f i c t i v e ) considérée est dominé p a r l ' a g r i c u l ture.
D a n s notre e x e m p l e , en superposant les plans (1,2) analyses d i r e c t e et duale, o n o b t i e n t ; Construction navale & i t r o n i u t i q u e
• Corie
Provtnce-Alpei -Côle d'Azur
MiA-Pyrénét!
m m
Aquitaine
Localion, Aiïu rince A O r g a n i i m e s fi UmKUtdoc-Roussillon
,
t'OMwCtUUeMd^
Au*tr^
M
Agnculiuîe. Sylviculture, pèche
•
Cen,re Ctmtrrucluii tl iltaroniqut
él/< (';^u *
• de détail
Emrgit
^
Haau-Nonnandit
Rhânt-Atpft
I
Alsace
•
Bourgogne
. B o i .4
Ameublemem
•
*
Chafftpagne^Ardenne
Picardie
Nord-Pai-de-Calais
_•
•, • ,', 'U'
'•
•
Liïrrame Conjirucuon
mécanique
•
'FnuKhe-Comii •
• Fondene
Textile
A
A Travail
dti
méumi
Habillemeia
Automobile & T i inipont lerreslres
• M i n e r a i t & Métaux
C o n t i n u o n s l'analyse de l ' e x e m p l e . AXE 2 : région Nord-Pas-décalais Franc he-Comlé Rhône-Alpes Lorraine
côté coorCTR donnée
Constr. automobile Fonderie Constr. méca. Textile Prod. Minerais
côté +
C02
C02
CTR
coordonnée
région
-0,25
13.7
0,49
0,40
8,2
0.17
Côte d'Azur
-0,41 -0,17 -0.27
12,3 11.3 10,2
0,39 0.56 0,39
0,51
7,1
0,20
Aquitaine
côté secteur
-
coor- CTR donnée
-
côté +
C02
C02
CTR
coordonnée
0,65
10.7
0,55
-0,53
18,7
0,47
-0,43 -0,41 -0.44 -0.67
15.3 13,7 13,7 13,1
0,61 0,71 0,5 0,41
secteur Cons. navale &aéro.
des
Sur l'axe 2, les points c o n t r i b u t i f s existent, mais sont peu i l l u s t r a t i f s (aucune région n'a u n b o n C 0 2 , et p r a t i quement a u c u n secteur, à l ' e x c e p t i o n de l a c o n s t r u c t i o n mécanique). Dans ce cas, o n sait que l'interprétation des axes n'est guère p o s s i b l e i n d i v i d u e l l e m e n t . O n c h e r c h e alors des i n f o r m a t i o n s complémentaires sur l'axe suivant, et l ' o n constate que p o u r tous ces points, l a s o m m e des C 0 2 sur les axes 2 et 3 est bonne. C'est donc le p l a n (2,3), ojj ces régions et secteurs sont bien représentés, qu'il faut interpréter de manière globale. côté
AXE 3 : région lorraine Nord Côte d'Azur
C02 C02
19,6 16,7 9,7
-0,25 -0.18 -0.13
0.34 0.27 0.21
côté secteur Prod. Minerais
côté +
-
coorCTR donnée
0,4
CTR
coordonnée
28,4
0,42
région Fr-Comté
côté +
-
coor- CTR donnée
C02 C 0 2
CTR
coordonnée
-0,69
0,43 0,32
28,2
0,44
Constr. Auto
0,43
13,1
0,24
Constr. électrique & électronique
30,8
I
'
secteur
89
1
j C o n a r u c l t ( M ^ k c i r n | u e et ihcumaque |
tHaulc
• C o u s m i c U o n mAcaniquc
•
\c & T r a v a i l On totaux. \
I
BOIS
'tmanJif
L Amcutilemenl
Bdi.tf C o m r i ^rcc de gros ,
Rhtme-Atpes
Indus i n
Biiurgngne Champagne-A'denm
•
•
t*""»
Ile-de-Frum,
Autres t e r v K c s nuirciunOj , T t a n ; w n s S e r v i c e s non m»n;liands • Bâtimenl. Génie • Limou • • Auvergne Cimn rrce de aiiaa > M i l n a u i de c o n i l i u c l i o n _
•
Larraliu
Energie
'—1
'Breiagne
Agro-Alimenlairn
Prtyvence-Atpes-Cète Textile & Habillemeni
i
^Aquitain*
d'Azur
LangueiliK-Riiasiillon
' — 1
w
^ g g g § ^ ^ g g
L'examen d u plan (2,3) dévoile u n nuage de forme triangulaire. D u p o i n t de vue des secteurs, les sommets d u triangle sont : construction automobile Se autres transports terrestres, construction navale & aéronautique, production de minerais et métaux. Les secteurs bien représentés sont industriels. L e plan (2,3) est u n plan industriel venant compléter l'opposition primaire-tertiaire de l'axe 1, et perm e t t a n t d ' o p p o s e r - d u p o i n t de v u e de l ' i m p l a n t a t i o n régionale - les v i e i l l e s industries : ( p r o d u c t i o n minière, textile) aux plus récentes (électronique, automobile, aéron a u t i q u e et navale), en m a i n t e n a n t une d i s t i n c t i o n b i e n compréhensible entre ces dernières (la construction navale a nécessairement une i m p l a n t a t i o n régionale spécifique). Notons bien qu'une analyse serait là encore nécessaire à u n niveau plus fin de la nomenclature sectorielle, des a m a l g a m e s étant i c i c l a i r e m e n t faits entre branches plus o u m o i n s pointues (électronique et c o n s t r u c t i o n électrique, aéronautique et construction navale...), D u p o i n t de v u e régional apparaissent c l a i r e m e n t l a spécificité sectorielle d u N o r d et de la L o r r a i n e , régions liées a u x plus anciennes industries et dans lesquelles la reconversion reste plus que problématique ; la spécificité de la Franche-Comté (8,7 % de la p o p u l a t i o n occupée y t r a v a i l l e dans l a c o n s t r u c f i o n a u t o m o b i l e , c o n t r e 1 , 6 % g l o b a l e m e n t en France) ; l'originalité sectorielle e n f i n de la région Midi-Pyrénées, de l ' A q u i t a i n e , de la Bretagne, due à l a part de la c o n s t r u c t i o n navale et aéronaufique (respectivement 2,4 %, 1,5 % et 1,4 % de l ' e m p l o i dans ces régions, contre 0,9 % dans l'ensemble de la France).
90
4. Eléments supplémentaires E n A F C , les éléments supplémentaires ( l i g n e s o u colonnes) d o i v e n t être de même nature que les lignes o u colonnes d u tableau : ce .seront donc toujours des d i s t r i b u tions. L e s relations de positionnement m u t u e l restent parfaitement valables avec ces lignes o u colonnes s u p plémentaires. U n p o i n t - l i g n e supplémentaire se trouvera dans la p o s i t i o n m o y e n n e des modalités j (actives b i e n sûr) pondérées par l e u r fréquence dans cette l i g n e . D e même, u n point-colonne supplémentaire se trouvera dans la p o s i t i o n m o y e n n e des modalités J (actives) pondérées par leur fréquence dans cette colonne.
L
Par e x e m p l e , dans l ' A F C de l ' e m p l o i par région ( l i g n e ) et secteur (colonne), o n pourrait faire f i g u r e r en colonne supplémentaire la répartition par région de l'investissement p u b l i c e n 1990 : i l s'agit b i e n d'une d i s t r i b u t i o n , puisque la somme de ses termes a u n sens ( m o n t a n t g l o b a l de l'investissement p u b l i c ) . O n pourrait même j u x t a p o s e r à notre tableau u n autre tableau croisé ayant u n caractère c o m m u n et le mettre en supplémentaire dans l'analyse : dans cet exemple, o n pourrait mettre en lignes supplémentaires le tableau ventilant la p o p u l a t i o n salariée par secteur et type d ' e m p l o i . investisse-
secteurs
ment
i
i
public
régions
effectifs de la population salariée
montant de l'investissement public
I
9}
types d'emploi
effectifs de la populadon salariée
De tels éléments supplémentaires j u d i c i e u s e m e n t c h o i sis enrichissent l'interprétation des plans factoriels. O n met également en supplémentaire, après les a v o i r analysés, les éléments actifs qu'une première A F C a m o n tré très c o n t r i b u t i f s , a f i n de m i e u x v o i r la structure des autres éléments. Dans notre e x e m p l e , le poids p a r t i c u l i e r de l ' I l e - d e - F r a n c e et son énorme c o n t r i b u t i o n à l'axe 1 i m p o s e n t s a m i s e e n supplémentaire dans u n s e c o n d
r
agro-alimentaire m
interpréter sa position par rapport a u x régions
investissement public o
Centre textile m Landes •
Nord
Plateaux • édition m I mécanique
artisans
interpréter sa position par rapport aux secteurs •
Littoral
ouvners
• cadres commerciaux
• ingénieurs informatique I Bassins sidérurgie
i UJ
92
L
Vallée
Delta
électronique
• ligne active
• colonne
o l i g n e supplémentaire
• colonne
active supplémentaire
temps. Ce n'est pas le cas p o u r les services marchands et n o n marchands, q u i malgré leur poids, n'ont contribué fortement à aucun des trois premiers axes, à cause d'une d i s t r i b u t i o n régionale proche de la moyenne. I l s'avère en fait q u e L ' A F C avec l ' I l e - d e - F r a n c e e n supplémentaire ne m o n t r e rien de très nouveau par rapport à celle-ci. T o u t au p l u s p e r m e t - e l l e de v o i r u n p e u m i e u x les différences d ' i m p l a n t a t i o n régionale entre les diverses industries. O n se propose en outre de projeter en supplémentaire les données de 1982 sur les g r a p h i q u e s précédemment obtenus. I l y a deux façons de le faire. O n peut, d'une part, p r o j e t e r e n supplémentaire l e s p r o f i l s s e c t o r i e l s des régions en 1982 : en comparant la p o s i t i o n de la région en 1982 à celle de 1989 par rapport aux secteurs, o n peut v o i r q u e l l e a été l'évolution de son p r o f i l sectoriel. M a i s o n peut aussi projeter en supplémentaire les p r o f i l s régionaux des différents secteurs en 1982 : comparer la p o s i t i o n d u secteur en 1982 par rapport aux régions à celle de 1989, o n peut v o i r l'évolution de l a répartition géographique de l ' e m p l o i dans chaque secteur. Ces deux façons de faire ne sont pas équivalentes : elles donnent des i n f o r m a t i o n s d i f férentes ! Projetons en supplémentaire les p r o f i l s sectoriels des régions en 1982, et p o u r chaque région, relions par u n segment de droite l a p o s i t i o n de 1982 à c e l l e de 1989 (l'extrémité q u i porte le n o m est celle de 1989) :
Consiruciion navale &, aâronauiique Provence-Alpes •Côte
'idi-PyrA,.^
d'Azur
UxBtkm. Assuwoce _ & O^anismes financière Autres services lte-de-Fra»ce^
Agriculture. Iviculture,
iRBrchonas * ,
Auvergne
•
^•^"•••ai,
Consiruciion électrique et électronique^ Energie
Bourgogne Normandie
Maténaux de construction Industries Agro-Alimeatairet • B O L S & Ameublement 'hampagne-A
\
rdenn*
tNord-Pas-de-Calais
'
vljtrraine
^wsiruction mécanique i * \
*
\ \ « \ Fondene & Travail des métaux X'nfxtHç & Habillement Automobile & Transports tei esircsN \ Minerais & Métaux
I l apparaît que l'ensemble des régions glisse vers les secteurs tertiaires {commerce, services marchands et non marchands, transports, organismes financiers et assurances). L'évolution des p r o f i l s sectoriels d ' e m p l o i est d o n c c l a i r e : o n assiste à une t e r t i a i r i s a t i o n g l o b a l e q u i tend à estomper les spécificités régionales.
5. Applications particulières 5.1. Application à l'atwipe de séries temporelles homogènes L ' u n des deux caractères croisés d a n s le tableau est le t e m p s . Prenons l ' e x e m p l e d ' u n t a b l e a u v e n t i l a n t p a r secteur, au cours d u temps, la valeur ajoutée dégagée par une économie. L a s o m m e des éléments d u tableau correspondant à une même année représente la v a l e u r ajoutée dégagée par l'économie cette année-là. L a s o m m e des élém e n t s c o r r e s p o n d a n t à u n même secteur représente l a valeur ajoutée réalisée par ce secteur sur l'ensemble des années étudiées. Les sommes en ligne et en colonne ayant u n sens, ce tableau peut être traité par l ' A F C . Faire l ' A F C d u tableau r e v i e n t à l'analyser en termes de p r o f i l s . E n p a r t i c u l i e r , cela permet de décrire l'évolution a u c o u r s
d u temps d u p r o f i l présenté p a r le second caractère (dans notre exemple, le profil sectoriel de l'économie). I l est o p p o r t u n , sur les graphiques factoriels, de relier entre elles les dates successives. Une date est, sur les graphiques directs et duaux superposés, attirée par les m o d a lités de l'autre caractère q u i prédominent dans son p r o f i l . D e même, le p r o f i l t e m p o r e l d'une modalité d u second caractère est appréhendable à l'aide des mêmes relations, puisque cette modalité est attirée par les dates prédominantes dans ce p r o f i l . 1995 agro-alimentaire
informatique
1970 /
1990
1975
textile
électronique •.écanigue__ 1985
8
94
1980 sidérurgie
Sur l'exemple présenté (issu de données fictives !), o n v o i t ainsi l'évolution sectorielle de l'économie, q u i est i n i tialement à prédominance agricole et textile, et s'industrialise progressivement en donnant une part de plus en p l u s i m p o r t a n t e aux secteurs de pointe. I l est à noter que le secteur agro-alimentaire, i n i t i a l e m e n t i m p o r t a n t , v o i t sa part décroître, être m i n i m a l e au m i l i e u des années 8 0 , p u i s croître à nouveau p o u r redevenir u n secteur prédominant en 1995 (étant probablement passé de l ' a g r i c u l t u r e t r a d i t i o n n e l l e à l'industrie agro-alimentaire de pointe). • O n notera i c i la f o r m e parabolique présentée par la suite des années. E n f a i t , l o r s q u e le t a b l e a u de c o n t i n g e n c e c r o i s e des caractères d o n t l ' u n au m o i n s a des modalités possédant u n ordre naturel (c'est en p a r t i c u l i e r le cas p o u r les données c h r o n o l o g i q u e s ) , cet effet apparaît souvent de manière mécanique. 11 suffit que l ' o n puisse réordonner les modalités de l'autre caractère de sorte à faire apparaître dans le tableau une diagonale " l o u r d e " . C'est l'effet Guttman. L'axe 1 oppose alors les modalités basses d u caractère ordonné à ses modalités hautes ( c i d e s s u s l e s années a n c i e n n e s a u x années r é c e n t e s ) et l ' a x e 2 o p p o s e les modalités extrêmes a u x modalités
moyennes de ce même caractère. O n essaie alors, p o u r interpréter véritablement ces axes, de t r o u v e r le p o u r q u o i de ces o p p o s i t i o n s à l'aide des modalités de l'autre caractère. Dans l'exemple ci-dessus, le premier axe est grosso modo l'axe de la m o d e r n i s a t i o n , et le second oppose les années oià l'agro-alimentaire est relativement plus i m p o r tante aux années d'industrie lourde. L ' e f f e t G u t t m a n étant mécanique, i l n'est pas forcément intéressant en soi. Par contre, quelques phénomènes périphériques méritent une attention particulière. C'est le cas des modalités de l'autre caractère q u i se situent dans la f o u r c h e p a r a b o l i q u e ( l e secteur a g r o - a l i m e n t a i r e dans l'exemple). Ce sont en effet des modalités associées aux modalités extrêmes d u caractère ordonné. O r celles-ci sont en quelque sorte "naturellement antagonistes", i l c o n v i e n t donc d'analyser précisément ce q u i les réunit. D'autre part, si l a parabole présente des " r u p t u r e s " v i s i b l e s , i l y a u n p h é n o m è n e l o c a l q u i p e r t u r b e l ' e f f e t G u t t m a n , et i l i m p o r t e d'essayer de comprendre ce que c'est.
1995 I
agro-alimentaire
informatique
1970 1985
/textile 1975
8 I
électronique 1990 mécanique sidérurgie
< 95
A i n s i , dans le cas illustré ci-dessus, qu'est-ce q u i f a i t que 1985 r o m p t avec l'évolution d'ensemble : une crise des i n d u s t r i e s l o u r d e s , des c o n d i t i o n s e x c e p t i o n n e l l e s pour l'agriculture ?
5.2. Application aux tableaux logiques • O n considère u n tableau logique d i s j o n c t i f c o m p l e t à / lignes et J colonnes. Chaque ligne caractérise u n i n d i v i d u . E n c o l o n n e , o n a AT caractères, !e A:ième caractère ayant Jf. modalités. Dans u n tel tableau, chaque i n d i v i d u possède exactement une modalité de chaque caractère.
état matrimonial
caractères célibataire
sondés
fumeur
marié divorcé ou ou concubin séparé
occasionnel
veuf
régulier
ii°136 n°137
• I l est intéressant d'appliquer l ' A F C à u n tel tableau ( q u i est très l o i n d'être u n tableau croisé) p o u r la s i m p l e raison que les relations de p o s i t i o n n e m e n t m u t u e l , f o n d a t r i c e s de l a m é t h o d e , y d e v i e n n e n t r e m a r q u a b l e m e n t simples : u n i n d i v i d u se trouve (aux dilatations près le l o n g des a x e s ) à l ' e m p l a c e m e n t m o y e n des modalités q u ' i l possède, et u n e modalité, à l ' e m p l a c e m e n t m o y e n des i n d i v i d u s q u i l a possèdent. E n effet le p r o f i l - l i g n e / est :
S UJ
i
individu (
!/K
1/K
1
l/K
L a p o s i t i o n factorielle de l ' i n d i v i d u / est donc obtenue en équipondérant les positions des K modalités q u ' i l possède : 1 J/i
X
possède
J
17 ^
^aO)
96
veuf
4-
fçmme divorcée fumeuse occasionnelle
Femme
/
Célibataire fumeur >: régulier
fumeur x occasionnel
-f-
Homme
X -)-
Divorcé
non-fumeur Marié h o m m e marié non-fumeur 1
O n f a i t e x a c t e m e n t l e m ê m e r a i s o n n e m e n t p o u r le p o s i t i o n n e m e n t des points-modalités. S i l ' o n note Ij le nombre d ' i n d i v i d u s q u i possèdent une modalité y, o n a :
•yA-Qf m
possède ]
j
:
-
Femme
Homme
•
a •
femmes hommes
• II y a m i e u x encore : des relations donnant u n p o s i tionnement m u t u e l des modalités entre elles, facile à interpréter. E n effet, si l'on appelle co-occurence de deux m o d a lités j et f le nombre / . d'individus q u i les possèdent toutes les deux, chaque modalité j occupe (à des dilatations près le l o n g des axes) l a position moyenne de l'ensemble des modalités, pondérées p a r leur co-occurence avec j . U n e modalité est donc d'autant plus attirée p a r une a u t r e q u ' e l l e s s o n t fréquemment associées d a n s l a population. Ci-dessus, par exemple, les fumeurs réguliers se rencontrent plus fréquemment chez les h o m m e s et chez les célibataires. En effet, considérons la relation :
Dans le cas d'un tableau logique, on montre facilement qu'elle donne :
j- = \ = \feCi
k=l
On a donc bien la relation barycentrique annoncée.
r
Remarque : O n peut f a b r i q u e r le tableau s y m é t r i q u e des co-occurences :
0 C, J
0 0
9 8 Q LU
I PS
0 0
0
O r , les relations de p o s i t i o n n e m e n t m u t u e l obtenues p l u s haut sont exactement d u m ê m e t y p e que celles q u i ont f o n d é l ' A F C , mais entre les m o d a l i t é s et e l l e s - m ê m e s , et en u t i l i s a n t les c o - o c c u r e n c e s . E n f a i s a n t l ' A F C d u tableau des co-occurrences ( q u i est en quelque sorte un s u p e r - t a b l e a u c r o i s é de t o u s les c a r a c t è r e s a v e c e u x m ê m e s ) , o n obtiendra donc la m ê m e image d u nuage des m o d a l i t é s que dans l ' A F C d u tableau l o g i q u e . C'est ce q u i v a u t à l ' A F C sur t a b l e a u l o g i q u e l e n o m à'Analyse Factorielle des Correspondances Multiples (ACM). Bien q u ' a p p l i c a t i o n p a r t i c u l i è r e de l ' A F C , l ' A C M g é n é r a l i s e l'analyse des correspondances'.
Points moyens L e p o i n t m o y e n des p o i n t s - m o d a l i t é s d ' u n m ê m e c a r a c t è r e r e p r é s e n t e le p r o f i l m o y e n de ces m o d a l i t é s . O r , en a d d i t i o n n a n t les colonnes d u sous-tableau correspondant à ce c a r a c t è r e dans le tableau l o g i q u e , i l a p p a r a î t que
1. Note : dans ces relations de positionnement, toute modalité j (en tant que point-ligne du tableau des co-occurences) entre dans celles qui contribuent à son propre positionnement (en tant que point-colonne). Les sous-tableaux de la diagonale, qui croisent chaque caractère avec luimême, ont une influence parasite, dont on peut montrer de manière théorique qu'elle n'a en fait aucune importance.
ce p r o f i l m a r g i n a l est u n i f o r m e . Or, D e m ê m e , o n constate que le p r o f i l m a r g i n a l de l'ensemble d u tableau est aussi le p r o f i l u n i f o r m e . Par c o n s é q u e n t , les p o i n t s - m o d a l i t é s d'un m ê m e c a r a c t è r e o n t p o u r p o i n t m o y e n le p o i n t m o y e n g é n é r a l , s i t u é à l'intersection des axes sur les graphiques. Plus une m o d a l i t é a une f r é q u e n c e forte, plus elle "attire" vers e l l e ce p o i n t m o y e n , d o n c en est p r o c h e . D a n s l'exemple d o n n é plus haut, o n v o i t ainsi q u ' i l y a presque deux fois p l u s d'hommes que de femmes dans le tableau, p u i s q u e le p o i n t - m o d a l i t é homme est d e u x f o i s p l u s proche que le p o i n t - m o d a l i t é femme de leur m o y e n n e .
7ra/temenf de var/ab/es contmes T o u t e v a r i a b l e q u a n t i t a t i v e p e u t ê t r e d é c o u p é e en tranches, ce q u i en fait une variable q u a l i t a t i v e à m o d a l i tés o r d o n n é e s (tout le monde c o n n a î t les tranches d ' â g e et les tranches de revenu u t i l i s é e s pour le calcul de l ' i m p ô t ) . U n g r a n d a v a n t a g e de l ' A C M est d o n c de p e r m e t t r e le t r a i t e m e n t s i m u l t a n é de toutes les v a r i a b l e s p o s s i b l e s , contrairement à l ' A C P r é d u i t e . I l y a u n autre avantage à d é c o u p e r en tranches les variables quantitatives p o u r les traiter par l ' A C M : celle-ci p e r m e t le d é p i s t a g e de tous les t y p e s de l i a i s o n entre variables, alors que l ' A C P n'en d é p i s t e que la c o r r é l a t i o n . C e c i est t r è s i m p o r t a n t dans l ' é l a b o r a t i o n de m o d è l e s .
1
âge 4 j
loisir 3 ogeS
^^f-^
, ""^
99
Non-fumeur
loisir 4
âge 1
j
Femme
âge 2
|
\ loisir 2
" Homme
,...y âge
/
3/ loisir l
C o n s i d é r o n s l ' e x e m p l e ci-dessus. O n a o b t e n u d'une centaine d ' e n q u ê t e s : leur sexe, leur â g e , s'ils fument, et c o m b i e n de temps par j o u r ils consacrent aux loisirs. L e
c a l c u l a m o n t r é que l a c o r r é l a t i o n entre â g e et temps de l o i s i r est n u l l e . Pour faire une A C M , o n d é c o u p e ensuite l ' â g e en 5 tranches de 12 ans allant de 10 à 7 0 ans, et le temps de l o i s i r en 4 tranches d'une heure trente. O n v o i t b i e n sur le p r e m i e r p l a n factoriel que le temps de l o i s i r est é t r o i t e m e n t lié à l ' â g e , mais de f a ç o n non l i n é a i r e : ce sont les t r a n c h e s d ' â g e e x t r ê m e s q u i c o n s a c r e n t le p l u s de temps au l o i s i r (effet des populations scolaire et r e t r a i t é e ) et les tranches d ' â g e s i n t e r m é d i a i r e s le m o i n s ( v i e active). O n c o n s t a t e e n o u t r e s u r ce g r a p h i q u e q u e d a n s l ' é c h a n t i l l o n , les fumeurs se r e n c o n t r e n t nettement p l u s souvent dans cette tranche d ' â g e 3, la m o i n s d o t é e en l o i sirs. E n termes d ' â g e , les femmes de l ' é c h a n t i l l o n sont p l u t ô t p l u s â g é e s que les h o m m e s , et en termes de l o i s i r s , plus h o m o g è n e s .
g
Modalités rares
^ ^ 8 g ^ g b
E n p r a t i q u e , i l faut t o u j o u r s l o r s q u ' o n d é c o u p e une v a r i a b l e q u a n t i t a t i v e en tranches v e i l l e r à ne pas c r é e r dans le tableau de m o d a l i t é s trop rares. E n effet, o n a v u que dans le c a l c u l des distances entre profils, une m o d a l i t é est p o n d é r é e par l'inverse de sa f r é q u e n c e . Les m o d a l i t é s rares y ont donc une grande importance. C e l a peut correspondre à deux situations :
i ^ %
- Cette m o d a l i t é est "naturellement" exceptionnelle (ex : â g e > 100 ans), et les i n d i v i d u s q u i la p o s s è d e n t (et les m o d a l i t é s auxquelles elle est " f r é q u e m m e n t " a s s o c i é e ) en
]00
sont d'autant plus o r i g i n a u x et à ce titre, remarquables. I l n'y a alors rien à redire. - Celte m o d a l i t é est a r t i f i c i e l l e m e n t exceptionnelle parce q u ' e l l e n'a pas de p e r t i n e n c e p r o p r e (ex : â g e c o m p r i s entre 4 0 ans et 4 0 ans + 2 j o u r s ) . Cela arrive souvent lorsq u ' u n d é c o u p a g e de v a r i a b l e c o n t i n u e est m a l f a i t . L ' o r i g i n a l i t é des i n d i v i d u s q u i la p o s s è d e n t est totalement a r t i f i c i e l l e . I l faut alors fondre cette m o d a l i t é avec une autre. Cor)tributions d'vn caractère à /'/nerf/e I l est naturel de d é f i n i r la c o n t r i b u t i o n d'un c a r a c t è r e à u n axe c o m m e la part d'inertie de l'ensemble de ses modal i t é s le l o n g de l'axe. M a t h é m a t i q u e m e n t , c'est donc s i m p l e m e n t la somme des C T R de ses m o d a l i t é s . O n m o n t r e q u e l a c o n t r i b u t i o n d ' u n c a r a c t è r e à l ' i n e r t i e totale d u
nuage des m o d a l i t é s (la somme des I N R de ses m o d a l i t é s ) est p r o p o r t i o n n e l l e au n o m b r e de ses m o d a l i t é s m o i n s une. D a n s le d é c o u p a g e d'une v a r i a b l e c o n t i n u e en tranches, i l faut garder cela en tête : t r o p de m o d a l i t é s rendent le c a r a c t è r e a r t i f i c i e l l e m e n t c o n t r i b u t i f . I l " r é c l a m e " alors des axes pour parler de l u i , i n d é p e n d a m m e n t de son intérêt i n t r i n s è q u e .
Eléments supplémenfaires C o m m e l ' A C M est une A F C , i l est hors de question d'y a d j o i n d r e des é l é m e n t s s u p p l é m e n t a i r e s q u i n'aient pas sens de d i s t r i b u t i o n . Outre des c a r a c t è r e s qualitatifs analogues à ceux d u tableau, o n peut donc é v e n t u e l l e m e n t faire f i g u r e r en c o l o n n e s u p p l é m e n t a i r e t o u t e v a r i a b l e quantitative sommable sur les i n d i v i d u s . En l i g n e s u p p l é m e n t a i r e , l'on peut adjoindre le croisement de n'importe quel c a r a c t è r e avec les c a r a c t è r e s actifs du tableau. I m a g i n o n s par exemple que l'on ait fait, dans une r é g i o n ( O u e s t ) , une e n q u ê t e sur é c h a n t i l l o n , dans l a q u e l l e o n s'est i n t é r e s s é à c e r t a i n s c a r a c t è r e s . Par a i l l e u r s , une e n q u ê t e s i m i l a i r e m e n é e dans t r o i s autres r é g i o n s ( N o r d , Sud, Est) a permis de ventiler leur p o p u l a t i o n selon les m o d a l i t é s de ces c a r a c t è r e s . 11 peut ê t r e i n t é ressant, à cause des r e l a t i o n s de p o s i t i o n n e m e n t , d'adj o i n d r e ces d o n n é e s ( i l s'agit de tableaux c r o i s é s ) en lignes supplémentaires. caractères
sexe
F H sondés
étal matrimonial célibatairv
1 n°l37
marié divorcé ou ou concubin .^paré
1 1
1
fumeur
veuf non
occasionnel
régulier
1 1
Nord Sud
Esi
L e p o i n t Nord, par exemple, se positionnera à l'emplacement m o y e n des m o d a l i t é s homme, femme, célibataire, etc p o n d é r é e s par la f r é q u e n c e de ces c a t é g o r i e s dans le Nord.
E n f i n , à supposer qu'une de ces m o d a l i t é s - l i g n e s supp l é m e n t a i r e s offre u n i n t é r ê t p a r t i c u l i e r à nos yeux, i l peut ê t r e i n t é r e s s a n t de f a i r e f i g u r e r sur les g r a p h i q u e s les points moyens partiels correspondant aux d i f f é r e n t e s dist r i b u t i o n s des c a r a c t è r e s - c o l o n n e s dans cette m o d a l i t é . Pour le N o r d , o n r e p r é s e n t e r a par exemple le p o i n t m o y e n Nord-matrimonial, m o y e n n e des p o i n t s célibataire, marié, veuf et divorcé p o n d é r é s par l'effectif de ces c a t é gories dans le N o r d . De m ê m e p o u r les p o i n t s m o y e n s partiels Nord-sexe, Nord-fumeur, etc. L e p o i n t - l i g n e Nord sera l a m o y e n n e é q u i l i b r é e de ces d i f f é r e n t s p o i n t s m o y e n s partiels.
Un exemple : AŒ de 22 appareils f^olographiques Ces appareils' sont d é c r i t s à l'aide de c a r a c t é r i s t i q u e s techniques qualitatives (principalement p r é s e n c e ou absence de telle f o n c t i o n ) et quelques variables quantitatives t r a n s f o r m é e s en qualitatives ordinales ( d u r é e de la pause B , vitesse d'obturation, cadence de m o t o r i s a t i o n . . . ) . Les deux premiers axes captent e n v i r o n 50 % de la dispersion, et sont bien s é p a r é s des axes suivants dans l'histogramme. O n se contentera i c i d u premier plan f a c t o r i e l . Pour des raisons de l i s i b i l i t é , o n n'a pas p u superposer le p l a n direct et le plan dual, ce que le lecteur p o u r r a faire mentalement. Les m o d a l i t é s successives des c a r a c t è r e s o r d i n a u x ont é t é r e l i é e s dans leur ordre naturel. Le p a r a l l é l i s m e g l o b a l des c o u r b e s a i n s i obtenues à p a r t i r des c a r a c t é r i s t i q u e s techniques ordinales est tout à fait frappant. L a d i r e c t i o n c o m m u n e de ces courbes m a t é r i a l i s e en quelque sorte une é c h e l l e de sophistication, allant des p o s s i b i l i t é s les m o i n s é t e n d u e s aux plus vastes. L ' i n t e r p r é t a t i o n d u premier axe est i m m é d i a t e au v u d u p l a n d u a l : sur la p a r t i e gauche se t r o u v e n t toutes les m o d a l i t é s traduisant la non-possession des diverses fonctions, et à droite toutes les m o d a l i t é s en traduisant la possession.
I. Les noms des marques et modèles ont été changés respectivement en couleur et numéro.
2 Eipo-Mti. spol • mode rfvsiutet BoSr.ieniibilitétlS-non ! Etpo-Mes.nim pondérée ; Soil-seniihilité >50-nim Expo-vitesse obîur Visr-fiuilt! "^2000 \
\ imégréAF
Bnti-pnif Je chp BoU-surimpressh^ Boil-bracieniag-non yiast/M) Flash viittse 60-90 BnlI-DX non déhrayable Vis r-correc.dioptr-t Expo-décalage
prgm-,
Espo - Mod.prgm F,tpo-Mod.priorité viterte o -.'\^-r^ V:trfondions R.;, nx MP-AFumiinu onticipaleur po M^i^vémo V/.r lilununé MiiJ ^j^iie diaphragme OUI Jiiipiriqu BdftipX déhrayable Mod.décalafte
pgm
Ejipo-zone netteté Mes. spol
! manutl _ x-ReJUx
Eipo-Mo4.
YBBU-LCD-,
Fipo - Hod-prum-rion Visr fonctions mémariiolion-Hon
W Visr ht-potnl Flash iiusse g. t\ Mn-anaivsetvil "•ofdrcH^^rackeninï Expo-vitesse obiur Eifiv-Mnd.logiciel * de 4000 £^p„-Me,. * de 14 zones
+Ï00
M P = mise au point (focus) ; A F = m.p. automatique (autofocus) Expo-Mes = mesure d'exposition ; Expo-Mod = mode d'exposition Boît = boîtier : Visr = viseur
L e l i s t i n g o r i g i n a l tienne les c o n t r i b u t i o n s c u m u l é e s des c a r a c t è r e s aux axes. I I en appert que c'est le c a r a c t è r e prix q u i c o n t r i b u e globalement le plus à l'axe 2. L a courbe de p r i x , r e l a t i v e m e n t a l l o n g é e le l o n g de cet axe, ne suit pas exactement la courbe de s o p h i s t i c a t i o n , ce q u i est a priori surprenant. L e plan (1,2) nous m o n t r e que la l i a i s o n entre p r i x et é v e n t a i l des p o s s i b i l i t é s techniques n'est pas exactement l i n é a i r e . L ' e x a m e n d u plan direct montre que la m o d a l i t é de p r i x m a x i m a l e est a t t i r é e un peu à l ' é c a r t des a p p a r e i l s a u t o f o c u s s o p h i s t i q u é s par le g r o u p e des appareils reflex à mise au p o i n t manuelle o u non-reflex. U n b r e f r e t o u r aux d o n n é e s d ' o r i g i n e m o n t r e que c'est e x c l u s i v e m e n t le fait des appareils non-reflex B L A C K et surtout G O L D . L e p r e m i e r , b i e n que n o n - r e f l e x , est un autofocus m o t o r i s é disposant d'une optique i r r é p r o c h a b l e et alliant les r é g l a g e s manuels aux automatismes de pointe c a r a c t é r i s t i q u e s , en dehors de l u i , des autofocus sophistiq u é s . Q u a n t à G O L D . appareil non-reflex t r è s t r a d i t i o n n e l à mise au p o i n t manuelle, c'est u n appareil d é p o u r v u de
103
sophistication é l e c t r o n i q u e mais devenu " l é g e n d a i r e " p o u r sa c o m p a c i t é , ses q u a l i t é s m é c a n i q u e s et optiques, et p r i s é des collectionneurs.
ANNEXE
Quelques Rappels d'algèbre linéaire
« I l «12 - « i y M a t r i c e de d i m e n s i o n s (I.J):
à = «/! « / 2 - « / y
vecteur de d i m e n s i o n K : a =
(matrice de d i m e n s i o n s
(K,
D). " L e p r o d u i t m a t r i c i e l d'une matrice (4 de d i m e n s i o n s (I. J) avec u n e m a t r i c e B. de d i m e n s i o n s (J, K) est une matrice de d i m e n s i o n s (/, K) n o t é e AB et d é f m i e c o m m e : colonne k
B(,d\m:(J,K))
ligne i aj...al...af j=]
A(dim:(7,y))
C = AB ( d i m : ( / . / f ) )
Note : si g/ d é s i g n e la j i è m e c o l o n n e de A (c'est donc une m a t r i c e (I, J)) et tj la j i è m e l i g n e de B (c'est donc une m a t r i c e (I, K)), le p r o d u i t m a t r i c i e l AB. s'écrit aussi :
• T r a n s p o s i t i o n : la t r a n s p o s é e d'une m a t r i c e A sera n o t é e 4.' : «11 - « l y «11 «21 • • • « / !
A =
«21 • • • « 2 7
A' = ^ly « 2 y - « / y
«/i
• «/y
U n e m a t r i c e é g a l e à sa t r a n s p o s é e est dite symétrique. L a t r a n s p o s i t i o n se c o m b i n e a i n s i a v e c l e p r o d u i t matriciel :
I CD
I Q S
)06
• L e p r o d u i t scalaire e u c l i d i e n usuel de deux vecteurs fl et È de d i m e n s i o n s (K.l) est : K
= d b=
^aicbj^ k=l
D e u x v e c t e u r s de p r o d u i t scalaire n u l sont orthogonaux. L a n o r m e e u c l i d i e n n e u s u e l l e d ' u n v e c t e u r a (K. l) est :
l«lP = Ë ( « A ) ^
=«'«
*=i
U n vecteur de n o r m e 1 est d i t unitaire, o u norme. U n e n s e m b l e de vecteurs normes d e u x à d e u x o r t h o g o n a u x forme un s y s t è m e orthonormé. • Dans un espace de d i m e n s i o n K, u n s y s t è m e o r t h o n o r m é de K vecteurs {aj,--,Q.K) est une base o r t h o n o r m é e de l'espace. T o u t vecteur s. de l'espace peut se d é c o m p o s e r de m a n i è r e u n i q u e sur cette base : ^ = q « i + 0 (si cette expression est n u l l e uniquement pour g = 0, la matrice est dite définie positive). T o u t e m a t r i c e de l a f o r m e T T e s t positive, puisque : dTTa
= \\Tar>
0
107
O n remarque, concernant la d i a g o n a l i s a t i o n d'une matrice s y m é t r i q u e M . que :
Hk MM-k ~ ^k^ik ^k ~ D o n c , si M est p o s i t i v e , ses valeurs propres sont toutes positives o u nulles. " Dérivation matricielle : S i dans u n p r o d u i t m a t r i c i e l , l'une des matrices i m p l i q u é e s est c o n s i d é r é e c o m m e variable, on peut d i f f é r e n t i e r ce p r o d u i t c o m m e o n le fait usuellement de n'importe quel p r o d u i t scalaire. Par exemple, en c o n s i d é r a n t le vecteur n c o m m e variable, o n d i f f é r e n t i e ainsi le p r o d u i t u'A UJ-
•S
L e p r e m i e r é l é m e n t de cette s o m m e é t a n t u n s i m p l e scalaire, i l est é g a l à son t r a n s p o s é : dit/ )Au
= id{U )A «)' = «' A d(u).
-
O n obtient alors : diuAu)
= ^ ' A ' r f ( « ) + UAd(u)
=
UiA+A)d(y.)
O r , l a d é r i v é e D d'une expression E par rapport à u n vecteur n est d é f m i e par : diE) 108
=
Dd{u)
L a d é r i v é e de n'A « par rapport à n est donc ii'(A' Si A est s y m é t r i q u e , cela donne luA-
+ A)-
0
QUIZ
1)
Dans un tableau retraçant l'évolution des prix de diverses denrées sur 20 années, que doit-on considérer comme individus et que doit-on considérer comme variables ? (p. 7)
2)
La corrélation permet-elle de dépister n'importe quelle liaison entre deux variables ? (p. 16)
3)
Comment les variables quantitatives sont-elles traduites géométriquement en ACP pour qu'apparaissent leurs corrélations ? Quelle est la particularité du nuage obtenu ? (p. 21)
4)
Comment mesure-t-on l'étalement du nuage des variables le long d'un sous-espace en ACP ? (p. 22)
5)
Exprimer l'inertie d'un nuage le long d'un plan à l'aide de son inertie le long de deux axes orthogonaux de ce plan. (p. 23)
6)
Quel rapport y a-t-il entre les vecteurs propres de 2 Z ' et le plan d'étalement principal des variables en ACP ? (p. 25)
7)
Interprétation, en termes de corrélation, les positions relatives des variables sur un plan factoriel en ACP ? (p. 29)
8)
Quel rapport y a-t-il entre les vecteurs propres de Z'Z ^' P""^' mier plan factoriel du nuage des individus en ACP ? (p. 32)
y)
Quels rapports y a-t-il entre les vecteurs et valeurs propres des matrices Z'Z et Z Z ' ? (p. 35)
10) Comment représenter, sur un plan factoriel direct, l'axe correspondant à une variable du tableau ? (p. 37) 11) C o m m e n t s ' i n t e r p r è t e la c o o r d o n n é e factorielle d'une variable sur un axe. en termes de corrélation ? {p. 38) 12)
Comment s'interprète l'analyse directe, par rapport aux pointsindividus du tableau de données initial, en ACP ? (p. 39)
13)
Une variable supplémentaire a-t-elle une influence sur le positionnement des axes ? En permet-elle l'interprétation ? (P- 42) 14) Usage des individus en supplémentaire en ACP (p. 44) 15 ) Démarche générale d'interprétation d'une ACP (p. 45)
16)
Sens et usage des indicateurs C 0 2 et Q L T ? Pourquoi peuton en ACP se passer de leur valeur pour les variables et non pour les individus ? (p. 49) 17) Quel sens particulier possèdent les facteurs d'une ACP sur d o n n é e s temporelles ? Reconstituez le profil d'évolution temporelle d'une variable à l'aide de ses coordonnées factorieiles et du profil temporel des facteurs ? (p. 57) 18) Comment justifier de manière générale l'emploi, pour mesurer des distances entre individus, d'une métrique différente de la m é t r i q u e usuelle (correspondant à la distance "visible") ? Comment transformer les points-individus pour rendre visible cette nouvelle distance ? (p. 64) 19) Sens et usage des indicateurs CTR et INR ? L'information apportée par la CTR et le C 0 2 d'un point sur un axe est-elle redondante ? Comment l'utilise-t-on pour "expliquer" l'axe ? (p. 72) 20)
21)
22) 23)
24)
Quelle est la traduction g é o m é t r i q u e des lignes et des colonnes d'un tableau croisé en AFC ? Où se trouvent les nuages direct et dual dans leurs espaces respectifs ? (p. 74) Quelles sont les relations de positionnement mutuel entre les représentations graphiques des lignes et des colonnes, qui fondent la méthode d'AFC ? (p. 76) Interpréter la métrique utilisée en AFC (p. 79) Pourquoi superpose-t-on s y s t é m a t i q u e m e n t graphiques directs et duaux homologues en AFC ? Que signifie (ou ne signifie pas) la proximité entre une modalité-ligne et une modalité-colonne sur un de ces graphiques factoriels ? (p. 86) De quelle nature doivent impérativement être les lignes et colonnes s u p p l é m e n t a i r e s en A F C ? A quoi sert d'en adjoindre à une AFC ? Quelle propriété leur donne un rôle précis dans l'interprétation des graphiques ? (p. 91)
25)
Qu'est-ce que l'effet Guttman ? Sur quoi doit-on porter son attention en présence d'un tel effet ? (p. 95) 26) Quelles sont les relations de positionnement mutuel entre individus et modalités lorsque l'on fait l'AFC d'un tableau logique (disjonctif complet) ? (p. 96) 27) Quelles sont les relations de positionnement mutuel entre les modalités elles-mêmes dans cette AFC ? Pourquoi l'AFC sur tableau logique est-elle aussi appelée A C M (Analyse des Correspondances Multiples) ? (p. 97) 28)
Avantages de l ' A C M par rapport à l'ACP pour l'analyse d'un tableau de variables initialement quantitatives. Quelles précautions doit-on prendre dans le retraitement du tableau initial en vue de l ' A C M ? (p, 100)
29)
Quelles lignes/colonnes supplémentaires est-il intéressant d'adjoindre à une A C M ? (p. 101)
BIBUOGRAPHIE
Bastin C . et collaborateurs (1980), Pratique des Données , Dunod.
de
l'Analyse
B e n z e c r i J-P. et c o l l a b o r a t e u r s ( 1 9 7 9 ) , LAnalyse Données,
des
1 tomes, D u n o d .
Bertier P., B o u r o c h e J . M . ( 1 9 7 5 ) , L'analyse multidimensionnelles,
des
données
PUF.
B o u r o c h e J - M . , S a p o r t a G . ( 1 9 8 0 ) , L'Analyse Données
C a i l l e z F., Pages J-P. ( 1 9 7 6 ) , Introduction données.
des
- c o l l . Que sais-je ?, P U F . à l'analyse
des
Smash.
C h e v a l i e r A . , M o r i c e V . , Nakache J-P. (1981), Exercices commentés de mathématiques pour l'analyse statistique des données, Dunod. E s c o f i e r B . , Pages J. ( 1 9 9 0 ) , Analyses Factorielles Simples et Multiples, Dunod. Lebart L . , M o r i n e a u A . , Fenelon J-P. ( 1 9 7 9 ) , Traitement des données statistiques, Dunod. Lebart L . , M o r i n e a u A . , Tabard N . ( 1 9 7 7 ) , Techniques
de
la description statistique. Méthodes et logiciels pour l'analyse des grands tableaux, D u n o d . Lefebvre J. (1976), Introduction aux analyses statistiques multidimensionnelles,
Masson.
Sap>orta G . ( 1 9 7 8 ) , Théories Technip.
et méthodes
Saporta G . (1989), Probabilités. Statistique,
Analyse
de la
statistique,
des Données
et
Technip.
V o i l e M . ( 1 9 7 8 ) . Analyse
des Données,
Economica.
Logiciels : S T A T L A B ( S L P Statistiques, I v r y ) ; S P A D N ( C I S I A , St M a n d é ) ; L A D D A D ( A D D A D , Paris).
TABLE DES MATIÈRES
INTRODUCTION CHAPfTRE I
3
: DenncM «t stotistiquei éléitmitairM
S
1. Quelques tableaux de données 2. La statistique descriptive élémentaire - ses insuffisances... 3. Principe de l'analyse factorielle CHAPITRE II
5 7 17
: Anolyw ên Composantes Principolei (ACP) réduita...
^ I
CHAPITRE m : Généralisation théorique de l'ACP
63
§ ^ 5
I. 2. 3. 4. 5.
63 64 68 70
, 112
Promenades dans l'espace - nuages Analyse factorielle du nuage des variables Analyse du nuage des individus - dualité Eléments supplémentaires Interprétation d'une ACP Suite et fin de l'ACP des régions françaises ACP de données temporelles hétérogènes
19
1. 2. 3. 4. 5. 6. 7.
Espaces direct et dual. nuages Expression générale de l'inertie Analyse Factorielle directe Dualité Interprétation
20 22 31 41 44 54 57
CHAPfTRE IV : Anatyse Factorielle des Correspondances
73
1. 2. 3. 4. 5.
74 75 81 90 93
Traduction géométrique des profils Analyse factorielle Interprétation d'une A F C Eléments supplémentaires Applications particulières
MJNEXE
: Quelques rappels d'algèbre linéaire
105
QUIZ
109
BIBUOGRAPHIE
111
Réalisé on P A O . par STDI - Zone artisanals - F 5 3 1 1 0 LASSAY-L£S-CHATE*UX Imprimé »n Fnnce. - JOUVE, 18, rue Saint-Denis, 75(»1 PARIS M> 2 2 B 9 3 3 H . - Dépât légal : Août 1995
Dans de nombreux domaines (santé, sciences humaines et naturelles, économie, marketing), on accumule depuis des années une quantité massive de données chiffrées. Il y a peu encore, ces données étant stockées sur de gros systèmes au fonctionnement ésotérique, leur traitement statistique échappait à la majorité des étudiants et praticiens. Les performances remarquables des micro-ordinateurs et logiciels actuels permettent désormais à tout utilisateur de statistiques de manipuler lui-même facilement de gros fichiers de données. Le caractère massif de ces données décrivant a priori des réalités complexes et cependant souvent perçu comme un obstacle par l'utilisateur, qui ne sait par quoi commencer le traitement statistique. L'analyse factorielle, ayant pour finalité l'exploration globale des données, est alors d'un secours inestimable. C'est un outil « radiographique » : à partir d'un grand tableau de données, elle produit automatiquement des images qui en dévoilent l'essentiel des structures internes. Cette technique, essentiellement géométrique, est à la portée pratique de toute personne sachant ce qu'est une photographie. Elle est expliquée ici de manière pratique à l'aide d'un grand nombre de schémas. Les développements mathématiques, facultatifs, sont néanmoins fournis en encadré, ce qui rend possible la lecture à un niveau plus théorique. *
Slatisticien-économiste diplômé de l'ENSAE, Xavier BRY a e n s e i g n é durant quatre a n n é e s la statistique m a t h é m a t i q u e , l'analyse des d o n n é e s et les processus stochastiques dans une grande école scientifique é t r a n g è r e , l'ENSEA d'Abidjan. I l continue actuellement l'enseignement de la statistique m a t h é matique à temps partiel à l'ENSAE.
Illlllllllllllllll 782717 828597
ISBN 2-7178-2859-1
49F