ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
Grenoble Sciences Grenoble Sciences poursuit un triple objectif : • realiser des ouvrages correspondant a un projet clairement defini, sans contrainte de mode ou de programme, • garantir les qualites scientifique et pedagogique des ouvrages retenus, • proposer des ouvrages a un prix accessible au public le plus large possible. Chaque projet est selectionne au niveau de Grenoble Sciences avec le concours de referees anonymes. Puis les auteurs travaillent pendant une annee (en moyenne) avec les membres d'un comite de lecture interactif, dont les noms apparaissent au debut de 1'ouvrage. Celui-ci est ensuite publie chez 1'editeur le plus adapte. (Contact: Tel.: (33)4 76 51 46 95 - E-mail:
[email protected]) Deux collections existent chez EDP Sciences : • la Collection Grenoble Sciences, connue pour son originalite de projets et sa qualite • Grenoble Sciences - Rencontres Scientificjues, collection presentant des themes de recherche d'actualite, traites par des scientifiques de premier plan issus de disciplines differentes. Directeur scientifique de Grenoble Sciences Jean BORNAREL, Professeur a 1'Universite Joseph Fourier, Grenoble 1
Comite de lecture pour "Analyse statistique des donnees experimentales" J.P. BERTRANDIAS, Professeur a 1'Universite Joseph Fourier, Grenoble 1 C. FURGET, Maitre de conferences a 1'Universite Joseph Fourier, Grenoble 1 B. HOUCHMANDZADEH, Directeur de recherches au CNRS, Grenoble M. LESIEUR, Professeur a 1'Institut National Polytechnique, Grenoble C. MlSBAH, Directeur de recherches au CNRS, Grenoble J.L. PORTESEIL, Professeur a 1'Universite Joseph Fourier, Grenoble 1 P. VlLLEMAIN, Maitre de conferences a I'Universite Joseph Fourier, Grenoble 1
Grenoble Sciences rec.oit le soutien du Ministere de 1'Education nationals, du Ministere de la Recherche, de la Region Rhone-Alpes, du Conseil general de 1'Isere et de la Ville de Grenoble.
ISBN 2-86883-456-6 ISBN 2-86883-590-2 © EDP Sciences, 2002
ANALYSE STATISTIQUE DES DONNEES EXPERIMENT ALES
Konstantin PROTASSOV
SCIENCES
17, avenue du Hoggar Pare d'Activite de Courtabceuf, BP 112 91944 Les Ulis Cedex A, France
Ouvrages Grenoble Sciences edites par EDP Sciences Collection Grenoble Sciences Chimie. Le minimum vital a savoir (/. Le Coarer) - Electrochimie des solides (C. Deportes et al.) - Thermodynamique chimique CM. Oturan & M. Robert) - Chimie organometallique CD. Astruc) Introduction a la mecanique statistique (E. Belorizky & W. Gorecki) - Mecanique statistique. Exercices et problemes corriges (E. Belorizky & W. Gorecki) - La symetrie en mathematiques, physique et chimie (J. Sivardiere) - La cavitation. Mecanismes physiques et aspects industriels (J.P. Franc et al.) - La turbulence (M. Lesieur) Magnetisme : I Fondements, II Materiaux et applications (sous la direction d'E. du Tremolet de Lacheisserie) - Du Soleil a la Terre. Aeronomie et meteorologie de 1'espace (J. Lilensten & P.L. Blelly) - Sous les feux du Soleil. Vers une meteorologie de 1'espace (J. Lilensten & J. Bornarel) - Mecanique. De la formulation lagrangienne au chaos hamiltonien (C. Gignoux & B. Silvestre-Brac) - La mecanique quantique. Problemes resolus, Tomes 1 et 2 (V.M. Galitsky, B.M. Karnakov & V.I. Kogan) Exercices corriges d'analyse, Tomes 1 et 2 CD. Alibert) - Introduction aux varietes differentielles (J. Lafontaine) - Analyse numerique et equations differentielles (J.P. Demailly) - Mathematiques pour les sciences de la vie, de la nature et de la sante (F. & J.P. Bertrandias) - Approximation hilbertienne. Splines, ondelettes, fractales (M. Atteia & J. Caches) - Mathematiques pour 1'etudiant scientifique, Tomes 1 et 2 (Ph.]. Haug) Bacteries et environnement. Adaptations physiologiques (/. Pelmont) - Enzymes. Catalyseurs du monde vivant (J. Pelmont) - La plongee sous-marine a 1'air. L'adaptation de 1'organisme et ses limites (Ph. Foster) - L'ergomotricite. Le corps, le travail et la sante (M. Gendrier) - Endocrinologie et communications cellulaires (S. Idelman & J. Verdetti) L'Asie, source de sciences et de techniques (M. Soutif) - La biologie, des origines a nos jours (P. Vignais) - Naissance de la physique. De la Sicile a la Chine CM. Soutif) Minimum Competence in Scientific English (J. Upjohn, S. Blattes & V. Jans) Listening Comprehension for Scientific English (J. Upjohn) - Speaking Skills in Scientific English (J. Upjohn, M.H. Fries & D. Amadis)
Grenoble Sciences - Rencontres Scientifiques Radiopharmaceutiques. Chimie des radiotraceurs et applications biologiques (sous la direction de M. Comet & M. Vidal) - Turbulence et determinisme (sous la direction de M. Lesieur) - Methodes et techniques de la chimie organique (sous la direction de D. Astruc)
PREFACE Le but de ce petit ouvrage est de repondre aux questions les plus frequentes que se pose un experimentateur et de permettre a un etudiant d'analyser, d'une fagon autonome, ses resultats et leurs precisions. C'est cet esprit assez "utilitaire" qui a determine le style de presentation. Dans 1'analyse des donnees experiment ales, il existe plusieurs niveaux qui sont conditionnes par notre desir d'obtenir une information plus ou moins riche, mais aussi par le temps que nous sommes prets a y consacrer. Frequemment, nous voulons juste obtenir la valeur d'une grandeur physique sans nous preoccuper de verifier les hypotheses a la base de notre demarche. Parfois, cependant, les resultats obtenus nous paraissent etre en contradiction avec nos estimations preliminaries et ainsi nous sommes obliges d'effectuer un travail plus scrupuleux. Ce livre est ecrit pour permettre au lecteur de choisir le niveau d'analyse necessaire. La partie "indispensable" du texte correspondant au premier niveau est composee avec une police de caracteres normale. Les questions qui correspondent a une analyse plus approfondie et qui necessitent un appareil mathematique plus complexe sont composees avec une police de caracteres speciale. Cette partie du livre peut etre sautee lors d'une premiere lecture. A la base de toute analyse des donnees experimentales, on trouve une approche statistique qui exige des considerations mathematiques rigoureuses et parfois complexes. Neanmoins, Pexperimentateur n'a pas toujours besoin de connaitre les details et les subtilites mathematiques. De plus, rares sont les situations ou les conditions experimentales correspondent exactement aux conditions d'application de tel ou tel theoreme. C'est pourquoi 1'accent est mis non pas sur la demonstration des resultats mathematiques mais sur leur signification et leur interpretation physique. Parfois, pour alleger la presentation, la rigueur mathematique est volontairement sacrifice et remplacee par une argumentation "physiquement evidente". Le plan du livre est simple. Dans 1'introduction, on presente les causes d'erreurs et on definit le langage utilise. Le premier chapitre rappelle les principaux resultats de statistique essentiels a 1'analyse des donnees. Le deuxieme chapitre presente des notions plus complexes de statistique, il est consacre aux fonctions de varables aleatoires. Dans le troisieme chapitre qui est la partie la plus importante, on s'efforce de repondre aux questions les plus frequentes qui se posent dans 1'analyse des donnees experimentales. Le dernier chapitre est consacre aux methodes les plus frequemment utilisees pour 1'ajustement de parametres.
6
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Bien que ce livre soit particulierernent adapte au travail d'etudiants de second cycle, il pourra etre egalement utile aux jeunes chercheurs, aux ingenieurs et a tons ceux qui sont amenes a realiser des mesures. J'airnerais remercier mes collegues enseignants et chercheurs qui ont lu le manuscrit et qui m'ont fait des propositions pour arneliorer son contenu. Je voudrais exprimer ma profonde gratitude a M. Elie Belorizky qui m'a encourage a ecrire ce livre et avec qui j'ai eu des discussions tres fructueuses.
POURQUOI LES INCERTITUDES EXISTENT-ELLES ? Le but de la majorite des experiences en physique consiste a comprendre un phenomene et a le modeliser correctement. Nous effectuons des mesures et nous avons sou vent a nous poser la question : "quelle est la valeur de telle ou telle grandeur ?", parfois sans nous demander prealablement si cette formulation est correcte et si nous serons capables de trouver une reponse. La necessite de cette interrogation prealable devient evidente des qu'on rnesure la meme grandeur plusieurs fois. L'experimentateur qui le fait est frequemment confronte a une situation assez interessante : s'il utilise des appareils suffisamment precis, il s'apergoit que des mesures repetees de la meme grandeur donnent parfois des resultats qui sont un peu differents de celui de la premiere mesure. Ce phenomene est general, que les mesures soient simples ou sophist iquees. Meme les mesures repetees de la longueur d'une tige metallique peuvent donner des valeurs differentes. La repetition de 1'experience montre que, d'une part les resultats sont toujours un peu differents et d'autre part cette difference n'est en general pas tres grande. Dans la plupart des cas, on reste proche d'une certaine valeur moyenne, mais de temps en temps on trouve des valeurs qui sont differentes de celle-ci. Plus les resultats sont eloignes de cette moyenne, plus ils sont rares. Pourquoi cette dispersion existe-t-elle ? D'ou vient cette variation ? Une raison de cet effet est evidente : les conditions de deroulement d'une experience varient toujours legerement, ce qui modifie la grandeur mesurable. Par exemple, quand on determine plusieurs fois la longueur d'une tige metallique, c'est la temperature ambiante qui peut varier et ainsi faire varier la longueur. Cette variation des conditions exterieures (et la variation correspondante de la valeur physique) peut etre plus ou moins importante, mais elle est inevitable et, dans les conditions reelles d'une experience physique, on ne peut pas s'en affranchir. Nous sommes "condamnes" a effectuer des mesures de grandeurs qui ne sont presque jamais constantes. C'est pourquoi meme la question de savoir quelle est la valeur d'un parametre peut ne pas etre absolument correcte. II faut poser cette question de maniere pertinente et trouver des moyens adequats pour decrire les grandeurs physiques. II faut trouver une definition qui puisse exprimer cette particularity physique. Cette definition doit refleter le fait que la valeur physique varie toujours, mais que ses variations se regroupent autour d'une valeur moyenne. La solution est de caracteriser une grandeur physique non pas par une valeur, mais plutot par la probabilite de trouver dans une experience telle ou telle valeur. Pour cela on introduit une fonction appelee distribution de probabilite de detection d'une valeur physique, ou plus simplement la distribution d'une valeur physique, qui montre
8
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
quelles sont les valeurs les plus frequentes ou les plus rares. II faut souligner une fois encore que, dans cette approche, il ne s'agit pas tellement de la valeur concrete d'une grandeur physique, mais surtout de la probabilite de trouver differentes valeurs. On verra par la suite que cette fonction — la distribution d'une valeur physique — est heureusement suffisamment simple (en tout cas, dans la majorite des experiences). Elle a deux caracteristiques. La premiere est sa valeur moyenne qui est aussi la valeur la plus probable. La deuxieme caracteristique de cette fonction de distribution indique, grosso modo, la region autour de cette moyenne dans laquelle se regroupe la majorite des resultats des mesures. Elle caracterise la largeur de cette distribution et est appelee 1'incertitude. Comme nous pourrons le voir par la suite, cette largeur a une interpretation rigoureuse en terme de probabilites. Pour des raisons de simplicite nous appellerons cette incertitude "1'incertitude naturelle" ou "initiale" de la grandeur physique elle-meme. Ce n'est pas tout a fait vrai, puisque cette erreur ou incertitude est souvent due aux conditions experimentales. Bien que cette definition ne soit pas parfaitement rigoureuse, elle est tres utile pour la comprehension. Le fait que, dans la plupart des experiences, le resultat puisse etre caracterise par seulement deux valeurs, permet de revenir sur la question avec laquelle nous avons commence notre discussion : "Peut-on se demander quelle est la valeur d'un parametre physique ?" II se trouve que dans le cas ou deux parametres sont necessaires et suffisants pour caracteriser une grandeur physique, on peut reconcilier notre envie de poser cette question et la rigueur de 1'interpretation d'un resultat en termes de probabilites. La solution existe : on appellera valeur physique la valeur moyenne de la distribution et incertitude ou erreur de la valeur physique la largeur de la distribution 1 . C'est une convention admise de dire que "la grandeur physique a une valeur donnee avec une incertitude donnee". Cela signifie que 1'on presente la valeur moyenne et la largeur d'une distribution et que cette reponse a une interpretation precise en termes de probabilites. Le but des mesures physiques est la determination de cette fonction de distribution ou, au moins, de ses deux parametres majeurs : la moyenne et la largeur. Pour determiner une distribution on doit repeter plusieurs fois une mesure pour connaitre la frequence d'apparition des valeurs. Pour obtenir 1'ensemble des valeurs possibles ainsi que leurs probabilites d'apparition, on devrait en fait effectuer un nombre infini de mesures. C'est tres long, trop cher, et personne n'en a besoin. On se limite done a un nombre fmi de mesures. Bien sur, cela introduit une erreur Pour des raisons historiques, les deux termes "incertitude" et "erreur" sont utilises en physique pour decrire la largeur d'une distribution. Depuis quelques annees, les organismes scientifiques internationaux essaient d'introduire des normes pour utiliser correctement ces deux termes (de la meme fagon que 1'on a introduit le systeme international d'unites). Aujourd'hui, on appelle une erreur la difference entre le resultat d'une mesure et la vraie valeur de la grandeur mesuree. Tandis que 1'incertitude de mesure est un parametre, associe au resultat d'une mesure, qui caracterise la dispersion des valeurs qui peuvent raisonnablement etre attributes a la grandeur mesuree. Dans ce livre, nous tacherons de suivre ces normes, mais parfois nous utiliserons des expressions plus habituelles pour un physicien. Par exernple, une formule tres connue dans 1'analyse des donnees experimenatles porte le nom de "la formule de propagation des erreurs". Nous utiliserons toujours ce nom bien connu bien que, selon les normes actuelles, nous aurions du 1'appeller "la formule de propagation des incertitudes". Le lecteur interesse trouvera dans la bibliographie toutes les references sur les normes actuelles.
POURQUOI LES INCERTITUDES EXISTENT-ELLES ?
9
(incertitude) supplementaire. Cette incertitude, due a 1'impossibilite de mesurer avec une precision absolue la distribution initiale (naturelle), s'appelle 1'erreur statistique ou rerreur accidentelle. II est assez facile, du moms en theorie, de diminuer cette erreur : il suffit d'augmenter le nombre de mesures. En principe, on peut la rendre negligeable devant I'incertitude initiale de la grandeur physique. Cependant un autre probleme plus delicat apparait. II est lie au fait que, dans chaque experience physique existe un appareil, plus ou moins complique, entre 1'experimentateur et 1'objet mesurable. Get appareil apporte inevitablement des modifications de la distribution initiale : il la deforme. Dans le cas le plus simple, ces changements peuvent etre de deux types : I'appareil peut "decaler" la valeur moyenne et il peut elargir la distribution. Le decalage de la valeur moyenne est un exemple de ce qu'on appelle les "erreurs systematiques". Ce nom exprime que ces erreurs apparaissent dans chaque mesure. L'appareil donne systematiquement une valeur qui est differente (plus grande ou plus petite) de la valeur "reelle". Mesurer avec un appareil dont le zero est mal regie est 1'exemple le plus frequent de ce genre d'erreurs. Malheureusement, il est tres difficile de combattre ce type d'erreurs : il est a la fois difficile de les deceler et de les corriger. Pour cela, il n'y a pas de methodes generates et il faut etudier chaque cas. Par contre, il est plus facile de maitriser 1'elargissement de la distribution introduit par I'appareil. On verra que cette incertitude ayant la meme origine que les incertitudes initiales (naturelles) s'ajoute "simplement" a celles-ci. Dans un grand nombre d'experiences, 1'elargissement du a I'appareil permet de simplifier les mesures : supposons que nous commissions I'incertitude (la largeur) introduite par un appareil et que celle-ci soit nettement plus grande que I'incertitude initiale. II est possible de negliger I'incertitude naturelle par rapport a I'incertitude d'appareillage. II suffit done de faire une seule mesure et de prendre I'incertitude de I'appareil comme incertitude de la mesure. Evidemment, dans ce genre d'experience, il faut etre sur que I'incertitude de I'appareil domine I'incertitude naturelle, mais on peut toujours le verifier en faisant des mesures repetitives. L'appareil peu precis ne permettra pas d'obtenir les variations dues a la largeur initiale. II faut remarquer que la separation entre incertitude d'appareillage et incertitude naturelle reste assez conventionnelle : on peut toujours dire que la variation des conditions d'experience fait partie de I'incertitude d'appareillage. Dans ce livre, on ne parle pas des mesures en mecanique quantique, ou existe une incertitude de la valeur physique a cause de la relation d'incertitude de Heisenberg. En mecanique quantique, 1'interference appareil—objet devient plus compliquee et interessante. Cependant nos conclusions generales ne sont pas modifiees puisque, en mecanique quantique, la notion de probabilite est non seulement utile et naturelle, mais elle est indispensable. Nous avons compris que pour determiner experimentalement une valeur physique il est necessaire (mais pas toujours suffisant) de trouver la moyenne (la valeur) et la largeur (I'incertitude). Sans la determination de I'incertitude, 1'experience n'est pas complete : on ne peut la comparer ni avec une theorie ni avec une autre experience. Nous avons egalement vu que cette incertitude contient trois contributions possibles. La premiere est I'incertitude naturelle liee aux changements des conditions d'experience ou a la nature-meme des grandeurs (en statistique ou en mecanique quantique). La
10
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
deuxieme est 1'incertitude statistique due a 1'impossibilite de mesurer precisement la distribution initiale. La troisieme est 1'incertitude d'appareillage due a 1'irnperfection des outils de travail de Pexperimentateur. Un experimentateur se pose toujours deux questions. Premierement, comment peuton mesurer une grandeur physique, c'est-a-dire les caracteristiques de sa distribution : la moyenne et la largeur ? Deuxiemement, comment et jusqu'ou faut-il diminuer cette incertitude (largeur) de 1'experience ? C'est pourquoi 1'experimentateur doit comprendre les relations entre les trois composantes de 1'incertitude et trouver comment les minimiser : on peut diminuer 1'incertitude naturelle en changeant les conditions de 1'experience, 1'incertitude statistique en augmentant le nombre de mesures, 1'incertitude d'appareillage en utilisant des appareils plus precis. Cependant, on ne peut pas reduire les incertitudes infiniment. II existe une limite raisonnable de 1'incertitude. L'evaluation de cette limite est non seulement une question de temps et d'argent depenses, mais c'est aussi une question de physique. II ne faut pas oublier que, quelle que soit la grandeur a mesurer, nous ne pourrons jamais tenir compte de tous les facteurs physiques qui peuvent influencer sa valeur. De plus, tous nos raisonnements et discussions sont effectues dans le cadre d'un modele ou, plus generalement, de notre vision du monde. Ce cadre peut ne pas etre exact. C'est pourquoi notre probleme est de choisir des methodes experimentales et des methodes d'estimation des incertitudes en adequation avec la precision souhaitable et possible. Diverses situations existent selon la precision desiree. Dans la premiere nous voulons seulement obtenir 1'ordre de grandeur de la valeur mesuree ; dans ce cas, 1'incertitude doit aussi etre evaluee grossierement. Dans la seconde nous desirous obtenir une precision de 1'ordre de un a dix pour cent ; il faut alors faire attention en determinant les incertitudes, car les methodes choisies doivent evoluer en fonction de la precision requise. Plus on cherche de precision, plus la methode doit etre elaboree, mais le prix a payer est la lenteur des calculs et leur volume. Dans la troisieme nous cherchons a obtenir une precision du meme ordre de grandeur que celle de Petalon correspondant au parametre physique mesure ; le probleme de 1'incertitude peut alors etre plus important que celui de la valeur. Dans cet ouvrage, nous considerons seulement les methodes d'estimation d'erreurs dans la seconde situation. La plupart des paragraphes apporte reponse a une question concrete : comment calcule-t-on les incertitudes pour une experience avec un petit nombre de mesures ? comment peut-on ajuster les parametres d'une courbe ? comment compare-t-on une experience et une theorie ? quel est le nombre de chiffres significatifs ? etc. Le lecteur qui connait les bases de la statistique peut omettre sans probleme les premiers paragraphes et chercher la reponse a sa question. Dans le cas contraire, 1'ouvrage lui apporte 1'information necessaire sur les parties de la statistique utiles au traitement des incertitudes.
CHAPITRE 1 RAPPELS SUR LA THEORIE DES PROBABILITES Dans ce chapitre, nous avons reuni des notions de base de la theorie des probabilites : la definition d'une probability et ses proprietes elementaires ainsi que 1'introduction des distributions les plus frequemment utilisees dans 1'analyse des donnees experimentales. Parmi ces distributions, celle de Gauss joue un role tres particulier, c'est pourquoi la partie esssentielle de ce chapitre (paragraphes 1.2 et 1.4) lui est consacree car elle et est indispensable a la comprehension du reste du livre.
1.1
PROBABILITES
Pour pouvoir decrire une grandeur physique en termes de probability il faut rappeler les definitions et les proprietes les plus simples. Pour les mesures les plus frequentes faites en laboratoire nous n'avons pas besoin de toute la panoplie des methodes de la statistique mathematique et notre experience du monde est largement sumsante pour comprendre et assimiler les proprietes fondamentales des probabilites. Logiquement, chaque lecteur de ce livre a deja eu 1'occasion dans sa vie de jouer, au moins aux cartes et ainsi la notion de probabilite ne lui est pas etrangere.
1.1.1
DEFINITIONS ET PROPRIETES
Supposons que 1'on observe un evenement E repete Ne fois (on dit que 1'on prend un echantillon de Ne evenements). Dans n cas, cet evenement est caracterise par une marque distinctive a (appelee aussi caractere). Si les resultats des evenements dans cette suite sont independants, alors la probabilite P(a) que la marque a se manifeste est definie comme
On voit toute de suite que la probabilite varie de 0 a 1
12
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
et que la somme sur tous les caracteres (de meme nature) possibles {/}, i = a,b,c,... est egale a 1
Un exemple d'evenement est le tirage d'une carte du jeu. La marque distinctive serait la categoric de couleur (pique, coeur, carreau ou trefle). Pour un jeu de 52 cartes, la probabilite d'une categoric de couleur est egale a 1/4. On notera par A 1'ensemble d'evenements ou ce signe s'est manifested Introduisons deux operations tres simples avec les probabilites. Definissons par A + B 1'ensemble des evenements dans lesquels la marque a ou la marque 6, ou les deux, sont presentes (ici a et 6 peuvent etre de nature differente). Par exemple, a est une categoric de couleur, 6 est la valeur de la carte (le roi, la dame, etc.) De plus, defmissons par AB 1'ensemble des evenements dans lesquels ces deux signes se manifestent simultanement. Alors,
C'est-a-dire, pour trouver la probabilite qu'un evenement possede au moins une des marques nous devons, d'abord, ajouter deux probabilites P(A) et P(B). Cependant, certains evenements peuvent avoir les deux signes en meme temps et on les a comptes deux fois. C'est pourquoi il faut soustraire la probabilite P(AB}. Prenons un jeu de 52 cartes avec 13 cartes dans chaque couleur (le roi, la dame, le valet et 10 cartes numerotees de 1 a 10). Pour une carte tiree au hasard, la probabilite d'etre soit le roi soit une carte de cceur (a etant le roi, 6 une carte de coeur) est egale a P("soit le roi, soit une carte de coeur") = P("roi") + 7>("cceur") - P("roi de cceur")
Introduisons une notion un peu plus compliquee. Supposons que 1'evenement A puisse se produire de na manieres differentes, 1'evenement B de n^ manieres et 1'evenement AB de nab manieres. Si le nombre total de realisations possibles est egal a N (ne pas confondre avec le nombre Ne d'evenements introduit au debut du paragraphe), alors
On peut reecrire P(AB') comme
Parmi les na cas ou 1'evenement A se produit, il y a une proportion 1'evenement B s'est egalement produit. On peut introduire la probabilite correspondante qui s'appelle la probabilite conditionnelle P(A/B) de 1'evenement B, c'est-a-dire la probabilite d'observer B sous reserve que A se soit produit.
I - RAPPELS SUR LA THEORIE DBS PROBABILITES
13
Ainsi, la derniere formule prend la forme
Si 1'evenement A n'a pas d'influence sur la probabilite d'evenement B, on dit alors que les deux evenements sont independents et
Dans ces conditions, on obtient pour la probabilite d'apparition de deux evenements a la fois P(AB) une relation tres importante :
ce qui montre que les probabilites des evenements independants se multiplient. On utilisera cette propriete plusieurs fois dans ce livre. Considerons 1'exemple de notre jeu de 52 cartes. Soit A "un roi", B "une carte de coeur". Done na = 4, 77.5 = 13, N = 52 et les probabilites correspondantes :
Vu que P(AB) = "P("roi de cceur") = 1/52, on conclut que
et ainsi, dans le jeu de 52 cartes, ces deux evenements sont independants. Ajoutons juste une carte a notre jeu — un joker qui n'appartient a aucune categoric de couleur. na, a nouveau, est egal a 4, n^ a 13, mais N est egal a 53. Done,
On s'apergoit facilement que
et ainsi ces deux evenements ne sont plus independants dans le jeu de 53 cartes ! L'explication de cette difference est relativement simple : si nous savons qu'une carte est un roi alors elle ne peut pas etre le joker, et ainsi nous avons deja obtenu une certaine information pour determiner sa categoric de couleur.
1.1.2
GRANDEURS DISCRETES ET CONTINUES, FONCTIONS DE DISTRIBUTION
Une grandeur physique peut avoir une valeur numerique discrete ou continue. Dans le premier cas, on 1'appellera grandeur "discrete", dans le deuxieme, "continue". Les exemples de grandeurs discretes sont la categoric de couleur, la valeur de la carte, si
14
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
Figure 1.1 : Histogramme de la premiere serie de mesures de la longueur / : sont portees sur 1'axe des abscisses la valeur mesuree et sur 1'axe des ordonnees la frequence de son apparition
Ton reprend notre exemple, ou le comptage d'un detecteur, si 1'on considere des exemples plus physiques. Mais plus frequemment en physique, on mesure des grandeurs continues, comme la longueur, la duree, le courant, etc. Cette distinction des valeurs (ou des grandeurs) discretes et continues est tout a fait justifiee. Neanmoins, en physique, on decrit assez souvent une grandeur continue par une valeur discrete et vice versa. De ce point de vue, cette separation est, en partie, conventionnelle et les proprietes (ou meme Pecriture) valables pour les valeurs discretes seront utilisees pour les valeurs continues et inversement. On franchira cette frontiere regulierement, meme parfois sans se rendre compte de ce que Ton fait. Cette attitude correspond a un parti pris de presentation. Le lecteur ne doit pas en deduire que le passage a la limite s'effectue dans tous les cas sans difficulte. Pour illustrer le caractere conventionnel de cette distinction, considerons un exemple de mesure de la longueur d'une chambre (il est evident que la longueur est une grandeur continue) a 1'aide d'un decimetre qui possede aussi des divisions centimetriques. Le fait meme que nous disposions d'un decimetre avec des divisions nous oblige a decrire une grandeur continue a 1'aide de valeurs entieres done discretes (on aura un certain nombre de decimetres ou de centimetres). On peut aller plus loin et dire que la representation d'une longueur par un nombre fini de chiffres est un passage oblige d'une valeur continue a une valeur discrete. Bien sur, il existe des situations ou une valeur discrete ne peut pas etre remplacee par une valeur continue, par exemple dans le jeu de cartes. Cependant, ces situations sont rares dans les experiences de physique. Nous observerons par la suite des passages des valeurs d'un type a 1'autre. Les proprietes de probabilite resteront les memes dans
I - RAPPELS SUR LA THEORIE DBS PROBABILITIES
15
les deux cas. C'est pourquoi nous donnerons les demonstrations generales pour les variables continues et considererons que les resultats s'appliquent aussi aux variables discretes. Continuons notre experience mentale. Supposons qu'apres avoir fait une dizaine de mesures rapides, nous ayons trouve une fois la longueur de la chambre egale a 323 centimetres, cinq fois — 324 cm et quatre fois — 325 cm. Les resultats sont presentes sur la figure 1.1 qui s'appelle un "histogramme". Sur 1'axe des abscisses, on montre la valeur mesuree et, sur 1'axe des ordonnees, le nombre relatif (HI mesures de la valeur / par rapport au nombre total N de mesures) c'est-a-dire la frequence d'apparition de chaque valeur. Le sol n'etait pas plat, notre decimetre n'etait pas toujours droit, la longueur etait, la plupart du temps, comprise entre 324 et 325 cm et nous ne savions pas dans quel sens il fallait Tarrondir. D'ou la dispersion de nos resultats. Pour clarifler la situation nous avons pris un instrument de mesure gradue en millimetres et en augmentant sensiblement le nombre de mesures nous avons obtenu les nouveaux resultats representes sur la figure 1.2. Avec une autre echelle on retrouve les memes tendances : les resultats sont legerement differents et se regroupent autour d'une certaine valeur.
Figure 1.2 : Histogramme de la deuxieme serie de mesures de la longueur / : sont portees sur 1'axe des abscisses la valeur mesuree et sur 1'axe des ordonnees la frequence de son apparition
On peut continuer ainsi notre experience en diminuant 1'echelle et en augmentant le nombre de mesures dans chaque serie. La forme des histogrammes tendra vers une forme en cloche qui, lorsque le nombre de mesures tend vers I'infmi, peut etre decrite par une fonction continue f(x) (figure 1.3). Chaque histogramme donne le nombre relatif de resultats se trouvant dans un inter-
16
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Figure 1.3 : Fonction de la densite de probabilite
valle donne. Ainsi, dans le cas d'un grand nombre de mesures et selon notre definition (1), le produit f(x}dx donne la probabilite que la grandeur mesuree se trouve dans 1'intervalle La fonction f(x) represente la densite de probabilite. On 1'appellera aussi la fonction de distribution de probabilite. x varie au hasard et s'appelle variable aleatoire. D'apres notre definition, la probabilite P de trouver la valeur dans 1'intervalle compris entre xi et x• oo. Done, la valeur moyenne peut etre consideree egale a XQ mais 1'on constate que le calcul de 1'integrale est un peu delicat. Le vrai probleme apparait quand on veut etablir la variance, car 1'integrale correspondante
diverge. Cela signifie que Pecart-type, qui etait pour nous la caracteristique de la largeur d'une distribution, n'existe pas au sens de la definition (7). Neanmoins, 1'etalement de la fonction de Lorentz peut etre decrit par le parametre a.
I - RAPPELS SUR LA THEORIE DES PROBABILITIES
39
La fonction generatrice (14) ou (15) de la distribution de Lorentz n'existe pas non plus a cause de la divergence de I'integrale correspondante. Cependant, il est possible de remedier a ce probleme. Au lieu de la definition issue de la transformation de Laplace, on peut choisir pour fonction generatrice une definition issue de la transformation de Fourier (voir la discussion a la fin du paragraphe 1.1.3) :
ou la fonction exponentielle d'un argument reel a ete remplacee par la fonction exponentielle d'un argument purement complexe (pour simplifier la discussion, on prend Avec cette definition, la fonction generatrice existe et elle est egale a :
Cette integrale, relativement compliquee, peut etre calculee directement en utilisant la theorie des fonctions des variables complexes. Cependant, on peut obtenir ce resultat indirectement en utilisant le fait qu'en prenant la transformation de Fourier d'une fonction puis la transformation de Fourier inverse de la fonction obtenue, on retrouve la fonction initiale. Ainsi si F(t) est la transformation de Fourier de f(x)
alors
Dans notre cas, en prenant
on obtient
ou nous avons utilise le fait que a > 0. Ainsi ('expression de la transformation de Fourier directe (40) nous donne la formule (39).
Nous sommes en presence d'une distribution pour laquelle les definitions generates des valeurs moyennes ne sont pas valables. Cette particularity de la distribution de Lorentz a des consequences tres importantes. Nous verrons au paragraphe suivant que c'est la seule distribution qui ne se transforme pas en une distribution de Gauss lorsque le nombre de mesures devient grand.
40
1.3.4
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
DISTRIBUTION GAMMA
Cette distribution herite son nom d'une fonction speciale dite fonction F ou integrate d'Euler de deuxieme espece. La fonction F est defmie par I'integrale
En principe, x dans cette expression peut etre complexe. Nous n'etudierons pas toutes les proprietes de cette fonction, mais nous nous bornerons a la plus interessante :
qui se demontre tres simplement : il suffit d'integrer (41) une fois par parties. Pour x entier, x = n, nous obtenons
car
Autrement dit, la fonction F est une generalisation de la fonction factorielle n\ au cas d'un argument non entier, ou meme complexe (dans la litterature, on rencontre parfois I'ecriture x\ qui signifie T(x + 1)). Notons que pour les valeurs demi-entieres x — n + 1/2, la fonction F peut aussi etre ecrite sous une forme relativement simple
car I'integrale
Le changement de variable
la ramene a I'integrale (25).
La distribution de probabilite liee a la fonction F est decrite par la fonction
pour x > 0. Cette fonction contient deux parametres 3 . Notons que (3 est simplement un parametre d'echelle. Le choix de la constante devant la fonction de x est dicte, comme d'habitude, par la normalisation de la probabilite totale, ce qui se verifie facilement a I'aide
I — RAPPELS SUR LA THEORIE DES PROBABILITES
41
Figure 1.10 : La distribution gamma pour plusieurs valeurs du parametre a, /3 etant fixe
de (41). Quelques exemples de la distribution gamma (pour (3 = 1) sont representes sur la figure 1.10. Calculons la moyenne et la variance de cette distribution. Par definition,
Nous avons utilise la definition de la fonction F et sa propriete (42). Pour calculer la variance, utilisons ('expression (8) :
Le calcul de
est relativement simple :
Ainsi la variance de cette distribution est donnee par
3
Notons la ressemblance formelle entre la distribution gamma et celle de Poisson : si Ton remplace n par a et jj, par x/j3. Cependant, il ne faut pas oublier que les roles des variables et des parametres sont inverses dans ces distributions.
42
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Completons I'etude de la distribution gamma par sa fonction generatrice. Par definition (14),
Ecrivons /3a+1 sous la forme
et introduisons une nouvelle variable
L'expression pour M'(t] devient
L'integrale dans cette expression est egale a F(a + l)pa+l et fmalement M'(t] s'ecrit
Nous verrons un exemple physique de la distribution gamma lie a la distribution de Maxwell des vitesses au paragraphe 2.2.3 consacre a la distribution % 2 .
1.4 THEOREME CENTRAL LIMITE Considerons maintenant un des aspects les plus importants de la statistique qui concerne le theoreme central limite. Ce theoreme represente non seulernent un resultat mathematique puissant niais il est particulierement important pour ses applications physiques. II affirme que, dans presque toutes les experiences, on peut travailler avec une distribution de Gauss. La formulation exacte de ce theoreme est la suivante : Soit x une grandeur physique aleatoire avec une moyenne ^ et une variance • oo. Dans notre cas, n = 4, mais nous voyons que la distribution de Gauss est deja une tres bonne approximation de la distribution de §4.
Figure 1.11 : La distribution de la somme 54 des quatre derniers chiffres dans un numero de telephone
Un autre exemple classique nous montre comment 1'augmentation de // transforme la distribution de Poisson en une distribution de Gauss4. 4
A cause de la ressemblance formelle entre les distributions gamma et de Poisson, on peut utiliser exactement la meme approche pour demontrer que, dans la limite a —>• oo, la distribution gamma donne une distribution de Gauss. Nous laissons cet exercice au lecteur.
I - RAPPELS SUR LA THEORIE DBS PROBABILITES
47
Rappelons que, pour la distribution de Poisson (36), la probabilite de trouver n evenernents dans un intervalle donne est egale a
Augmentons la valeur du parametre //. Les nombres d'evenements HQ pour lesquels les probabilites P^(UQ} sont sensiblement differentes de zero doivent etre proches de la valeur // ; ainsi nous considerons la limite n » 1 pour laquelle nous pouvons utiliser la formule de Stirling donnant n\
et ecrire la probabilite P^(n) sous la forme
Pour simplifier cette expression dans la limite p,n » 1, utilisons une approche assez connue dite "methode du col". Notre fonction P(j,(n) contient deux facteurs, le premier, I/A/TI, qui varie lentement avec n et le deuxieme, e~^ n \ qui a une variation tres rapide avec n du fait de la fonction exponentielle ; ici
On peut voir aisement que la fonction f^(n) possede un seul minimum pour n — p, et qu'elle peut etre developpee en serie de Taylor au voisinage de ce point :
Nous avons utilise ici le fait que / M (//) = 0 et f'n(^) = 0, car n — p, est un minimum de la fonction, et nous n'avons garde que le premier terme non nul. Comme nous 1'avons deja remarque, la probabilite P^(n] ne sera sensiblement differente de zero qu'au voisinage de n — /j,. Au-dela de cette region, elle est tres petite a cause de la fonction exponentielle decroissante. Au voisinage de ce point, on peut ecrire que
Dans cette expression, nous avons remplace la fonction qui varie lentement avec n par sa valeur au point n = p. La distribution ainsi obtenue est une distribution de Gauss avec une moyenne p, et un ecart-type ^/Ji. D'ailleurs, il est tout a fait normal que la moyenne et la variance restent les memes que pour la distribution de Poisson. Sur la figure 1.8, nous avons donne quelques exemples de la distribution de Poisson avec plusieurs valeurs de /j,. Plus la valeur de p est grande, plus la distribution devient symetrique par rapport au maximum qui est aussi la valeur moyenne. Nous avons deja vu au paragraphe 1.3.2 que la distribution de Poisson peut etre obtenue a partir de la distribution binomiale lorsque le nombre de mesures N est grand et que p est petit, le produit p = Np restant constant. Cela signifie egalement que, dans le cas d'un grand nombre de mesures, la distribution binomiale tend vers
48
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
la distribution de Gauss. Cependant, il faut interpreter ces limites avec precaution. On ne peut pas dire que la distribution de Gauss est un cas particulier de celle de Poisson lorsque fj, —>• oo. La distribution de Gauss generale est caracterisee par deux parametres independants : la valeur moyenne et 1'ecart-type. La distribution de Gauss obtenue de la distribution de Poisson dans la limite // —» oo ne depend que d'un seul pararnetre. Sur la figure 1.12, nous recapitulons les relations entre ces trois distributions. Un autre exemple d'une distribution qui tend vers la distribution de Gauss quand le nombre de mesures augmente sera donne plus loin lorsque nous etudierons la distribution de Student (en 4.3). Pour 1'instant, considerons un exemple physique instructif issu d'une experience reelle ou nous verrons le fonctionnement du theoreme central limite dans sa deuxieme formulation ainsi que ses conditions de validite. II s'agit d'une experience recente faite au CERN sur un enorme anneau d'accelerateur de particules dont le perimetre est de 27 kilometres. Pour etudier les proprietes fondamentales des particules elementaires, les experimentateurs du CERN ont eu besoin de determiner avec une tres grande precision 1'energie des particules qui tournent dans 1'anneau de Paccelerateur. En augmentant la precision de leurs mesures, les physiciens ont decouvert a un certain stade un phenomene tres etrange : 1'energie du faisceau variait selon les heures de la journee. On a du consacrer beaucoup de temps et d'efforts, rejeter beaucoup d'hypotheses avant d'arriver a comprendre et a demontrer que 1'origine de ce comportement bizarre se trouvait dans le mouvement de la Lune autour de la Terre. Get effet gravitationnel est clairernent visible sur 1'ocean : c'est le phenomene des marees. Cependant, cet effet existe aussi pour la croute terrestre et donne lieu a des deplacements d'environ trente centimetres chaque jour. Cette variation minime cumulee sur toute la longueur de 1'accelerateur modifie sa circonference de 1 mm et change ainsi 1'energie des particules. Ce cas, assez curieux, donne a la fois un exemple d'erreur systematique liee a la negligence d'un phenomene physique et donne une belle illustration du "mecanisme" du theoreme central limite (la necessite d'avoir plusieurs petits facteurs). II y a beaucoup de facteurs qui peuvent influencer 1'energie des particules dans un accelerateur : les variations du champ magnetique terrestre, les changements de pression barometrique, le mouvement de la Lune, etc. Chacun de ces facteurs parait etre peu important. Si c'est le cas, et si 1'on ne recherche pas une trop grande precision, les conditions du theoreme central limite sont satisfaites et la distribution d'une valeur physique reste gaussienne. Des qu'on veut augmenter la precision d'une experience, les facteurs qui auparavant etaient supposes negligeables deviennent importants et se manifestent sous forme d'erreurs systematiques. Soulignons les conclusions a retenir. D'abord, pour la plupart des experiences physiques faites au laboratoire, 1'hypothese selon laquelle la distribution d'une grandeur physique est une distribution de Gauss constitue une tres bonne hypothese de depart. C'est le theoreme central limite qui nous le garantit. De plus, si jamais on a le moindre doute sur la forme de la distribution, ce meme theoreme nous indique comment on peut contourner le probleme : il faut faire plusieurs mesures et travailler sur la valeur moyenne qui est forcement decrite par la distribution normale.
I - RAPPELS SUR LA THEORIE DBS PROBABILITES
49
Figure 1.12 : Les relations entre les distributions binomiale, de Poisson et de Gauss
Neanmoins, il ne faut pas oublier "le point faible" de ce theoreme : comme c'est un theoreme limite, le nombre de mesures doit etre grand, et done 1'experience peut devenir chere. Pour controler la deviation a la loi gaussienne et savoir combien de mesures sont necessaires, une analyse plus approfondie est indispensable : elle est 1'objet des paragraphes suivants.
Cette page est laissée intentionnellement en blanc.
CHAPITRE 2 FONCTIONS D'UNE VARIABLE ALEATOIRE On peut formuler un probleme assez general et tres important pour les applications physiques. Supposons que soit connue la fonction de distribution de probability f(x) d'une variable aleatoire x (en particulier, la moyenne de cette distribution sa variance Quelle est alors la fonction de distribution de probabilite g(y) d'une variable aleatoire y (en particulier, p,y et <jy) lorsque la relation entre y et x est donnee par une fonction connue y = y(x) ? C'est, en statistique, le phenomene de la propagation des erreurs.
2.1
PROPAGATION DES ERREURS
Au chapitre precedent, nous avons vu que la valeur moyenne et la variance sont les caracteristiques majeures d'une distribution de probabilites. Elles peuvent meme etre suffisantes pour decrire toute la distribution et Ton les interprete alors comme valeur de la grandeur et son incertitude (erreur). Ceci est vrai, en particulier, dans le cas de la distribution de Gauss qui est la plus frequemment rencontree dans les experiences. C'est pourquoi nous aliens trouver d'abord la relation entre les moyennes et les variances de x et de y — y(x). La relation entre les variances porte le nom de la formule de propagation des erreurs.
2.1.1
FORMULE DE PROPAGATION DES ERREURS
Commengons simplement par chercher la relation entre px et cr^, d'une part et p,y et us supposons, tout d'abord, que cette fonction y = y(x] est biunivoque, c'est-a-dire Nous qu 'a une valeur de x correspond une seule valeur de y et inversement. Nous presentons sur la figure 2.1 un exemple de fonction de ce type.
Figure 2.1 : Une fonction biunivoque y = y(x)
Nous savons que la probabilite de trouver la valeur de x dans I'intervalle compris entre x et x + dx est egale a :
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
62
Nous cherchons la fonction g(y) qui nous donne la meme probabilite de trouver la valeur de y dans I'intervalle compels entre y et y + dy :
II suffit de reecrire (70) en remplacant x par y. Pour cela nous devons, d'abord, introduire la fonction inverse :
Ceci est possible car notre fonction y(x) est biunivoque. On a alors
II nous reste a remplacer dx par dy comme nous le faisons dans les changements de variables d'integration. La seule difference reside dans le fait que la densite de probabilite ne peut jamais etre negative. C'est pourquoi nous defmissons
si la derivee dx(y)/dy
est positive, et
si la derivee dx(y]/dy est negative. Les deux dernieres expressions peuvent etre reunies sous une forme compacte :
Les formules (72) et (73) nous donnent
La comparaison avec (71) nous permet d'obtenir le resultat final :
2.2.2
CAS GENERAL
Si la fonction y = y(x] n'est pas biunivoque (figure 2.2), la tache devient un peu plus compliquee. II faut d'abord introduire toutes les branches univoques pour la fonction inverse : x\ — x\(y\x-2 — x^y],... ,Xk = Xk(y), puis faire la somme sur toutes ces branches (la probabilite de trouver y dans I'intervalle entre y et y + dy est egale a la somme de toutes les probabilites d'apparition de x entre Xi et Xi -f dxi].
II — FONCTIONS D'UNE VARIABLE ALEATOIRE
63
Figure 2.2 : Une fonction non biunivoque y — y(%)
Ainsi la generalisation de I'expression (74) s'ecrit
Prenons I'exemple y(x) = x2, avec une fonction de distribution de probabilite de x egale a f(x). La fonction y(x) = x2 n'est pas biunivoque car pour deux valeurs de x differentes on peut avoir la meme valeur de y : y(x) — x2 — ( — x } 2 . II existe done deux branches de la fonction inverse :
Leurs derivees sont :
Ainsi la densite de probabilite g(y] est donnee par
soit
64
ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES
Les formules obtenues sont valables dans le cas d'une fonction d'une variable y = y(x). On peut les facilement generaliser au cas ou nous voulons passer de n variables independantes x\, x^, .. • , xn = x a n variables independantes j/i, y 2 , • • • > 2/n = y a I'aide d'une transformation y,- = y«(a?i, £2, • • • 5 #n) = yi(x). Alors la densite de probabilite /(xi, # 2 , . . - , xn) = f(x) (voir (18)) se transforme en une densite de probabilite notations yj pour les variables aleatoires et x^ pour 1'argument des fonctions.
on
reprend les
IV — AJUSTEMENT DES PARAMETRES
135
Figure 4.2 : Le logarithme de la fonction de vraisemblance d'une distribution gaussienne
Cette courbe est a la base de ('analyse des fonctions de vraisemblance dependant d'un parametre. Le segment de droite reliant les deux branches de la parabole pour InL = — 1/2, caracterise un intervalle de confiance
correspondant a une probabilite de 68,27 %, pour une distribution gaussienne. D'une facon analogue, le segment de droite reliant les deux branches de la parabole pour \nL = —2 correspond a un intervalle de confiance de 95,45 %. On peut demontrer pour une classe assez large de distributions (pas forcement gaussiennes) qui ne dependent que d'un seul parametre, qu'il est possible de trouver les intervalles de confiance de la meme facon. Par exemple, dans le cas d'une distribution binomiale abordee dans le paragraphe precedent, on peut tracer le logarithme de la fonction de vraisemblance en fonction de p. Pour x = 2 et A" = 10, cette fonction
est presentee sur la Figure 4.3 (dans cette expression, on a ajoute une constante pour que la valeur maximale de InL(p) soit egale a 0). Ce n'est pas une parabole mais elle lui ressemble quelque peu. D'ailleurs, on peut souvent approximer les fonctions de ce type par des paraboles au voisinage du maximum (ce qui signifie qu'on peut approcher la
136
ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES
fonction de distribution par une gaussienne). La position du maximum de cette fonction nous donne la valeur de I'estimation (143) : p= 0,2.
Figure 4.3 : Le logarithme de la fonction de vraisemblance pour une distribution binomiale avec x = 2 et N = 10
A partir de cette courbe, nous pouvons facilement trouver tous les intervalles de confiance desires. Parexemple, pour un intervalle de confiance de 95,45 %, la solution de I'equation
donne [0,036 ; 0,505]. On remarque que cet intervalle n'est pas symetrique par rapport ap=0,2.
Une autre approche existe pour determiner ("incertitude sur la valeur des parametres dans la methode du maximum de vraisemblance. Elle est beaucoup plus pratique, surtout lorsque la fonction de vraisemblance depend de plusieurs parametres. Cette approche porte le nom d'inegalite de Cramer-Rao-Frechet. Donnons sa demonstration dans le cas ou la vraisemblance L(a) ne depend que d'un seul parametre a, mais le resultat peut etre generalise au cas de plusieurs parametres. Soit a I'estimation du parametre a. Cette estimation est biaisee par une erreur systernatique f3(a), c'est-a-dire que la valeur moyenne de a est egale a 4
4
Pour simplifier la presentation des formule, nous utiliserons 1'ecriture / • • • dX qui signifie une integrate multiple sur toutes les variables xt.
IV - AJUSTEMENT DBS PARAMETRES
137
En derivant cette relation par rapport a a et utilisant le fait que I'estimation a n'est fonction que des donnees experimentales {xi}, on obtient
Cette relation peut encore s'ecrire sous la forme
Calculons maintenant la derivee par rapport a a de la relation de normalisation de la vraisemblance
que Ton peut mettre sous la forme
En multipliant cette relation par a et en le soustrayant de (145), on obtient
Si Ton applique I'inegalite de Schwartz 5
aux fonctions
on trouve
La premiere integrale represente la variance