Probabilia, statistica e sl ulaz one
A. Rotondi P. Pedroni A. Pievatolo
ALBERTO ROTONDI Dipartimento di Fisica Nucle...
98 downloads
1125 Views
109MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Probabilia, statistica e sl ulaz one
A. Rotondi P. Pedroni A. Pievatolo
ALBERTO ROTONDI Dipartimento di Fisica Nucleare e Teorica Universita di Pavia PAOLO PEDRONI Istituto Nazionale di Fisica Nucleare Sezione di Pavia ANTONIO PIEVATOLO Istituto di Matematica Applicata e Tecnologie Informatiche CNR - Milano
Springer-Verlag fa parte di Springer Science+Business Media
O Springer-Verlag Italia, Milano 2005
ISBN 88-470-0262-1 Quest'opera k protetta dalla legge sul diritto d'autore. Tutti i diritti, in particolare quelli relativi alla traduzione, alla ristampa, all'uso di figure e tabelle, alla citazione orale, alla trasmissione radiofonica o televisiva, alla riproduzione su microfdm o in database, alla diversa riproduzione in qualsiasi altra forma (stampa o elettronica) rimangono riservati anche nel caso di utilizzo parziale. Una riproduzione di quest'opera, oppure di parte di questa, & anche nel caso specific0 solo ammessa nei limiti stabiliti dalla legge sul diritto d'autore, ed k soggetta all'autorizzazione dell'Editore. La violazione delle norme cornporta le sanzioni previste dalla legge. L'utilizzo di denominazioni generiche, nomi commerciali, marchi registrati, ecc, in quest'opera, anche in assenza di particolare indicazione, non consente di considerare tali denominazioni o marchi liberamente utilizzabili da chiunque ai sensi della legge sul marchio. Riprodotto da copia camera-ready fornita dagli Autori Progetto grafico della copertina: Simona Colombo, Milano Stampato in Italia: Arti Grafiche Nidasio, Assago
lndice
Prefazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
La probabilith . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Caso. caos e determinism0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Terminologia . . . . . . . . . . . . . . . . . . . . . . . . . . . , .. . . . . . . . . . . . . 1.3 I1 concetto di probabilita ................................ 1.4 Probabilitii assiomatica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Prove ripetute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Calcolo combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Teorema di Bayes ...................................... 1.8 L'approccio bayesiano ................................... 1.9 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
Rappresentazione dei fenomeni aleatori ................... 2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Variabili aleatorie ...................................... 2.3 Funzione cumulativa o di ripartizione ..................... 2.4 La rappresentazione dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Variabili aleatorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 La distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Variabili aleatorie continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8 Media, Varianza e Deviazione Standard . . . . . . . . . . . . . . . . . . . 2.9 Operatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 I1 campione casuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.11 Criteri di convergenza ................................... 2.12 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2
Calcolo elementare delle probabilith . . . . . . . . . . . . . . . . . . . . . . 3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Proprieta della distribuzione binomiale . . . . . . . . . . . . . . . . . . . . 3.3 La distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Densita di Gauss o normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Calcolo di distribuzioni in SCILAB . . . . . . . . . . . . . . . . . . . . . . . 3.6 Legge 3-sigma e gaussiana standard . . . . . . . . . . . . . . . . . . . . . . . 3.7 I1 teorema Lirnite Centrale: universalita della gaussiana .....
VI
lndice
3.8 3.9 3.10 3.11 3.12 3.13
.
Calcolo delle probabilitb p e r p i h variabili . . . . . . . . . . . . . . . . . 111 4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 4.2 Distribuzioni statistiche multidimensionali ................. 111 4.3 Covarianza e correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 4.4 Densit&gaussiana bidimensionale . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.5 Generalizzazione in pih dimensioni . . . . . . . . . . . . . . . . . . . . . . . . 133 4.6 Insiemi di probabilith in piil dimensioni ................... 136 4.7 La distribuzione multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.8 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
.
Funzioni di variabili aleatorie ............................. 143 5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 5.2 Funzione di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . 144 5.3 finzioni di pih variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . 147 5.4 La trasformazione della media e della varianza . . . . . . . . . . . . . 158 5.5 Medie e varianze per n variabili . . . . . . . . . . . . . . . . . . . . . . . . . 164 5.6 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
.
Statistica d i base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 6.2 Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 6.3 Determinazione degli intervalli di confidenza ............... 176 6.4 Cenno all'approccio bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 6.5 Alcunenotazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 6.6 Stima della probabilita da grandi campioni . . . . . . . . . . . . . . . . 180 6.7 Stima della probabilita da piccoli campioni . . . . . . . . . . . . . . . . 184 6.8 Stima di valori limite poissoniani . . . . . . . . . . . . . . . . . . . . . . . . . 191 6.9 Stima della media da grandi campioni . . . . . . . . . . . . . . . . . . . . . 192 6.10 Stima della varianza da grandi carnpioni ................... 194 6.11 Stima di media e varianza ha piccoli campioni .............. 198 6.12 Come utilizzare la teoria della stima . . . . . . . . . . . . . . . . . . . . . . 202 6.13 Stime da una popolazione finita . . . . . . . . . . . . . . . . . . . . . . . . . . 208 6.14 Verifica di una ipotesi ................................... 210 6.15 Verifica di compatibilita tra due valori .................... 212 6.16 Stima della densith di una popolazione . . . . . . . . . . . . . . . . . . . . 217 6.17 Verifica di compatibilitb tra campione e popolazione . . . . . . . . 223 6.18 Verifica di ipotesi con test non parametrici . . . . . . . . . . . . . . . . . 231 6.19 Stima della correlazione ................................. 238
4
5
6
Processi stocastici poissoniani . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 La densith X 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 La densith uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Disuguaglianza di Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Come utilizzare il calcolo delle probabilith ................. 101 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
lndice
6.20 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
VII 245
7. I1 metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 7.2 Cosl&il metodo Monte Carlo? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 7.3 Fondamenti matematici ................................. 251 7.4 Generazione di variabili aleatorie discrete . . . . . . . . . . . . . . . . . . 252 7.5 Generazione di variabili aleatorie continue ................. 256 7.6 Metodo del rigetto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 7.7 Metodo di ricerca lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 7.8 Metodi particolari di generazione casuale .................. 268 7.9 Studio Monte Carlo di distribuzioni . . . . . . . . . . . . . . . . . . . . . . . 273 7.10 Determinazione degli intervalli di confidenza ............... 276 7.11 Bootstrap non parametric0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 7.12 Problemi .............................................. 283 8
.
Applicazioni del metodo Monte Carlo . . . . . . . . . . . . . . . . . . . . . 285 8.1 Introduzione .......................................... 285 8.2 Studio dei fenomeni di difisione . . . . . . . . . . . . . . . . . . . . . . . . . 285 8.3 Simulazione dei processi stocastici . . . . . . . . . . . . . . . . . . . . . . . . 293 8.4 Il numero di addetti ad un impianto: simulazione sincrona . . . 298 8.5 I1 numero di addetti ad un impianto: simulazione asincrona . . 302 8.6 Algoritmo di Metropolis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 8.7 I1 modello di Ising . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 8.8 Calcolo di integrali definiti ............................... 311 8.9 Campionamento ad importanza . . . . . . . . . . . . . . . . . . . . . . . . . . 315 8.10 Campionamento stratificato ............................. 316 8.11 Integrali multidimensionali ..............................320 8.12 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
9
.
Inferenza statistica e verosimiglianza ..................... 323 9.1 Introduzione ........................................... 323 9.2 Il metodo della massima verosimiglianza ................... 325 9.3 ProprietB degli stimatori ................................ 330 9.4 Teoremi sugli stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 9.5 Intervalli di confidenza ..... , ............................ 342 9.6 I1 metodo dei minimi quadrati e la massima verosimiglianza . . 345 9.7 Adattamento di densit& (best fit) ad istogrammi . . . . . . . . . . . . 347 9.8 La media pesata ........................................ 352 9.9 Verifica delle ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 9.10 Test di potenza massima ................................ 359 9.11 Funzioni test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 9.12 Test sequenziali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 9.13 Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
VIII
lndice
.
Minimiquadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 10.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .373 10.2 Predittori osservati senza errore . . . . . . . . . . . . . . . . . . . . . . . . . 376 10.3 Rette dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 10.4 Minimi quadrati lineari: caso.generale . . . . . . . . . . . . . . . . . . . . 385 10.5 Minimi quadrati lineari pesati . . . . . . . . . . . . . . . . . . . . . . . . . . . 390 10.6 ProprietA delle stime dei minimi quadrati . . . . . . . . . . . . . . . . . 392 10.7 Verifica del modello e determinazione di forme funzionali . . . 394 10.8 Ricerca delle correlazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401 10.9 Test di adattamento del modello . . . . . . . . . . . . . . . . . . . . . . . . . 405 10.10 Errori sui predittori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406 10.11 Minimizzazione non lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 10.12Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
.
Analisi dei dati sperimentali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413 11.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413 11.2 Terminologia .......................................... 414 11.3 Grandezze fisiche costanti e variabili . . . . . . . . . . . . . . . . . . . . . 415 11.4 Sensibilita e accuratezza degli strumenti . . . . . . . . . . . . . . . . . . 416 11.5 Incertezza nelle operazioni di misura . . . . . . . . . . . . . . . . . . . . . 418 11.6 Misure indirette e propagazione degli errori ............... 421 11.7 Definizione dei tipi di misura . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432 11.8 Misure del tip0 M ( 0 , 0, A ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 11.9 Misure del tip0 M ( 0 , u , 0 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434 11.10 Misure del tip0 M ( 0 , u. A) . . . . . . . . . . . . . . . . . . . . . . . . . . . 437 11.11 Misure del tip0 M ( f . 0. 0 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440 11.12 Misure del tip0 M ( f , u. 0 ) . M ( f . 0, A ) , M ( f . u , A ) . 444 11.13 Studio di un caso: gli esperimenti di Millikan . . . . . . . . . . . . . . 448 11.14 Alcune note sul metodo scientific0 ....................... 452 11.15Problemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
10
11
.
Appendice A Tabella dei simboli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459 Appendice B . Funzioni generatrici . . . . . . . . . . . . . . . . . . . . . . . . . . . 461 Appendice C Soluzioni dei problemi . . . . . . . . . . . . . . . . . . . . . . . . . 463 Appendice D Tabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477 D.l Integrale della densit&gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . .477 D.2 Valori quantili della densit& di Student . . . . . . . . . . . . . . . . . . . . 478 D.3 Integrale della densita X 2 ridotto . . . . . . . . . . . . . . . . . . . . . . . . . 478 D.4 Valori quantili di x2 non ridotto . . . . . . . . . . . . . . . . . . . . . . . . . 479 D.5 Valori quantili della densit& F ........................... 479
. .
Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 Indice analitico ............................................... 491
Prefazione alla prima edizione
Questo testo nasce dalla collaborazione tra due fisici sperimentali e uno statistico. Tra i non statistici, i fisici sono forse quelli che piir apprezzano e utilizzano il calcolo delle probabilith e la statistica, il pib delle volte perb in mod0 pragmatic0 e manualistico, avendo in mente la soluzione di problemi o applicazioni tecniche. D'altra parte, nel confront0 cruciale fra teoria ed esperimento, occorre a volte utilizzare metodi sofisticati, che richiedono una conoscenza profonda dei principi, anche logici e matematici, che stanno alla base dello studio dei fenomeni casuali. Pib in generale, anche chi non i: statistico deve spesso affrontare, nell'ambito della ricerca, problemi che richiedono particolari doti di attenzione e competenza nel trattamento degli aspetti casuali o aleatori. Queste doti sorlo irlvece possedute in mod0 naturale dallo statistico, il quale fa delle leggi del caso l'oggetto delle proprie ricerche. Questo testo B maturato con l'intento di cercare una sintesi tra queste esperienze diverse, per fornire a1 lettore non solo uno strumento utile ad affrontare i problemi, ma anche una guida ai metodi corretti per comprendere il complicato e affascinante mondo dei fenomeni aleatori. Un tale obiettivo ha comportato ovviamente delle scelte, talvolta anche dolorose, sia nel tip0 sia nella forma dei contenuti. Nella forma, abbiamo cercat0 di non rinunciare alla precisione necessaria per insegnare correttamente i concetti importanti; nelle applicazioni, abbiamo privilegiato i metodi che non richiedono eccessive elaborazioni concettuali preliminari. Abbiamo ad esempio cercato di utilizzare, quando i: possibile, metodi approssimati per la stima intervallare, con le approssimazioni gaussiane alla distribuzione degli stimatori. Allo stesso modo, nel caso dei minimi quadrati, abbiamo usato in mod0 esteso l'approssimazione basata sulla distribuzione X 2 per la verifica dell'adattamento di un modello ai dati. Abbiamo anche evitato di insistere nel trattamento formale di problemi complicati nei casi in cui si pub trovare la soluzione utilizzando il computer e facili programmi di simulazione. Nel nostro testo la simulazione riveste quindi un ruolo importante nell'illustrazione di molti argomenti e nella verifica della bont& di molte tecniche ed approssimazioni. I1 libro si rivolge in primo luogo agli studenti dei primi anni dei corsi di indirizzo scientifico, come ingegneria, informatica e fisica. Pensiamo perb che esso possa risultare utile anche a tutti quei ricercatori che devono risolvere problemi concreti che coinvolgono aspetti probabilistici, statistici e di simulazione. Per questo abbiamo dato spazio ad alcuni argomenti, come il metodo Monte Carlo e le sue applicazioni, le tecniche di minimizzazione e i metodi
X
Prefazione
di analisi dei dati, che solitamente non vengono trattati nei testi di carattere introduttivo. Le conoscenze matematiche richieste a1 lettore sono quelle impartite solitamente nell'insegnamento di Analisi Matematica I dei corsi di laurea ad indirizzo scientifico, con l'aggiunta di nozioni minime di Analisi Matematica 11, come i fondamenti della derivazione ed integrazione delle funzioni di pih variabili. La struttura del testo consente diversi percorsi didattici e livelli di lettura. I prirni 6 capitoli trattano tutti gli argomenti solitamente svolti in un corso istituzionale di statistica. A scelta del docente, questo programma pub essere integrato con alcuni argomenti pib avanzati tratti dagli altri capitoli. Ad esempio, in un corso orientato alle tecniche di simulazione, va senz'altro incluso il capitolo 7. Le nozioni di probabilita e statistica impartite di solito agli studenti di fisica nei corsi di laboratorio del primo biennio sono contenute nei primi 3 capitoli, nel capitolo 6 (statistica di base) e nel capitolo lo1, scritto esplicitamente per i fisici e per tutti coloro che hanno a che fare con il trattamento dei dati provenienti da esperienze di laboratorio. Molte pagine sono dedicate alla risoluzione completa di numerosi esercizi inseriti direttamente nei capitoli ad illustrazione degli argomenti trattati. Raccomandiamo a1 lettore anche i problemi (tutti con soluzione) riportati alla fine di ogni capitolo. I1 testo Q stato scritto nel corso di diversi anni, nel tempo "libero" dagli impegni dell'insegnamento e della ricerca. Molte parti del materiale che qui presentiamo sono state collaudate in alcuni corsi per fisici, istituzionali e di dottorato, sull'analisi statistica dei dati e sulle tecniche di simulazione Monte Carlo. Ringraziare uno per uno tutti gli studenti e i colleghi che ci hanno dato consigli, suggerimenti e corretto errori e imprecisioni ci Q veramente impossibile. Un grazie particolare va comunque a Franco Barbaini, Valerio Filippini, Andrea Fontana e Victor Tretyak. Infine, un sincero ringraziamento all'editore Springer per aver apprezzato e sostenuto il nostro progetto. Pavia, gennaio 2001 Gli Autori
Nella nuova edizione B il capitolo 11
Prefazione
XI
Prefazione alla seconda edizione In questa seconda edizione abbiamo tenuto conto delle numerose osservazioni e di alcune segnalazioni di errori di molti lettori, che ringraziamo vivamente per la collaborazione. E solo grazie a questi lettori che un libro non muore, ma resta una cosa viva che evolve e migliora nel tempo. La prima parte del capitolo 6 sulle stime frequentiste di Neyman e tutto il capitolo 10 sui minimi quadrati sono stati riscritti cercando di presentare la materia in mod0 pih chiaro e sintetico. Per soddisfare il notevole interesse sulle tecniche di simulazione Monte Carlo, l'argomento k stato ampliato, arricchito di nuovi esempi ed applicazioni e suddiviso in due capitoli. I1 nuovo materiale non ha aumentato la mole del testo, perchi: alcune parti di secondaria importanza o troppo tecniche sono state alleggerite od eliminate. Una delle maggiori novita i:l'utilizzo, in tutto il testo, del software libero SCILAB~,particolarmente semplice e potente, e di numerosi programmi che abbiamo scritto e che si possono ottenere dal sito web dell'editore3. Consigliamo quindi una lettura interattiva, che a110 studio di un argomento faccia seguire l'uso delle routine second0 le modalita indicate nel testo e le istruzioni tecniche contenute in queste pagine web. Nella speranza che questa nuova fatica venga ripagata con lo stesso interesse che ha accompagnato la prima edizione, ringraziamo ancora l'editore Springer per la fiducia che ha continuato ad accordarci. Pavia, agosto 2004 Gli Autori
XI1
Prefazione
C o m e utilizzare il t e s t o Figure, equazioni, definizioni, teoremi, tabelle ed esercizi sono numerati progressivamente all'interno di ogni capitolo. Le sigle delle citazioni (ad esempio [57]) si riferiscono all'elenco riportato nella bibliografia alla fine del libro. La soluzione dei problemi 6 a pagina 463. Pub anche essere utile la tabella dei simboli riportata nelle pagg. 459-460. I codici di calcolo come h i s t p l o t sono indicati su sfondo grigio. Le routine che iniziano con lettera minuscola sono quelle originali di SCILAB, che possono essere liberamente copiate d a
mentre quelle che cominciano in maiuscolo sono scritte dagli autori e si trovano in
In questo sit0 si trovano anche tutte le informazioni per la installazione e l'uso di SCILAB, una guida all'uso delle routine scritte dagli autori e materiale didattico complementare a1 testo.
1. La probabilita
"Sembra non esserci alternativa dl'accettare l'idea che nell'esistenza c'i un qualche elemento incomprensibile. La scelta t. libera. Noi tutti Auttuiamo delicatamente fra una visione soggettiva e una visione oggettiva del mondo, e questo dilemma 6 a1 centro della natura umana. " Douglas R. Hofstadter, "L'Io DELLA MENTE" .
1.1 Caso, caos e determinism0 Questo libro si propone di studiare in mod0 dettagliato i fenomeni detti aleatori, stocastici o casuali. Prima di immergerci nell'argomento, in questa introduzione analizzeremo brevemente la collocazione ed il ruolo di questi fenomeni nel contest0 della realta in cui viviamo. Nella misura o nell'osservazione di un fenomeno naturale, inizialmente si cerca di identificare tutte le cause e le condizioni esterne che ne determinano l'evoluzione. Successivamente, si opera in mod0 da tenere fisse o sotto controllo, per quanto possibile, queste cause esterne e si procede a registrare i risultati delle osservazioni. Ripetendo le osservazioni, si possono allora presentare due casi: 0
si ottiene sempre lo stesso risultato. Come esempio, pensate alla misura di un tavolo con un metro commerciale; si ottiene ogni volta un risultato differente. Pensate ad un fenomeno naturale molto semplice: il lancio di una moneta.
Mentre nel primo caso per il momento non c'i: molto da dire, nel second0 vogliamo qui chiederci a cosa sono dovute le variazioni osservate nei risultati. Possibili cause sono il non aver tenuto sotto controllo tutte le condizioni del fenomeno, oppure avere definito in mod0 scorretto la grandezza d a osservare. Una volta effettuate queste correzioni, il fenomeno pub diventare stabile, oppure continuare a presentare fluttuazioni. Spieghiamo con un esempio: supponiamo di voler misurare l'ora del sorgere del sole all'orizzonte in una data localit8. Osserveremo che misure ripetute in giorni successivi forniscono un risultato differente. Ovviamente, in questo caso la variazione del risultato 6 dovuta ad una cattiva definizione della
2
Capitolo 1. La probabiliti
misura. L'ora del sorgere del sole va misurata in un certo luogo e per un determinato giorno dell'anno, e va ripetuta a distanza di un anno in quello stesso giorno e luogo. Ridefinendo in questo mod0 l'osservazione, i risultati di misure ripetute coincidono. Come i: noto, le leggi del mot0 dei pianeti forniscono in questo caso un modello che permette di prevedere (a meno di piccole correzioni che non vogliamo discutere) le ore dell'alba per tutti i giorni dell'annol. Consideriamo ora la misura di un'altra grandezza, la temperatura di un giorno ad una determinata ora. In questo caso, anche considerando un certo giorno dell'anno e ripetendo le misure di anno in anno, si osservano risultati differenti. A differenza dell'ora del sorgere del sole, non siamo in questo caso nemmeno in possesso di un modello che ci permetta di prevedere con precisione il risultato della misura. Come mai la temperatura, a differenza dell'ora dell'alba, sembra avere intrinsecamente un comportamento casuale? La ragione b che, mentre l'ora dell'alba dipende dall'interazione di pochi corpi (il sole e i pianeti), la temperatura dipende, oltre che dalle condizioni astronomiche, anche dallo stato dell'atmosfera, il quale 5 il risultato dell'interazione di innumerevoli fatt,ori, che nemmeno i n linea di principio possono essere determinati con assoluta precisione o comunque tenuti sotto controllo. Questa distinzione b cruciale ed B la chiave per stabilire la differenza tra grandezze che presentano fluttuazioni e quelle che sembrano fisse o comunque prevedibili con precisione in base a modelli deterministici. Storicamente, i sistemi deterministici sono stati per lungo tempo considerati privi di fluttuazioni ed il lor0 studio, nell'ambito della fisica classica, i! proseguito in parallel0 a quello dei sistemi detti stocastici, aleatori o casuali, nati con lo studio dei giochi d'azzardo: lancio di dadi, giochi di carte, roulette, slot machines, gioco del lotto e cosi via. Questi ultimi sono sistemi costruiti appositamente per assicurare la casudita del risultato. Esistevano pertanto due mondi separati: quello privo di fluttuazioni dei fenomeni deterministici, legati alle leggi fondamentali della fisica, ai sistemi semplici (in genere a pochi corpi), ed il mondo dei fenomeni aleatori, soggetti a fluttuazioni, legato ai sistemi complessi (in genere a molti corpi). Tuttavia, gii all'inizio del secolo scorso il fisico-matematico francse H. Poincar6 si accorse che in alcuni casi la conoscenza della legge deterministica non era sufficiente per fare predizioni esatte sulla dinarnica del sistema a partire d a condizioni iniziali note. I1 problema, che oggi si chiama studio del caos, venne perb ripreso e studiato a fondo solo ben piil tardi, a partire dagli anni '70, grazie all'aiuto dei calcolatori. Oggi sappiamo che, nei sistemi macroscopici, l'origine delle fluttuazioni pub essere duplice, ciob dovuta a leggi deterministiche che presentano elevata sensibilita rispetto alle condiIn realtit non si sa esattamente quanto sia stabile il sistema solare. Alcuni modelli indicano che non sia possibile estendere le previsioni oltre un intervallo di tempo dell'ordine dei cento milioni di anni [7]
1.1Caso, caos e determinism0
3
Fig. 1.1. Valori assunti d a x in base alla equazione logistica (1.1) partendo dal valore iniziale x = 0.3 per differenti valori del parametro A.
zioni iniziali (sistemi caotici) oppure alla impossibilith di definire in mod0 deterministic0 tutte le variabili del sistema (sistemi stocastici). Uno dei paradigmi migliori per spiegare il caos & la mappa logistica, proposta fin dal 1838 dal matematico belga P.F. Verhulst e studiata in dettaglio dal biologo R.May nel 1976 e dal fisico M. Feigenbaum nel 1978:
dove k i: il ciclo di crescita della popolazione, X & legato a1 tasso di crescita e 0 j x(k) 5 1 i: una variabile di stato proporzionale a1 numero di individui della popolazione. Affinch6 x si mantenga nei limiti prefissati, deve essere 0 X 5 4. La legge logistica descrive bene la dinamica di evoluzione delle popolazioni dove esiste un accrescimento per ciclo proporzionale a X x(k) con un termine correttivo negativo (reazione o feedback) -A x2(k) proporzionale a1 quadrat0 della dimensione gi8 raggiunta dalla popolazione. Senza addentrarci troppo nello studio della mappa logistica, notiamo che il comportamento della popolazione evolve col numero dei cicli second0 le caratteristiche seguenti (riportate anche in Fig. 1.1):
Le (2.44) ovviamente implicano le (2.42). Perch6 si richieda anche l'inverso i: una questione pih sottile: nel calcolo delle probabiliti, si assume sempre che l'ordine dei termini nelle serie sia indifferente e che valgano relazioni del tip0 x k ~ i (f x k ) g ( ~ i )e, questo, come sappiam0 dalxkf (xk) ?jig(yi) = l'analisi matematica, i:possibile solo le serie sono assolutamente convergenti. Un discorso analogo vale nel caso degli integrali. Nel seguito l'esistenza dei valori medi implicheri, sempre anche l'esistenza dei valori medi assoluti. Per quanto riguarda la varianza, la definizione B ovviamente valida se le serie o gli integrali (2.43) (a valori sempre positivi) non sono divergenti. Vi sono tuttavia casi (per fortuna molto rari) di variabili aleatorie che non hanno varianza finita; in questo caso si deve rinunciare a caratterizzare la dispersione dei dati in termini di varianza e si deve ricorrere a110 studio delle funzioni di densit&o di ripartizione. Si pub mostrare che la successione di momenti calcolati dalla funzione generatrice (si veda l'appendice B):
zk
xi
consente di determinare in mod0 univoco la funzione di ripartizione di una variabile casuale X 1221. I1 momento per k = 1 i: la media e quindi, una volta noti i momenti, si possono determinare anche i momenti rispetto alla media:
56
Capitolo 2. Rappresentazione dei fenomeni aleatori
Si noti che A2 E n2 e che il momento Al i: sempre nullo. Infatti:
Le prime due quantith significative sono allora la media e la varianza. Come vedremo, per la quasi totalith delle applicazioni pratiche che considereremo esse sono sufficienti a definire univocamente o in mod0 accettabile le distribuzioni statistiche. Nel seguito utilizzeremo molto raramente i momenti di ordine superiore a1 secondo. La media k forse il parametro piil efficace per valutare il baricentro di una distribuzione, poich6 il momento del secondo ordine, se calcolato rispetto alla media, risulta minimo. Infatti:
e la derivata si annulla in un minimo solo se p B la media (2.42), nel qua1 caso A2 = a 2 . La varianza, se si sviluppano i quadrati nelle (2.39, 2.43), pub anche essere espressa come differenza tra la media dei quadrati e il quadrat0 della media:
Queste relazioni sono a volte utili nei calcoli pratici, come vedremo nell'esercizio 2.6. I momenti di una funzione di densith, varianza compresa, sono indipendenti dalla posizione della media, cioi: invarianti per traslazioni lungo l'asse x. Questa proprietd i: ovvia (ma importante), poich6 la misura della larghezza intrinseca di una funzione non pub dipendere dalla posizione di questa lungo l'asse delle ascisse. Si pub comunque dimostrare questo fatto in mod0 formale, definendo una generica traslazione
2.8 Media. Varianza e Deviazione Standard
dx' = dx
,
p(x)
57
+ p(x' - a) -- p1(x') ,
e verificando che A
X
= =
- plnp(x) dx = - p')np'
( d ) ds'
/
(x' - P')~P(x' - a ) dx'
I A,
(sf) .
(2.51)
Riassumendo, la media, la varianza ed i momenti della (2.45) nel caso di istogrammi di campioni sperimentali o di variabili aleatorie sono date, indicando con una freccia il passaggio da una variabile discreta ad una continua, da:
E bene far rilevare ancora la notazione in lettere greche o latine, che ci accompagnera nel seguito del testo. I1 calcolo di media e varianza da un insieme x di dati grezzi second0 le (2.37, 2.39), pub essere effettuato con le funzioni SCILAB mean(x> e variance(x1 . Se invece i dati sono in forma di istogrammi, il calcolo va fatto con le (2.53, 2.56) e vanno usate le funzioni mediaf (xdata,fre) e variancef (xdata,fre) , dove xdata 6 lo spettro della variabile aleatoria e f r e B il corrispondente vettore delle frequenze o del numero delle prove favorevoli.
58
Capitolo 2. Rappresentazione dei fenomeni aleatori
2.9 Operatori Come abbiamo visto, le formule per il calcolo della media e della varianza assumono forma diversa a seconda che l'insieme dei dati sia finito o infinito, le variabili aleatorie siano discrete o continue e i dati siano grezzi o raggruppati in istogrammi. Per questo motivo B comodo considerare media e varianza non solo come numeri, ma anche come operatori su variabili aleatorie od insiemi di dati, con i quali si indica il tip0 di operazione che si effettua, a prescindere dalla particolare rappresentazione utilizzata per i dati o le variabili. Indicheremo con lettere latine e variabili minuscole:
medie, varianze e deviazioni standard ricavate da insiemi di valori sperimentali di una variabile X in una ben determinata prova o campionamento. Si noti il simbolo (x)per la media, che B una notazione molto usata da fisici e ingegneri. L'operatore media di una variabile aleatoria viene solitamente indicato con (. . .) oppure con E[.. .], l'operatore varianza con Var[. . .I. Le variabili su cui agiscono gli operatori saranno sempre indicate con lettere maiuscole:
Nel testo verrh usata preferenzialmente la notazione (X), Var[X]. Per l'operatore deviazione standard useremo la notazione ,[XI. A questo punto vi consigliamo di riguardare ancora la Tab. 2.1, dalla quale risulta che le funzioni che operano sulle variabili aleatorie sono le probabilit& e gli operatori: la variabile aleatoria risulta quindi sempre racchiusa tra parentesi grafle, quadre o tra i simboli (. . .). Useremo questa convenzione in tutto il seguito del testo. I1 mettere in evidenza in tutte le formule l'aspetto operatoriale di media e varianza, sebbene sia corretto, non B sempre indispensabile ed appesantisce notevolmente il formalismo. Per alleggerire la notazione, noi indicheremo talvolta media, varianza e deviazione standard come:
(notate i pedici scritti con lettere minuscole). La scrittura p e a2 (oppure p, e a: se i: necessario specificare il tip0 di variabile) va intesa come il risultato numeric0 del corrispondente operatore statistico. La scrittura in lettere greche (valori veri), definisce comunque in mod0 univoco il tip0 di operazione fatta, evitando possibili confusioni. E facile ora verificare, ricorrendo alle (2.52-2.56), che gli operatori media e varianza godono delle proprieth seguenti:
2.9 Operatori
Var[Xl = ((X -
w2),
(ax) = (X) , Var[aX] = a2Var[X] (X+cu) Var[X+a]
(2.61) (2.62) (2.63) (2.64)
,
(X)+cu, ((X+a- ( ~ + a ) ) ~ ) = ( ( ~ + c u - (X) - a ) 2 )=Var[X]
59
= =
,
(2.65)
dove cu 6 una costante. Le ultime due relazioni mostrano, come 5 ovvio, che la media di una costante coincide con la costante e che la dispersione di una costante & nulla. Sfruttando le (2.61, 2.62), possiamo riscrivere in notazione operatoriale la (2.50), che esprime la varianza come media dei quadrati meno il quadrat0 della media: Var[X] = ((X-p)') = =
( ( X - (X)I2)
=
(x')-(x)~
(x2)- 2 (X) ( X ) + ( x ) ~ .
(2.66)
L'operatore di media permette la definizione in generale del valore medio vero di una qualunque funzione di variabile aleatoria del tip0 (2.9): Definizione 2.11 (Valore atteso). S e f (X) i: u n a funzione di u n a variabile aleatoria X avente densita di probabilita p(x), si definisce come valore di aspettazione o valore atteso (expected value) di f ( X ) la quantitb:
dove con la freccia si 2 indicato il passaggio da u n a variabile X discreta ad una continua. Le funzioni di variabili aleatorie verranno trattate in dettaglio pi^ avanti, nel cap. 5. In base a questa definizione, la media Vera p pub essere considerata come il valore atteso di X . Termini sinonimi di valore atteso sono aspettazione, valore di aspettazione, speranza matematica o semplicemente valore medio. Come nel caso della definizione 2.10, perchi: la definizione di valore atteso di una variabile f (X) abbia senso, si deve imporre che esista la somma CkIf (xk)lp(xk) o l'integrale 1 f (x)lp(x)dx. Per questo si assume sempre che una variabile o funzione di variabile, per la quale si definisce il valore atteso (2.67), sia assolutamente sommabile o integrabile sulla corrispondente densita di probabilita. In pratica, si richiede, per una variabile continua, che la densita di probabilitg tenda a zero per x + fco almeno come l/lxla con cu > 2. Tutte le densith che considereremo in seguito godono di questa proprieta.
60
Capitolo
2. Rappresentazione dei fenomeni aleatori
Esercizio 2.5 S i consideri con probabilitci pl e l'evento (A2), indipendente dal primo, col valore xz con probabilitci p2. Calcolare la media della somma ( X I X 2 ) dove X 1 e X 2 sono due variabili indicatrici definite come X 1 ( A 1 )= X I , X 2 ( A 2 ) = 2 2 e X I (A1)= 0 , ~ 2 ( A 2 = ) 0.
+
+
Risposta. Lo spettro della somma b dato dai quattro valori ( 0 O ) , ( 0 f x 2 ) , (x1+0), ( X I +x2), aventi, i n base a1 teorema delle probabilitci composte (1.20), probabilith rispettivamente pari a ( 1 - p l ) ( l - p 2 ) , ( 1 - p1)p2, p l ( l - p 2 ) e plp2. I n base alla (2.53) si ha allora:
Poiche' ( X I ) = ( 1 - p l ) - 0 + p l x l = p l x l , e lo stesso vale per X2, si pud anche scrivere: ( X l + X 2 ) = ( X l )+ ( X 2 ) , da cui si vede che la media della somma delle due variabili aleatorie b uguale alla somma delle medie.
con i valori dati dalla corrispondente distribuzzone binomiale. Risposta. Applicando la (2.52) ai dati della prima e terza colonna della tabella, si ottiene:
( x ) = m = (2.0.05
+ 3.0.13 + . . . + 9.0.01) = 5.21 ,
corrispondente ad u n totale di 521 teste su 1000 lanci. La media dei quadrati b data da:
Dalla (2.49) abbiamo allora
Applicando la stessa procedura alle probabilitci vere della quarta colonna, otteniamo:
2.10 11 c a m ~ i o n ecasuale
61
(x2)= 27.5. a2 = (x2)(x)' = (27.5 - 2 5 ) = 2.5 ,
(X) = 5.00, Var[X] = a
=
-
a= 1.58 .
S i noti l'assenza del fattore 100/99 nel calcolo della varianza, poiche' qui essa i! calcolata rispetto alla media vera. Anche in questo caso, la differenza tra i valori sperimentali m = 5.21, s = 1.57 e teorici p = 5.00, (7 = 1.58, verrci
2.10 11 campione casuale Consideriamo un esperimento che coinvolge una variabile aleatoria X ed effettuiamo N prove indipendenti. I1 risultato di questa operazione sia una N-upla di variabili (XI,X Z ,. . . ,XN), per le quali valga la condizione di indipendenza (2.10). Arriviamo quindi alla Definizione 2.12 (Campione casuale). L'insieme delle N variabili (XI, X2, . . . , X N ) indzpendenti ed aventi densitci di probabilztci p(x) viene detto campione casuale di dimensione N estratto dalla popolazione di densith p(x).
La dizione, corretta ma un po' lunga, di "popolazione di densith p(x)" , B a volte abbreviata con "popolazione p(x)". I1 concetto di popolazione, introdotto su basi intuitive nel par. 1.2, assume qui un significato preciso. Nel caso di un campione di una variabile discreta, la probabilith di ottenere un certo insieme di valori campionati, in base alla (2.10), vale:
Per capire il concetto di campione casuale ci si deve riferire ad una situazione in cui una variabile aleatoria X B campionata ripetutamente, secondo lo schema seguente: prim0 campione
x i , xb, . . . , x b
+ ml,
sf
,
secondo campione
,,,
111
Ill
, x2 , . . . , X N
terzo campione
x,
tutti i camwioni
X I . X?.
.. .. XN
4
ms, sz ,
4
M. S2 :
X1 rappresenta la variabile aleatoria "risultato della prima estrazione" o "primo elernento", mentre xy B il numero ottenuto alla prima estrazione nel secondo campione. I valori mi ed s: sono rispettivamente la media e la varianza del campione i-esimo:
62
Capitolo 2. Rappresentazione dei fenomeni aleatori
Questi valori, che stimano con un campione di dimensione finita le corrispondenti quantita vere p e a2,sono dette s t i m e della media e della varianza. Se ripetiamo la prova o il campionamento, otterremo ad ogni prova media e varianza differenti: medie e varianze campionarie m ed s vanno quindi considerate come realizzazioni delle variabili aleatorie M ed S , indicate nell'ultima riga della (2.69), che sono funzioni, nel senso della (2.9), delle variabili Xi:
Le variabili M ed S2sono funzioni del campione. In generale, queste quantitb si chiamano statistiche: Definizione 2.13 (Statistica). Dato un campione u n a densitci p(x), u n a funzione
(XI, X2, . . . , XN) da
che n o n contiene alcun parametro incognito, i u n a variabile aleatoria che prende il n o m e di statistica. Media e varianza campionarie sono quindi due statistiche che si possono ottenere dal campione. Come vedremo nel prossimo paragrafo, esse sono anche stimatori della media e della varianza.
2.11 Criteri di convergenza Occorre a questo punto precisare bene il significato dei limiti ed i criteri di convergenza utilizzati nello studio delle variabili aleatorie. Come abbiamo detto, il limite che compare nella definizione di probabilitb frequentista (1.3) k fatto sulle realizzazioni numeriche della variabile aleatoria: esso non ha un significato matematico precis0 ed indica che le prove v a n n o ripetute un n u m e r o infinito o finito di volte, m a comunque fino ad esaurire la popolazione. Questo B il significato da attribuire ad un limite ogni volta che esso B applicato ad una successione o somma di valori di una variabile (notazione in lettere rninuscole). Abbiamo chiamato questa operazione con il nome di limite frequentista. Va per6 subito chiarito che, in genere, si devono evitare scritture del tipo: 1 lirn N4oo N
rknk
= lirn
Ntoo
Enrf k = k
xxPk = ,u
(da evitare!) ,
k
perch6 nei termini pib a destra compaiono quantitb matematiche ben definite come somme, serie o funzioni, mentre a sinistra compare un limite
63
2.11 Criteri di convergenza
matematicamente indefinito. Facciamo notare, tuttavia, che questo limite i: giustificato nell'interpretazione frequentista (1.3) e che esso riproduce qualitativamente cib che succede in molti fenomeni aleatori. Ad esempio, se consideriamo il lancio di un dado {X = 1,2,3,4,5,6)ed assegniamo ad ogni faccia la probabilita di 116, secondo la (2.42) p = (1 2 3 4 5 6)/6 = 3.5. L'esperienza mostra che, lanciando un dado e facendo la media progressiva dei punteggi, secondo la (2.37), il risultato tende a 3.5 aumentando il numero dei lanci. Assegnando arbitrariamente ad ogni faccia la probabilita di 116, abbiamo simulato mediante calcolatore il lancio di un dado ottenendo, per N = 100, 1000, 100 000, 1000 000, rispettivamente le medie campionarie m = 3.46, 3.505, 3.50327, 3.500184. Per uno studio matematicamente rigoroso dei fenomeni aleatori, i: perb necessario stabilire il tip0 di convergenza di successioni di variabili aleatorie e l'entita dello scostamento dal valore limite all'aumentare della dimensione del campione. Una prima definizione rigorosa afferma che una successione di variabili X N converge verso una variabile X se, prefissato un numero e > 0 comunque piccolo, la probabilita che X N differisca da X per una quantita > e tende a zero per N -+ co:
+ + + + +
lirn P {IXN(a) - X (a)1 2 e) = 0
N+oo
,
o
lim P {IXN(a) - X (a)(
N+m
Fig. 2.8. Operazione di media di una varianza
Infatti, una statistica T N ( X ) ,funzione di un campione casuale di dimensione N second0 la (2.71), che converge in probabilith ad un valore costante
k detta stimatcre consist,ente di p. La teoria degli stimatori statistici, come quelli definiti nelle (2.70), v e r r j svolta in dettaglio pih avanti, nei capitoli 6 e 9. Tuttavia, qui vogliamo illustrarvi subito il significato di media e varianza di uno stimatore. Dato che dalle (2.66) risulta che la varianza pub essere ricondotta ad una operazione di media, sarh sufficiente discutere soltanto la media di uno stimatore. Chiediamoci ad esempio cosa significa la media della varianza:
Cib che sta tra parentesi ( ) i: una variabile aleatoria costruita eseguendo N prove della variabile X, ottenendo altrettanti valori dello spettro xi e calcolandone la varianza. La parentesi ( ) indica che si deve ripetere il procedimento un numero infinito di volte e fare la media delle infinite varianze cosi ottenute. Pertanto, nella visione frequentista, prima, si ottiene d a una serie di N' campioni di N elementi della stessa variabile X un campione della variabile (Xi - p)2I N , poi si fa la media di quest'ultimo campione per N' -+ oo. I1 procedimento i: schematizzato in Fig. 2.8. Applicando le proprietL (2.66) dell'operatore media, si ottiene:
xi
ovvero:
66
Ca~itolo2. Ra~~resentazione dei fenorneni aleatori
Questa relazione pub essere scritta come:
Gli stimatori consistenti che godono di questa proprieth sono detti corretti o non distorti. In sostanza, per questa classe di stimatori la media Vera di una popolazione costituita d a element,i TN, ciok d a stimatori ottenuti d a campioni di dimensione N , coincide con il limite all'infinito (valore vero) dello stimatore. Mostreremo pic avanti, nei parr. 6.10 e 6.11, che la media campionaria (2.52) gode delle proprieth (2.76) e (2.78), mentre la varianza rispetto alla media campionaria (2.55), privata del fattore N / ( N - I ) , non soddisfa la (2.78). In genere lo studio delle proprieth asintotiche delle variabili aleatorie e degli stimatori a d esse associati risulta piG semplice se si applica l'operatore di media ad un insieme di stimatori TN(X), invece di studiare direttamente il limite dello stimatore (2.72) per N -+ GO.
2.12 Problemi 2.1. Calcolare la probabilita di ottenere 2 volte 6 nel lancio di tre dadi. 2.2. Assegnando all'evento testa (o croce) probabilita 112, calcolare la probabilita di ottenere 3 teste in 10 lanci come rapport0 tra i casi favorevoli e quelli possibili. 2.3. Un produttore sa che la percentuale di pezzi difettosi messi in vendita 6 del 10%. In un appalto accetta di pagare una penale se; in una scatola di dieci pezzi, piii di due risultano difettosi. Trovare la probabilitk di pagare la penale. 2.4. Un giocatore scommette 60 000 lire alla roulette puntando 50 000 lire sul rosso (strategia X ) e 10000 sul numero nero 22 (strategia Y). Tenendo presente che i numeri vanno da 0 a 36 e che il banco vince se esce lo 0 mentre paga una quota pari alla posta se esce il rosso e a 36 volte la posta se esce il numero 22, calcolare il valor medio del capitale dopo una puntata. Che significato ha questo risultato? 2.5. Una variabile X pub assumere i valori {X = 2,4,6,8,10) con uguale probabilit&. Trovare media e deviazione standard delle variabili X e Y = 2X 1. 2.6. Da un'urna contenente 3 biglie rosse e 7 nere vengono estratte, senza reimmissione, tre biglie. Determinare la densitk di probabilit8 discreta, la media e la deviazione standard del numero R di biglie rosse dopo le tre estrazioni. 2.7. Trovare la densit&di probabiliti p(x), la funzione di ripartizione F(x), media e deviazione standard di una variabile continua XI definita in [ O , l ] , avente densit& linearmente crescente e tale che p(0) = 0. 2.8. Trovare il 25-esimo percentile della distribuzione del problema precedente. 2.9. Per coprire la distanza di andata e ritorno tra due punti A e B, distanti 100 Km, un'auto viaggia alla velociti di 25 Km/h all'andata e di 50 Km/h a1 ritorno. Calcolare la velocitk media del viaggio. 2.10. Dai dati di tab. 2.2 trovare il numero totale di teste sul totale di mille lanci.
+
3. Calcolo elementare delle probabilith
" La questione non i: tanto se Dio giochi a dadi, ma come lo faccia." Im Stewart, "DIO GIOCA A DADI?".
3.1 lntroduzione In questo capitolo approfondiremo le proprietb della distribuzione binomiale e dedurremo via via, utilizzando il calcolo delle probabilith, tutte le distribuzioni statistiche fondamentali. Nello sviluppare questi argomenti, ci sforzeremo di sottolinearne pic gli aspetti concettuali che quelli formali. Non eviteremo comunque nessun passaggio matematico importante, poichk riteniamo che questo aiuti ad avere quella visione coerente delle cose che vi permetterb, analizzando un qualunque problema, di capirne immediatamente gli aspetti statistici e probabilistici e di trovarne la soluzione utilizzando le distribuzioni statistiche piii appropriate. Termineremo il capitolo accennando a come utilizzare il calcolo delle probabilith nella verifica delle ipotesi. Questo argomento, che sarb sviluppato in mod0 completo piu avanti, in statistica, vi far&apprezzare meglio cib che avrete imparato e vi consentirb di compiere un salto di qualitb notevole nella comprensione di molti fenomeni naturali.
3.2 ProprietA della distribuzione binomiale La densitb binomiale, introdotta nel par. 2.6, i! la legge di una variabile aleatoria X che rappresenta il numero x di successi che si possono ottenere in n tentativi indipendenti, ognuno dei quali ha una probabilitA di success0 costante. Le proprieta di questa densith ci permetteranno di costruire per passi successivi lo schema di base del calcolo delle probabilitb per variabili aleatorie monodimensionali. La densitb binomiale & normalizzata, poichk dalla formula del binomio di Newton e dalla (2.30), si ha:
68
Capitolo 3. Calcolo elementare delle probabiliti
La media della distribuzione binomiale 6 data dalla (2.42), dove la somma va estesa a tutti i valori 0 5 x 5 n , e la probabilith pk 6 data dalla (2.30): n
n
p
= xxb(x;n,p)=
-
x=o
2=0
-
5x!(nn! z)! px (1 - P)~-"
n
n(n - I)! ppx-l(l x=1 z ( z - l)!(n - z)!
Ex
-
P)~-"
dove va notato, nell'ultimo membro, il cambiamento della somma-su x da 0 a 1, poich6 per x = 0 il termine della sommatoria i: nullo. Ponendo ora nella (3.2) z1=x-1, ni=n-I, nl-x'=n-z (3.3) otteniamo, utilizzando la (3.1): n'
( X ) = n~
C
n'! (n, -
z1=0
1!
Px'(l - p)nr-x' -np,
(3.4)
un risultato in accord0 con l'intuizione, che considera la media come valore atteso, cioi: il prodotto dei tentativi per la probabilit& di ogni tentativo. Niente affatto intuitivo e, come vedremo, estremamente importante, k il valore della varianza, alla quale si pub arrivare facilmente calcolando la media dei quadrati con lo stesso procedimento della (3.2) ed utilizzando ancora la notazione (3.3):
In base alle (2.66) e (3.4), si pub allora scrivere: Var[X] = n p [(n - l ) p
+ I]
-
n2p2 = n p (1 - p) .
(3.5)
In definitiva, si ottengono le formule fondamentali: p =n p
,
(r2
=np(l -p)
, c=JnPT1-))
(3.6)
le quali stanno alla base del calcolo delle probabilith. I1 valore della media & intuitivo, quelli della varianza e della deviazione standard non lo sono, ed k utile che li mandiate a memoria fin d a ora.
3.2 Proprieti della distribuzione binomiale
69
Esercizio 3.1 Trovare media, t~nrinn,zne devinzione standard oere per l'esperimento delle 10 m.onete riportnto in Tab. 2.2. Risposta. Poich6 nell'csperimento delle 10 monete si ndottatn la distribuzione binoniiale con n = 10 e p = 0.5, dalle (3.6) si ha immediatamente:
I risultnti sono identici a quelli ottenuti nell'esercizio 2.6, dove si sono applicnte le formule di base (2.5.z 2.50) alle probnbilitd bin~omialiriportate nella qnarta colonna della Tnb. 2.2. Esercizio 3.2 Ln probabilitd di centrare un bersn.qlio i, pari all'SO%. 'Rovare In densitd di probabilitd del nnmero n di prove necessarie per efettunre vn ceniro. Quanto on1,qono in media e la devindone standard di n ? Risposta. Si chiede di tlavnre la probabelit& del nnmero di terrtntivi n dn effettuare per avere S U C C ~ S S O ,quando la probabilitd 2: p. In qeesto cnso la variabile alentorin da considerare non 6 pi< costituita dnl numero X cli successi in TL tentatiei fissati (elre port@ alla distribuzione binomiale), ma dal numero di tentatisi n essendo il numero di successi fissnto e pnri n z = 1. A,finchi il ten,tatiuo wesinro sia coronato da successo, & necessario nacre primn n: = 0 successi in n - 1 prove; la plabahilitii di questo evento 2 data dalla denaitd binominlc (2.30):
La densitd che cerchianro, clne i. la probnbilitri di avere un successo alln esimn prom, sard qnindi data dalla probabilitd mmposta:
71,-
che prende il nome di densit&geometrica. E.ssa pud quindi essere vista come ?ma semplice applicnzione della 1eg.q~delle probnbilitd composte (I.=), dove 1e dne probabilitd si riferiscono nd n - 1 in,mccessi consecntdvi segzltti dn n n successo alla n-eszma prooa. La densitd c? nomnlizznta, perchi 2 noto dalln teorda delle ~ e r i eche
70
Capitolo 3. Calcolo elementare delle probabiliti
e quindi:
Media e varianza si trovano dalle (2.42) e (2.66) sfruttando Ee proprietci della serie geometrica. Diflerenziando due volte la seconda delle (3.8), dopo facili calcoli si ottiene:
D a queste fovmule segue che
La varianza b allora data da: 1-P . a,2 -- ( n2 ) - ( n )2 = p2
(3.12)
Probabilitci, media e deviazione standard nel caso considerato valgono:
Una media p = 1.25 sta a significare che in 12-13 prove mediamente si avranno 10 prove i n cui il success0 capita a1 primo tentativo.
3.3 La distribuzione di Poisson I1 calcolo della densit&binomiale non 6. agevole se n 6. molto grande, a causa dei fattoriali che compaiono dalla formula (2.30). Se, oltre alla condizione n >> 1, la probabilitb dell'evento i? piccola (p
Sviluppiamo ora la densita binomiale nell'intorno del suo punto di massimo. Passando ai logaritmi, otteniamo: In b(x;n,p) = Inn! - lnx! - In(n - x)!
+ x l n p + (n - z ) ln(1 - p) .
I1 punto di massimo si ottiene annullando la derivata prima di In b, utilizzando la formula di Stirling e considerando quindi x come variabile continua:
Con le approssimazioni fatte, la derivata di In x!, vale:
-
1 1 -+l+lnx-1=-+Inx-+ 22 2s
Poichi: d(ln x!)/dx
2
x,>1
lnx
(3.21)
In x, la (3.20) diventa:
Abbiamo ottenuto un primo risultato: per p >> 1, ovvero x >> 1, il valor medio diventa anche il punto di massimo. Eseguiamo ora lo sviluppo in serie di Taylor a1 second'ordine nell'intorno di questo valore. Ponendo sempre y(x) = In b otteniamo:
74
Cawitolo 3. Calcolo elementare delle wrobabiliti
dove la derivata seconda 8 stata ottenuta derivando la (3.22) e il termine in (l/n2) derivando ancora la derivata seconda. Dopo facili calcoli si ottengono le equazioni:
Dato che e g ( n p ) non 8 altro che la densit& binomiale cdcolata nel punto di massimo x = np con la formula di Stirling, dalla (3.19) otteniamo facilmente: b(x = np; n, P)
1
1
-
6
~
~
da cui:
Questa i: una forma approssimata della binomiale che vale per valori di x nell'intorno di p = np, a patto di trascurare i termini di ordine superiore a l / n nello sviluppo di Taylor (3.23). La funzione g(x; n , p), che approssima la binomiale per valori interi di x, pud essere considerata come funzione continua di x. Infatti, il fattore 1
nt=~m'
che compare nella (3.26), 6 una quantita indipendente da x, che 0i per n + oo e che assume il significato di differenziale della variabile t data da:
E allora possibile, passando a1 limite di Riemann, calcolare la somma delle probabilita di un insieme di valori di X , per valori grandi di n , come: P(xl
< X 5 x ~ ) =n+m lirn
$2
b(z; n,p) = lim 1
nt+a
x2
c xl
1
1 ( 2 - n ~ ) at ~
[--
2 np(1 - P)
Questo fondamentale risultato 6 detto teorema di DeMoivre-Laplace. Introducendo p e e definiti nelle (3.6) otteniamo infine:
I
3.4 DensitP di Gauss o norrnale
dove si 6 fatto uso dell'integrale notevole (vedere esercizio 3.4)
75
exp (-z2) dz=
J;;. La densith gaussiana o normale: 1
dx;!-b c)=
exp
[- (x it)2] ,
B quindi normalizzata e permette di calcolare, quando B integrata, la probabilith che un valore x cada in un intervallo vicino alla media p quando la varianza B u 2 . Questa i: di gran lunga la piti importante funzione di densita del calcolo delle probabilita e andrebbe pertanto ricordata a memoria. Esercizio 3.4 Dimostrare che
+m [a
exp(-x2) dx = fi .
(3.29)
Risposta. Posto
e, in coordinate polari:
da cui I = fi.Analogamente, si pud dimostrare che
La media e la varianza della distribuzione binomiale sono ovviamente date, per costruzione, dai parametri p e u che compaiono in chiaro nella (3.28). Tuttavia, utilizzando gli integrali (3.29,3.30), si pui, anche dimostrare direttamente che:
/-, x exp [-2 aff 1
(X) =
-
+0°
(3.31) cT2
76
Capitolo 3. Calcolo elementare delle probabiliti
t
Fig. 3.2. Densit&gaussiana (linea piena) e binomiale (punti) per n = 10, p = 0.4
In statistica dovremo utilizzare il momento di ordine 4 della gaussiana; tramite integrali del tip0 (3.29, 3.30), si pub mostrare che:
A,=-/
1
f i a
+O0
(T - p), exp -,
[- it)2] (x
dx = 3 04 .
(3.33)
La densiti di Gauss approssima la binomiale per p >> 1. Grazie alla rapida convergenza dell'approssimazione di Stirling (3.18), in molti casi si commette un errore minore di qualche per cento gia per p 2 10. Come regola pratica, la funzione di Gauss pub essere sostituita alla binomiale quando sono valide le condizioni p =np
> 10 ,
n(1- p)
> 10
(in ~ratica!) ,
(3.34)
che giustificano in mod0 ragionevole l'approssimazione dello sviluppo (3.23). Se p e 1 - p non sono molto vicine agli estremi dell'intervallo [O, 11, basta la condizione p 2 10. Se invece le probabilita sono molto sbilanciate occorre verificare entrambe le condizioni della (3.34). Si veda la Fig. 3.2, dove viene riportata l'approssimazione gaussiana di una densita binomiale b(x; 10,0.4). In questo caso media e varianza sono date da p = n p = 10 - 0.4 = 4 e 02 = np(1 -p) = 2.4. Pur essendo p = np = 4, n ( l - p ) = 6 < 10, l'approssimazione & gia piu che accettabile. Esercizio 3.5 Utilizzando la distribuzione di Gauss, mlcolare le probabilitlt di ottenere u n dato numero di teste nell'esperimento delle 10 monete di Tab. 2.2.
Risposta. Nell'esperimento delle 10 monete, di cui ci stiamo servendo ripetutamente per afinare la vostra sensibilitci statistica, i valori di media, varzanza e deviazione standard sono dati da:
3.5 Calcolo di distribuzioni in SCILAB
77
Questi valori, inseriti nella (3.28), permettono il calcolo delle probabilitb gaussiane richieste:
Se ricopiamo la Tab. 2.2 e riportiamo i n u n a colonna le probabilith cosi calcolate, otteniamo il risultato: spettro (n. teste)
n. di prove
frequenza
0
0
0.00
probabilitk binom. 0.001
probabilitj gauss. 0.002
d a cui si vede che, pur essendo n p = n ( 1 - p) = 5 < 10, la densitb gaussiana fornisce risultati gici in buon accord0 con la densitb binomiale. P e r questo motivo spesso la condizione (3.34) viene ulteriormente allargata ponendo
3.5 Calcolo di distribuzioni in SCILAB In ambito SCILAB h possibile calcolo di tutte le principali distribuzioni di probabilit2. Esistono infatti delle funzioni di sistema cdfxxx per il calcolo delle cumulative; i caratteri xxx sono riservati a1 tipo di distribuzione richiesta: ad esempio, se xxx vale bin, nor, poi, si ottiene rispettivamente il calcolo delle cumulative delle densitb binomiale, normale o poissoniana. Per tutte queste funzioni, sono possibili i seguenti tipi di chiarnata (per fissare le idee, consideriamo il caso della distribuzione binomiale con parametri n, p): [P,l-P]=cdfbin("Pq",X,n,p,l-p)
78
Capitolo 3. Calcolo elementare delle probabilita
[n]=cdfbin("Xn" ,p,1-p,P, l-P,X) [p,1-p] =cdfbin("PrOmprl',P, 1-P ,X ,n)
In modalita "PQnsi calcola in P il valore cumulativo da zero ad X; la modalith "S" calcola il valore X corrispondente a1 valore cumulativo P; con "Xn" viene fornito il numero n di tentativi relativo ad una binomiale con probabilit& elementare p quando il valore cumulativo tra zero e X i. pari a P; infine, con la chiamata "PrOmpr" viene trovata la probabilith p a partire da n e dal valore cumulativo P tra zero e X. Questa modalith di chiamata sono comuni a tutte le distribuzioni e possono subire alcune variazioni a seconda dei parametri matematici in gioco, che variano da caso a caso. E bene quindi, prima di utilizzare queste routine, consultare il manuale in linea di SCILAB.
3.6 Legge 3-sigma e gaussiana standard La densita gaussiana, oltre ad essere una ottima approssimazione delle distribuzioni binomiale e poissoniana B anche, come vedremo nel prossimo paragrafo, la densita limite della combinazione lineare di pi6 variabili aleatorie. Per queste ragioni essa rappresenta di certo la distribuzione pi6 importante del calcolo delle probabiliti Vogliamo qui discutere una proprieth matematica molto importante di questa funzione, detta legge 3-sigma (o 3a):
0.683 per 0.954 per 0.997 per
k=l k =2 k =3
(3.35)
che, espressa a parole, suona cosi : se X 6 una variabile gaussiana di media ( X ) = p e deviazione standard u[X] = 5, la probabilitb di ottenere u n valore x compreso i n u n intervallo centrato sulla media p e di ampiezza f a b di circa il68%, mentre se l'zntervallo k ampio 1 2 0 essa k di circa il95%; inoltre il valore x pud cadere fuori da u n intervallo di ampiezza f 3 5 solo con una probabilitb di 3 casi su mille In molti casi pratici si assume che i valori dello spettro siano tutti contenuti in un intervallo entrato su p e largo f35 (da cui il nome della legge (3.35)).Le probabilit& definite dalla (3.35) sono dette anche livelli o valori di probabilitb gaussiani. I1 calcolo dell'integrale (3.35) & difficile in pratica, perch6 la primitiva E(x) della gaussiana:
79
3.6 Legge 3-sigma e gaussiana standard
non k nota anditicamente (strano, ma vero!). L'integrale viene di solito valutato con metodi numerici, sviluppando in serie l'esponenziale e calcolando numericamente il limite della serie integrata. Si ottengono in questo mod0 i livelli di probabilita della (3.35). Sembrerebbe a questo punto necessario, per ogni gaussiana di media e deviazione standard assegnate, procedere per via numerica a1 calcolo delle probabilita cumulative negli intervalli di interesse. Questa complicazione pub essere perb evitata ricorrendo ad una gaussiana universale o gaussiana standard, che si ottiene definendo una variabile fondamentale in statistica, la variabile standard
T=
a
x-P , che assume i valori t = a
(3.37)
la quale misura lo scarto di u n valore x dalla sua media in unitci di deviazion e standard. Applicando le (2.62, 2.64, 2.65) k facile vedere che la variabile standard ha media nulla e varianza unitaria. Se ora operiamo il cambio di variabile (3.37) nell'integrale (3.36) otteniamo: 1 E(X) = -enp dt .
G
Ix (-g) 0
Questa primitiva, come B facile verificare, it legata alla nota funzione degli errori (error function) Erf(x) dalla relazione:
\
,
Essa pub essere calcolata una volta per tutte, essendo indipendente da p e a. PoichB la gaussiana B una curva simmetrica, vale anche la condizione
Considerando ora la trasformazione t = ziale, si ottiene:
4z ed integrando la serie esponen-
La somma di questa serie si trova tabulata in tutti i testi di statistica (nel nostro la trovate in appendice D nella Tab. D.1 a pagina 481), ed k presente come routine di libreria in molti prodotti software di uso scientifico. In
80
Caoitolo 3. Calcolo elementare delle wrobabilita
Fig. 3.3. Gaussiana standard g(z; 0'1) (3.42) e corrispondente cumulativa @(z) (3.43)
SCILAB i: disponibile la funzione degli errori erf con 7 cifre decimali. Invertendo la (3.39) l'integrale E(x), pub essere calcolato con l'istruzione: 0.5*erf (x/sqrt (2))
che pub essere usata in alternativa alla Tab. D.l, ottenendo anche un risultato piii accurato con 7 cifre significative. La primitiva (3.38) corrisponde ad una densith gaussiana standard
di media zero e deviazione standard unitaria. Una distribuzione avente densit&gaussiana (3.28) viene chiamata normale ed indicata spesso con N(p, g2); la variabile aleatoria corrispondente a volte viene indicata con X -- N(p, 0 2 ) , o T N(0, I), se i: standard. I1 simbolo significa "distribuito come". La funzione cumulativa della gaussiana standard, rappresentata in Fig. 3.3, viene invece indicata solitamente con @(x): N
N
Essa i! legata alla funzione (3.38) dalla relazione:
che vale anche per x < 0 grazie alla (3.40). In sostanza, il calcolo delle probabilitA integrate, con qualunque gaussiana, pub sempre essere ricondotto a1 caso della gaussiana standard, di media nulla e varianza unitaria, per il quale esiste una tabella universale. Chiariamo ~ ' U S O di questa tabella con alcuni esempi.
3.6 Legge 3-sigma e gaussiana standard
81
Esercizio 3.6 Trovare la pro Risposta. La variabile standard (3.37), nei due estremi del17intervallo da considerare, vale i n questo caso * l ; dalla Tab. D.1, riportata i n appendice D, per t = 1.00 (1.0 si legge nella riga e l'ultimo zero nella colonna i n alto) si ha P = 0.3413. Poiche' la tabella dci l'integrale tra zero e t , dobbiamo raddoppiare questo valore. Otteniamo pertanto P { p - CJ X 5 ,LA CT} = 2 x 0.3413 = 0.6826, i n accordo con la (3.35). S i noti che la tabella fornisce valori solo per 0 t 5 0.5, dato che la gaussiana standard i! simmetrica rispetto all 'origine.
t At) e 3 = {T > t ) gli eventi: "non si sono registrati arrivi fino a t At" e "fino a
+
+
88
Caoitolo 3. Calcolo elementare delle orobabilits
+
t" rispettivamente. Ovviamente {T > t At) c {T > t ) , perch6 se si verifica A si B verificato anche B, per cui P ( A n B) = P ( A ) (l'intersezione degli eventi non corrisponde a quella degli intervalli di tempo!). La probabilith condizionata (1.19) vale in questo caso:
Come si vede, I'informazione sull'assenza di eventi fino a t non ha alcuna influenza sulla legge di probabilitb dei tempi successivi. La legge esponenziale rimane invariata, qualunque sia l'istante t in cui si decide di azzerare l'orologio; essa descrive pertanto i sistemi detti senza memoria. Basta perb combinare tra lor0 piG sistemi senza memoria per avere sistemi con memoria le cui densith di probabilita temporali non soddisfano la (3.53); si vedano, nei prossimi due capitoli, l'esercizio 4.1 ed il problema 5.8. L'indipendenza t r a i conteggi in intervalli di tempo separati (condizione c) di pagina 84) implica anche l'indipendenza degli eventi "c'i: un arrivo a1 tempo t" e "non ci sono arrivi in (t, t At]". Vale pertanto la relazione:
+
P{T
> AtlT = t )
= P{T
> At}
= e P X A t,
da cui si vede che i tempi t r a gli arrivi (intertempi) sono uariabili aleatorie indipendenti di legge esponenziale negatiua. Per descrivere sistemi biologici o dispositivi dotati di memoria, che tendono a "invecchiare", di solito si usa una variante della funzione esponenziale, detta densit&di Weibull:
I parametri a e b vengono spesso determinati empiricamente dall'analisi dei dati. La curva di Weibull, per a = b = 1, i: l'esponenziale negativa; tende invece ad assumere una forma a cam ana per b > I. La corrispon7 dente funzione cumulativa vale F ( t ) = So w(t) dt = 1 - exp(-atb/b). Se ad esempio a = 2, b = 2, allora w(t) = 2texp(-t2) e dalla (3.53) risulta P{T > t + At It} = e x ~ [ - ( A t )-~ 2tAtl. La probabilith di non avere eventi fino a t + A t (ovvero la probabilith di vita, se l'evento i: la rottura del sistema) diminuisce se aumenta t. Generalizziamo ora la legge esponenziale ad eventi poissoniani non contigui, dove interessa il tempo del k-esimo evento. Gli eventi registrati sono in questo caso separati da k - 1 eventi, come in Fig. 3.5. Ponendo nella (3.48) pk-1 (t) a1 posto di po(t), otteniamo facilmente la densita erlanghiana di ordine 5 o densita gamma di Fig. 3.6: ek(t) = A- (At)'.-I .-At_ ( k - I)!
-
A* tk-1 e - A t r(k)
,
t
20 ,
(k
-
1)
>0,
(3.55)
3.8 Processi stocastici poissoniani
89
I
tempo zero
tempo zero
Fig. 3.5. Definizione di evento k-esimo nella densith gamma, relativa ai tempi di arrivo di eventi non contigui
dove r ( k ) = (k - I)! per k intero (andate a vedere, pih avanti, la 3.63). La media e la varianza di questa densit& sono date da:
Per eventi contigui, k - 1 = 0 e riotteniamo le (3.48-3.49). Quando k aumenta, la media e la varianza aumentano e la densit& del flusso X L = l / p diminuisce. La densit&gamma B per costruzione la densith della somma di k variabili aleatorie esponenziali negative indipendenti. Si pub ottenere questo risultato anche con la teoria delle funzioni di variabili aleatorie, che svilupperemo nel cap. 5 (si veda il problema 5.5). Tra le densit&di Poisson e di Erlang 6 facile mostrare che sussiste l'utile relazione: -dpkI' - e i (t) - e i + (t) ~ . dt Abbiamo visto che dalle condizioni a)-c) di pagina 84, che definiscono il process0 stazionario di Poisson, discende la (3.47), che implica la densit& esponenziale negativa dei tempi di arrivo. Mostreremo ora che vale anche l'inverso se gli intertempi sono indipendenti e di legge esponenziale negativa. Infatti, sviluppando in serie le (3.51, 3.52) segue che la probabilith di osservare un evento in un intervallo infinitesimo vale Xdt e quella di osservare pic eventi B trascurabile (un infinitesimo di ordine superiore). Inoltre, se si verificano k conteggi entro t , significa che t sta tra i tempi di arrivo Tk e Tk+l, dell'evento k-esimo e (k 1)-esimo rispettivamente. Dato che P I T k t)= P{Tk 5 t < T ~ + I } + P { T ~ + t }~,vale la relazione:
10 (e quindi anche n ( l - p) > 10, dato che p l,
pl/ (inpratica npzlo)
tempi tra eventi poissoniani
/ 1
gausslam L'
Fig. 3.10. Connessione tra le distribuzioni statistiche fondamentali del calcolo delle probabilitk
Crediamo che vi sia gi8 chiaro, e lo s a d comunque sempre di pih nel seguito, come le distribuzioni statistiche dedotte col calcolo delle probabilit a elementare forniscano uno schema coerente per I'interpretazione di una quantith veramente notevole di fenomeni naturali. Questo schema dovrebbe essere parte essenziale della formazione culturale dello scienziato, del ricercatore e, in genere, di chiunque voglia osservare la realta con occhio scientifico. Cercheremo ora di spiegare meglio questo punto, con una serie di esempi ed alcuni approfondimenti. La sola intuizione non 6 sufficiente per interpretare i fenomeni aleatori: se lanciamo in aria una moneta 1000 volte intuiamo che mediamente avremo testa (o croce) 500 volte, ma se otteniamo 450 teste e 550 croci come facciamo a sapere se il risultato i! cornpatibile col caso o se invece la moneta & truccata o i lanci non sono stati regolari? (A tra poco la risposta, nell'esercizio 3.13).
103
3.12 Come utilizzare il calcolo delle probabilita
Tabella 3.1. Le densiti fondamentali del calcolo delle probabilita
nome
gaussiana
densit&
media
- ir)2/2021 ~XP[-(X
deviazione standard
u
&u
chi-quadrato
(x2)% -' exP(-G) 25r(;)
poissoniana
P
~ e- - ~ ~t
r(k)
uniforme
&
modulo di un vettore gaussiano
&
conteggi
tempi tra variabili poissoniane
k X
v%
somma di k variabili esponenziali negative
A -
A -
X
2t 1 -
A
(OlxlA)
costante combinazione lineare d i variabili indipendenti
1' -
esponenziale
gamma
commenti
2
X
a?
variabili lative
cumu-
Utilizzando il calcolo delle probabilitb possiamo affrontare in mod0 quantitativo questi problemi, utilizzando funzioni di densitb p(x) (continue o discrete) e risolvendo somme (per variabili discrete) o integrali (per variabili continue) del tipo:
P{a 5 X che forniscono il live110 di probabilitci, cio5 la probabilitb di ottenere, se il modello rappresentato da p ( ~ &) valido, eventi con valori compresi nell'intervallo di probabilitci [a,b]. E possibile quindi giudicare se un certo scostamento dal valore atteso & cornpatibile col caso oppure no. Come abbiamo gi8 accennato a1 par. 2.6, nel primo caso si dice che si i: in presenza di una normale fluttuazione statistics
104
Capitolo 3. Calcolo elementare delle probabiliti
e che il modello rappresentato da p(x) i: valido (o meglio, che non i: stato falsificato dall'esperienza); nel secondo caso si interpreta il risultato come una deviazione significativa e si rigetta il modello. In questo tip0 di analisi si possono in molti casi utilizzare, in alternativa agli integrali del tip0 (3.92)' i valori quantili (2.19) oppure la media e la deviazione standard della distribuzione modello. In questo mod0 l'analisi risulta pi^ rapida e permette di acquisire utili automatismi mentali, facili da ritenere a memoria, che consentono di giudicare anche "a occhio", ma in mod0 rapido e corretto, i risultati sperimentali. Se sono noti i valori quantili della distribuzione, ponendo a = x, e b = xg, l'intervallo di probabiliti, rappresentato anche in Fig. 3.11, diventa:
Se X ha una densith simmetrica, spesso si usa la scrittura:
In molti casi to sono i quantili della curva normale standard (che si ricavano con facili passaggi dalla Tab. D.1); oppure della densit& di Student(che vedremo piG avanti). I quantili gaussiani su molti testi sono scritti come 2,. Livelli usati di solito in statistica sono 1 - a = 0.90,0.95,0.99,0.999, cui corrispondono i valori quantili gaussiani tl-,lz = 1.64,1.96,2.58,3.29. In alternativa, come faremo spesso in questo testo, si pub adottare la convenzione, usuale tra i fisici, che parametrizza l'intervallo di probabilith secondo la legge 30 (3.35). La deviazione standard k considerata come l'unitci di misura internazzonale delle fluttuazioni statistiche. Per calcolarne il valore, non si pub procedere per via intuitiva, ma si deve utilizzare il calcolo delle probabilith. Allora, un valore di 450 successi in 1000 lanci, & una fluttuazione statistica rispetto a 500 oppure una deviazione significativa? La risposta 6 nell'esempio che segue.
Esercizio 3.13
risultato con Z'ipotesi di Eanci casuali di una moneta non truccata?
3.12 Come utilizzare il calcolo delle ~robabilita
105
Risposta. Il modello assunto come riferimento, che in statistics verrci chiamato ipotesi nulla (null hypothesis), prevede che la probabilitci a priori di ottenere testa in u n singolo lancio sia p = 0.50 e che le probabilitci dei valori possibili di mille lanci, che vanno da 0 a 1000, si possano calcolare dalla distribuzione binomiale con media e deviazione standard date dalle (3.6):
I1 valore della frequenza empirica, cioR dell'evento osservato, 6 invece f = 0.45, che corrisponde ad un valore della variabile standard pari a
I1 risultato si scosta dal valore medio della distribuzione prevista dz 3.16 deviaxioni standard. Dato che n p = n(1 - p ) = 1000.0.5 = 500 >> 10, possiamo utilizzare l'approssimazione gaussiana per la variabile standard, ed utilizzare la Tab. D.1 della funzione gaussiana degli errori, riportata in appendice D. D a questa tabella leggiamo, i n corrispondenza di t = 3.16, il valore 0.4992. L'area della coda alla sinistra di t R data da:
che
t!
la probabilitci di ottenere per puro caso, se il modello 6 valido, valori
< 450. Fate ora bene attenzione a questo passo cruciale: se rifiutiamo il modello quando & vero, la probabilitd che abbiamo di sbagliare non i: piG grande di 8 su 10 000. S i dice anche che il dato 2 i n accordo col modello con u n livello di significativitd di 8 . I n conclusione, dato il livello di significativitci molto piccolo, possiamo dire, con una piccola probabilitci di sbagliare, che 450 successi s u mille Eanci rappresenta u n evento i n disaccordo con il modello binomiale con p = 1/2, che assume lanci indipendenti di u n a moneta n o n truccata. In genere si ritiene falsificata l'ipotesi quando il livello di significativitd osservato & a1 di sotto dell'l-5%. Tuttavia, la decisione dipende dal tip0 di problema che si sta considerando, ed i: di tip0 soggettivo. Se invece della bontb o meno di una moneta stessimo considerando la sicurezza di un aereo e un certo risultato sperimentale ci fornisse un livello di significativit& dell'l per mille rispetto all'ipotesi nulla di un difetto di progettazione, probabilmente non ce la sentiremmo di rigettare l'ipotesi e concludere che l'aereo B ben progettato. Infatti, il test indica in questo caso che un aereo su mille potrebbe cadere. I1 calcolo delle probabilitii permette di quantificare le possibilitb che vengono prese in considerazione nello studio di un problema, ma
106
C a ~ i t o l o3. Calcolo elementare delle ~ r o b a b i l i t h
spesso nella decisione finale occorre fare una analisi costi/benefici che tenga in considerazione anche fattori non strettamente matematici e statistici. Vi sono comunque casi in cui la decisione 5 facile, perch6 si raggiunge un livello di significativith cosi piccolo da coincidere in pratica con la certezza. Ad esempio, se nei mille lanci della moneta si ottenessero 420 teste, la variabile standard varrebbe 5.1 e la probabilith di sbagliare rigettando l'ipotesi "moneta buona" sarebbe praticamente nulla. Nell'esperimento reale di Tab. 2.2, come risulta dal problema 2.10 di pagina 66, si sono ottenute 479 teste su milk lanci. Questo risultato corrisponde ad un valore della variabile standard t = 1500 - 479)/15.8 = 1.39, alla quale la Tab. D.l assegna un valore di 0.4177, corrispondente ad un livello di significativith dell' 8.2%. Abbiamo qui un primo punto fermo nell'analisi dell'esperimento di Tab. 2.2 (sul quale siamo tornati e torneremo pih volte nel corso del testo): il numero globale di teste ottenute 2: in ragionevole accord0 col modello binomiale ed una probabilith a priori di 1/2. Nell'esercizio precedente si 6 fatto ricorso a1 cosiddetto test a una coda. Nell'esempio che segue si effettua invece il test a due code, in cui si scartano i valori a1 di fuori di un intervallo, cioit quelli troppo piccoli o troppo grandi. Esercizio 3.14 Qua1 i. la proba finire una moneta buona (ciod con probabilitd 112) u n numero di successi in mille lanci compreso tra 450 e 5508 Risposta. Utilizzando i dati dell'esercizio precedente otteniamo immediatamente il risultato:
il cui significato d che si scartano circa 2 monete buone su 1000 nell'ipotesi che tutte le monete provate siano buone. Chiediamoci ora, riferendoci all'ultimo esercizio, quante monete cattive si accettano. Qua1 &, in altri termini, la probabilitA di accettare come giusta una ipotesi sbagliata? In genere trovare questa probabilitb non i: facile, perch6 si dovrebbero conoscere tutte le probabilith a priori delle variabili coinvolte nel problema. Nel caso delle monete, dovrebbero essere note le probabilith vere di tutte le monete utilizzate nel test, come chiarito nell'esercizio che segue. Esercizio 3.15 Nello stock di m o n priori p = 0.6 per la faccia di interesse. Qzlal d la probabilitci di accettarla come buona adottando ancora come regola di decisione 450 x 5 5502
0 , 6 data da: P(ZO,Y) ~ ( ~ 1 x=0 pxo )
P(XO,
Y)
foo
J_,
~
(
~
Y 0) d1y
Anche in questo caso la densitd condizionata; p ( x J y ) di x rispetto ad y si ottiene scambiando le due variabili nella formula precedente. Le densit& condizionate cosi definite sono normalizzate. Infatti:
4.2 Distribuzioni statistiche multidimensionali
115
E importante notare che la densiti condizionatap(yJx)2! funzione della sola y, essendo x un valore fissato (parametro). Lo stesso vale per p(xly) scambiando le due variabili. E quindi sbagliato scrivere:
in quanto p(ylz) B funzione solo di y. Per trovare la scrittura corretta occorre rifarsi alla definizione di probabilita condizionata data dalla (1.19):
Sempre per un determinato valore fissato a priori, F: possibile definire gli operatori media e varianza condizionati. Ad esempio, il valore atteso di Y condizionato d a un valore z B dato da:
dove px(x) = Jp(x, y) dy i: un numero essendo x fissato. Le densitb marginale e condizionata discendono dal teorema 1.2 delle probabiliti composte. Infatti, invertendo la (4.13), possiamo scrivere:
che corrisponde alla formula delle probabilitb composte (1.20) per variabili continue: la densit&di (X, Y) i: data dalla densita in Y per la densita di X per ogni Y fissato (o viceversa). Quando le variabili sono indipendenti, dalle (4.6, 4.13) si ottiene: p(x1y) = px (x)
,
p(y jx) = py(y) ,
( X ed Y indipendenti).
(4.16)
La differenza tra densita marginale e condizionata pub essere ben cornpresa con l'aiuto di Fig. 4.1; la densit& marginale si ottiene proiettando semplicemente la curva in una dimensione, mentre la densita condizionata B la proiezione della curva sull'asse y (ciok la densita probabilita di y) per un determinato valore x (o viceversa). Notiamo anche che le medie e le varianze definite nelle (4.5) possono essere espresse utilizzando le densitb marginali:
116
Ca~itolo4. Calcolo delle probabiliti oer pih variabili
Fig. 4.1. La densit&marginale p y ( y ) di y rappresenta la proiezione sull'asse y della densiti dei punti (x, y) per qualunque valore di z. La funzione p ( x o , y) rappresenta invece la proiezione sull'asse y della densita dei punti in corrispondenza di un determinato valore xo (linea tratteggiata). Questa funzione, normalizzata con la (4.13)' rappresenta la densit&condizionata della variabile Y in corrispondenza del valore
xo
Occupiamoci ora della quarta delle (4.7); poichh dalla (4.8) risulta che la media della somma i: pari alla somma delle medie, otteniamo:
dove Cov[X, Yl
=
I
(x - Px) (Y - P ~ ) P ( XY) , dx dY -
Introduciamo pertanto la
Definizione 4.3 (Covarianza di due variabili). La covarzanza dz due variabili aleatorie X e Y 2 definita come
Questa grandezza ii una sorta di definizione "incrociata" rispetto alle due varianze possibili a: e a: definite nelle (4.5). Essa ii una grandezza quadratica, avente come dimensione il prodotto delle dimensioni di X e Y. A titolo di esercizio, trascriviamo la definizione generale (4.20) per i vari casi possibili,
4.2 Distribuzioni statistiche multidimensionali
117
analogarnente a quanto fatto per la varianza nelle (2.38, 2.41, 2.66). Quando si ha una densit& discreta p x y la covarianza diventa:
dove la somma si intende estesa a tutti i valori dello spettro delle due variabili. I1 calcolo diretto da un insieme di dati va invece eseguito sulla somma di tutte le realizzazioni numeriche delle variabili:
Qui la somma va fatta solo su un indice, cio&su tutte le coppie (xi, yi) che si sono ottenute, dividend0 per N - 1 quando si calcolano gli scarti dalle medie campionarie e non dalle medie "vere" assegnate a priori. L'insieme di queste coppie esaurisce, per N + oo, l'insieme dato dalle coppie (xi, yk) quando gli indici i e k rappresentano i valori dello spettro delle due variabili. Questo & un punto formale ma importante che va tenuto presente per eseguire calcoli corretti: quando la covarianza ?I calcolata attraverso la funzione di densit&, la sommatoria 2 doppia e va fatta sulle probabilitd delle coppie dei valori possibili delle due variabili; quando la covarianza b calcolata da u n insieme sperimentale di dati, la somma 6 singola e va fatta su tutte le coppie ottenute nel campionamento. I1 software SCILAB fornisce la funzione che calcola la covarianza dalla (4.21), dove x e y sono du delle probabilith o frequenze di tutte le coppie possibili (xi, yj). Per calcolare e di dati (xi, y i ) con le (4.22,4.23), abbiarno scritto dove x e y sono i vettori dei valori misurati. I1 ei commenti della funzione, k un vettore contenente la covarianza ed il coefficiente di correlazione con il relativo errore statistico, che verrA introdotto pih avanti, nel capitol0 6. Per finire, notiamo che in notazione operatoriale abbiamo:
Vale anche la relazione notevole, analoga alla (2.50):
dalla quale si vede che la covarianza k data dalla media dei prodotti meno il prodotto delle medie.
118
Capitolo 4. Calcolo delle probabilith per pih variabili
L a covarianza gode di proprieth particolarmente interessanti che verranno discusse nel prossimo paragrafo. Esercizio 4.1 p = l / X = 1000 ore
(si veda la 3.49). Viene realizzato u n dispositivo costituito dai due elementi i n parallelo, il che significa che esso funziona finche' almeno u n o dei due dispositiui 6 funzionante. Quanto 6 maggiore il tempo di vita medio del dispositivo i n parallelo rispetto a quello del singolo dispositivo? Dopo u n tempo pari a 2000 ore, qua1 t: la probabilitd che il dispositivo singolo e quello i n parallelo siano ancora funzionanti? Risposta. S e tl e t z sono i tempi di guasto dei due dispositivi, il parallelo cesserd di funzionare ad u n tempo t tale che t = m a x ( t l , t 2 ) .La probabilitb di funzionamento fino a t, cio; di u n guasto al tempo t, sara data dalla probabilitb composta che il primo dispositivo e il second0 cessino di funzionare. Dato che i due dispositivi sono indipendenti, basta allora integrare i n [ O , t ] la densitci congiunta dei tempi (4.6), come previsto dalle (4.4, 4.12): P { r n a x ( T l , T z )5 t ) = P{Tl
< t ,T2 5 t ) =
el ( t ) d t
e z ( t )d t
poiche' le due distribuzioni esponenzialz el ed ez sono uguali, dalla (3.51) si ha immediatamente:
la quale rappresenta la funzione di ripartizione monodimensionale dei tempi di guasto del dispositivo i n parallelo. Derivando la funzione di ripartizione otterremo, in base alla (2.36)) la densitd di probabilitb e p ( t ) corrispondente. S i ha pertanto: e,(t) = 2 ~ e - ' ~(1- e-'t) , la quale n o n B u n a esponenziale semplice. La media dei tempi di guasto:
corrisponde ad u n increment0 nella vita media del 50 %. Veniamo alla seconda parte del problema. La probabilitd di funzionamento dopo un tempo to = 2000 ore b data, per il dispositivo singolo, dalle (3.51, 3.52):
4.3 Covarianza e correlazione
119
La stessa probabilith, per il parallelo, k data da:
Dopo 2000 ore l'aumento di afidabilitci b quasi del 100 %. 29
4.3 Covarianza e correlazione La covarianza di due variabili aleatorie gode dell'importante proprieta di annullarsi quando le variabili sono indipendenti. Infatti in questo caso la densitb p(x, y) che compare nella (4.20) si pub scrivere, in accord0 con la (4.6)' come il prodotto px(x)py(y). Si ottiene allora immediatamente, dato che pX (x)e py ( y ) sono normalizzate:
Segue immediatarnente dalla (4.19) che, per variabili Xi tra lor0 indipendenti, la varianza della somma B pari alla somma delle varianze:
La covarianza si presta quindi ad essere un indicatore statistic0 della correlazione: tanto pih essa B diversa d a zero tanto pih le variabili sono correlate. Come, valutare per6 il grado massimo di correlazione? Come renderlo indipendente dall'insieme di dati che si sta esaminando? Questa difficolta si pub superare grazie a1
Teorema 4.2 (di Cauchy-Schwarz). Se le variabili X e Y hanno varianze finite, allora vale la disuguaglianza:
Dimostrazione. La (4.28) pub essere scritta come:
5.3 Funzioni di pih variabili aleatorie
151
0.41
Fig. 5.3. Convoluzione di una gaussiana standard con p = 0 e c = 1 (linea tratteggiata) con una densit2 uniforme limitat a tra -2 e 2 (linea tratto-punto). La curva risultante e la linea piena
Risposta. Dalle (3.28, 3.77) 5.32) si ha immediatamente:
Questa densitci non 2 altro che una gaussiana di media ( z - p) e varianza a2 integrata entro i limiti della densitd uniforme di partenza. Ricorrendo alla gaussiana cumulativa (3.43) possiamo scrivere:
Nelle misure di grandezze fisiche, spesso a110 strumento viene associata una dispersione casuale di tipo uniforme, mentre alle operazioni di misura una dispersione di tip0 gaussiano (vedi cap. 11). I n questi casi la (5.34) fornisce la legge di dispersione totale della misura, ed b pertanto importante nello studio della propagazione degli errori, che verrci svolto nel par. 11.6. La Fig. 5.3 mostra che la forma di questa densitci risultante b abbastanza simile ad una gaussiana.
Esercizio 5.2
somma di due variabili indipendenti X , Y
-
U(0,l).
4.3 Covarianza e correlazione
121
Evidentemente, la definizione dipende dal coefficiente di correlazione che viene usato nella analisi dei dati. Per il momento, usiarno il coefficiente di correlazione definito nella (4.31) ; nel seguito, nella (10.lo), daremo la definizione piir generale di questo coefficiente. Notiamo anche che qui il significato di correlazione B molto tecnico e non coincide necessariamente con il senso che il linguaggio comune assegna a questo termine. Fatte queste premesse, analizziamo in dettaglio il problema. Notiamo subit0 che, se le variabili sono correlate (cioi?il coefficiente p,, della (4.31) non 15 nullo), allora tra di esse deve esistere un certo grado di dipendenza. Tuttavia, l'inverso non B vero. Per dimostrare questo fatto, basta un controesempio: consideriamo le variabili X = U V e Y = U - V, dove U e V sono variabili uniformi in [O, I]; X e Y sono dipendenti perchi: non vale la (4.12), ma hanno coefficiente di correlazione nullo perchi: B nulla la covarianza. Infatti, dato che(U+V)=le(U-V)=0:
+
Cov[X,YI = ((X- (X))(Y - (Y))) = ((U+V-(U+V))(U-V-(U-V))) = ((U+V-1)(U-V)) = ( u 2 - v 2 - u + v ) = =
(u2)- (v2)- (U) + (V) = 0 "
poich6 U e V hanno la stessa distribuzione. Un altro punto chiave, dimostrato nella (4.26), i:che, se due variabili sono statisticamente indipendenti, allora esse sono anche incorrelate. Possiamo riassumere la discussione nei punti seguenti: condizione sufficiente perch6 vi sia dipendenza statistica B la presenza di correlazione; condizione necessaria per l'indipendenza statistica B la mancanza di correlazione (pZy = 0). Queste proprieta sono riassunte in Fig. 4.2. Esercizio 4.2 -swai2 W L S e T ,U e V U(0, l), calcolare zl coeficzente di correlazione lzneare tra la variabile: X =T
e Ee variabili:
Fare inoltre u n a verifica con dati sirnulati a1 calcolatore. Risposta. T e n e n d o presente le (3.80), per u n a generica variabile unifoforme U valgono le relazioni:
~
122
Ca~itolo4. Calcolo delle ~robabilitaper pih variabili
correlate
I incorrelate /
Fig. 4.2. Legarne tra correlazione e dipendenza statistica. Per variabili gaussiane gli insiemi delle variabili correlate e dipendenti e quelli delle variabili indipendenti e incorrelate coincidono.
mentre per u n a coppia (U, V ) di variabili unzformi indipendenti si ha: (UV)=
~
I
1
~ ( rdT)
Dalle (4.24? 4.31) otteniamo facilmente:
PPX,EI
=
( ( T - 1/2)(-T [ ( ( T - 1 / 2 ) 2 ) ((-T
S
8~
( sds) = 114
+V ) )
- --1
+ v ) ~ )-] ' a ~~ " -0.7071
.
I diagrammi di dispersione delle tre coppie di variabili sono riportati in Fig. 4.3, dove 1: possibile vedere chiaramente lo diflerenza tra due variabiY l ) e due li incorrelate ( X , Y ) , due variabili con correlazione positiva (X, variabili con correlazione negativa ( X , Yz). Si pub verificare l'esercizio con u n a simulazione utilizxando SCILAB e la noP e r generare N = 20 000 variabili uniformi x, y , correlazione basta porre: x=rand(l, 20000) ; y=rand(i,20000) ; v=rand(l, 20000) ;
yl= x + v; y2= -x + v; Corcov(x,y); / / vengono mostrati i d a t i
Corcov(x,yl) ; Corcov(x,y2) ;
...
4.4 Densit3 gaussiana bidimensionale
123
II coeficiente di correlazione p[X, Y] ( e analogamente i coeficienti p[X, Yl] e p[X,Y2]) sono stimati dalla routine con le formule;
dove si sono usati i simboli latini perche' si tratta di valori campionari (si veda la def. 2.8). La couarianza viene calcolata dai dati con u n a sommatoria unica, utilizzando la (4.22). Inoltre, si usa il fattore N - 1 al posto di N perche' le varianze e covarianze sono state calcolate rispetto alle medie empiriche e n o n rispetto a quelle vere. Questa misteriosa correzione, gici introdotta nella (2.391, verrci finalmente spiegata nel cap. 6. Dalla simulazione abbiamo ottenuto i valori:
Imparerete a decidere se la differenza tra questi valori "sperimentalz" e quelli teorici 0 , 0.7071, -0.7071 i: significativa o m e n o nel cap. 6, quando vi zntrofornisce anche gli errori sulle stime della couarianza e he sranno discussi piti avanti, nel cap. 6. d##i=wU!#%M~ll#m%%liB= - & W % d ~ V !
-A?&$-:
JJjvLdqn@l.~#d8LwL-~~J
-%bl:-
9
4.4 Densit3 gaussiana bidimensionale Anche nel caso multidimensionale moltissimi problemi possono essere trattati in mod0 esatto o approssimato supponendo di avere a che fare con variabili normali o gaussiane. Risulta pertanto quasi indispensabile studiare a questo punto la densitii gaussiana bidirnensionale. Per prima cosa, notiamo subito che la densit& g(x,y) di due variabili gaussiane indipendenti s a r i data, in base alle (3.28, 4.6), dalla semplice espressione:
124
Capitolo 4. Calcolo delle probabilith per pih variabili
2'
Fig. 4.3. Diagrammi di dispersione delle coppie di variabili considerate nell'esercizio 4.2: assenza di correlazione (a), correlazione positiva (b) e correlazione negativa (c)
I'analogo bidimensionale della densit& gaussiana standard (3.42) sar& dato
La densit&generale che vogliamo trovare deve per6 riferirsi a due variabili normali tra lor0 dipendenti e quindi, in generale, correlate con coefficiente di correlazione lineare p, p # 0. La densit&standard corrispondente dovrh percib soddisfare le proprieta non essere fattorizzabile in due termini dipendenti rispettivamente solo da u e solo da v; r avere distribuzioni marginali gaussiane standard; r soddisfare I'equazione a , , = p; a soddisfare la condizione di normalizzazione. Verifichiamo se esiste una forma funzionale del tipo
che soddisfa a tutte queste condizioni. Esse si traducono nel sistema di equazioni:
4.4 Densit3 gaussiana bidimensionale
125
Questi integrali possono essere risolti col metodo indicato nell'esercizio 3.4 e forniscono un sistema di 4 equazioni nelle 4 incognite a, b, c, d. Poichk il procedimento dettagliato, per quanto laborioso, non b particolarmente difficile n6 istruttivo, qui ne riportiamo solo il risultato finale. Se volete, potete facilmente controllare a posteriori la correttezza del risultato, che, se p # f1, risulta essere:
La (4.36) risulta allora:
E facile vedere che questa densith, come richiesto, d&luogo a due densit2 marginali gaussiane standard, per ogni p # fl. Infatti, aggiungendo e sottraendo nell'esponente il termine p2u2 ed integrando in y otteniamo:
dove si i? posto z = (v - p u ) / 4 v , dv = J m d z e si b utilizzato l'integrale notevole (3.29) dell'esercizio 3.4. Lo stesso risultato si ottiene ovviamente per la densith marginale in v. Tornando dalle variabili ridotte a quelle normali, dalla (4.38) otteniamo infine la densita:
che rappresenta la forma pi^ generale di gaussiana in due dimensioni.
126
Capitolo 4. Calcolo delle probabilith per pih variabili
A questo punto possiamo enunciare una notevole propriet& delle variabili gaussiane: quando il coefficiente di correlazione lineare i: nullo, esse sono indipendenti. Infatti, ponendo p = 0 nella (4.40), si ottiene una densith corrispondente a1 prodotto di due gaussiane in x e y. In base a1 teorema 4.1, questa B la densita di due variabili aleatorie indipendenti. La condizione p = 0, che in generale B solo necessaria per l'indipendenza, in questo caso diventa anche sufficiente. Vale pert anto il Teorema 4.3 (Indipendenza di variabili gaussiane). Condizione necessaria e sufficiente affinche' due variabili aleatorie congiuntamente gaussiane (normali) siano indipendenti, i: che il loro coeficiente di correlazione lineare sia nullo. Vediamo quindi che I'esistenza di una covarianza nulla (che implica p = 0) tra variabili gaussiane assicura la indipendenza statistica e quindi l'assenza di un legame di causa-effetto tra di esse (si veda la Fig. 4.2). Riconsiderando ora le distribuzioni marginali ridotte (4.39), notiamo che, passando dalle variabili standard a quelle normali si ottengono in x e y due distribuzioni gaussiane monodimensionali del tip0 (3.28), nelle quali non compare il coefficiente di correlazione. Emerge qui un. altro fatto importante: la conoscenza delle due distribuzioni marginali, ciok delle proiezioni della gaussiana sui due assi x e y, non basta per una conoscenza completa della densita bidimensionale, perch6 variabili correlate o incorrelate danno in entrambi i casi proiezioni gaussiane. La conoscenza della covarianza o del coefficiente di correlazione i3 quindi essenziale per la determinazione completa della distribuzione statistica delle variabili. Facciamo ora qualche considerazione sulla forma della gaussiana bidimensionale. La Fig. 4.4 riporta tre casi: variabili incorrelate, parzialmente correlate e totalmente correlate. Se immaginiamo di tagliare la curw con piani di quota costante, l'intersezione dB luogo ad una curva di equazione: u2 - 2puv $ u2 = costante
,
(4.41)
per variabili standard, e ad una curva
per variabili normali. Queste curve in generale rappresentano delle ellissi, dette ellissi di concentrazzone, con centro nel punto (px,p,). Se p = 0, l'ellisse ha gli assi principali paralleli agli assi di riferimento e degenera in una circonferenza se D~ = oy.Infine, se p = f1, le variabili sono completamente correlate e l'ellisse degenera in una retta di equazione
4.4 Densit%naussiana bidimensionale
127
Fig. 4.4. Gaussiana in due dimensioni nel caso di variabili incorrelate a), parzialmente correlate b), totalmente correlate c). Sono ankhe mostrate le distribuzioni marginali per un determinato valore xo, la retta di regressione ( Y l x ) e la corrispondente dispersione ~ [ Y l x ]
In questo caso la curva normale si schiaccia completamente su un piano, come . ha allora a che fare con una sola variabile aleatoria mostrato in Fig. 4 . 4 ~ ) Si (X o Y) essendo l'una completamente dipendente dall'altra attraverso una relazione matematica. A questo punto B necessario soffermarsi su di un'importante proprietb della gaussiana bidimensionale: quando gli assi principali dell'ellisse sono paralleli agli assi di riferimento, allora p = 0, le variabili sono incorrelate e qnindi, per il teorema 4.3, anche indipendenti. E allora sempre possibile, operando una rotazione di assi, trasformare una coppia di variabili gaussiane dipendenti in variabili gaussiane indipendenti. Questa proprieta che, come vedremo, B generalizzabile ad un numero qualunque di dimensioni, sta a fondamento del test X 2 applicato alla verifica di ipotesi in statistica. L'espressione dell'angolo di rotazione la si trova in mod0 abbastanza semplice operando sulle variabili standard (4.34) una generica rotazione di un angolo a! degli assi di riferimento:
Se non vi ricordate questa formula potete consultare un qualunque testo di fisica o geometria. Le nuove variabili A e B per essere incorrelate e indipendenti devono avere la covarianza (e quindi il coefficiente di correlazione) uguale a zero. Imponiamo dunque:
128
Capitolo 4. Calcolo delle probabilith per piir variabili
(AB) = ((Ucosa+Vsena)(-Usena+Vcosa)) = - sen a cos a ((u2)- (v2)) (cos2a - sen2 a ) (UV) 1 = - - sen 2a ((U2) - (V2)) cos 2 a ( U V ) = 0 . 2
+
+
Poichk per le variabili standard (U2) = (V2) = c2 = 1, si ottiene la condizione
Per questo valore di a il sistema (4.44) diventa:
Sono naturalmente valide le relazioni inverse:
ed anche la conservazione della norma in una rotazione, come B facile verificare: (4.48) A ~ + B ~ = u ~ + v ~ . Sostituendo le (4.46-4.48) nella (4.41) otteniamo:
Se ora consideriamo l'esponente della gaussiana standard (4.38), passando alla notazione minuscola, vediamo che esso si trasforma come:
Poich6 lo jacobiano della trasformazione (4.47) vale: du 8th d a d b -
1
-
1
I
a 1
1 1 =-+-=I 2 2
'
otteniamo:
1 1 - 2 ~ e ~ [-5 p
(5+ hi)]
da, db, ,
4.4 Densitl aaussiana bidimensionale
129
dove:
Le (4.50, 4.51) contengono due risultati di fondamentale importanza. I1 primo i! che, date due variabili gaussiane con p # f1, k sempre possibile, passando alle variabili standard ed operando una rotazione di un angolo a = f45O, definire due nuove variabili ( A ,B) tra lor0 incorrelate. L'angolo corrisponde ad una rotazione che porta gli assi principali dell'ellisse di concentrazione paralleli agli assi di riferimento. I1 doppio segno nell'angolo indica semplicemente che la rotazione pub consistere indifferentemente nel portare un determinato asse dell'ellisse parallelo all'asse a: oppure all'asse y del sistema di riferimento. I1 second0 fatto importante & che dalle variabili incorrelate (A, B) 6 possibile ottenere due variabili (A,, B,) che sono gaussiane standard indzpendenti. Poichk la somma dei quadrati di variabili gaussiane standard indipendenti, in base a1 teorema di Pearson 3.3, si distribuisce come x2,se ne deduce che due variabili gaussiane con coefficiente di correlazione p # f1, con legame funzionale dato dall'esponente della gaussiana bidimensionale (4.40), danno luogo ad una variabile X 2 ( 2 ) con due gradi di liberth:
Se p = f1, tra A e B esiste una relazione deterministica e i gradi di liberth scendono a uno soltanto. Mostreremo tra poco che la relazione fondamentale (4.52) vale per un numero qualunque di dimensioni. I1 fatto che la (4.52) sia una variabile x2 Q un fatto importante in s6, e non richiede di conoscere la forma esplicita delle variabili gaussiane indipendenti che vi compaiono: i: sufficiente sapere che esse possono sempre essere trovate, se p # 1. I1 calcolo del X 2 viene fatto di solito con le variabili di partenza del problema, anche se esse sono correlate. Per finire, studiamo le densiti normali condizionate. La densith g(ylx), per un certo x fissato, si trova facilmente applicando la definizione (4.13). Nel nostro caso questo comporta la divisione della densita (4.40) per la densit& marginale gx (x), che, in base a quanto gig detto, non 6 altro che una densit& gaussiana monodimensionale g ( x ; p x , a,) data dalla (3.28). Dopo una facile rielaborazione, si ottiene:
Dato che x B costante, questa curva corrisponde ad una gaussiana monodimensionale di media e varianza date da:
130
Capitolo 4. Calcolo delle probabilith per piir variabili
Fig. 4.5. Differenza tra retta di regressione e assi principali
dell'ellisse di concentrazione
x
Le formule appena trovate mostrano che la media di Y condizionata ad x si dispone, nel piano (x, y) ed a1 variare di x, lungo una retta, detta retta di regressione. Si dice anche che tra le medie condizionate della gaussiana bivariata esiste un legame di regressione lineare. La varianza di Y, a1 contrario, si mantiene costante e dipende d a x solo attraverso il coefficiente di correlazione. Uno sperimentatore che esegue una serie di esperimenti consistenti nel campionare Y per diversi valori x mantenuti costanti, osserva una media che si sposta lungo la retta (4.54) ed una varianza costante (4.55). La varianza condizionata Var[Y 1x1 misura la dispersione dei dati intorno alla retta di regressione ed 6 sempre 5 di quella proiettata a:. Essa dipende dall'angolo che gli assi principali dell'ellisse di concentrazione formano con gli assi di riferimento. Se p = 0 le due coppie di assi sono parallele, le rette di regressione coincidono con gli assi dell'ellisse, non c'i: correlazione e le due varianze sono uguali; se p = 1, Var[Ylx] = 0 e lungo la retta di regressione non si osserva dispersione (Fig. 4.4). La densit& condizionata g(xly), per un prefissato valore di y, e le corrispondenti media, varianza e retta di regressione si ottengono dalle formule precedenti scambiando y con x. E possibile, tra variabili gaussiane, una correlazione non lineare? I calcoli appena svolti mostrano che, se le densit& marginali (proiettate) sono entrambe gaussiane, la relazzone deve essere lineare: una relazione non lineare distorce la forma gaussiana su almeno uno dei due assi. Vi anticipiamo anche che la dipendenza non lineare verra trattata in modo dettagliato pih avanti, nel cap. 10. Notiamo infine che le rette di regressione sono, per costruzione, il luogo dei punti di tangenza all'ellisse delle rette parallele agli assi e quindi non coincidono con gli assi principali dell'ellisse (Fig. 4.5). --- Esercizio 4.3 Sono date due variabili gaussiane, X dz media p = 25 e deviazzone standard & -
131
4.4 Densith ~ a u s s i a n abidimensionale
dove YR 21 gaussiana di parametri p,, = 0 e a,, = 6 (nel cap. 10 indicheremo con S T A T X Y questo tipo di legame tra le variabili X ed Y). Determinure la covarianza e il coeficiente di correlazione tra le due variabili. Verificare i risultati con u n a simulazione. Risposta. Media e deviazione standard dz Y valgono:
(Y) = p, = 10 + ( X ) = 35
, a[Y] = o, =
da; + a:,
= 8.48
.
Definendo A X = X - p,, AY = Y - p Y , dalla (4.241 possiamo calcolare la covarianza tra le variabili come: COV[X,Y]= (AX AY) = ( A X ( A X + AYR)) = (A2x) =
02
= 36
,
(4.57)
dove si b s f m t t a t o il fatto che (AXAYR) = 0 , essendo le variabili X ed YR incorrelate per costruzione. I1 coeficiente di correlazione vale:
S i noti che, dalla (4.551, risulta Var[Yjx] = a i ( l - p 2 ) = 8.482(1- 0 . 7 0 7 ~ )= 62 -- a2y RVerifichiamo ora i risultati con u n a simulazione. Come vi spiegheremo in dettaglio nel cap. 7, disponendo del generatore r a n d o m di variabili uniformi, b possibile ~ r o d u r r e "attraverso u n calcolatore delle variabili casuali gaussiane di media e deviazione standard prefissate. Utilizzando il codice S C I L A B : x=grand(i,200000,'norJ,25,6); // 200000 variabili normali y=grand(1,200000,JnorJ, 0,6); / / di media 0 e 25 e std dev 6 y=io.+x+y; xbasc0 ; // viene pulita la f inestra grafica Hist3d(x,y,20,20,plot4=1); // grafico di Fig. 4.6
si ottengono 200 000 valori sirnulati della coppia (X, Y) in accord0 con la (4.56). Dato che S C I L A B n o n possiede routine eficaci per la rappresentaistogrammi bidimensionali, abbiamo fatto uso della nostra che fornisce un risultato come quello di Fig. 4.6, corredato die, deviazioni standard, covarianza e coeficiente di correlazione. Poiche' la correlazione tra X e Y b di tipo lineare, gli istogrammi marginal2 g(x) e g(y) hanno u n a forma di tipo gaussiano, come si pui, vedere facilmente dai grafici di Fig. 4.6. Le medie e le deviazioni standard di questi istogrammi sono u n a stima delle corrispondenti quantitci vere delle densitci g x (s)e g y ( y ) . Esse si possono calcolare tramite le (2.37, 2.39, 4.23). Dalle 200 000 coppie simulate abbiamo ottenuto:
132
Capitolo 4. Calcolo delle probabiliti per piij variabili
Fig. 4.6. Campione di 200 000 eventi, simulato a1 calcolatore utilizzando una popolazione avente la densit& gaussiana bivariata dell'esercizio 4.3. Istogramma bidimensionale g(x,y), istogrammi marginali g(x) e g(y) e vista dall'alto con le curve di densit%(in basso a destra)
Le dispersioni sono state calcolate dividend0 per ( N - 1) = 199 999 poiche' si sono utilizzate le medie empiriche. Queste quantit4 sono state indicate con lettere latine perch6 sono stime campionarie delle (4.17, 4.18). I1 coeficiente di correlazione stimato vale allora:
4.5 Generalizzazione i n uih dimensioni
133
Dato che il campione simulato contiene u n grande numero di eventi, tutti i valori che abbiamo ricauato dai dati coincidono, entro "qualche per mille", con quelli veri. Questi aspetti di convergenza saranno trattati nel cap. 6.
4.5 Generalizzazione in piir dimensioni La generalizzazione delle formule di questo capitol0 a1 caso di piu di due variabili B abbastanza immediata e non presenta difficolth particolari. La densith di probabilith congiunta di n variabili aleatorie 6 data da una funzione non negativa: P(xI,x~,-..,x~) (4.59) tale c h e , s e A & IW", P{(2,x2; . . . ,5,) E A) =
L
p(x1, 5 2 , . . . , 5%)dx1 dxz . . . dx, .
Nel caso di variabili indipendenti si ha:
La media e la varianza della variabile X k si ottengono generalizzando le (4.5):
Nel caso di pi6 variabili la covarianza pub essere calcolata con la (4.20) per una qualunque coppia di variabili (xi, xk):
Si hanno pertanto n(n - 1)/2 covarianze diverse ed n varianze. Esse sono spesso scritte in una matrice simmetrica V, detta matrice delle covarianze: Var[XI] COV[X~, Xz] . . . COV[XI,Xn] . . . Cov [X2,X,] Var[X2] ...
...
. .. . ..
. .. . ..
. ..
Var[XnI
1
(4.63)
,
dove gli elementi diagonali sono le n varianze e quelli non diagonali le n(n 1)/2 covarianze. La matrice B simmetrica perch6 ovviamente Cov[Xi, Xk]= Cov[Xk,Xi]: per questo motivo essa B stata scritta esplicitamente solo sopra la diagonale. In totale gli elementi diversi della matrice sono
134
Capitolo 4. Calcolo delle probabiliti per pih variabili
n(n - 1) 2
+n=
+
n(n I) 2 -
Sovente si introducono i coefficienti di correlazione p[Xi, X k ] ottenuti generalizzando la (4.31) e la matrice delle covarianze viene espressa anche come:
Se le variabili sono incorrelate, i termini fuori dalla diagonale sono tutti nulli, ed i termini diagonali coincidono con le varianze delle singole variabili. Invece della matrice delle covarianze talvolta si usa la matrice di correla-
la quale 6 anch'essa simmetrica. Generalizzando la (4.24) in pii3 dimensioni, la matrice delle covarianze si pub esprimere come:
dove (X - p ) 1: un vettore colonna e il simbolo t indica l'operazione di trasposizione. In questo mod0 il prodotto righe per colonne tra un vettore colonna ed uno riga fornisce la matrice quadrata simmetrica (4.63). I1 calcolo della matrice delle covarianze e dei coefficienti di correlazione a partire d a un insieme di dati pub essere fatto con la nostra routine Covarda%. Le istruzioni per l'uso si trovano nei cornmenti al codice. Le matrici V e C compaiono spesso nel calcolo delle probabilith multidimensionale. Si pub rnostrare che esse godono della fondamentale proprieth di essere definite positive: x t ~ x > O , (4.67) dove l'uguaglianza vale solo se tutti gli n elementi del vettore x sono nulli. Notate che nella forma quadratica (4.67) a sinistra compare un vettore riga x t ed a destra un vettore colonna x , in mod0 da ottenere un numero (non una matrice) che, nel caso V sia diagonale, i: una somma di quadrati del tip0
C "?Xi.
Poichi: ~t = V, (V-l)t = V-l, se x = V-'y si ottiene la relazione:
la quale mostra che anche la rnatrice inversa B definita positiva. Un'altra utile proprietii i: che, per ogni matrice definita positiva, V esiste una matrice H tale che:
4.5 Generalizzazione i n pib dirnensioni
135
dove 1 15la matrice unita. Tutte queste proprietii sono dimostrate in dettaglio nel classico testo di Cram& [22]. E possibile anche generalizzare le (4.11, 4.13) ed ottenere varie distribuzioni marginali e condizionate di una o pih variabili integrando su quelle rimanenti. La generalizzazione B ovvia e non la riportiamo. Quando le X sono variabili gaussiane, esse hanno una funzione densita data dalla generalizzazione multidimensionale della gaussiana bivariata (4.40):
dove V B la matrice delle covarianze (4.63). La densit& (4.70) B detta gaussiana multivariata e pub essere ricavata estendendo in pib dimensioni gli argomenti con i quali si B dedotta la gaussiana bivariata. Ovviarnente, i:facile verificare che la gaussiana multivariata contiene quella bivariata come caso particolare. Infatti, se p f f1:
da cui la (4.40). Se H i: una matrice che soddisfa la (4.69), attraverso la trasformazione
la forma definita positiva che compare nell'esponente della gaussiana si trasforma in:
dove si B utilizzata la terza delle (4.69). L'equazione (4.71) B pertanto l'equivalente della rotazione bidimensionale (4.44). Le move variabili Z sono ancora gaussiane perch6 combinazioni lineari di variabili gaussiane (si veda l'esercizio 5.3 del prossirno capitolo); inoltre, B facile vedere che esse hanno media nulla e che, in base alle (4.66, 4.71) ed alla terza delle (4.69), sono anche variabili standard incorrelate:
-
Dal teorema 4.3 segue che le Zisono mutuamente indipendenti e che pertanto la (4.72) B u n a variabile Q x2(n). La relazione (4.52) vale quindi anche per il caso n-dimensionale.
136
Capitolo 4. Calcolo delle probabilith per pib variabili
Se / V J= 0, tra le n variabili esistono una o piil relazioni di dipendenza lineare; 6 allora necessario individuare un nurnero r < n di variabili linearmente indipendenti e riformulare la (4.70). Pensiamo sia utile ricordarvi che due variabili sono stocasticamente indipendenti (o dipendenti) se vale (o non vale) la (4.12); la dipendenza matematica di tip0 lineare implica invece l'esistenza di equazioni di vincolo ben definite tra le variabili. Due variabili linearmente dipendenti o vincolate corrispondono statisticamente ad una sola variabile. Se l'equazione B lineare, dal teorema 4.2 di Cauchy-Schwarz risulta p = f1. Pertanto, quando si ha a che fare con variabili aleatorie espresse da forme quadratiche definite positive del tip0
dove le X sono variabili gaussiane e W 6 una matrice simmetrica, occorre sempre verificare se I WI = 0. In questo caso B necessario ridurre il numero di variabili determinando, se vi sono tra le variabili p equazioni lineari, (n - p) nuove variabili linearmente indipendenti. La teoria dei sistemi lineari assicura che B sempre possibile determinare queste nuove variabili in mod0 da ottenere ancora una forma quadratica definita positiva di dimensione n - p, per la quale valgono ancora le (4.72, 4.73). E quindi possibile esprimere la forma quadratica come somma di n - p variabili gaussiane standard indipendenti
Ti:
Possiamo a questo punto generalizzare il teorema di Pearson 3.3 come segue:
Teorema 4.4 (Forme quadratiche). Una variabile aleatoria Q -- X2(v) 2 data dalla somma dei quadrati di v variabili standard gaussiane stocasticamente indipendenti, oppure dalla forma quadratica definita positiva (4.74) di variabili gaussiane. I grad2 di libertci sono dati in questo caso dal numero di variabili presenti m e n o il numero di eventuali relazioni lineari che esistono tra di esse.
4.6 lnsiemi di probabiliti in pih dimensioni Consideriamo ora il calcolo dei livelli di probabilitL in piil dimensioni. L'analogo bidimensionale dell'integrale (3.92) B dato da:
Esso fornisce la probabilith che in una prova si ottengano le realizzazioni numeriche delle due variabili aleatorie entro dei limiti fissati. L'intervallo di
4.6 lnsiemi di probabilita in pih dimensioni
137
probabilitii si trasforma in questo caso in un rettangolo, come mostrato in Fig. 4.7a). Quando i limiti inferiori sono a = -co,c = -CQ, la (4.75) fornisce I'analogo bidimensionale della funzione di ripartizione (2.34). La (4.75) pub essere estesa in pih dimensioni considerando una variabile X = (XI, X2, . . . ,X,) e una regione D nello spazio n-dimensionale. La probabilita che una prova fornisca un vettore compreso in D 6 data allora da: p(xl, x2,. . . ,x,) dxl dx2.. . dx, .
(4.76)
Nel caso di variabili gaussiane indipendenti la (4.75) dB luogo a1 prodotto di due integrali di densit&gaussiane monodimensionali. Quando gli intervalli di probabilitii di X e Y sono simmetrici e centrati sulle rispettive medie, i livelli di probabilitii si possono ottenere come prodotto delle funzioni (3.38) definite a pagina 79:
I livelli di probabilita corrispondenti alla legge 3a monodimensionale si ottengono pertanto come prodotto dei livelli di probabilitb monodimensionali (3.35). Ad esempio, la probabilitii che entrambe le variabili siano comprese entro f a , cio&entro una deviazione standard, 6 data da: P { ( X - pxl
< a,,
IY
- pVI 5 ay) = 0.683.0.683 = 0.466
.
(4.78)
Consideriamo ora la gaussiana bivariata standardizzata per il caso di variabili incorrelate (4.35) ed operiamo la trasformazione in coordinate polari:
Poich6 l'elemento di superficie du dv si trasforma in r d r d8 (lo jacobiano della trasformazione & r ) , la (4.35) si trasforma nella funzione:
la quale non i: altro che la densitii X2 con due gradi di liberta; essa mostra che, utilizzando le variabili standard, 17eZlisse di concentrazione di Fig. 4 . 7 ~ ) si trasforma i n u n cerchio col centro nell'origine (Fig. 4.7b). Da qui & poi facile ricavare le probabilith di cadere entro l'ellisse di concentrazione avente gli assi principali pari a k volte le deviazioni standard delle due variabili:
138
Capitolo 4. Calcolo delle probabilith per pih variabili Fig. 4.7. Regione relativa alla probabilita P{IX - p z l 5 cz, IY p,l 5 a,) ed ellisse di concentrazione corrispondente per variabili normali incorrelate (a); nel caso di variabili standard, il rettangolo e I'ellisse si trasformano rispettivarnentein un quadrato e in un cerchio di semi-lato o raggio unitario centrati nell'origine (b)
da cui ottiene una sorta di legge 3u nel piano:
+ (Y - &'I2
< k2
c$
0.393 per 0.865 per 0.989 per
k =1 k =2
lc = 3
(4.81) Notate che l'intervallo di probabilita rettangolare &a della (4.78) ha una probabilith maggiore (0.466 contro 0.393) di quello della corrispondente ellisse (4.81), la quale per 5 = 1ha i lati del rettangolo come assi principali. Questo fatto B mostrato anche in Fig. 4.7, dove si vede che il rettangolo o il quadrat0 di probabilita contiene l'ellisse o il cerchio di concentrazione. Se, invece di due variabili standard (U, V), consideriamo due variabili gaussiane (X, Y) di media nulla ed aventi la stessa varianza o2 e nell'integrale (4.80) operiamo la sostituzione r + ria, otteniamo la funzione
1 r p(r) = - - exp 27r a2 la quale, integrata in dr dB, d& la densit& di probabilith nel piano per due variabili gaussiane indipendenti (X, Y) di uguale dispersione. Questa funzione B detta densith di Rayleigh, ed B l'analogo bidimensionale della densit& di Maxwell (3.73), che i: valida nello spazio. Vi sarete accorti che gli intervalli di probabilita di una certa variabile sono diversi a seconda del numero globale di variabili che viene fatto variare e del tip0 di dominio D che viene considerato nella (4.76). Fissando le idee a1 caso di due variabili (X, Y), per un certo livello di probabilitzl fissato (ad esempio 68.3%), possiamo definire ben cinque intervalli di probabilita: un intervallo (x f a,) relativo alla probabilith del 68.3% di trovare un valore di X per un qualunque valore di Y e l'analogo scambiando X con Y (e sono due), oppure l'intervallo ((Ylz) f dVar[ylz])delle (4.54, 4.55) relativo alla probabilith del 68.3% di trovare un valore di Y per un valore fissato xo e l'analogo per X per un valore fissato yo (e sono quattro) ed infine possiamo definire una
4.6 lnsierni di probabilith in pib dimensioni
139
regione bidimensionale D in cui cade il 68.3% dei punti di (X, Y). Le densita coinvolte nei cinque casi sono rispettivamente le densita marginali px(x), p y (y), le densita condizionate p(y lzo),p(xlyo), e la densitb congiunta p(x, y). La regione del piano D dove effettuare le stime multidimensionali it quasi sempre l'ellisse di concentrazione:
dove l'espressione a destra della freccia vale ovviamente in caso di variabili incorrelate. Questa regione possiede delle proprietA importanti che esaminiamo brevemente. Nel caso di n variabili gaussiane, in base a1 teorema 4.4, la variabile Q ha distribuzione x2(n). Questo permette di utilizzare, nel calcolo dei livelli di probabilita associati all'ellisse di concentrazione rnultidimensionale (4.83), le tabelle D.3 e D.4 dei livelli di significativitA della densit& x2 riportate in Appendice D. Dato che la densith marginale di ogni variabile B gaussiana, la variabile
segue la densit&x2(-1).I livelli di probabilita corrispondenti a {Qi = 1,4,9) non sono altro, come sappiamo, che i livelli di probabilita gaussiani del = 1,2,3) della variabile 68.3%, 95.4% e 99.7% corrispondenti ai valori gaussiana standard non quadrata: P{Qi 5 X 2 ) = P{Ti Le tabelle D.3 e D.4 sono due modi diversi di calcolare le probabilita relative alla distribuzione x2: per ottenere i valori riportati nella Tab. D.4 per un determinato livello di probabilith a: basta trovare il corrispondente livello 1 - a in Tab. D.3 e moltiplicare il chi-quadrat0 ridotto x;(v) della tabella per i gradi di liberta v del problema (si noti infatti che la Tab. D.4 riporta i valori di del X 2 totale, non di quello ridotto). La differenza tra i livelli di probabilit& di ogni singola variabile e quelli congiunti i. mostrata, per il caso bidimensionale, in Fig. 4.8, dove il valore x2 = 2.30 i:tratto dalla Tab. D.4 per v = 2. Guardando la figura dovete fare attenzione ad un fatto importante, che useremo spesso in seguito: le proiezioni sugli assi della curva corrispondente a X 2 = 1 definiscono gli intervalli ad 1a delle variabili, riferite alle rispettive densitci marginali. Questa proprieth, ovvia in una dimensione, si dimostra anche per due variabili ponendo uguale ad 1 la funzione x2 (4.52):
{a
< a).
e considerando l'intersezione di questa curva con la retta di regressione (4.54) v = pu. Si trova facilmente la soluzione, che Q u = f1, corrispondente ad un intervallo ( f i x icx).Lo stesso vale ovviamente per la proiezione sull'asse y.
140
Ca~itolo4. Calcolo delle ~robabilitaaer aii! variabili uesta banda contiene 8.3 % dei valori di x
Fig. 4.8. Regioni di probabilita in una e due dimensioni. La curva corrispondente a X 2 = 2.30 contiene il 68.3% delle coppie di variabili. La proiezione sugli assi della curva X 2 = 1fornisce gli intervalli di probabilith ad 1c per ognuna delle variabili
l'ellisse contiene
Analogamente a1 caso monodimensionale, spesso il modello gaussiano & ragionevolmente valido anche per una gran parte di fenomeni statistici in piii dimensioni. L'uso dell'ellisse di concentrazione e della densita X2 fornisce allora un mezzo molto potente per prevedere la probabilitk di un risultato sperimentale costituito da una n-upla di valori (XI, x2, . . ., x,). Se invece il problema non consente l'uso del modello gaussiano, 2 necessario ricorrere alla risoluzione degli integrali (4.76) definendo opportune regioni di probabilitb, di solito ipercubiche o ellittiche, e tenendo conto con cura delle correlazioni tra le variabili. Spesso, per raggiungere questo difficile obiettivo, si ricorre ai metodi di simulazione Monte Carlo descritti nel cap. 7.
4.7 La distribuzione multinomiale La densit2 binomiale (2.30) individua la distribuzione di probabilith della variabile I = (Il,I2) definita come istogramma sperimentale di N eventi suddivisi in due canali con conteggi Il ed I2 rispettivarnente, quando le probabilita vere che una osservazione cada nei canali 1 e 2 sono rispettivamente p = p l e (I-p)=p2:
+
+
\
,
con (PI p ~ = ) 1 e (nr nz = N). Questa equazione si presta ad una immediata generalizzazione al caso di un istogramma generic0 con un numero 5 di canali. La densit2 che si ottiene, detta multinomiale, rappresenta la probabilit& che la variabile aleatoria I = (11, Iz, . . . , Ik)fornisca un iptogramma sperimentale con un numero determinato di eventi ni in ognuno dei canali, quando sono note le probabilita a priori pi:
141
4.7 La distribuzione rnultinomiale
(PI
+ p2 + . . . + p k ) = 1,
(n1
+ n2 + .. . + nk) = N
.
(4.88)
Poich6 ogni variabile, rispetto a tutte le altre, soddisfa i requisiti della densit& binomiale, valgono le relazioni:
Le variabili (11, 4 , . . . ,I k ) sono perb dipendenti a causa della seconda delle (4.88). La lor0 covarianza puh essere calcolata direttamente con la (4.62) oppure in mod0 molto piu semplice utilizzando la legge di trasformazione della varianza. I1 calcolo verrb svolto nel prossimo capitolo, nell'esercizio 5.11. I1 risultato 6 la formula (5.86), che qui anticipiamo:
La covarianza 6 negativa, perch6 l'aumento del numero di eventi in un canale comporta la diminuzione del numero degli eventi negli altri canali. Nel caso monodimensionale, la densita binomiale tende rapidamente alla densita gaussiana. La stessa proprieth vale anche per 13 densitb multinomiale, il che i: un fatto di grande importanza per studio degli istogrammi che faremo in statistica. L'equazione (3.24), valida per Np, N ( 1 - p) > 10, si pub infatti anche scrivere come:
- - -
dove l'ultima uguaglianza, ottenuta ponendo p p l , (1 - p) pz, n n l , ( N - n) n2, suggerisce una forma simmetrica che pub essere generalizzata a1 caso di n variabili (trovate la traccia della non facile dimostrazione in [42]). Possiamo pertanto scrivere il risultato fondamentale:
dove la somma va estesa a tutte le k variabili che compaiono nelle somme (4.88). Abbiarno pertanto approssimato la densitb multinomiale con una densit6 gaussiana multidimensionale, dove nell'esponenziale compare la somma dei quadrati delle variabili. Tuttavia, le variabili sono correlate attraverso la (4.88) e quindi i gradi di libert& sono in realta solo k - 1. Se ora combiniamo questo risultato con il teorema 4.4, arriviamo all'importante conclusione che possiamo enunciare come: Teorema 4.5 (Somma di Pearson). I n un istogramma di k canali, costruito a partire da u n campione casuale dz dimensione N e avente probabilitb Vera pi i n ogni canale, la variabile
142
Capitolo 4. Calcolo delle probabilith per piir variabili
dove Ii & il numero d i eventi osservati in ogni canale, tende ad avere, per + co,densitci X 2 con k - 1 gradi d i liberta.
N
Questo teorema, come vedremo, Q l a chiave di volta per l'impiego del test in statistics e pub gi8 venire applicato con ottima approssimazione se
X2
Npi> 10. Notiamo anche che nella (4.93) n o n compare la somma dei quadrati di variabili standard, perch6 la varianza delle variabili Ii & d a t a dalla (4.89) e le variabili sono correlate. Pertanto il teorema generalizza in mod0 non banale i risultati del teorema 3.3, che si riferivano a somme di quadrati di variabili gaussiane standard indipendenti.
4.8 Problemi 4.1. Se X e Y sono due variabili uniformi ed indipendenti negli intervalli 10, a] e [0,b] rispettivamente, trovare la densit&congiunta p(x,y).
4.2. Se Xi, i = 1,2,3 sono tre variabili gaussiane indipendenti di media pi e varianza u:, trovare a) la striscia che contiene il 90% dei valori di X I , b) l'ellisse che contiene il 90% dei valori delle coppie ( X I ,X2) e C) l'ellissoide che contiene il 90% delle n-uple (XI,Xz, X3).
4.3. Se X e Y sono variabili aleatorie indipendenti, vale l'uguaglianza (Ylz) = (Y)? 4.4. Calcolare approssimativamente per via grafica il coefficiente di correlazione dall'ellisse di concentrazione di Fig. 4.6 (in alto a destra).
4.5. Se Z = a x
+ b e U = cY + d con ac # 0, calcolare p[Z,U ] .
4.6. In una popolazione la statura B una variabile gaussiana pari a (X) fa [ X ]= 175 f8 cm per gli uomini e (Y) fu[Y]= 165 f6 cm per le donne. Supponendo che non vi sia correlazione, trovare la percentuale di coppie con uomo e donna pih alti di 180 e 170 cm rispettivamente.
4.7. Come risolvereste, in linea di principio, il problema precedente nel caso piii realistic0 (le coppie tendono infatti ad avere statura omogenea) di un coefficiente di correlazione p = 0.5 tra la statura del marito e quella della moglie? 4.8. Nel lancio indipendente di due dadi si accetta il valore del secondo dado solo se il numero & dispari, altrimenti si assume come secondo valore quello del primo dado. Indicando con X e Y la coppia di valori ottenuti in ogni prova, trovare, per le due strategie, la densit&di probabilith, le densith marginali di X e Y, la media e le deviazioni standard di X e Y e la loro covarianza.
5. Funzioni di variabili aleatorie
" I libri di testo traboccano di trionfi dell'analisi lineare, i cui insuccessi sono sepolti cod in profondita che le tombe non sono segnate e la loro esistenza passa inosservata. " Ian Stewart, L L D GIOCA ~ ~ A DADI?" .
5.1 lntroduzione Prima di passare alla statistica ci rimane ancora questo capitolo, in cui affrontiamo il problema seguente: se consideriamo pih variabili aleatorie X, Y ,. . . definite sullo stesso spazio di probabilith e le combiniamo in una funzione Z = f (X, Y,. . .) del tip0 (2.9), otteniamo u n a nuoua uariabile aleatoria 2; se conosciamo la densith di probabilith congiunta pxy...(z, y; . . .) delle variabili aleatorie di partenza, quale sara la densita p z (2) della variabile Z? Per fissare le idee, consideriamo il caso di due variabili X e Y. Sono allora coinvolte due densit&di probabilit5 pxy e p z e una funzione f (x, y), second0 lo schema seguente:
Le densiti pxy b nota, f (x, y) rappresenta un legame funzionale assegnato (somma, prodotto, esponenziale o altro) e il problema consiste nel determinare la densita p z della nuova variabile casuale 2. Questo schema, che pub essere esteso in mod0 ovvio ad un qualunque numero di variabili, rappresenta I'essenza del problema che vogliamo risolvere. Le densit&di probabilith verranno sempre indicate con la. lettera p(. . .), i legami funzionali con la lettera
f ( - . .). La variabile aleatoria Z resta definita in funzione dei risultati a e b delle prove che realizzano X e Y, second0 lo schema di Fig. 5.1:
Nel caso di variabili discrete, la probabilit& che Z appartenga ad un certo insieme numeric0 & 6 allora data, in base a1 teorema 1.1, dalla probabilith di ottenere {X E Rx} e {Y E Ry } (ovvero a E A e b E B) sommata su tutti i casi che soddisfano la condizione x E Rz:
144
C a ~ i t o l o5. Funzioni di variabili aleatorie
I
I
campo reale
Fig. 5.1. Definizione della variabile aleatoria Z = f ( X ,Y )
(5.1) Se X e Y sono indipendenti, dal teorema 1.2 delle probabilitii composte si ha anche: P{ZERZ)= P { X € R x ) P { Y E Wy). (5.2) [ G Y : ~(Z,Y)ERZI
La Fig. 5.1 mostra schematicamente il significato della (5.1). Consideriamo ora un semplice esempio: siano X e Y i punteggi che si ottengono lanciando due volte un dado (1 5 X, Y 5 6) e sia Z = f (X,Y) = X + Y la somma dei due punteggi. Definiamo IRz l'insieme dei risultati minori di 5 ( Z = X +Y < 5) e calcoliamo la probabilitA P{Z E Rz ). Se le due prove sono indipendenti, vale la (5.2) e la probabilitd di ottenere una coppia (z, y) vale 116 x 116 = 1/36. La (5.1) prescrive di sommare le probabilita di tutte le coppie per le quali Z < 5: (1,1), (1,2), (1,3), (2,1), (2,2), (3,l). Si hanno 6 coppie e quindi P{Z < 5) = 6/36 = 116. Nel seguito procederemo per passi successivi, considerando prima una variabile, poi due variabili, ed indicando infine come estendere il procedimento a n variabili. Mostreremo anche come sia possibile, limitandosi solo a110 studio della trasformazione della media e della varianza attraverso la funzione f , arrivare ad una soluzione semplice e generale, anche se approssimata, del problema.
5.2 Funzione di una variabile aleatoria Sia X una variabile casuale continua di densitd px(z) e sia Z una variabile casuale legata a X dalla relazione funzionale:
Per determinare la densit&p ~ ( z basta ) applicare le note regole sul cambia-
5.2 Funzione di una variabile aleatoria
145
mento di variabile in una funzione,,facendo per6 attenzione a come si trasformano gli intervalli di probabilita. E quindi opportuno ricorrere agli integrali di probabilith definiti dalla funzione di ripartizione ed utilizzare le relazioni chiave (2.29, 2.36). Oltre a queste equazioni, ci serviremo del teorema di Leibnitz di derivazione di un integrale, la cui dimostrazione pub essere trovata su molti testi di analisi matematica. Data una funzione z = f (x), se x = f-'(z) esiste ed it derivabile in [xl , x2], vale la relazione:
dove l'apice indica l'operazione di derivata. Consideriamo ora una generica funzione f (X) continua come in Fig. 5.2, e determiniamo la probabilith che Z sia minore di un determinato valore zo. In sostanza, dobbiamo trovare la probabilit2 che Z si trovi al di sotto della retta z = zo di Fig. 5.2. Dalle (2.29, 5.1) e dalla figura otteniamo:
dove Fz it la funzione cumulativa di Z e gli intervalli A isono indicati sempre in Fig. 5.2. Questi intervalli, tranne il primo e l'ultimo, hanno come estremi le radici reali X I ,x2,. . .,xn dell'equazione (5.3):
L'equazione (2.36) ci assicura che, deriwndo la (5.5), otterremo la densith di probabilith cercata. Poichk dalla Fig. 5.2 si vede che l'estremo inferiore di ogni
146
Caaitolo 5. Funzioni di variabili aleatorie
intervallo Ai non dipende da z (e quindi h a derivata nulla) oppure, quando dipende da z , ha derivata sempre negativa (la funzione decresce), applicando la formula di Leibnitz (5.4) alla (5.5) possiamo scrivere la densit&pz(z) come somma di termini tutti positivi, prendendo il valore assoluto delle derivate delle radici reali (5.6):
-
d F z (2) PX (21) PX (22) = pz ( z ) = ------ + -+...+-px(xn) dz I f ' ( 4 lf1(x2)1 Ifl(xn)I '
(5.7)
dove il membro a destra i! una funzione di zo z tramite l'inverso delle (5.6). II risultato 6 sempre positivo, come si richiede per una densit& di probabiliti. Quando esiste una sola radice reale dell'equazione (5.3) e p ( ~ ) 0, questa formula coincide con il solito metodo di sostituzione di variabile in un integrale. Questo metodo 15 gih stato tacitamente applicato negli esercizi 3.10 e 3.11 sulle distribuzioni di Maxwell e di Boltzmann. Applichiamo ora l'equazione fondamentale (5.7) a qualche altro caso significativo. Nel caso in cui l'equazione (5.3) sia data da:
>
la (5.6) ammette la sola soluzione:
Poichk f '(a)= a, dalla (5.7) si ottiene:
Se invece consideriamo il legame funzionale:
Z = f (X) = a x 2 , la (5.6) ammette le soluzioni:
che danno luogo alle derivate:
le quali, inserite nella ( 5 . 7 ) ,permettono di determinare la densit& cercata:
5.3 Funzioni di pib variabili aleatorie
147
Se la densith px(x) di partenza k la gaussiana (3.28) e si applica l'equazione (5.8), la (5.9) diventa:
la quale k una gaussiana di media e varianza date da
Notiamo che, poich6 la trasformazione (5.8) i! lineare, le (5.14) si possono dedurre direttamente anche dalle (2.62, 2.63). Nel caso di una trasformazione quadratica (5.10) di una variabile proveniente da una distribuzione gaussiana di media nulla, la (5.12) diventa:
che B la densita gamma (3.55) con k = 1/2. La media e la varianza possono essere ottenute dalle (3.56), oppure integrando per parti le (2.53, 2.56), e sono date da: pz = U(T2 , a : = 2a 2 04 . (5.16)
5.3 Funzioni di pib variabili aleatorie Generalizziarno i risultati del paragrafo precedente a1 caso di funzioni di piG variabili aleatorie. Consideriamo per primo il caso semplice di una sola variabile Z funzione di n variabili aleatorie:
L'analogo della funzione di ripartizione o cumulativa (5.5) i: in questo caso dato dall'equazione:
(5.18) dove p x (xl, 22, . . . ,x,) k la densith di probabilita delle n variabili e D B I'insieme che comprende tutte le n-uple X = (XI,xz, . . . , x,) tali che P{Z zo), in accord0 con la (5.1). E bene notare che la densith di probabilith delle variabili X compare solo come argomento dell'integrale, mentre il legame funzionale Z = f ( X ) compare esclusivamente nella determinazione del dominio di integrazione D. La derivazione della cumulativa (5.18) risolve in molti casi il problema della determinazione della densit&p,. Questo metodo B Ia generalizzazione
10. Ebbene, se le variabili di partenza sono gih gaussiane, questa condizione pub essere rimossa e la proprietd vale per qualunque N . L'insieme di queste proprietd sta alla base del ruolo centrale che la densiti gaussiana o normale assume sia nel calcolo delle probabiliti sia in statistics. Esercizio 5.4
dove X e Y sono due variabili intere poissoniane indipendenti rispettivamente di media p~ e p2. Risposta. La (5.32), per variabili intere X , Y 2 0 , va riscm'tta come:
dove la densitd px, py ii la poissoniana (3.14).
Sz ha pertanto:
154
Capitolo 5. Funzioni di variabili aleatorie
Moltiplicando e dividend0 per z ! e ricordando la formula del binomio di Newton:
si ottiene:
+
.
.
da cui rzsulta che la densitd cercata P: una poissoniana di media (pl p2). Notiamo che, diversamente dal caso gaussiano, solo la somma, ma non la differenza di variabili poissoniane b poissoniana. Infatti, se Z = Y - X , b possibile avere Z 5 0 e nella (5.40) compare il termine ( z + x)! invece del termine ( z - z ) ! . E chiaro allora che la distribuzione della dijferenza 12 diversa da quella di Poisson. Nei due esercizi che seguono determineremo le densit&di Student e di Snedecor, di cui ci serviremo pih avanti in statistica. Quindi, non saltate gli esercizi (leggetene almeno l'enunciato e la soluzione) e fate attenzione.
Esercizio 5.5
una variabile gaussiana standard e la radice quadrata di una variabile Q R di densitd X 2 ridotto con v gradi di libertci. La variabile gaussiana e la variabile Q R siano tra loro indipendenti. Risposta. Denotiamo con X la variabile gaussiana standard di densitci (3.42) e con Y la variabile X 2 di densith (3.65). Dobbiamo allora trovare la densith della variabile
Poiche' le variabili sono indipendenti, possiamo applicare la (5.28), dove
Abbiamo allora, utilizzando il prodotto delle densitci (3.42, 3.65):
Operiamo ora nell'zntegrale il cambio di variabile:
5.3 Funzioni di pih variabili aleatorie
155
ed otteniamo:
Ricordando l'espressione integrale (3.62) della funzione gamma, ed operando le necessarie semplificazioni algebriche, otteniamo infine:
Questa B la famosa densitci t di Student. Generalmente essa viene scritta come densith di una variabile t , ponendo anche fi = I'(1/2), come risulta dalle (3.63). Ecco pertanto il risultato finale, relativo a una variabile t espressa come rapport0 tra una variabile gaussiana standard e la radice quadrata di una variabile ( u ).
xi
I valori integrali della densitci di Student sono riportati nella Tab. D.2 in appendice D a pagina 482. Dalla tabella e dalla Fig. 5.4 potete verificare che,
per u n numero di gradi di libertci > 20 - 30, la densitci coincide praticamente con una gaussiana. I valori della media e della varianza della distribuzione si possono ricavare, come sempre, dalle (2.53, 2.56), ottenendo:
da cui risulta che la varianza 6 definita solo per u > 2 . Per u 5 2 la funzione s,(t) B u n esempio, insolito m a n o n impossibile, di densitci che n o n possiede varianza. I n questo caso la parametrizzazione dell'intervallo di probabilztd (3.92) zn termini dz deviazzone standard n o n B pi& possibile, ed B necessario, per ricavare i livelli di probabilith n'chiesti da u n problema, calcolare direttamente l'integrale della densita entro i lzmiti assegnati. Queste probabzlzta si possono anche ricavare dalla Tab. 0 . 2 . In S C I L A B esiste la funzione c d f t per il calcolo della densitci di Student. Le sequenze di chiamata sono le seguenti: Cp, ql = c d f t ("PQ",t ,Df) [t] =cdft ("T", D f ,p,q)
C ~ f l= ~ d f t ( + ~ D f " , p , q , t )
156
Capitolo 5. Funzioni di variabili aleatoric
Fig. 5.4. Densit&di Student per 1, 5 e 20 gradi di libertb. La linea tratteggiata 6 la gaussiana standard
C o n la chiamata TQ" viene calcolato 1'integrale.p (ed il suo complement o q = I-p) tra -oo ed il valore t nel caso di D f gradi dz liberth. C o n la chiamata 'T" viene calcolato il quantile t corrispondente alla probabilitci p, mentre con la chiamata 'Df " vengono trovati i gradi di libertti corm'spondenti
Esercizio 5.6
due variabili indzpendenti x2 ridotto con p e v gradi di libertri:
Poiche' la tradizione vuole che si indichi il rapport0 (5.44) seempre in lettere maiuscole, indicheremo con F i ualori assunti dalla variabile di Snedecor F . Risposta. P e r n o n appesantire la notazione, definiamo:
Y = f-'(F,X)
=F X ,
at-1
----
=x.
8F La densitri x2 ridotto con u gradi di liberti b data dall'integrando della (3.70):
dove:
5.3 Funzioni di piS variabili aleatorie
157
I n questo caso la relazzone base (5.28) diventa:
Eseguendo ora il cambio di variabile:
d
otteniamo infine:
Ricordando la (5.45) e notando che l'integrale non 13 altro che la funzione v)/2] i n accord0 con la (3.63), otteniamo finalmente:
r[(p
+
=
C,,
F ~ ( P -(@~ ) + v)-
;(p+u)
>
(5.46)
che rappresenta la famosa densitci F di Snedecor per la variabile F . Essa d riportata i n Fig. 5.5. La media e la varianza si calcolano come a1 solito dalle (2.53, 2.561, e sono date da:
Queste due equazzoni sono definite per u > 2 e v > 4, rispettivamente. Per i gradi di libertci p,v + oo la densitb F tende ad essere gaussiana; tuttavia, come si vede dalla figura, la conuergenza verso questa forma & piuttosto lenta. I valom' del rapport0 F F,(p, v) corrispondenti ai percentzlz del 95% (u = 0.95) e del99% (u = 0.99) e quindi ai livelli di szgnzficativitu del5% e dell'l% a destra della media,
=
158
Capitolo 5. Funzioni di variabili aleatorie
sono molto usati in statistics nell'analisi della varianza. Essi sono riportati nelle tabelle D.5 e D.6 dell'appendzce D , alle pagine 485 e 486. I percentili (u = 5%) e (u = I % ) , coincidenti coi livelli di significativitci delle code a sinistra della media, i n genere n o n vengono dati, perch6 tra i walori quantili sussiste la relaxione: 1 La (5.49) pud essere dimostrata notando che, per dejinizione:
e che, dato che la variabile F 6 u n rapporto: 1 se F segue p,,,(F) allora - segue p , , ( F ) F S i pud dun,que scriwere:
da cui la (5.49). In SCILAB esiste la funzione cdff per zl calcolo della densitct F . Le sequenze di chiamata sono le seguenti:
C o n la chiamata 'PQ" viene calcolato l'integrale p (ed il suo complemento q = tra -w ed il valore f nel caso di Dfn e Dfn gradz dz libertd. C o n la chiamata T " uiene calcolato il quantile t corrispondente akka probabilztd p, mentre con le chiamata 'Dfn" e 'Dfd" vengono trovati i gradi di libertd corrispondenti ai parametri indicati nella funxione. Sul problema delle funzioni di variabili aleatorie si possono scrivere dei libri (ed infatti sono stati scritti...). Se vi piace l'analisi e volete approfondire ulteriormente l'argomento, potete consultare il testo di Papoulis 1631.
5.4 La trasformazione della media e della varianza Come avete visto, la determinazione della densit2 di probabilitb di una variabile espressa come funzione di altre variabili aleatorie k un argomento
5.4 La trasformazione della media e della varianza
159
Fig. 5.5. Densitb della va-
0
1
2
3
4
5
6
7
F
8
riabile F di Snedecor d* ta d d rapport0 di due variabili X 2 ridotto aventi rispettivamentep e v gradi di libertA
piuttosto complesso. Negli esempi che abbiamo fin qui sviluppato, abbiamo gig incontrato discrete complicazioni matematiche, pur essendoci limitati al caso piG semplice di due sole variabili indipendenti. . Fortunatamente, come nel calcolo delle probabilith elementare, quasi sempre una soluzione approssimata ma soddisfacente del problema pub essere ottenuta determinando, invece che le forme funzionali complete, solarnente il valore centrale (media) e la dispersione (deviazione standard) delle funzioni densit&coinvolte. Questo B quanto ora ci proponiamo di fare. Cominciamo dalla situazione piii semplice, quella di una variabile Z funzione di una sola variabile aleatoria X
di densith nota px (2). Supponendo che f sia invertibile, X = f - l ( Z ) e la media della variabile Z si ottiene dalla (2.53),dalla (5.7) e differenziando la (5.50):
Risulta pertanto che la media di Z & data dalla media di f (X) sulla densit&di partenza p x ( x ) , in accord0 con la (2.67), che 6 la definizione di valore atteso. Questo risultato, valido anche nel caso multidimensionale sotto le condizioni del teorema 5.1, consente di ottenere in mod0 corretto e abbastanza semplice il valore centrale della densith di 2. In molti casi si ricorre per6 ad una formula approssimata, che si ottiene sviluppando a1 second0 ordine in serie di Taylor la funzione f (x) nell'intorno
160
Capitolo 5. Funzioni di variabili aleatorie
del valor medio p della variabile di partenza X:
Inserendo questo sviluppo nella (5.51), si verifica facilmente che il termine associato alla derivata prima si annulla e che vale pertanto la relazione
dove 0 6 la deviazione standard di X. Questa importante relazione mostra che la media della funzione f (cioi di 2) t: pari alla funzione della media piQ u n termine correttivo che dipende dalla concavitd della funzione nebl'zntorno della media e dalla varianza di X . Se la relazione (5.50) 6 di tip0 lineare,
allora la derivata seconda nella (5.53) si annulla e si ottiene:
Nel caso non lineare, si pub mostrare che (2)2 f ( ( X ) )se f" ((X)) > 0, mentre ( 2 )5 f ((X)) se f" ((X)) < 0 . Veniamo ora alla trasformazione della varianza. Analogamente alla (5.51) si pub scrivere:
Ricordando il risultato approssimato (5.53) ed utilizzando per la funzione f lo sviluppo a1 second0 ordine (5.52), possiamo scrivere:
Svolgendo il quadrat0 nell'integrando e ricordando la definizione (2.58) dei momenti di una distribuzione, dopo una rielaborazione un po' lunga ma facile si ottiene:
dove Ai sono i momenti definiti nella (2.58) di pagina 57. Dato che questa i: comunque una relazione approssimata, spesso 6 sufficiente conoscere solo l'ordine di grandezza dei momenti per poter effettuare una stima accettabile
161
5.4 La trasformazione della media e della varianza
della varianza di Z. Se la densit&di X i:simrnetrica intorno alla media, allora. A3 = 0. Se, oltre ad essere simmetrica, la densita i:gaussiana, allora, in base alla (3.33), A4 = 3 c4 e la (5.56) diventa:
Se la densit&px (x) 6 sirnmetrica ma non gaussiana, in genere non si commette un grande errore utilizzando comunque la (5.57). Quando la deviazione standard di px(x) B piccola, cioB quando g2 >> g4, i: valida l'ulteriore approssimazione:
che diventa esatta quando tra Z ed X esiste una relazione lineare. In quest'ultimo caso le (5.54, 5.58) coincidono con le (2.62, 2.63). E utile anche verificare che quando Z = ax2e X segue la densith gaussiana, le (5.53, 5.57) forniscono il risultato corretto (5.16). Trattiamo ora il caso piti generale, costituito da una variabile Z funzione di n variabili Xi: (5.59) = f (XI, x 2 , . . . ,X,) f (X)
=
z
.
Questo caso rimane trattabile in mod0 semplice se si utilizza l'approssimazione lineare delle (5.54, 5.58). In altre parole, si suppone che la media della funxione f coincida con la ,finxione delle medie e che la varianza di Z dzpenda solo dalle deriuate prime di f e dalle varianze delle distribuzioni delle X. Per cominciare, consideriamo il caso sernplice di due variabili,
e linearizziamo la funzione f nell'intorno delle medie p l , p2 delle due variabili di partenza X I , X2:
dove le derivate sono calcolate in XI = p1,x2 = p2. La media di Z si ottiene considerando la (5.51) estesa a due variabili: (2) =
1
f (XI,$2) PX ( ~ 1 ~ xd1.1 ) dm2 ,
(5.61)
e sostituendo ad f (xl,xz) lo sviluppo (5.60). PoichB i termini del tip0 (xi- pi) P X (XI, x2) si annullano integrando, il risultato finale B semplicemente, come sempre nell'approssimazione lineare, che la media della funzione coincide con la funzione delle medie:
162
Capitolo 5. Funzioni di variabili aleatorie
(2) = f (PI, P2)
-
(5.62)
La generalizzazione a1 caso di n variabili 6 ovvia:
(2) =f(Pi,P2,...,Pn) .
(5.63)
La varianza di Z si trova invece considerando la generalizzazione della (5.55):
e sostituendo ad f (xl, x2) - f (pl, pa) lo sviluppo (5.60). I1 risultato contiene ora delle novit&interessanti: 0:
[g]
' / ( ~ X i ) ' p ~(xi, 52) dxl dx2
La varianza di z , nell'approssimazione lineare, risulta funzione delle varianze CT? delle singole variabili, della lor0 covarianza 012, e delle derivate calcolate nei punti xl = pl, 2 2 = 11% Questa legge generalizza la (4.19) di pagina 116. Se le due variabili sono indipendenti, esse hanno covarianza nulla e si ottiene:
Quando Z = XI + X2 B data dalla somma di due variabili indipendenti, la densith risultante B data dall'integrale di convoluzione (5.32) e il calcolo esplicito di pz e a: pub risultare molto complicato, se lo sono le densith delle variabili di partenza. Tuttavia, in questo caso le (5.62) e (5.66) sono esatte e forniscono il risultato:
che permette di conoscere esattamente la media e la varianza dz 2,anche se la forma esplicita della densit2 corrispondente non k nota o B troppo complicata da calcolare. Nel caso di trasformazioni lineari, B quindi sempre possibile, utilizzando i criteri dell'intervallo di probabilitb e della legge 30 illustrati nei parr. 3.6,
5.4 La trasformazione della media e della varianza
163
3.11, valutare in mod0 approssimato, ma estremamente semplice e in molti casi pic che soddisfacente, la dispersione dei valori di z intorno a1 valor medio. Le (5.62, 5.66) forniscono in genere buoni risultati (ma approssimati!) anche quando Z i! il prodotto o il rapporto di due variabili indipendenti. In questo caso la (5.66) fornisce, sia per il prodotto sia per il rapporto, l'unico risultato (verificatelo come esercizio): XI z=x1x2,z=-,Z=-
Var [ Z ]- Var [XI] (,q2 Wd2
X2
+-,Var [X2]
( ~ 2 ) ~ (5.68) il quale rnostra che la varianza relativa di Z (detta anche quadrato del'coefficiente di variazione a / p ) i: la somma delle varianze relative delIe variabili di partenza. Tuttavia, questo i: un risultato approssimato, come mostrato nell'esercizio che segue. x 2
x 1
~ ~ J 4-*, f % *"-~~#C-~&+~-3d~4~k23#l~ Esercizio 5.7 Trovare la formula esatta della varzanza per il prodotto XY di due variabili aleatorie indipendenti.
Risposta. Se le due variabili sono indipendenti, sappiamo, dalla (4.9), che la media del prodotto i: il prodotto delle medie. La varianza del prodotto i: data allora da:
Tenendo presente la (2.66) possiamo scrivere:
che i: la soluzione del problema. Possiamo confrontare questa equazione con la (5.68) se ne dividiamo ambo i membri per il prodotto delle medze al quadrato:
Quest'ultima equazione mostra che la (5.68) 6 valida solo si verifica la condizione
z1 che avviene solo se le vamanze relatzve sono piccole. -?%&n16"-
%%kT M
TIbk -tCM WW %m7Pv
164
Capitolo 5. Funzioni di variabili aleatorie
Torniamo ora alla (5.65) e notiamo che essa puo essere espressa nella forma matricide:
dove V B la matrice simmetrica delle covarianze (4.63) scritta per il caso bidimensionale, T i: la matrice delle derivate, detta anche gradiente o matrice del trasporto e t indica l'operazione di trasposizione. Si puo interpretare questa equazione dicendo che le varianze e covarianze delle variabili di partenza vengono trasformate o "trasportate" dalle matrici delle derivate, attraverso la funzione f , per ottenere la dispersione della variabile 2. La (5.72) i: immediatarnente generalizzabile a1 caso n-dimensionale contemplato nella (5.59):
Se tutte le variabili sono indipendenti, le covarianze sono nulle e la (5.73) fornisce direttamente la generalizzazione della (5.66):
dove le derivate sono calcolate, come sempre, nei valori medi delle Xi. Ricordiamo che le formule (5.60 - 5.74) sono esatte solo nel caso di trasformazioni lineari del tip0 Z = b C aiXi con a e b coefficienti costanti. Esse per6 forniscono risultati abbastanza accurati anche nei casi non lineari, quando le densith coinvolte sono abbastanza simmetriche, il numero delle variabili di partenza b elevato e le varianze relative sono piccole. Per i casi complicati fortunatamente esiste un metodo, basato sulle tecniche di simulazione, che permette di effettuare in mod0 molto semplice ed efficace il calcolo della varianza di una funzione di pih variabili. Esso sarh descritto in dettaglio nel par. 7.9.
+
5.5 Medie e varianze per n variabili Trattiamo ora il caso pih generale, quello di m variabili Zk funzioni di n variabili Xi :
5.5 Medie e varianze per n variabili
165
Restando sempre nell'ambito dell'approssimazione lineare, le m medie delle variabili Z sono date ovviamente da:
Per determinare le varianze (e le covarianze!) delle variabili Zk, occorre generalizzare la (5.73). La procedura non presenta difficolth concettuali: si deve partire dalla matrice delle covarianze (4.63) delle variabili X , effettuare il prodotto righe per colonne con le matrici del trasporto T e Tt ed ottenere la matrice delle covarianze delle variabili 2:
Le matrici V ( X ) e V(Z) sono matrici quadrate e simmetriche di dimensione n x n e m x m rispettivamente, mentre la matrice T del trasporto i! una matrice m x n data da:
mentre Tt B la matrice n x m trasposta di T. Ricordiamo che, per la definizione 4.3, Cov[Xi, Xi] ? Var[Xi] = aii, Cov[Xi, Xj] = aij. Se introduciamo la notazione compatta:
possiamo scrivere la (5.77) come:
166
Capitolo 5. Funzioni di variabili aleatorie
Questa equazione permette di calcolare in mod0 abbastanza semplice le dispersioni delle variabili Z e le lor0 eventuali covarianze, ovvero le lor0 eventuali correlazioni. Ad esempio, se le variabili di partenza sono indipendenti, le covarianze sono nulle, cioi: aij = 0 per i # j e la (5.80) diventa:
Poich6 spesso capita di effettuare calcoli di covarianze per funzioni di variabili aleatorie, vogliarno mostrarvi in dettaglio come fare. Tratteremo il caso di due variabili Z1, Z2 e X I , X2, essendo ovvia la generalizzazione ai casi contenenti un numero maggiore di variabili. I1 problema consiste, essendo state ricavate dai dati le varianze e covarianze delle X I , &, nel determinare le varianze e covarianze delle variabili Z1, Zz. In realth, tutto i: gi8 contenuto nella (5.80). La covarianza Cov[Z1, Zz] i3 data infatti da:
dove nell'ultimo passaggio si i: utilizzata l'uguaglianza 0 1 2 = Ozl. La notazione matriciale B comoda e compatta, ma, afEnch6 non perdiate il senso di quello che si i: fatto, vi ricordiamo che la (5.82) pub essere dimostrata anche direttamente, ricorrendo alla definizione di covarianza (4.24) e sviluppando in serie a1 primo ordine le variabili z nell'intorno della lor0 media. Si ha infatti:
Se si prosegue il conto tenendo presente che
si ottiene esattamente la (5.82).
167
5.5 Medie e varianze per n variabili
--
r- -- -. -- : - =-ZrL --,:=----+ Esercizio 5.8 AT=---%=,. , :sic-= & -+- d-*% Due variabili Zl e Z2 dipendono da due variabzli gausssane standard indipendenti X e Y second0 le funzzoni: ;u
-,d+---
%F.
Trovare il coeficiente di correlazione lineare di Z1 e
-&---
22.
Risposta. P u r essendo X e Y indipendenti, la relazione funzionale crea u n a dzpendenza tra Z1e 22. Definendo XI X e X 2 3 Y ed utilizzando la notazione (5.79), si trovano facilmente le derivate da utilizzare nei calcoli:
(w2) =5 ,
(a2f2)= I .
Per determinare il coefficzente di correlazione Eineare, dato dalla (4.31), occorre prima determinare le varianze e la covarianza di Zl e Z2. Le variabili di partenza sono indipendenti, quindi per determinare 2e varianze delle Z basta applicare la (5.81) e tenere presente che le variabili standard hanno varianza unitaria:
Dato che le variabili X e Y sono standard e indipendenti, la covarianza tra le variabzli Z si trova applicando la (5.82) con 0; = 0; = 1 e a12 = 0:
Dalla (4.31) otteniamo infine:
Esercizio 5.9 2 pz, pCly, az , a:, uZY.S i opera la trasfomnazione:
Trovare la covarianza
Cov[Zl,ZZ]tra
21e Zz
168
Capitolo 5. Funzioni di variabili aleatoric
Risposta. Siano p~ e ,LQ rispettivamente le medie di 21 e 2 2 . Dalla (5.83)) sviluppando in serie le due nuove variabili in funzione delle vecchie otteniamo:
a21 a 2 2 - -A AX)^)
ax ax
az, az, (Axnu) +ax au
Poiche' lo sviluppo zn serie sz mtende fatto nell'zntorno dez valori medz, le variabili X e Y , che compaiono in questa equazione come b u t t o delle derivate, sono i n realtd z valori p, e py assuntz come noti. I1 problema 6 quindi completamente risolto. = = = - -- - - -- - -+k-- yp- =--= -
-
%
rn
gn
"a
=
Esercizio 5.10 y come variabili aleatorie di deviazione standard di 0.2 c m i n x e 0.4 c m
in y . Le misure n o n sono correlate. Trovare la matrice delle covarianze in coordinate polari nel punto (x,y ) = (1,l). Risposta. Poiche' le misure n o n sono correlate, la matrice delle covarianze delle variabili di partenza vale:
La trasformazione in coordinate polari ? data da:
Ad essa corrisponde la matrice del trasporto:
la quale, calcolata nel punto (x,y ) = ( 1 , 1 ) , cui corrisponde in coordinate 7r/4), diventa: polari il punto (r,9)=
(a,
5.5 Medie e varianze per n variabili
169
Il problema pub essere ora risolto applicando la (5.77):
La radice quadrata degli elementi diagonali della matrice V,,, fornisce le deviazioni standard delle variabili r , y . Pertanto, i n corrispondenza della misura x=lf0.2cm, g=lst0.4crn, la trasformazione in coordinate polari fornisce i valori:
Gli elementi n o n diagonali della matrice mostrano anche che la trasformazione di variabili che si b operata ha introdotto u n a correlazione positiva tra r e y. Esercizio 5.11
distribuzione multinomiale. Risposta. I n u n a distribuzione multinomiale i contenuti {Ii = ni)dei canali sono correlati dalla relazione:
+
f (ni)E (nl nz -t . . . + n k ) = N .
(5.85)
Dato che N b u n a costante, V a r [ N ]= 0.Applicando alla (5.85) la legge di trasformazione (5.80) otteniamo:
Dall'ultimo passaggio di questa equazione e dalle (4.89) otteniamo.
dove si 6 tenuto conto che
Dalla precedente relazione otteniamo la (4.90): C o v [ I i ,Ij]
oij
= -Npipj
170
Capitolo 5. Funzioni di variabili aleatorie
Per finire, ricordiamo che in questo paragrafo abbiamo utilizzato solo l'approssimazione lineare e che per essa valgono t u t t e le limitazioni gi&discusse in precedenza.
5.6 Problemi 5.1. Se X
w
U(0, I ) , utilizzando la funzione cumulativa trovare la densitA di
Z = -1nX 5.2. Trovare la densita di probabilita di Z = x2dove la densita di X k px(x) =
2(1 - x), 0 5 x
5 1.
5.3. Trovare la densita di probabilita p z ( z ) della variabile Z = X / Y conoscendo la densita congiunta p x ~ ( xy). , 5.4. Le variabili X e Y sono indipendenti e hanno densitipx(x) = exp[-x], x 2 0 e py(y) = exp[-y], y 2 0 rispettivamente. Trovare la densita di Z = X Y.
+
5.5. Trovare la densita di X = Cy'l Ti, dove Tisono tempi aleatori indipendenti di legge esponenziale negativa.
5.6. Sapendo che le variabili X e Y sono indipendenti e hanno densita p x ( z ) = exp[-x], x 2 0 e py(y) = exp[-y], y 0 rispettivamente, calcolare la densitb pzw(z, w ) delle variabili Z = X / ( X Y ) ,W = X + Y e commentare il risultato.
+
>
5.7. Trovare la densiti di Z = X Y dove X e Y sono due variabili uniformi U(0,l) e calcolare (2) e Var[Z]. 5.8. Due componenti Tl e Tz, entrambi con tempo medio di vita 1 / X , funzionano in parallelo. I1 second0 componente entra in funzione solo dopo il guasto del primo. Se il tempo di funzionamento dei due componenti segue la legge esponenziale, trovare la densitb di probabilita deI tempo T di funzionamento del sistema e la sua vita media.
+
5.9. Sono date due variabili aleatorie 21= 3X 2Y e Z2 = X Y , dove X e Y sono variabili indipendenti. Trovare media, varianza, covarianza e coefficiente di correlazione lineare di 2 1 e Zz quando a) X e Y sono variabili standard e quando b) X e Y sono variabili di media e varianza unitaria. 5.10. Una ditta produce alberi di acciaio il cui diametro B una variabile gaussiana di parametri ( X ) = 5.450 e c[X] = 0.020 mm e cuscinetti il cui d i m e t r o interno k anch'esso una variabile gaussiana di parametri ( Y )= 5.550 e a [ Y ]= 0.020 mm. L'albero va alloggiato entro il cuscinetto e l'accoppiamento B accettabile quando il gioco albero/cuscinetto k compreso tra 0.050 e 0.150 mm. Trovare la percentuale di assemblaggi scartati. 5.11. Lungo una strada passano in media, nell'unita di tempo, p veicoli d a A a B e X veicoli nell'altro senso, da B ad A. Trovare la densit2 di probabilita del numero totale di veicoli N e la probabiliti di osservare k veicoli da A a B su un totale di n.
6. Statistica di base
"DoveAlinardo sembra dare informazioni preziose e GuglieImo rivela il suo metodo per arrivare a una verita probabile attraverso una serie di errori sicuri." Umberto Eco, "IL NOME D E L L A ROSA".
6.1 lntroduzione Nei capitoli precedenti crediamo di avervi presentato tutti i risullati veramente importanti del calcolo delle probabilith. Vediamo ora di entrare nel mondo affascinante della statistica iniziando con il porci la domanda fondamentale: cos'8 la statistica e in cosa differisce dal calcolo delle probabilitii? Una prima risposta la si pub ottenere meditando attentamente sui due punti seguenti: 0
0
u n problema di calcolo delle probabilita: se ad una moneta attribuiamo una probabilitii Vera pari a 112 di ottenere testa in un lancio, qual B la probabilith di ottenere in 1000 prove meno di 450 teste? Questo problema 6 stato risolto nell'esercizio 3.13 di pagina 104; lo stesso problema i n statistica: se in 1000 lanci di una moneta si ottengono 450 teste, qual B la stima che si pub dare della probabilit2 Vera di ottenere testa, cioi! quella che si otterrebbe in un numero infinito di lanci?
Come si vede, nell'approccio probabilistic0 si definisce un intervallo di probabilit&calcoEato con i valori veri dei parametri della distribuzione assunta come modello e si stima la probabilitA di ottenere un certo risultato sperimentale. Nell'approccio statistico, invece, partendo dal valore sperimentale si deve trovare un intervallo per localizzare il valore vero della probabilitii. Ci accorgiamo a questo punto che per compiere questa stima manca un ingrediente essenziale: l'equivalente statistico della deviazione standard. Anticipiamo qui un risultato approssimato che verrh discusso nei prossimi paragrafi: spesso in statistica B lecito eseguire la stima delle deviazioni standard sostituendo alle quantitii vere quelle misurate: a -. s. La deviazione standard stimata s cosi definita viene spesso chiamata da fisici ed ingegneri (e in genere d a chi 6 abituato ad eseguire misure di laboratorio) come errore statistico. In sede internazionale [39], il termine consigliato per i risultati provenienti da misure
172
Capitolo 6. Statistica di base
& quello di incertezza statistica (statistical uncertainty). Abbiamo quindi tre sinonimi: deviazione standard stimata (termine matematico), errore statistico (linguaggio dei fisici) ed incertezza statistica (termine consigliato in sede internazionale). Nel seguito noi useremo prevalentemente il termine errore statistico. Utilizzando le formule dell'esercizio 3.13, otteniamo la tabella 6.1, che fornisce gli intervalli di probabilith: p CL e
xfs
500.0 4~ 15.8 21 500 i 16 = [484,516] (calcolo delle probabilith) = 450.0 f 15.7 2: 450 f 16 = [434,466] (statistica) . =
Nonostante l'apparente analogia, questi due intervalli hanno un significato profondamente diverso: il primo, noti p e e, assegna una probabilita ad un insieme di valori di X, il second0 fornisce una previsione sul d o r e di p. Tabella 6.1. Differenza tra calcolo delle probabilitk e statistica nel caso elementare di a: = 450 successi in n = 1000 lanci di una moneta CALCOLO DELLE
STATISTICA
PROBABILITA probabilitii di valori dello spettro probabilitii Vera: p = 0.5 valore atteso: (X) = 500 deviazione standard: n [ X ]= d
m = 15.8
stima di parametri @) frequenza: f = x / n = 0.45 valore misurato: x = 450 errore statistic0 o incertezza: s=
= 15.7
L'esempio appena discusso si riferisce alla stima di un parametro vero incognito partendo dai dati. Come vedremo, questa operazione viene fatta attraverso gli stimatori consistenti, definiti nella (2.76) come variabili aleatofunzioni di un campione casuale di dimensione N che convergono rie TN(X) in probabilith ad un valore determinato. Vi ricordiamo che la definizione 2.12 di campione casuale b a pagina 61. L'altro campo di applicazione della statistica, la verifica delle ipotesi, cerca di rispondere a domande del tipo: se ripetendo due volte l'esperimento consistente in mille lanci di una moneta si ottengono 450 e 600 successi, quanto b probabile che nei due esperimenti si sia usata la stessa moneta? In questo capitol0 affronteremo la verifica delle ipotesi nel caso pic semplice, quello del rigetto o meno di una ipotesi iniziale. Pic avanti, nel cap. 9, spiegheremo come ottimizzare la scelta tra pih ipotesi alternative. I concetti finora esemplificati col lancio della moneta possono essere definiti rigorosamente tramite lo spazio di probabilita (1.11),introducendo una notazione leggermente diversa:
6.2 lntervalli di confidenza
173
dove Po B una probabilita dipendente da un parametro 0, che fornisce una legge per il campione casuale (XI, Xz, . . . ,XN). Nel caso del lancio della moneta la probabilita B discreta e p(x;8) = b(x; 1000,p), con 0 = p. E dunque nel parametro 0 che cercheremo una stima e sul parametro 0 che vedremo come procedere alla verifica di ipotesi, formalizzando quanto esposto in via intuitiva negli esercizi 3.13-3.17. Le sezioni seguenti fino alla 6.13 sono dedicate alla stima, le successive alla verifica di ipotesi. Per facilitarvi lo studio e la applicazione pratica di questi metodi abbiamo suddiviso l'esposizione per problemi (studio della probabilit&,della media, della varianza, ecc.) e abbiamo intenzionalmente intitolato i paragrafi come "stima di ..." quando si tratta di un problema di stima dei parametri e come "verifica di ..." quando si discute di verifica di ipotesi.
6.2 lntervalli di confidenza Nell'esempio introduttivo di Tab. 6.1 abbiamo definito, in mod0 intuitivo, un intervallo di ampiezza 2s per stimare la probabilita di ottenere testa come:
n f J m ~ 4 5 0 1f6 sulla base del risultato di mille lanci. Immaginiamo ora di ripetere lo stesso esperimento per ottenere un nuovo intervallo, che, prima di osservare il risultato dei lanci, 6 chiaramente un intervallo aleatorio che potremmo definire come X-IS. In statistica, la probabilith che questo intervallo ha di contenere la Vera probabilit&p di osservare testa si chiama livello di confidenza dall'inglese confidence level, e si indica con CL r (1 -a), mentre a B detto livello di significativitk. E nostro interesse che questo intervallo abbia contemporaneamente un livello di confidenza elevato e un'ampiezza ridotta perch6 sia utile. Cherchiamo allora di definire un criterio per scegliere un intervallo con il CL desiderato seguendo l'interpretazione frequentista adottata nelle scienze sperimentali sulla base del famoso lavoro di Neyman [61]. Consideriamo la densit&p(x;6) di forma funzionale nota, e supponiamo di voler determinare il valore del parametro 6 fisso ed incognito. Se 0 B un parametro di posizione come la media, per valori diversi di 0 la densit&scorrer&lungo l'asse x come mostrato in fig. 6.1. Le aree non ombreggiate delle densita di fig. 6.1 corrispondono ai livelli di probabilitb:
174
Capitolo 6. Statistica di base
Fig. 6.1. Costruzione di un intervallo di confidenza di livello CL per il parametro di posizione 8. Le aree chiare non ombreggiate di p(x; 0) valgono tutte CL. Variando il valore di 8 varia la posizione di p(x; 8) lungo l'asse dei valori misurati x. Introducendo l'asse verticale dei parametri O, si ottiene la situazione della figura, in cui si vede la fascia di confidenza di Neyman [81(x), 02(x)], la cui larghezza in x B l'intervallo di p(x; 0) che sottende un'area CL.Ottenendo in un esperimento il valore x e determinando le intersezioni della retta passante per x e parallela all'asse O con la fascia di confidenza, si determina l'intervallo [B1, $21 che contiene il valore vero B con un livello di confidenza CL = 1 - a,dove 0 = cl cz 8 la somma delle due aree ombreggiate.
+
dove a k la somma delle aree delle due code ombreggiate. L'unione di tutti gli intervalli [xl, 2 2 1 di fig. 6.1 dh luogo ad una regione, nel piano (x, 8),detta fascia di confidenza di livello CL = 1-a. Questa fascia, se si guarda la fig. 6.1 dall'alto, appare come nella fig. 6.2. Le due curve che la delimitano sono funzioni monotone crescenti B1 (x) e Q2(x).Questo non it vero in generale ma spesso ci si pub ricondurre a questa situazione riparametrizzando il problema (ad esempio, nel caso della distribuzione esponenziale negativa, utilizzando la media anziche la probabilith per unit2 di tempo come parametro). Tenendo sempre presente le figg. 6.1 e 6.2, supponiamo ora di aver misurato X ottenendo un valore x; tracciamo da questo punto una parallela all'asse dei parametri, le cui intersezioni con la fascia di confidenza individuano l'intervallo [&, 821. Notiamo che questo intervallo B aleatorio, perch6 il valore x varia ad ogni esperimento. In generale dovremo quindi indicarlo con [@I, 0 2 1 . Se il valore vero del parametro incognito B 8, dalle figure si vede che ad esso corrisponde sull'asse dei valori misurati l'intervallo [xl, x2] e, per costruzione, si ha P(xl 5 X 2 2 ) = CL. Dato che quando x = $1 sull'asse dei parametri 8 = O2 e quando x = xz si ha invece B = 01, per costruzione z E [XI,xz] se e solo se 8 E [$I, $21. Vale allora la relazione fondamentale:
N then warning("X deve essere SMALL & pl>SMALL, if X==O then cwnl=O; else cuml=cdfbin("PQ",X-l,N,pl,l-pl) ; end ; sl=l - cum1 - (cdfbin("PQ",X,N,pl,l-pi)-cuml)/2; s=s/2; if sl<SLl then pl=pl+s; else pl=pl-s; end ; end ; //ricerca dicotomica di p2 p2=0.5; s=p2; s2=0; while abs (s2-SL2)>SMALL & (1-p2) >SMALL, if X==O then cum2=0; else cum2=cdfbin("PQ" ,X-l,N,p2,I-p2) ; end ; s2=cum2 + (~dfbin('~PQ",X,N,p2,1-p2)-cum2)/2; s=s/2; if s2<SL2 then p2=p2-s; else p2=p2+s; end ; end ; end ;
/ / stime a una coda
188
Capitolo 6. Statistica di base
if (YN==3 I pl 20,30. Riassumendo, la (6.40) & una buona approssimazione per N > 20,30, ed i livelli di confidenza sono gaussiani per N > 10. Dato che la condizione N > 20,30 i: quella prevalente, possiamo scrivere la formula che stima ad la la media Vera per grandi campioni come: S
p Em& -
JN '
(N > 20,30, CL gaussiani) .
Tratteremo tra breve il caso dei piccoli campioni (N < 20,30).
6.10 Stima della varianza da grandi campioni In statistica si possono definire due tipi di varianze: l'una rispetto alla media Vera, l'altra rispetto alla media campionaria:
le quali, per N + oo,tendono, nel senso della (2.76), alla varianza Vera c2. In genere si indica semplicemente con S2 la varianza rispetto ad M, che B
6.10 Stirna della varianza da nrandi campioni
195
detta varianza campionaria. Solo se sara strettamente necessario, nel seguito distingueremo le due varianze con la notazione della (6.44). Per prima cosa, diamo ragione del fattore N - 1 che compare in S2 della (6.44). I1 punto della questione sta nella relazione algebrica:
dove nell'ultimo passaggio si & sfruttato il fatto che C i ( X i - M ) = 0. Ora osservate bene la (6.45): essa indica che la dispersione dei dati intorno alla media vera B pari alla dispersione dei dati intorno alla media campionaria pih un termine che tiene conto della dispersione d e b media campionaria intorno alla media vera. Questa somma di fluttuazioni i: proprio l'origine del termine N - 1. Infatti, invertendo la (6.45), abbiamo:
Applichiamo ora l'operatore di media a tutti i membri di questa relazione, seguendo la tecnica discussa nel par. 2.11. Dalle (2.61, 4.8, 6.39) otteniamo:
Si ha in definitiva la giustificazione della seconda delle (6.44)' poichB risulta che lo stimatore S2 B non distorto in quanto gode della proprieth (2.78):
La varianza campionaria (non corretta)
& un esempio di stimatore non corretto o distorto (biased). Infatti dalla (6.47) risulta: N
(6.50) i= 1
196
Capitolo 6. Statistica di base
Come abbiamo gi&accennato nel par. 2.11, uno stimatore i:distort0 quando la media degli stimatori TN,calcolati da un campione di dimensione N , differisce dal limite per N + co (2.76) dello stimatore. Nel nostro caso, la media differisce dal parametro che si vuole stimare, che i: la varianza, per un fattore (N - 1 ) l N = 1 - 1 / N . I1 termine 1 / N si chiama fattore di distorsione (bias); nel nostro caso perb esso si annulla al limite per N = co. Si dice allora che lo stimatore B asintoticarnente corretto, poichQla media di stimatori ottenuti con N sufficientemente grande B molto vicina a1 limite in probabiliti dello stimatore. Tutti questi concetti saranno poi approfonditi nel cap. 9. L'equazione (6.48) si pub anche interpretare richiamando il concetto di gradi di libertd, introdotto per la prima volta nel par. 3.9 a proposito della distribuzione x2. Se si stima la media dai dati, la somma degli N quadrati degli scarti B in realta formata da N - 1 termini, perch6 la media B vincolata ad essere proporzionale alla somma dei dati. La varianza di un campione i: pertanto una grandezza univoca, a patto che la media dei quadrati degli scarti venga fatta sui gradi di liberth della statistica. In mod0 abbastanza generale, possiamo quindi dire:
Definizione 6.3 (Gradi di liberth di una statistica). I1 nurnero dei gradi di liberth v di una statistica T = t(X1, X 2 , .. . ;XN, 6) dipendente da u n insieme noto di pararnetri 8, ii dato dal nurnero N di variabili del campione m e n o il numero k di pararnetri 0 stimati dai dati:
Cerchiamo ora di trovare ... la varianza della varianza. Questo non i: un paradosso, perch6 la varianza campionaria, come la media, i: una variabile aleatoria, che tende alla varianza Vera per N 4 oo. Analogamente a quanto abbiamo fatto per la media, possiamo applicare l'operatore varianza alle quantita St e S2 della (6.44) ed applicare la trasformazione (5.74). I1 formalism~operatoriale, definito nelle (2.59, 2.66) e gi&applicato nella (6.47), semplifica di molto il calcolo, almeno nel caso di S&.Abbiamo infatti:
dove il momento di ordine 4 i: stato indicato con la notazione dell& (2.58). Sostituendo ai valori veri A4 e a2 i valori stimati dai dati s: e
otteniamo la relazione: var[S;]
D4 - :S
E
N '
6.10 Stima della varianza da grandi campioni
197
che permette di scrivere ad la l'intervallo di confidenza della varianza come:
Un calcolo di questo genere pub essere ripetuto per la varianza S2, ma in questo caso bisogna tenere conto anche della varianza della media campionaria M intorno alla media Vera. I1 risultato finale, abbastanza laborioso da ottenere, mostra che, rispetto alla (6.52), compaiono termini correttivi di ordine 1/N2 che pertanto, per grandi campioni, possono essere trascurati. La (6.52) pub allora essere utilizzata anche in questo caso, sostituendo ad N il numero ( N - 1) di gradi di libertk Nel seguito utilizzeremo la notazione:
(
; */ * /=s2,
D4 - S;
media nota,
D4 - s4
s2
N-1
(6.53) media ignota .
Quali sono i livelli di confidenza da associare alla (6.53)? Si pub mostrare che la varianza campionaria per variabili X qualsiasi tende alla densitb gaussiana, ma solo per campioni con N > 100. Se le variabili del carnpione sono gaussiane, allora, come vedremo meglio nel prossimo paragrafo, la distribuzione campionaria della varianza B riconducibile alla densit2 X2, la quale converge alla densit& gaussiana un po' piG velocemente, all'incirca per N > 30. In generale la variabile aleatoria "varianza campionaria" tende a diventare una variabile gaussiana molto pic lentamente della corrispondente media campionaria, che lo B gib per N > 10. Questo fatto B del tutto naturale se si tiene conto che nella varianza la combinazione delle variabili campionarie i! quadratica invece che lineare. Per trovare l'intervallo di confidenza della deviazione standard, conoscendo l'intervallo [sf, sg] della varianza per un CL assegnato, basta porre a E @]. In modo approssimato, basta applicare la legge di trasforRitenendo solo mazione non lineare (5.56), dove z = s2 e z = s = & = il primo termine, abbiamo:
[fi,
a.
L'intervallo di confidenza ad l a per la deviazione standard B allora:
4(N - l)s2 '
(N
> 100 , CL gaussiani)
Se le variabili che compongono il campione sono gaussiane, allora vale la relazione (3.33) A4 = 3 a 4 , e le (6.53, 6.55) divengono rispettivamente:
198
Capitolo 6. Statistics di base
da cui, per CL = 1 - a:
dove tl-,12 sono i quantili della densitb gaussiana e dove a N - 1va sostituito N se le dispersioni sono calcolate rispetto alla media Vera. Le formule (6.43, 6.53, 6.55, 6.57, 6.58) risolvono il problema della stima di media, varianza e deviazione standard per grandi campioni. A volte, invece delle (6.57, 6.58), si usano un po' impropriamente le (6.56) dove a a si sostituisce s nella formula dell'errore. Daremo tra breve alcuni esempi di stime statistiche, dopo che avremo trattato il problema della stima con piccoli campioni.
6.11 Stima di media e varianza da piccoli campioni La stima di media e varianza per piccoli campioni (N < 20,30 per la media e N < 100 per la varianza) porta ad intervalli e livelli di confidenza che dipendono dal tip0 di popolazione del campione. Per questa ragione non B possibile, a differenza di quanto appena visto per i grandi campioni, arrivare in questo caso a formule di validith generale. Tuttavia, applicando le nozioni di calcolo delle probabilita che abbiamo fin qui sviluppato, B possibile arrivare a una soluzione semplice e completa almeno per il caso pi6 frequente ed importante, quello relativo ai campioni estratti da densit&gaussiane. La teoria dei campioni gaussiani si basa su due punti fondamentali. I1 primo punto B che, come mostrato nell'esercizio 5.3, la media campionaria M , se i: la somma di N variabili gaussiane, B anch'essa gaussiana per qualunque N. Allora, in base alla (6.39), anche la variabile
i: una variabile standard gaussiana per qualunque N, cioi: una quantit& pivotale. I1 second0 punto pub essere condensato in due importanti teoremi: Teorema 6.1 (Indipendenza di M e S 2) . Se ( X I ,X2, . . . ,X N ) 2 u n campione casuale di dimensione N estratto da u n a popolazione avente densith normale g ( x ; p, a ) , M ed S2 sono variabili aleatoric indzpendenti.
6.11 Stima di media e varianza da piccoli campioni
199
Dimostrazione. Dato che le Xi sono variabili gaussiane indipendenti, esse hanno una densitci congiunta prodotto di N gaussiane monodimensionali. Introducendo le variabili standard Ti = (Xi - p ) / c , la densitci congiunta diventa:
E facile verificare le relazioni:
xi
dove M = Ci Xi/N, Mt = Ti/Nsono le medie campionarie di X e T ed S2 2 data dalla (6.44). Poiche' la gaussiana standard g ( t ) ha simmetria sferica, essa h a forma funzionale invariante per trasformazioni ortogonali del tipo
corrispondenti ad una rotazione degli assi. Le nuove variabili Zisono anch'esse gaussiane standard indipendenti N ( 0 , l ) . Scegliamo ora u n a trasformazzone ortogonale che soddisfa alle (6.61) e tale che:
dove si 2 tenuto conto d e l k (6.60) e del fatto che che la (6.59) si pud scrivere come:
xZ1
= N . Risulta dungue
Dal teorema di fattorizzazione 4.1 segue allora l'indipendenza di M e S2. Teorema 6.2 (Varianza campionaria). S e ( X I ,X2, . . . ,X N ) 2: un campione casuale estratto da u n a popolazione auente densita normale g ( z ; p, a ) , la variabile
200
Ca~itolo6. Statistics di base
ha densitd (3.70) x2 ridotto con N - 1 gradi di libertd. Essa d pertanto u n a quantitd pivotale rispetto a a2. Dimostrazione. Dal teorema precedente risulta che ( N - 1)S2/a2 b somma dei quadrati di ( N - 1) variabili standard indipendenti Zi(i = 2,3,. . . ,N), da cui I 'asserto. S i noti che dividend0 la (6.46) per o2 e scambiando i termini risulta:
-- S2 ( M - ,u)2 ( N - 1) - f o? 02/N = N-1
1
C i
N
(Xi - P ) ~ a2
>
gradi di liberta
in accord0 col teorema di additivitd 3.4 delle variabili X2.
0
L'intervallo di confidenza per la media pub allora essere trovato sfruttando i risultati dell'esercizio 5.5. Infatti la variabile (5.41), che in questo caso vale: I
essendo il rapport0 tra una variabile gaussiana standard e la radice quadrata di una variabile X2 ridotto, tra lor0 indipendenti, si distribuisce second0 la nota densit&di Student con N - 1 gradi di Eibert6, i cui quantili sono tabulati in Tab. D.2 (notate che nella (6.63) compare N, ma che la variabile T ha densith con N - 1 gradi di liberth). La (6.63) mostra che l'uso della variabile di Student permette di eliminare dall'intervallo di confidenza la varianza Vera (incognita) o2 e di definire una quantith pivotale per la stima di p. Infatti, se tlFa12 = -tala sono i valori quantili di T corrispondenti a1 live110 di confidenza CL = 1- a fissato come in Fig. 6.8, invertendo la (6.63) si ha:
Come i! facile vedere dalla Tab. D.2 e dalla Fig. 5.4, per n > 20,30 la densit& di Student in pratica coincide con la densit& gaussiana e la (6.64) coincide con la (6.43). Rimandiamo a tra poco gli esercizi sull'uso di queste formule ed occupiamoci prima della stima della varianza. In questo caso la (6.62) fornisce la quantitii pivotale S2/02 x;(N - 1). Seguendo il procedimento indicato nelle (6.11, 6.12), definiamo prima l'intervallo di probabilith:
6.11 Stima di media e varianza da piccoli campioni
201
Fig. 6.8. Intervalli di confidenza associati ai valori quantili tala < tl-,la della variabile di Student a) e della variabile chi-quadrat0 ridotto b) nelle stime di media e varianza con piccoli campioni gaussiani
dove x&,12 , x R2 ( l - ~ n , sono i valori quantili della variabile Qn corrispondenti a1 live lo di con denza CL prefissato, come rnostkto in Fig. 6.8. Quindi, dall'intervallo (6.65) otteniamo per inversione l'ntervallo di stima della varianza in corrispondenza di un valore misurato s2:
1'
s2 2 XR(1-al2)
s2
, N - 1 gradi di libert2 .
(6.66)
XR(a/2)
I quantili a sono legati a1 live110 CL dalle (6.14). L'intervallo di confidenza per la deviazione standard 6 dato semplicemente da:
Per valori N > 30, la densit&x2 pub gi&considerarsi quasi gaussiana, quindi simmetrica, centrata sul valor medio ( Q R ) = 1 e con deviazione standard
in accord0 con le (3.69). In questo caso si possono scrivere i valori quantili come: 2 2 X E ( ~ /= ~ ) - t l - a / 2 OU , X R ( ~ - ~ /=~ ) t l - a / 2 > e l'ampiezza dell'intervallo di confidenza con CL = 1- a diventa:
+
che coincide con l'intervallo (6.57).
202
Capitolo 6. Statistica di base
6.12 Come utilizzare la teoria della stima Nei paragrafi precedenti abbiamo dedotto le formule fondamentali della stima di parametri. Esse sono quelle di uso corrente nelle analisi dei dati e vengono impiegate nei campi pih diversi, ddla fisica, dl'ingegneria e alla biologia. I1 quadro d'insieme i: riassunto nella Tab. 6.3. Tabella 6.3. Gli intervalli di confidenza ad l a e le distribuzioni d a utilizzare per i livelli di confidenza (CL)nella stima di parametri. I campioni con N > 30 per la stima della media ed N > 100 per la stima della varianza sono detti in statistica
grandi campioni VARIABILI GAUSSIANE
INTERVALLO
CL
Probabilith N f 10 N(l- f) Media
N
VARIABILI Q U A L U N Q U E
INTERVALLO
CL
eq. (6.21)
binomiale
f*/qT)
> 1C
< 30
Gauss
Student
N > 30
Gauss
Gauss
Varianza
N
< 100
N
> 100
eq. (6.57)
Gauss
s2 A
/-
- s4 N-1
D4
Gauss
Dev. S t d N
< 100
N > 100
d& 2q.
10, cui corrisponde N y > 10, ciob N > 200 nella (6.76). Per N = 200, risulta che bisogna procedere alla manutenzione se n 2 19.
r ~ ~ a ~ i ~ ~ ~ ~ ~ ~ 7 ~ ~ ~ = 3 PF ~ -=war ~ ~ -318~*Uh?~lh8F-4flih?%p3h ~ r . - - ~ ~ r ~n5 t ~: :w ~~7 ~~ v~ m ~ ~ r ~~ ~m ~ f i ~
208
Capitolo 6. Statistica di base
6.13 Stime da una popolazione finita Nelle stime fin qui eseguite abbiamo supposto che la popolazione fosse costituita da un insieme infinito di elementi. I risultati ottenuti valgono anche per popolazioni finite, a patto che, dopo ogni prova, l'elemento estratto venga reinserito nella popolazione (campionamento con reimmissione). E intuitivo perb che vi siano delle modifiche da fare nel caso di campionamento senza reimmissione da una popolazione finita, poichk, se si esaurisse la popolazione, le quantita in esame diventerebbero certe e non sarebbero piu stime statistiche. Iniziamo con la Definizione 6.4 (Campione casuale da una popolazione finita). U n campione S di N elementi estratto da u n a popolazione finita di Np elementi b detto casuale se b u n o dei N,!/[N!(N, - N)!] possibili insiemi ognuno dei quali ha la stessa probabiliti di essere scelto.
Se X B la variabile aleatoria che si vuole stimare attraverso il campione S, possiamo scrivere:
dove la seconda somma B fatta su tutti gli elementi N, della popolazione e Ii i: una variabile indicatrice (vedere eq. 2.8), definita come:
Ii =
1 s e x i ~ S , 0 altrimenti.
Iii: una variabile binomiale a due valori e corrisponde pertanto a1 numero di successi che si possono ottenere in un solo tentativo, di probabilith N/N,.Si ha pertanto:
Otteniamo allora:
da cui si vede che anche i n questo caso la media campionaria t? uno stimatore corretto della media Vera. Troviamo ora la varianza della somma delle variabili campionate; ricordando la (5.65) possiamo scrivere:
209
6.13 Stime da una popolazione finita
Il calcolo della covarianza di (Ii, I j ) richiede la conoscenza della media (&Ij). Ricorrendo alle definizioni generali di pagina 57 e scrivendo solo i valori non nulli, abbiamo:
[,
Dalla (4.25) di pagina 117 possiamo esprimere la covarianza come:
N N-1 N2 - N ( N p - N ) COV[I~, Ij] = (&Ij) - (Ii) (Ij) = - --- - - - NpNp-1 N. Np2(Np-I)' Inserendo questo risultato nella (6.80) abbiamo: Var
x
]
X: - 2 N(Np - N, xi li = - ------NP NP i=1 N;@P - 1)
Ricordando che ( x i xi)2 = algebra otteniamo infine:
xix: + 2 xi C j < i zixj, dopo un po' di facile
dove (X2) = C X:/Np e ( x ) ~ = campionaria vale allora:
-
. (6.81)
.ix j
(CXi)2/Np2. La varianza
Var [XI Np - N N N Np-1
-
-
var[xl (1 N
della media
)
.(6.83)
Questa equazione B il risultato fondamentale per la stima da popolazioni finite: dal confront0 con le formule analoghe per popolazione infinita di Tab. 6.3, si vede che le varianze di medie, frequenze e proporzioni, calcolate da campioni estratti da popolazioni finite, vanno corrette col fattore (Np - N)/(Np - 1) N (1 - N/Np). Lo stesso fattore va applicato se nella (6.83) alla varianza Vera a2 si sostituisce quella stimata s2. Ad esempio, nel caso dell'esercizio 6.1, considerando 30 milioni di elettori, la correzione sarebbe dell'ordine di V/1 - 3/30 000. Diverso B il caso dell'estrazione senza reimmissione da un'urna: se la frequenza delle biglie di un certo tip0 fosse ad esempio f = 15/30 = 0.50 e l'urna contenesse 100 biglie, l'errore della frequenza passerebbe da d0.5(1- 0.5)/30 = 0.09 (popolazione infinita) a1 valore J0.5(1- 0.5)/30 = 0.08. La varianza si annullerebbe se si estraessero tutte le 100 biglie.
210
Capitolo 6. Statistica di base
La varianza campionaria, a differenza della media, deve essere corretta per popolazioni finite. Infatti, dalle (6.47, 6.83) si ha:
(6.84) Risulta allora che lo stimatore non distort0 per la varianza di una popolazione
La correzione per la varianza Var[S2] i: pih complicata e pub essere trovata in [52].
6.14 Verifica di una ipotesi Abbiamo gih accennato alla verifica delle ipotesi negli esercizi 3.13-3.17. Approfondiamo ora l'argomento considerando la verifica (accettazione o rifiuto) di una ipotesi, detta ipotesi nulla o, pi6 semplicemente, ipotesi. L'argomento verrh poi completato piti avanti, nel cap. 9, dove discuteremo i criteri per ottimizzare le scelte tra pic ipotesi in alternativa. Consideriamo dunque la densitb di probabilitb p(x; 6 ) della variabile X definita nella (6.2), dipendente da un parametro B e supponiamo che, in base ad argomenti a priori o a stirne statistiche, venga assunta l'ipotesi 6 = OO. Se l'esperimento fornisce un evento {X = a}, occorre decidere se accettare o meno il modello corrispondente all'ipotesi, in base a1 risultato ottenuto. Lo schema che si utilizza i: in genere quello di Fig. 6.10: come si vede, l'intervallo di variabilith di X viene suddiviso in due regioni, una regione favorevole all'ipotesi ed una regione contraria, detta regione critica. I limiti di queste regioni sono date dai valori quantili x,/z, x ~ - , / ~corrispondenti , ad un livello di significativitb a stabilito a priori, detto anche livello del test. Si rifiuta l'ipotesi se il livello di significativith osservato a0 < a , la si accetta in caso contrario. Avendo osservato l'evento {X = x), nell'ipotesi corrispondente a p(x; Qo), di media p, occorre quindi calcolare le probabilith:
P { X < x) = a0 , test a una coda (a sinistra), P{X > x) = a0 , test a una coda (a destra), P{IX - pI > ix - pi} = a. , test a due code.
(6.86) (6.87) (6.88)
Se si scarta l'ipotesi, la probabilitb di sbagliare, cioi: di ottenere per puro caso valori "nelle code", per i quali le (6.86-6.88) danno a0 < a essendo vera l'ipotesi, non supera mai a. Questo tip0 di errore i: detto di I tip0 (scartare una ipotesi giusta), per distinguerlo dall'altro possibile errore (accettare una
6.14 Verifica di una ipotesi
-1-a
si accetta l'ipotesi
si rifiuta I'ipotesi
1
-la/2
-
si rifiuta si I'ipotesi
211
12ipotesi si rifiuta
I'ipotesi
Fig. 6.10. Test a una coda a) o a due code b). L'uso dell'uno o dell'altro dipende dal tip0 di problems, come evidenziato dagli esempi discussi nel testo. I1 livello confidenza CL tt il valore dell'area ombreggiata definita dai valori quantili XI-,, 2,p e x ~ - ~ I1 p livello . del test a = 1- C L B il valore dell'area delle code a1 di fuori dell'intervallo di confidenza
ipotesi sbagliata), detto di I1 tipo, che verrh trattato pih avanti. I1 valore a! viene anche detto dimensione dell'errore di I tipo. Il livello di significativith osservato (szgnzficance level) definito nelle (6.866.88), che indicheremo spesso con SL, nella letteratura inglese viene detto anche p-value. La verifica di una ipotesi pui, essere fatta anche con statistiche T = t(X1, X2, . . . ,XN) che stimano il valore del parametro 8, cioi: con degli stimatori. In questo caso alla densith p(z;80) attribuita a1 campione si deve sostituire la densith della distribuzione campionaria dello stimatore e tutto procede come appena spiegato. Se lo stimatore non 6 distorto, in base alla (2.78), (TN(X)) = Bo. Stabilito allora un valore a! per il livello del test, si rigetta l'ipotesi se, ottenuta una stima {T = to), risulta: P{T < to) = S L < a! , test a una coda (a sinistra), P{T > t o ) = S L < a! , test a una coda (a destra), P{IT - 801 > (to - 60' 1) = SL < a , test a due code.
(6.89) (6.90) (6.91)
I1 livello del test a! viene scelto in mod0 arbitrario. In genere si scelgono valori piccoli, di circa 1'1-5%. Se l'evento ha un SL minore di a, esso si trova nelle code della densith di riferimento. In questo caso si giudica piu probabile la falsith dell'ipotesi 6' = Oo che non la sua validith. I1 caso contrario viene interpretato come una fluttuazione statistics, lo scostamento viene attribuito a1 caso e l'ipotesi viene accettata.
212
Capitolo 6. Statistica di base
Per finire, notiamo che in alcuni casi il confront0 tra livello del test ed S L presenta ambiguit 8: a per una variabile aleatoria discreta, i livelli S L di due valori contigui possono "stare a cavallo" del valore deciso per il test. Ad esempio, nel test a una coda a destra, pub succedere che:
con XI > x2. In questo caso si accetta l'ipotesi se {X = x2}, la si respinge se {X = xl}. In alternativa, se si dispone di un generatore di variabili uniformi 0 U 5 1 (ad esempio, la routine random di un calcolatore), si pub randomizzare il test definendo una probabilita p tale che:
20,30, vanno ovviamente applicati livelli di probabilita
214
Capitolo 6. Statistica di base
ed affermano che entrambe Ee misure sono di tip0 gaussiano. Verificare se le misure sono tra loro compatibili. Risposta. Dalla (6.93) otteniamo:
Poiche' si deve trovare lo scostamento assoluto tra le due misure, b necessario fare il test a due code. Dalla Tab. D.l risulta:
pari ad u n live110 di signzficativitd del20%. Poiche' la probabilitd di sbagliare rigettando l'ipotesi di compatibilitd 2 troppo alta, le due misure si devono ritenere compatibili. Notate bene che non si afferma che le misure sono compatibili, m a solo che esse n o n possono essere messe in dubbio sulla sola base della statistica. Com e dovreste aver gM capito da parecchio tempo, la distinzione pud sembrare sottile, m a 2 fondamentale! Esercizio 6.10 z : ~ ~ * -~ ~ d p -i ~ P-LC~ =-:y :a~ :~:= ~ ~ v-=t%@$ywg - * . -~-? ~5~=;: I n u n esperimento di percezione extrasensoriale (ESP) sono state predisposte 5 scatole, numerate da 1 a 5 e, nella scatola n . 3, b stato posto u n oggettobersaglio. Duecento persone sono state invitate ad indovinare i n quale scatola si trovasse il bersaglio e 62 di queste hanno indicato proprio la n. 3. I n una prova di controllo con tutte le scatole vuote, facendo sempre credere alla platea che i n una delle scatole si trovasse u n bersaglio, le persone che hanno indicat0 la scatola n. 3 sono state 50. Stabilire se l'esperimento rivela o meno eflettz ESP. Risposta. Se utilizziamo il calcolo delle probabilitci, possiamo procedere come nell'esercizio 3.17 ed assumere come ipotesi nulla che, se le persone tirano a indovinare, ognuna delle 5 scatole abbia una eguale probabilitd di 115 di essere scelta. Allora la distribuzione teorica assunta come Vera b binomiale, di media e deviazione standard date da:
6.15 Verifica di compatibilitP tra due valori
215
Poiche' i successi sono stati pari a 62, la variabile standard (3.37) di questo dato vale: a cui corrisponde, come da Tab. D . l , u n livello di significativitci estremamenL'ipotesi di presenza di efletti E S P sembra confermata te basso, < 1 . dall'esperzmento. Tuttavia, la psicologia sperimentale aflenna che il numero 3 d psicologicamente fauorito (in genere lo sono tutti i numeri dispari rispetto a quelli pari). I n altre parole, in una prova a vuoto con scatole numerate da 1 a 5, la maggior parte delle scelte dovrebbe localizzarsi sudla scatola n. 3, anche in assenza di bersaglio, semplicemente perch6 il 3 21 u n numero " p i i simpatico" degli altri. Occorre allora, i n mancanza di u n modello a priori, abbandonare il calcolo delle probabilitci e aflrontare il problema in ambito statistico, utilizzando solamente il numero di successi con bersaglio (xl = 62) e quello a scatola vuota (x2 = 50). Gli errori statistici da associare a queste osservazioni si ottengono dalla (6.24):
Combinando adesso i risultati della prova a vuoto e di quella col bersaglio nella formula (6.95) abbiamo immediatamente:
A questo valore della variabile gaussiana standard corrisponde in Tab. D.1 u n livello di significativitci sulle due code di
L'analisi mostra pertanto che nel 18% dei casi, tirando ad indovinare ed essendo psicologicamente condizionati a favore del numero 3, si possono avere scostamenti di pi3 di 1 2 punti (in piti o in meno) tra la prova a vuoto e la prova col bersaglio, Il risultato b pertanto compatibile con il caso e non rivela aflatto probabili effetti ESP. Se i due carnpioni sono piccoli e la distribuzione campionaria i: gaussiana, si pub ancora fare uso della densit& di Student, se si suppone che le due medie provengano da campioni aventi, oltre che la stessa media, anche la a. In questo caso la variabile standard della stessa dispersione: a1 = a2 differenza assume il valore:
216
Capitolo 6. Statistica di base
Utilizzando la (6.62), nella quale la varianza dei dati i! calcolata rispetto alla media campionaria, definiamo il valore di X"non rzdotto):
+
a1 quale, in base al teorema 3.4, vanno assegnati Nl N2 - 2 gradi di liberth. In base ai risultati del17esercizio5.5, possiamo dire che il valore (5.41), che in questo caso diventa:
+
si distribuisce second0 la densit2 di Student con NI N2 - 2 gradi di liberth. In questo mod0 il test sulla differenze delle medie pub essere risolto in mod0 soddisfacente anche per campioni con almeno una decina di eventi, per i quali la media si pub considerare una variabile gaussiana. SCILAB fornisce la routine nand%ed(xl,xZ,eonf) per il test tra le medie di due campioni xi e x2, in forma di vettori contenenti i dati grezzi. In uscita si ottengono due numeri: la differenza tra le medie e il valore s = tCodsl2J(I/N~) (l/Nz) della (6.99), dove t B il quantile di Student per campioni con meno si 100 eventi, altrimenti i! quello gaussiano. Per grandi campioni, l'errore vale s 1.tc,,,f J($/N~) + (sg IN2), in accord0 con la (6.96). Si tenga presente che c o n f B il valore cumulativo ed B legato a1 live110 CL del test a due code dalla relazione conf= 0.5 + CL/2. Se si vuole ottenere la stima ad lo de117errores sulla diffferenza delle medie si deve porre conf = 0.5 0.68312 = 0.8415. Occupiamoci infine della verifica di compatibilith tra due varianze. Essa, per campioni con meno di un centinaio di eventi, non pub essere fatta utilizzando la densit&gaussiana o di Student. Tuttavia, per campioni gaussiani esiste un test molto semplice ed utile, che fa uso della densita F di Snedecor trovata nell'esercizio 5.6. Se s& ed s& sono due varianze ottenute da due campioni indipendenti rispettivamente con N ed M eventi e provenienti da popolazioni di densith gaussiane aventi la stessa varianza 02, dalla (6.62) sappiamo che il valore
+
+
6.16 Stima della densit2 di una popolazione
217
essendo il rapporto tra due valori X 2 ridotto indipendenti, si distribuirh secondo la densith F di Snedecor (5.46) con (N - 1, M - 1) gradi di IibertA. L'uso combinato della (6.100) e dei quantili della densit2 F delle tabelle D.5, D.6 viene detto analisi della varianza o F usare la nostra routine =i&2y. , che utilizz dalla distribuzione p N M ( F )il valore cumula per il calcolo di F a partire dal valore cu Esercizio 6.1 1 s ~ r ~ e ~ , Due sperimentatori, che aflermano di aver eseguito u n campionamento dalla stessa popolazione avente densit&gaussiana, hanno trovato rispettzvamente varianze pari a = 12.5 , s; = 6.4
ST
con campioni di 20 e 40 eventi rispettivamente. Verificare se le due varianze campionarie sono compatibili con u n unico valore vero g2 ad u n livello del 2%. Risposta. La variabile F 2. data da:
Se sceglzamo di fare la verifica di compatibikitit ad u n livello di significativitit del 2%, il rapporto sperimentale F deve essere minore del valore di F a1 99% che si ricava da Tab. D.6:
e maggiore del valore di F all'l %, che si ricava con la relazione (5.49):
i due valori sono compatibili ad u n livello del 2%. etere l'eserci ;m:*& 10, pub essere stimata con buona approssimazione come: (6.113) s(ni,nj) = - N f i f j .
+
Quando invece N 6 una variabile poissoniana, ogni canale dell'istogramma si comporta come un contatore poissoniano e indipendente di eventi e le fluttuazioni vanno come la radice quadrata del numero degli eventi. La rappresentazione gradica dell'istogramma, per essere corretta, va completata con la rappresentazione degli errori statistici. Per convenzione questi errori, calcolati con le (6.106,6.107) a seconda dei casi, si riportano in grafico come intervalli fsi centrati sui valori ni. Questi intervalli, chiamati barre d'errore (error bars), definiscono una banda entro cui sono localizzati i valori veri pi o pi delle (6.102, 6.103). Tuttavia, come sempre, bisogna ricordarsi che i livelli di confidenza, se ni > 5, 10, seguono la legge 3a. Pertanto, la banda totale entro cui sono contenuti con ragionevole certezza questi valori B in realth larga 3 volte le barre d'errore riportate nei grafici. L'istogramma di Fig.6.11, completato con le barre d'errore calcolate con la (6.106)' B mostrato in Fig. 6.12.
6.17 Verifica di compatibilita tra campione e popolazione
fluttuazione - - .- - binorniale o poissoniana
223
valore misurato
%
_--
Fig. 6.13. Valore misurato, valore atteso in base ad un modello qualunque di densita e fluttuazione statistica del canale dell'istogramma. L'area ombreggiata va immaginata useente ortogonalmente a1 foglio
,-.--
densita' teorica 1
I
Abbiamo dimostrato che le fluttuazioni negli eventi contenuti in un certo canale dell'istogramma obbediscono alle leggi di probabilita binomiale o poissoniana; questa k una legge del tutto generale, indipendente dalla densit& p(x) della popolazione da cui il campione proviene, che pub essere qualunque. Come illustrato in Fig. 6.13, la densit&determina invece la struttura globale del campione, che B data dai valori medi o centrali del contenuto dei canali. Come verificare se la forma del campione sia o meno in accord0 con un modello di densit& scelto per la popolazione i: l'argomento del prossimo paragrafo.
6.17 Verifica di compatibiliti9 tra campione e popolazione In questo paragrafo completiamo lo studio del campione (6.101). La media e la varianza calcolate dai dati valgono:
Poich4 N = 1000, gli intervalli di confidenza per media, varianza e deviazione standard si possono calcolare dalle (6.43, 6.56):
cr
E
sfs
1
= 9.77
f 0.22
e poich6 i livelli di confidenza da associare a questi intervalli sono gaussiani, si pub affermare che i risultati sono compatibili con i valori veri p = 70 e 0 = 10.
224
Caoitolo 6. Statistica di base
Verifichiamo ora se la popolazione del campione ha una densit&gaussiana, assumendo che i valori della media e della deviazione standard siano quelli veri, p = 70, cr = 10. I valori veri o attesi del numero degli eventi in ogni canale sono allora dati dalla (6.102), dove p(x) & una gaussiana, N = 1000 e AX = 5 :
E utile ora costruire la Tab. 6.4, dove nelle colonne da (1) a (7) sono riportati Tabella 6.4. Dati necessari per il confront0 tra l'istogramma di Fig.6.12 e la densiti
gaussiana della (6.114)
nell'ordine: il valore dello spettro nel punto medio del canale (I), il numero di eventi (2), il valore vero del numero di eventi calcolato con la (6.114) (3), l'errore statistico s i della (6.106) (4), la deviazione standard
del numero vero di eventi ( 5 ) , i valori della variabile standard
del numero misurato di eventi in ogni canale calcolata con l'errore statistico (6) e infine i valori
6.17 Verifica di compatibilita tra campione e popolazione
225
Fig. 6.14. Confront0 tra l'istogramma di Fig. 6.12 ed i va-
lori attesi sulla base della densit& gaussiana di media 70 e deviazione standard 10 calcolati con la deviazione standard Vera (7). In Fig. 6.14 i: riportato l'istogramma di Fig. 6.12 (colonne 1,2 e 5 di Tab. 6.4) con. l'aggiunta della linea continua, che rappresenta i valori veri (attesi) provenienti dalla gaussiana (6.114) e calcolati in colonna 3 di Tab. 6.4. Una prima valutazione dell'accordo tra dati e modello pub essere fatta "ad occhio": circa il 68 % dei punti sperimentali deve "toccare", entro una barra d'errore, il corrispondente valore vero. Nel nostro caso, dalla colonna 7 di Tab. 6.4 e dalla Fig. 6.14, risulta che su 13 punti si ottiene l'accordo col valore atteso per 9 punti (69 %) entro +ai, 12 punti (92 %) entro +2ai, 13 valori (100 %) entro +3 mi. Come si vede, le fluttuazioni sembrano rispettare molto bene le percentuali della legge 30 (3.35), il che significa che la densita assunta come modello fornisce una buona rappresentazione dei dati. Notiamo che si arriva alle stesse conclusioni anche utilizzando gli errori statistici, cioi! le variabili standard di colonna 6. L'unico canale anomalo i: quello corrispondente a1 valore zi = 92.5, che fornisce in questo caso un valore standard stimato di 3.38, a fronte di un valore corretto di 2.26.11 disaccordo 6 origiriato dal basso contenuto del canale, che contiene solo 7 eventi. Per questo motivo, se si usano gli errori statistici, in genere si accettano discrepanze maggiori di 3 a nei canali con meno di 10 eventi. Oltre a questo test qualitative, in statistica i! possibile fare test quantitativamente precisi, il piG importante dei quali, per il confront0 tra densita della popolazione e istogramma, & il test x2 (chi-square test). Per eseguire questo test occorre conoscere (o assumere come ipotesi nulla) le probabilitL vere pi di ogni canale ed eseguire la somma su tutti i K canali:
226
Capitolo 6. Statistica di base
Se il numero totale N di eventi B variabile e si somma sui canali con pi^ di 5, 10 eventi, la (6.115) risulta essere approssimativamente la somma del quadrato di K variabili gaussiane standard indipendenti (dato che per una distribuzione di Poisson 0; = pi) e pertanto, in base a1 teorema di Pearson 3.3, essa si distribuisce approssimativarnente come la densit& x2 (3.64) con K gradi di liberti. I valori integrali della corrispondente densit&X 2 ridotto (3.70) sono riportati in Tab. D.3. Se invece il numero totale N di eventi B costante, le variabili della somma (6.115) sono correlate, ma il teorema 4.5 della somma di Pearson ci assicura ancora che il risultato B una variabile X 2 , ma questa volta con (K - 1) gradi di liberti. Notiamo che, se N 6 costante, B sbagliato scrivere: K
(ni - N P ~ ) ~
= i=l N p i ( l -pi)
(falso!)
,
perch6 la somma i: si composta dal quadrato di variabili standard, ma queste sono correlate. In conclusione, occorre sempre sommare il quadrato delle diffirenze tra le frequenze osservate e quelle vere e dividere per le frequenze vere, avendo cura di ricordarsi che i gradi di liberth sono pari al nurnero dei canali se N 6 una variabile poissoniana, mentre vanno diminuiti ,di una unit& se N & costante. Tutto questo deriva dal teorema 4.5 di Pearson applicato all'analisi statistica degli istogrammi. Eseguiamo ora il test x2 sui dati dell'istogramma (6.101). Nel nostro caso, poich6 il primo canale contiene solo un evento (il contenuto non & una variabile gaussiana), occorre sommare tra lor0 i primi due canali e poi sommare gli altri undici canali rimanenti. I1 valore X 2 ridotto che si ottiene dai dati di Tab. 6.4 B allora:
Poicht! N B costante, il numero dei gradi di liberta B uguale al numero dei punti della somma meno uno, cioB 11. Col calcolo del x2 si raggiunge, per cosi dire, il massimo della sintesi, perch6 i risultati di Tab. 6.4 e di Fig. 6.14, relativi a1 confront0 tra dati e modello, vengono condensati in un solo numero, nel nostro caso 0.82. Ovviamente, se rifacessimo un altro esperimento, otterremmo un numero diverso, della (6.116) i: il valore assunto da una variabile aleatoria che perch6 il ha la densit&di Tab. D.3. Procediamo ora a1 test X 2 vero e proprio. Cerchiamo in Tab. D.3, nella riga corrispondente a 11 gradi di libertii, l'area corrispondente a1 valore di 0.82: troviamo un valore di circa il 60 %. In termini formali, la situazione corrisponde all'equazione: :
Xi
227
6.17 Verifica di corn~atibilitatra cam~ionee ~opolazione
Fig. 6.15. Livello di significativitk osservato nel caso di test a due code (aree ombreg iate) quando il valore trovato XR corrisponde a) ad una probabilith
d
",
xg
P(Q >
xi) < 0.5
P(Q z
xi ) > 0.5
1
P{QR> X: < 0.5 oppure b) a P{QR> xRa}> 0.5. Le zone ombreggiate hanno aree uguali
dove Q R i? una variabile che segue la densita x2 ridotto con 11gradi di liberta. Definendo il livello di significativita come:
se il modello i: valido, sono possibili valori di x2 ridotto minori di quello trovato in almeno il 40 % delle prove. Poichk un livello di significativita del 40% rende altamente probabile l'errore di I tipo, l'ipotesi va accettata. In conclusione, abbiamo generato a1 calcolatore un campione di 1000 eventi da una distribuzione gaussiana con p = 70 e a = 10. Successivamente, abbiamo eseguito I'analisi del campione ed effettuato i test statistici rispetto alla densita vera. Questi test hanno mostrato buon accord0 tra dati e modello. Come vedete, la logica del test X2 i:esattamente uguale a quella utilizzata con la Tab. D.1 per le variabili gaussiane. Cib che cambia i: solo il tip0 di variabile e la funzione di test. Non occorre quindi ridiscutere il livello di significativitb e l'errore di I tipo in ulteriore dettaglio. L'unico punto su cui fare attenzione, come abbiamo giA spiegato, i: che la densit&x2, a differenza della gaussiana, non i: simmetrica. Si rende pertanto necessario tabulare i valori integrali in tutto il campo di esistenza della funzione, invece che in una sola delle due met&,e questo fatto porta a probabilitb cumulative estratte dalla tabella che possono superare il 50%. I1 test X2 pub essere fatto ad una o due code. Nel test ad una coda il livello del test riguarda in genere la coda a destra ed il livello di significativita osservato SL (o p-value) vale
Se il test 2: a due code, come in Fig. 6.15, allora
228
Capitolo 6. Statistica di base
Occorre fare ancora alcune ulteriori considerazioni quando i valori di X2 sono troppo alti o troppo bassi: in ognuno di questi due casi test indica che le Jtuttuaxioni dei dati intorno ai valori assunti come veri n o n sono di tipo statistico. Quando la (6.117) fornisce valori troppo piccoli:
il valore di x2 ridotto trovato si situa nella coda a destra e risulta troppo alto. In questo caso & altamente probabile che la densit&della popolazione assunta come modello non sia quella Vera. Pub anche essere che gli errori assegnati ai canali siano stati calcolati male e risultino sottostimati. Se si 6 sicuri di aver calcolato bene gli errori, il risultato del test 6 il rifiuto dell'ipotesi. Molto pih raramente capita che il valore di X2 sia troppo piccolo:
Questo caso si verifica quando le probabilith, a priori pi sono calcolate da una popolazione che, avendo un numero eccessivo di parametri, tende ad interpolare i dati, oppure quando gli errori sono stati erroneamente sovrastimati. Approfondiremo meglio questi concetti nel cap. 10. Spesso il x2 di un istogramma viene calcolato dividend0 per le frequenze misurate invece che per quelle vere:
In questo caso il denominatore di ogni addendo & approssimato ma B indipendente da ogni modello. Se si opera nell'ambito di un modello, 6 pih corretto e consistente dividere per le frequenze vere. Tuttavia, se nella verifica di ipotesi si considerano solo i canali con pih di 5-10 eventi, l'uso delle frequenze misurate porta quasi sempre a risultati equivalenti a quelli ottenuti con quelle vere. Nei test con procedure di minimizzazione, che vedremo nei capitoli 9 e 10, si utilizzano spesso a1 denominatore le frequenze misurate, perchb, essendo indipendenti dai modelli, esse restano costanti durante la procedura di adattamento del modello ai dati, semplificando di molto gli algoritmi di calcolo. La nostra routine , assegnati in ingress0 la matrice dei dati n, quella dei valo adi di liberta nu, calcola il X 2 con la (6.115) e fornisce in uscita un vettore & tre posizioni: X 2 , x2/v, SL; . Esercizio 6.1 Fare l'analisi e Fig. 2.1, assumendo come modello che i lanci siano indipendenti e che tutte le monete abbiano una probabilitd a priori testa/croce pari a 1/2. Risposta. I dati sono riportati ancora per comoditd nella nuova Tab. 6.5, dove sono state anche calcolate le quantzth di base che ci semiranno nella
229
6.17 Verifica di cornpatibilith tra carnpione e popolazione
Tabella 6.5. Istogramma relativo all'esperimento costituito d a 1V = 100 prove, ognuna consistente nel lancio di 10 monete da 50 lire (vedi anche Tab. 2.2). Le colonne contengono: il numero di teste possibili (1)' il numero di volte (successi) in cui si 15 ottenuto il numero di teste riportato in prima colonna (2), le speranze matematiche, o numero vero di eventi, date dal numero di prove per la probabilita binomiale della (2.30) con n = 10, p = 1/2 (3), l'errore statistic0 dell'istogramma calcolato col numero vero di eventi (4) oi = (5) si =
m ni
1 - - , i valori del
X2
J 41 -3 , e con quello misurato p.
-
per ogni punto, ottenuti utilizzando nel
I
calcolo la probabilitii Vera (6) e la frequenza misurata (7) spettro (n. teste)
successi
binomiale
dev. std. "vera"
dev. std. stimata
xL
xL
"vero"
stimato
analisi. Per n o n fare confusione, occorre per prima cosa definire i parametri:
- numero di lanci per prova: n = 10; - numero di prove: N = 100; - numero totale di lanci: N .n = M = 1000.
Il primo test che possiamo fare i: quello sul numero totale di successi, cioB sul numero totale di teste. Dalle colonne 1 e 2 della tabella otteniamo: J:
=2 .5
+ 3 . 1 3 + . . . = 521
successi .
Poiche' la speranza matematica B M p = 500 e la dispersione vera, calcolata con la (3.5), vale (T = J ~ o o ( I -1/21 = 15.8, otteniamo zl valore standard:
a1 quale corrisponde i n Tab. D.l a n livello di significativitd
230
Capitolo 6. Statistics di base
il quale permette di aflermare che, ripetendo varie volte mille lanci indipendenti con monete non truccate, i n circa 2118% dei casi si avranno scostamenti (in piu o i n meno) da 500 maggiori di 21. Nell'esercizio 2.6 abbiamo calcolato la media e la varianza dell'istogramma di Tab. 6.5: m = 5.21 , s2 = 2.48 , s = 1.57 , ed i corrzspondentz valori veri della binomiale con n = 10 e p = 1 / 2 :
I1 test sulla media, eseguito con la (6.40), fornisce allora:
ll test sulla media risulta uguale a1 test sul numero totale di lanci, perch4 vale 1 'identiti Mp-x
Nnp - NxIN
np - x l N
b-m
Per il test sulla varianza possiamo utilizzare la formula per grandi campioni (6.56) e calcolare il valore standard:
cui corrisponde i n Tab. D.l u n livello di significativitd
Veniamo ora a1 test x2, che i: il test finale complessivo sulla forma del campione. Raggruppando i primi e gli ultimi 3 canali, i n modo da avere sempre u n numero di eventi per canale 5, otteniamo:
>
Il numero dei gradi di liberti i. uguale a 6, poiche' il numero totale di eventi 6 Jissato e nella somma compaiono 7 termini. A questo valore di X & corrisponde i n Tab. 0 . 3 u n livello di signzficativith
6.18iVerifica di iootesi con test non oararnetrici
231
Fig. 6.16. Dati sperimentali con barre d'errore e previsioni della densit%binomiale (quadrati vuoti) per 100 prove consistenti nel lancio di 10 monete d a 50 lire. Per facilitare il confronto, i punti discreti della densiti binomiale sono stati uniti d a tratti di retta
deE50% czrca: in pratzca abbiamo ottenuto un evento {QB = x;} nell'intorno del valore piu probabale. S e nel calcolo del X2 avesszmo divwo per le frequenze misurate come nella (6.119), avremmo ottenuto & = 7.4216 = 1.24 ed u n live110 di significatiwith di circa il 25%. I due risultati, per quanto analoghi dal punto di vista statistico, dzgeriscono sensibilmente a causa della dimensione del campione (N = 100) piuttosto ridotta per il test x2. In tutti i test eseguits si sono ottenuti livelli di significativitii molto elevati, il che dimostra u n buon accord0 statistico tra i dati e il modello che assume lanci indipendenti di monete n o n truccate, I dati sperimentali con i relativi errori statistici e i valori teorici dati dalla distribuzione binomiale sono riportati anche in Fig. 6.16. Abbiamo finalmente analizzato in modo completo ed esauriente l'esperiment o delle 10 monete, la cui presenza ... incombeva minacciosa da tempo. V i facciamo notare che n o n si tratta di un esperzmento tanto facile da interpretare, se ci sono volute 231 pagine di testo per completarne l'analisi.
--
a-
4
-
.
.= -
-- -
= ---- - 10, l'uso del test X 2 2:
232
Capitolo 6. Statistica di base
equivalente all'uso del test gaussiano a due code s u una variabile standard. Infatti, le variabili
seguono l'una la densita gaussiana, l'altra quella X 2 con un grado di libertk. Potete facilmente controllare come, assegnando a caso un valore di T ed eseguendo il test a due code con la Tab. D.l ed eseguendo il test ad una coda per la variabile Q(1) con la Tab. D.3, si ottengano risultati identici. Nel caso di una coppia di variabili gaussiane, la verifica di compatibilita pub essere effettuata con la densit& gaussiana o di Student, second0 il metodo della differenza del par. 6.15. In alternativa, se l'esperimento misura la frequenza di realizzazione di un evento in due carnpionamenti indipendenti, spesso viene usata l'analisi delle tabelle di contingenza con il test x2. Questo metodo consiste nel costruire una tabella contenente il numero di successi n, ed n b ottenuti con due serie di tentativi N, ed Nb:
I
SUCCESS1
I
INSUCCESSI
TOTALE
1
Supponendo che i due campioni provengano da un medesimo process0 stocastico con probabilita Vera p, si costruisce la tavola di contingenza attesa:
(
CAMPIONE CAMPIONE TOTALE
A B
SUCCESS1
INSUCCESSI
pNb p(Na
(1(1- p)Nb (1- P ) (Na
I pNa
+ Nb)
TOTALE
I
+ Nb)
Na Nb Na
+ Nb = N
Ogni riga della tabella di contingenza sperimentale costituisce un istogramma a due canali e la tabella attesa associata fornisce il corrispondente valore atteso del numero di successi e insuccessi. In base ai teoremi di Pearson 4.4, 4.5 ed al teorema 3.4 di additivita del X 2 la quantita
si pub considerare come il valore assunto d a una variabile X 2 con 2 gradi di liberta. Se p ii incognita e l'ipotesi nulla afferma solo che essa B la medesima per i campioni A e B, si pub effettuarne una stirna puntuale dai dati. Se i successi e gli insuccessi osservati sono tutti > 10, allora si pone
233
6.18 Verifica di ipotesi con test non pararnetrici
Poich6 questa assunzione introduce una ulteriore relazione di dipendenza tra i dati, in base alla definizione 6.3 la (6.120) rappresenta i valori presi da una variabile X 2 con un solo grado di libertd. Notiarno che il metodo 6 approssimato, perch6 la probabilitii Vera i! stata stimata dalla frequenza osservata (6.121). La tendenza verso la densith di x2 della variabile (6.120) si ha ovviamente per I T , Nb + w. Tuttavia il metodo viene accettato e fornisce buoni risultati quando vale la condizione N > 40, n,, n b > 10, la quale assicura che il numero di successi sia gaussiano e che la stima della probabilith Vera sia affidabile. Vi ricordiamo che questo punto i: stato ampiamente discusso nel par. 6.6. Esercizio 6.13 gt+yjx ~ ~ e ~ ~ s ~ . ~ 2 y ~ ~4 , ~y ~z ~ ~- 2G7 :~ P e r provare la validitd di u n vaccino, si sono studiati due gruppi di cavie, u n o vaccinato, 17altro n o n vaccinato. I risultati sono riportati nella seguente tavola di contingenza:
I
1
I
AMMALATE
1
10 18 28
1
CAVIE VACCINATE CAVIE NON VACCINATE TOTALE
SANE
II
41. 1 29 1 70 1
TOTALE
I
51 47 98
1 1
Dire se i risultati sono significativi per it test a una coda a destra ad u n live110 del 5%. Risposta. S e assumiamo come zpotesi nulla Ho che il vaccino n o n sia efficace, allora le dzflerenze tra i due gruppi di cavie sono solo casuali. Sotto questa ipotesi la miglior stima della probabilitci di contrarre la malattia sard data dalla frequenza (6.121):
Analogamente, la probabilitd di n o n contrarre la malattia sarci pari a 0.714. Possiamo allora costrmire la tavola di contingenza attesa (ciod dei valori attesi sotto Ho: 0.286 . 5 1 = 14.6, ecc.): CAVIE VACCINATE CAVIE NON VACCINATE TOTALE
Dalla formula (6.120) abbiamo:
I
AMMALATE
SANE
14.6 13.4 28.0
36.4 33.6 70.0
TOTALE
I
1
51 47 98
~
~
234
Capitolo 6 . Statistica di base
-
Dalla Tab. 0 . 3 si vede che S L = 5% corrisponde, con un grado di libertd, ad un valore X2(1) = 3.84, mentre il valore trovato, x2(1) = 4.24, corrisponde a S L 4%. Concludiamo che il vaccino supera il test di eficacia a1 live110 del 5%, perch6 la probabilitd di sbagliare, scartando Ho ed aflermando che il vaccino d eficace, b solo del4%. Dato che questo problema richiede 17uso di u n a tavola di contingenza a due entrate, possiamo usare i n alternativa il metodo del par. 6.15 e la formula (6.94). Dalla tabella di contingenza sperimentale si ha i n questo caso:
Notate che qui n o n si utilizza la tabella di contingenza attesa. I1 valore t; = 4.30 corrisponde ad u n x2 con u n grado di libertci in accordo col valore 4.24 trovato i n precedenza con la tavola di contingenza attesa. Avremmo trovato due valori identici se nella (6.122) avessimo usato a1 denominatore, invece che le frequenze sperimentali, quelle della tabella di contingenza attesa. Dalla Tab. D.l si ottiene, per t = 2.07, un valore di 0.4808, pari ad u n live110 di significativitci, per u n test a due code, di:
i n accordo col test X2 eflettuato i n precedenza. V a notato che entrambi i metodi usatz sono approssimati: zl metodo che utilizza la tabella dz contingenza attesa assume che le probabilitci vere coincidano con le frequenze calcolate dai dati supponendo che il vaccino sia ineficace, mentre zl metodo della differenza utilzzza, a1 posto degli errorz veri, glz errori statistzcz calcolatz dalle frequenze sperzmentali.
------ *
-- -
--* = --
= ~ = ? * ~ - = -=. - : & ~ - ~ ~
- --
-=
Mostriamo ora come il test del X2 possa essere esteso a tavole di contingenza di qualunque dimensione. In generale, possiamo considerare la tabella di contingenza seguente:
I
CAMPIONE
I
CAMPIONE
2
...
1 I
CANALE 7211
1
CANALE 1212
2
... ...
CANALE C wc
I
TOTALE C i n l j
...
la quale 5 composta d a T righe (i campioni in forma di istogramma) e c colonne (i canali degli istogrammi). Nel caso di un solo istogramma, il test si riduce a1 caso discusso nel par. 6.17. Come a1 solito, supponiamo di voler verificare se i campioni sono omogenei, se cioi: provengono tutti dalla stessa popolazione. Se questa ipotesi
6.18 Verifica di ipotesi con test non parametrici
235
nulla B Vera, allora ad ogni colonna della tabella potremo associare una probabiliti Vera (incognita) pj, che moltiplicata per il numero totale di elementi Cjnij = Nidi ogni campione (riga), forniri, in ogni cella, il valore vero o atteso pjNi del numero di eventi. Tenendo presente anche in questo caso i teoremi di Pearson 4.4, 4.5 ed il teorema 3.4 di additivita del x2, possiamo dire che la quantitii
segue una distribuzione di X 2 . I1 valore incognito della probabilitb si pub stirnare dai dati generalizzando la (6.121) e sommando per colonne:
dove N B il gran totale della tabella. Veniamo ora a1 calcolo dei gradi di liberti. Dal teorerna di Pearson 4.5 sappiamo che ogni riga contribuisce con ( c - 1) gradi di libertb. Tuttavia questo numero, che vale r(c - I), va diminuito di una valore pari a1 numero di relazioni (6.124) con le quali abbiamo stimato le probabilita vere. Queste ultime non sono pari a a1 numero di colonne c, ma a ( c - I ) , perch6 la probabilitb dell'ultima colonna resta determinata dalla relazione di chiusura:
Abbiarno pertanto un numero di gradi di libertb che vale:
In conclusione, per la verifica di una ipotesi Ho, con un livello di significativita S L = a prefissato (in genere a = 0.01-0.05), su uno o pi6 istogrammi raccolti in una tabella di contingenza con (i = 1,2,. . . , r ) righe e ( j = 1,2,. . . ,c ) colonne, si procede come segue: si calcola il X 2 ridotto
dove Ni sono i totali di riga, N i: il gran totale della tabella e Ijj B data dalla (6.124); si rifiuta Ho ad un livello di significativitb cw se dalla Tab. D.3 risulta
236
Capitolo 6. Statistics di base
Questo test B il pilastro della analisi statistica non parametrica delle frequenze. Si noti che, nel caso non parametrico, non si rigetta l'ipotesi quando il x2 B piccolo ed i valori di probabilitb sono alti, poich6 non va preso in considerazione il caso in cui il modello a priori di densitb contenga un numero troppo elevato di parametri. I1 test i! quindi sempre a una coda, quella di destra. Tuttavia, i! bene notare che un valore di x2 troppo piccolo, corrispondente a valori di probabilitB > 0.99 nella (6.128), indica una coincidenza sospetta tra la tabella di contingenza sperimentale e quella attesa, dovuta in genere a jluttuazioni non casuali o a correlazioni nei dati. In questi casi occorre cautela nell'accettare l'ipotesi nulla, specialmente se si B in presenza di un numero elevato di gradi di libert8. Vi raccomandiamo, a questo proposito, il problema 6.11. Potremmo evitare di usare il test X2 e ricorrere sempre a1 test gaussiano delle differenze come nel caso delle tabelle di contingenza (2 x 2)? La risposta 6 negativa e vogliamo spiegarvene il motivo. Nel caso di tavole di contingenza con pih di due dimensioni potremmo pensare di fare una somma di differenze di frequenze divise per il relativo errore, come nella (6.94). Se togliamo il valore assoluto della differenza, anche la somma di queste variabili aleatorie sar&gaussiana e potremmo eseguire il test di significativita con la Tab. D.1. Tuttavia, una somma di grandi fluttuazioni (positive e negative) potrebbe fornire un buon valore della variabile standard anche nel caso di una ipotesi grossolanamente sbagliata. Se, per evitare questo inconveniente, mantenessimo il valore assoluto nella somma delle differenze, allora non avremmo piii una variabile finale gaussiana e non potremmo pertanto eseguire il test. La variabile X2, invece, essendo una somma di quadrati di fluttuazioni, combina sempre positivamente tutte le fluttuazioni dei dati rispetto a1 valore vero ed i: pertanto pih affidabile. In linguaggio tecnico, possiamo dire che il test x2, rispetto a quello gaussiano delle differenze, minimizza l'errore di I1 tip0 (accettare una ipotesi sbagliata) e che pertanto, in base alla terminologia che introdurremo nel cap. 9, B un test piii potente. In ambito SCILAB una routine estremamente sintetica, che abbiamo chiamato per l'analisi di tabelle di contingenza t a b e l di qualsiasi dimenslone: // // // //
f u n z i o n e SCILAB p e r il c a l c o l o d e l c h i q u a d r a t o , d e l c h i quadrato r i d o t t o e d e l l i v e l l o d i s i g n i f i c a t i v i t a ' SL a p a r t i r e d a una t a b e l l a d i contingenza t a b e l Output: [contl = [chi2 ; c h i 2 r i d o t t o ; l i v e l l o SL]
f u n c t i o n [cont] =Tabcont ( t a b e l )
//
r i l e v a z i o n e dimensioni t a b e l l a
6.18 Verifica di ipotesi con test non parametrici
// //
237
gran totale GT = sum(tabe1) ; probabilita' vere stimate (matrice riga somma delle colonne)
P = sum(tabe1,'r') ./GT; //
totali per riga (matrice colonna s o m a delle righe)
T = sum(tabe1,'c'); //
creazione della tabella di contingenza attesa tabatt = T*P;
//
calcolo del chi quadrat0 cont = Chisq(tabe1, tabatt, (r-l)*(c-1))
;
endfunction
La routine sfrutta la funzione SCILAB *sum per sommare righe e colonne della tabella. P B la matrice delle probabilit&(6.124), T quella dei totali di riga N, della (6.126). I1 prodotto righe per colonne T*P 2 la tabella di contingenza attesa N&. I1 vettore di usc , che contiene i valori di x2, x 2 / v , SL, viene ottenuto con la routine descritta a pag. 228, che potete copiare dal nostro sito.
Esercizio 6.14 mi= j i ~ ~ A i o w ~ ~ ~ ~ m ~ ~ - ~ r ~ ~ , ~ ~ I n una ditta di cinghie dentate di gomma tre operatori X , Y e Z eseguono u n test uisiuo sulla bontd del prodotto. Essi possono accettare il pezzo oppure scartarlo per un difetto di tipo A o B. U n controllo ha fornito la tabella seguente:
I
I
OPERATORE OPERATORE OPERATORE TOTALE
X I Y
TIPO
A 10 20 30 60
B 54 50 35 139
TIPO
BUONO
26 50
35 111
I TOTALE 1
90 120 100 310
Stabilire se i cm'tem' di controllo dei tre operatori sono omogenei ad un liuello dell'l%. Kisposta. Utilizzando la (6.124) otteniamo le probabilitd
Queste probabilitd permettono di ottenere la tabella di contingenza attesa: OPERATORE OPERATORE OPERATORE TOTALE
X Y 19.3 60.0
44.8 139.0
35.8 111.0
310
238
Capitolo 6 . Statistica di base
Se rifate i conti, potrete trovare qualche piccola difjerenza rispetto ai valori sopra riportati a causa degli arrotondamenti. ll valore del X 2 ~iottiene dalla (6.126):
I n base alla (6.127), i gradi di libertd sono:
I1 X2 ridotto (6.126) vale pertanto:
Dalla Tab. D.3 risulta che a questo valore corrisponde u n livello di szgnixg(4)) molto pzccolo, poiche' a1 valore xL(4) = 3.71 ficativztci P{QR(4) corrisponde gici u n livello di significativitci del 5 per mille; il valore trovato dz 4.73 corrisponde danque ad u n livello ancora minore. La routz Possiamo concludere che gli opera fornisce znfatti S L = 8.3 cm'teri dzversi, poiche' l'ipotesi di omogeneitci, ad u n live110 dell'l%, va rzfiutata.
>
6.19 Stima della correlazione Quando si calcola da un insieme finito di dati (xi, yi) il coefficiente di correlazione campionario si ottiene generalmente un valore diverso da zero, anche quando le variabili sono incorrelate. Il problema B quindi, avendo ottenuto dai dati un coefficiente di correlazione r , verificare se esso B compatibile o meno con un valore nullo (verifica di ipotesi), oppure stimare l'intervallo di confidenza entro il quale i: localizzato il coefficiente di correlazione vero p (stima di un parametro). La stima campionaria del coefficiente di correlazione (4.31) per un insieme finito di N elementi richiede prima la definizione della covarianza carnpionaria S ( X ,Y) S x y . Senza perdere di generalit2 possiamo considerare una coppia di variabili centrate (a media Vera nulla), per le quali la covarianza Vera vale;
Per individuare eventuali fattori di distorsione (bias) B necessario, analogamente a quanto fatto per la varianza nella (6.47), trovare il valor medio vero della somma campionaria:
6.19 Stima della correlazione
239
the in generale avrh {Mx= ms # 0}, {My = my # 0) anche quando i valori veri delle medie sono nulli. Applicando le proprieta di linearita dell'operatore media e notando che
e cod via, abbiamo:
L'ultimo termine di questa equazione si pub scrivere come:
Ora, Xi ed Yj sono indipendenti, perch6 sono valori provenienti da eventi diversi campionati indipendentemente (ricordiamo che la correlazione esiste nella coppia (Xi, Y,),relativa alla stessa prova!). Dalla (4.9) si pub allora scrivere (X&) = (X) (Y) = 0 , poich6 per ipotesi le medie vere delle due variabili sono nulle. Dato che XU) = N (XY), la (6.130) si risolve nell'equazione:
(x
F ( X i - Mx)(Y, - MY))=(?xi+
(?Xix)
= (N-1)
(xi-) ,
i=l
(6.131) che, ricordando la (6.129), implica:
In definitiva, la covarianza campionaria nun distorta vale:
240
Capitolo 6. Statistica di base
Questo risultato mostra che tanto per la varianza che per la covarianza, se le stime sono fatte rispetto alle medie campionarie, il fattore N a1 denominatore va sostituito con N - 1. I1 coefficiente di correlazione lineare campionario assume allora la forma compatta:
S x sy
(6.134) dove nell'ultimo passaggio b stata utilizzata la (4.25). A questo valore corrisponde la variabile "coefficiente di correlazione campionario R" . Per i1 calcolo n insieme di dati grezzi, potete usare la nostra routine dove x b la matrice r x c contenente c valori di r vari ato B la (6.133) quando flag=O e la (6.134) quando f lag=i. La densit& di probabilith di R B stata trovata nel 1915 da R.A. Fisher. Questa distribuzione (dedotta anche in [22]), nel caso di N variabili gaussiane con coefficiente di correlazione vero p = 0, ha densitii di probabilita data da:
dove v = N - 2. Anche la stima del coefficiente di correlazione vero a partire dai dati campionari k un problema difficile, la cui brillante soluzione B dovuta sempre a R.A. Fisher, che nel 1921 dimostrb il teorema:
Teorema 6.3 (Variabile Z di Fisher). S e R b un coeficiente di correlazione campionario ottenuto da N coppie di variabili normali, la variabile
possiede, per N
+ oo, distribuzione normale con media e varianza date da:
essendo p il coeficiente di correlazione vero. Dimostrazione. La dimostrazione completa del teorema d piuttosto complicata e generalmente i testi rimandano all'articolo originale di Fisher oppure al suo celebre testo [37]. Tuttavia, possiamo dare u n a parziale dimostrazione del teorema considerando, come in (401, il caso in cui p = 0 ed applicando alla densitci (6.135) la trasformazione inversa della (6.136):
6.19 Stima della correlazione
241
dove tanh rappresenta la tangente iperbolica. Dato che: 11 - tanh2 x = -cosh2 x '
1 d tanh x -dx cosh2 x '
-
indicando con A tutti i coeficienti costanti della (6.135) e tenendo presente che v = N - 2, dalla uguaglianza c ( r ) d r f (2)dz, si ottiene: 1 cosh2 z
-= A
f ( z ) = A (1 - tanh2
1 coshN-2 z
'
P e r il coseno iperbolico vale lo sviluppo in serie: 1 coshz = -(eZ 2
-
+ e-")
=1
.z2 z4 +++ .. . 2! 4!
dove l'ultima approssimazione vale per z dell'ordine dell'unita. A causa della presenza del logaritmo, i valori di z si mantengono abbastanza limitati, tranne che nel caso estremo r f1. Possiamo allora, con buona approssimazione, arrestare questo sviluppo in serie a1 second0 ordine e scrivere:
Risulta dunque che la variabile Z b approssimativamente normale, con media nnlla e vam'anza Var[Z] = 1 / ( N - 2). Il risultato corretto b tuttavia 0 rappresentato dalle (6.137). In realt& il teorema & molto potente, perch6 in pratica vale per N > 10 e d& buoni risultati anche con variabili non gaussiane. Per mostrarvi le prodigiose proprieta della trasformazione di Fisher, abbiamo riportato in Fig. 6.17 l'istogramma di 50 000 coefficienti di correlazione campionari r ottenuti con 20 coppie di variabili uniformi (X, X V) dell'esercizio 4.2 e il relativo istogramma della variabile Z. Nella stima della correlazione da un insieme di dati ({R = r ) , { Z = z)) si esegue la trasformazione (6.136)' si applica la teoria della stima per variabili gaussiane ed infine si antitrasforma applicando I'esponenziale ad ambo i membri della (6.136):
+
Una formula pih semplice per I'intervallo di stima pub essere ottenuta trovando l'errore su r applicando alla (6.138) la legge di propagazione degli errori e la (6.137):
242
Capitolo 6. Statistics di base
SOO 0.4
8.2
rho
0.6
Fig. 6.17. Istogramma di 50 000 coefficienti di correlazione tra 20 coppie di variabili uniformi (X,X + V) a); corrispondente istogramma della variabile Z di Fisher e della gaussiana (curva piena) che rneglio si adatta ai dati b)
z di Fisher
e sostituendo poi il valore di z della (6.136): ST
=
1 - r"
-
Jm
da cui
p Erf
1-r2
'
- CL rr 68%.
d7C3
(6.139)
La procedura 6 chiarita negli esempi che seguono. Esercizio 6.15 Valutare la compatibilitd tra valori veri e simulati nell'esercizio 4.2 di pagina 121.
Risposta. L'esercizio si riferisce a 10000 coppie di dati simulati, per i quali si sono ottenuti i valori:
a fronte di valori veri dati da:
Trasformiamo i valori sperimentali con la (6.136) e i valori veri con la prima delle (6.137):
I valori zi sono relativi ad una variabile gaussiana di media pi e deviazione standard: 0
=
J&
=
,,I& = 0.0100 .
243
6.19 Stirna della correlazione
Tabella 6.6. Statura e perimetro toracico (in cm) di 1665 soldati italiani della prima guerra mondiale. I dati sono riportati da [lo] PERIMETRO TORACICO
-72
S T
150 154 158
3
76 1 7 7
80 7 27 69
84 2 39 118
92 1 6 21
88 2 28 87
Possiamo allora costruire le tre variabili standard:
alle quali, come si vede dalla Tab. D.l, com~spondonoelevati livelli di significativitd. I dati si scostano infatti di 1.38, 0.42 o 1.21 deviazioni standard dalla loro media, indicando u n buon accord0 tra simulazione e valori attesi. mrFaw--Tq%
=
~
~
-
m
~
~
>
~
~
~
~
~
=: *~ ~ G~~--g . r*-:~: e q~~*:= *
*
d
~
>
=
Esercizio 6.16 Determinare dai dati di Tab. 6.6 il coeficiente di correlazione altezza/torace. Risposta. La tabella, riprodotta anche i n Fig. 6.18, rappresenta u n istogramm a bidimensionale. DalEa sua strmttura si deduce facilmente l'ampiezza delle classi: ad esempio, i soldati con perimetro toracico tra 78 e 8.2 cm (valore centrale 80) e altezza tra 160 e 164 c m (valore centrale 16.2) sono i n numero di 110 e cosi via. Se ti ed si sono i valori spettrali del torace e della altezza, gli istogrammi marginali n(ti) e n ( s i ) hanno forma di tipo gaussiano, come si pub vedere facilmente dai grafici (fatelo per esercizio). Le medie e Ee deviazioni standard degli istogrammi marginali sono una stima delle corrispondenti quantitd vere delle densitci marginali delle altezze e dei perimetri del torace. Esse si possono calcolare tramite le (2.40, 2.41). Con ovvia notazione, si ottiene:
~
a
~
v
244
Capitolo 6. Statistics di base
Fig. 6.18. Istogramma bidimensionale dei dati di Tab. 6.6
Le due dispersioni st ed s, sono state calcolate dividend0 per (1665 - I ) , poiche' si sono utilizzate le medie empiriche. La stima ad l a delle medie della statura e del torace d data dalla (6.40):
Veniamo ora a110 studio della correlazione. I dati dovrebbero essere correlati, perch6 l'esperienza mostra che uomini piccoli con torace enorme, o viceversa, sono molto rari. Calcoliamo pertanto la covarianza campionaria (4.25'):
I1 coeficiente di correlazione campionarzo (6.134) vale allora:
Vi ricordiamo che, per il calcolo di sst o di r,t potete usare le routine di S C I L A B -%dk$ Stimzamo ora, con un C L = 95%, zl coeficiente di correlazione altezza/torace dei soldatz. Per przma cosa, calcoliamo la variabile Z corrzspondente alla correlazzone campionaria r = 0.266:
6.20 Problemi
245
Questa B una variabile approssimativamente gaussiana, di deviazione standard data dalla seconda delle (6.137). Poiche' i dati si riferiscono a 1665 soldati, abbiamo:
Per una variabile gaussiana, i limiti di confidenza a1 95% sono data da una variabile standard t = 1.96:
L'intervallo che abbiamo trovato contiene con C L = 95% il valore p,. L'zntervallo di conjidenza per il coeficiente di correlazione vero p si trova infine inserendo nella seconda delle (6.138) i valori (0.225,0.319):
Come si vede, dai dati risdta in mod0 certo la correlazione altezza/torace. Lo stesso risultato pub essere ottenuto in questo caso anche con la formula approssimata (6.139). Poniamoci ora la domanda: u n soldato alto sui 170 cm, che torace deve avere per essere considerato nella norma? Se assumiamo l'istogramma della tabella come campione di riferimento, possiamo rispondere alla domanda stimando dai dati, con le (4.54, 4.55), la media (sulla retta dz regressione) e la deviazione standard del torace t condizionate dalla statura s: m ( t l s ) = mt
+ r,t
St
- ( s - m,) = 85.71
+ 0.204 (170 - 163.71) -4 86.9 crn
S,
Sempre nell'ipotesz di u n modello gaussiano, posszamo dire che il perzmetro toracico del soldato, per essere nella norma, deve essere compreso, con legge 3 0 , nell'intervallo 86.9 f 4.3 cm.
6.20 Problemi 6.1. Da un'urna contenente 400 biglie rosse e nere (in proporzione sconosciuta) si estraggono 30 biglie, di cui 5 rosse. Trovare, ad un livello di confidenza del 95%, il numero iniziale di biglie rosse R contenute nell'urna nel caso di a) estrazione er grandi campioni, b) estrazione con reinserimento utilizzando l'appro con reinserimento utilizzando il codic c) estrazione senza reinserimento utilizzando I'approssimazione per gran
246
Cawitolo 6. Statistica di base
6.2. In un esperimento si sono ottenuti 20 conteggi. Trovare il limite superiore del valore atteso dei conteggi, con CL = 90%. Utilizzare I'approssimazione gaussiana della distribuzione di Poisson. 6.3. Lo scarto quadratic0 medio del peso di una popolazione adulta B a = 12 Kg. Trovare la media ( S ) e la deviazione standard u[S] per un campione di N = 200 individui. 6.4. Eseguendo un numero incognito N di prove, ognuna con probabilita nota a priori p = 0.2, si ottengono n = 215 successi. Stimare N con CL=90%. 6.5. Se Xi(i = 1 , 2 , . . . ,N) k un campione casuale estratto da una popolazione normale, dimostrare che la covaxianza tra la media M e lo scarto campionario (Xi - M) k nulla. 6.6. Vengono sommate 25 variabili gaussiane aventi tutte la stessa media p ignota e u = 1, ottenendo il valore di 245. Si trovi a) l'intervallo standard di stima di p (CL=68%) e b) il limite superiore di /I con CL=95%. 6.7. Due macchine producono alberi di acciaio. Le medie di due campioni di 10 alberi hanno fornito i diametri: p1 E 5.36 f 0.05 e pz E 5.21 i0.05 mm. Applicare il test di Student per verificare l'omogeneit8 dei pezzi prodotti dalle due macchine. 6.8. Ad un gruppo di 70 ammalati k stato somministrato un farmaco, ad un altro gruppo di 58 ammalati del semplice zucchero (placebo). Giudicare se il farmaco B efficace in base alla tabella di contingenza ottenuta:
I
GUARITI AMMALATI TOTALE
I
MEDICINA
PLACEBO'
I
40 30 70
28 30 58
I
I
TOTALE
1
68 60 128
1
1
6.9. I1 conteggio X del numero di autobus arrivati ad un case110 autostradale in 5 minuti, ripetuto per N = 100 prove, ha dato il seguente istogramma, con lo spettro discreto di X diviso in 11 canali (da 0 a 10):
5 6 7 8 9 10 3 4 n. di autobus xi I 0 1 2 0 1 1 5 6 19 20 17 15 8 8 1 n.diproveni Dire, con un test a due code, se i dati sono compatibili con un process0 poissoniano. 6.10. Secondo un modello genetic0 un certo tip0 di pianta dovrebbe fornire in rapport0 tra piselli verdi e gialli di 3:l. In un campione di 500 piselli se ne sono trovati 356 verdi. Dire se il modello pub essere accettato ad un live110 del 5%. 6.11. Una serie di 600 lanci con due dadi diversi ha dato luogo alla tabella di contingenza relativa alle 6 facce: TOTALE 1 3 4 5 6 2 106 600 105 103 95 90 DADO 1 101 600 99 99 105 98 DADO2 103 96 1200 TOTALE 200 210 201 198 186 205 Dire se a) le due serie di lanci sono tra lor0 compatibili e se b) i dadi e i lanci sono regolari. 6.12. Un campione di 40 coppie di dati gaussiani ha coefficiente di correlazione r = 0.15. Fare la stima per intervallo di p con CL cz 68%.
6.13. Dopo l'introduzione del nuovo codice della strada le morti per incidente nel fine settimana sono diminuite da 60 a 33. Qual'k la probabilita di sbagliare dermando che il calo k merito del nuovo codice?
7 . 11 metodo Monte Carlo
" Le proprieta davvero uniche del cervello umano m i sembrano caratterizzate proprio dal possente sviluppo e dall'impiego intensivo della funzione di simulazione. E ci6 a1 1iveIlo piii profondo delle funzioni conoscitive, quello su cui si basa il linguaggio e che questo, senza dubbio, esprime solo in parte. " Jacques Monod, "IL CASO E LA NECESSITA".
7.1 lntroduzione Con il termine di "metodo Monte Carlo" oppure "metodo MC", vengono in generale denominate tutte quelle tecniche che fanno uso di variabili aleatorie artificiali (cioi: generate a1 calcolatore) per la risoluzione di problemi matematici. Indubbiamente questo non i? un mod0 molto efficiente per trovare la soluzione di un problema, in quanto la procedura di campionamento simulato porta ad un risultato che Q sempre affetto dall'errore statistico. Nella pratica per0 ci si trova spesso di fronte a situazioni in cui Q troppo difficile, se non addirittura impossibile, utilizzare i tradizionali procedimenti numerici o analitici ed in tutti questi casi il metodo Monte Carlo diventa I'unica alternativa disponibile. L'applicazione di questo metodo non 6 ristretta solo. ai problemi di natura statistica, come potrebbe forse sembrare dall'utilizzo delle distribuzioni di probabilitd, ma include tutti quei casi in cui si riesce a trovare un collegamento tra il problema in esame ed il comportamento di un certo sistema aleatorio: il valore di un integrale definito, che non Q certamente una grandezza casuale, pub, ad esempio, essere calcolato anche usando dei numeri casuali. Le basi teoriche del metodo Monte Carlo (o metodo di simulazione) sono conosciute da molto tempo ed il primo esempio dell'impiego di numeri casuali per la risoluzione di integrali definiti si trova addirittura in un libro ("Essai d'aritmetique morale") scritto nel 1777 d a Georges-Luis Leclerc, conte di Buffon, matematico e naturalista francese, in cui i: delineato un metodo per il calcolo approssimato del valore di T (si veda il problema 7.13). Per oltre un secolo e mezzo esso fu perb usato solo sporadicamente e soprattutto per fini didattici. La sua prima applicazione sistematica si 6 avuta
248
Ca~itolo7. 11 metodo Monte Carlo
solo nella prima met& degli anni '40 a Los Alamos, ad opera dell'kquipe di scienziati, guidata da Enrico Fermi, che sviluppb il progetto delle prime bombe atomiche. In questo stesso period0 nasce anche il termine "Monte Carlo", che fa ovviamente riferimento alla citta del Principato di Monaco famosa per il suo casinb e, pic precisamente, alla roulette, uno dei mezzi meccanici pic semplici per generare delle variabili aleatorie. La paternit& del nome va in particolare attribuita ai matematici J. Von Neumann e S. Ulam, che lo adottarono come nome in codice delle lor0 ricerche segrete, condotte utilizzando numeri casuali, sui processi di diffusione ed assorbimento dei neutroni nei materiali fissili (per maggiori notizie storiche, potete consultare [44]). Dopo gli anni '50 si Q avuto un decisivo impulso nell'impiego del metodo con l'utilizzo dei calcolatori, grazie ai quali esso i! passato in pochi anni dal ruolo di curiositk matematica a quello di strumento indispensabile per la ricerca scientifica. Questo Q avvenuto non solo perch6 i calcolatori permettono la rapida esecuzione dei lunghi calcoli che sono spesso necessari per ottenere un risultato significative, ma anche, come vedremo in seguito, per la facilita con cui essi possono generare dei numeri casuali. Attualmente si hanno applicazioni nei piii svariati campi di ricerca, dalla fisica nucleare alla chimica, dalla meccanica statistica e quantistica all'economia. In questo capitol0 daremo una descrizione dei principi fondamentali del metodo e dei dettagli tecnici pih importanti necessari per realizzare codici Monte Carlo per la risoluzione di problemi di tip0 statistico. Altre applicazioni significative verranno illustrate pih avanti, nel cap. 8.
7.2 Cos'i! il metodo Monte Carlo? Come gi& abbiamo accennato, in tutte le librerie di sistema dei calcolatori esistono da molto tempo routine di servizio che generano valori di variabili che possiamo considerare aleatorie, con densita uniforme in [0, I].La presenza di queste routine i: dovuta a1 fatto che, in base a1 teorema 3.5 ed a quanto spiegheremo dettagliatarnente tra poco, attraverso di esse 15 possibile generare variabili aleatorie aventi una qualsiasi altra densit& di probabilit8, discreta o continua. La realizzazione di questo tip0 di routine, che apparentemente pub sembrare semplice, costituisce in realta un problema matematico complesso, come 5, 46, 57, 661. La libreria si pub vedere consultando i riferimenti [5, disposizione la routine articolarmente semplice, pih sofisticata, che utili nel seguito. La chiamata
dove x i!una matrice di numeri aleatori di dimensione m x n, "tipo" Q il tip0 di distribuzione da cui sono estratti i numeri e p i , p2, . . . sono i parametri
7.2 Cos'it i l rnetodo Monte Carlo?
249
della distribuzione. Ad esempio, per estrarre un numero casuale uniforme nell'intervallo [0, 1) basta scrivere:
e per generare un vettore di 2000 numeri e farne l'istogramma evidenziandone i parametri statistici bastano le due istruzioni:
uso della nostra routine Le numerose in cui abbiarn possibiliti di sono descritte in dettagli a in linea di SCILAB. Le routine che generano numeri casuali vanno inizializzate con uno o pi6 numeri interi detti semi (seeds). Se i semi non vengono cambiati, ad ogni nuova prova del programma i risultati (pur casuali), saranno sempre gli stessi. In altre parole, con gli stessi semi si genereri sempre lo stesso campione. Nel caso di I'istruzione da collocare all'inizo del programma per avere una certa s casuale & la seguente: grand ("setsd" ,123432) ;
dove il seme 123432 B arbitrario e va cambiato ogni volta che si desidera ottenere sequenze diverse. Dobbiamo a questo punto mettervi subito in guardia sulla affidabiliti delle routine di attualmente in circolazione, diverse delle quali non superano molti dei test casuali standard. Per procedere a simulazioni corrette 6 allora necessario utilizzare routine ben documentate e di provata affidabilitb, come quelle presenti in SCILAB e nelle librerie scientifiche pih collaudate. Da ora in poi: a
con il simbolo 6 (con o senza indici) denoteremo sempre una variabile aleatoria uniforme nell'intervallo [O, I]; con (con o senza indici) denoteremo i valori assunti dalla variabile 6 U(0,l) in una o pih prove spe pratica questi sono i valori numerici forniti in uscita dalla routine
-
Per simulare l'esperimento pih semplice, il lancio della moneta, basta allora dividere a metb l'intervallo unitario e, per ogni numero generato t, definire 0.5 e come "croce" quando 0.5 < ( 5 1 l'evento come "testa" quando 0 (naturalmente anche la convenzione inversa andrebbe ugualmente bene). Le istruzioni SCILAB sono le seguenti:
Algoritmo 7.5 (Rigetto pesato). P e r generare i valori di u n a variabile casuale X , avente u n a densitd di probabilith qualsiasi p(x) definita nell'intervallo (finito o infinito) [a,b] e fattorizzabile come p(x) = Cg(x)h(x), dove C 2 1, 0 g(x) 5 1 e dove h(x) b u n a densitci di probabilitd avente u n a cumulativa H(z) invertibile analiticamente, occorre:
px), x = pig2 * sqrt (grand(l,l,"unf'I ,0,1)) ; px= sin(x) ; csi2= grand(l,l,"unf" ,0,i); xv(k) = x; end; end ; xbasc(); Histplote(20,xv,stat=i,errors=l);
// display
Algoritmo 7.4 Se generiamo dei punti uniformemente distribuiti all'interno della curva f (x) = x (come i n Fig. 7.7)' raddoppiamo 1'eJJicienza di generazione rispetto all'algoritmo precedente i n quanto il rapport0 tra le aree di p ( ~ )ed f (x) risulta:
Per compiere tale operazione, occorre prima normalizzare f (x), calcolandone l'area nell'intervallo [O, .rr/2]:
266
Capitolo 7. 11 metodo Monte Carlo
e poi risolvere 1 'equazione:
che d4 come risultato: (7.58)
I n questo modo abbzamo generato l'ascissa xi del generic0 punto casuale, mentre la sua ordinata viene ricavata generando unzformemente tra 0 ed f (x) = x, condizione che fornisce 17equazione y = x&. ll ciclo di generazzone casuale diventa cosi : while (csi>px), x = pig2 * sqrt(grand(l, 1, "unf" ,0,I) ) ; px= x*sin(x) ; csi= x * grand(i,l,"unf",O,l); xv(k) = x; end ;
Algoritmo 7.5 Sfruttando la (7.56), k immediato fattorizzare p(x) come: .(XI =
(g) (&) 8
x sen x
ed applicare questo procedimento ponendo C = n2/8;g(x) = sen x e h(x) = (8/n2)x. I1 ciclo da eseguire diventa: while (csi>px), x = pig2 * sqrt(grand(i,l,"unf",O,l)); px= s i n ( x ) ; csi= grand(l,l,"unf",O,I!; xv(k) = x; end ;
7.7 Metodo di ricerca lineare Quando la cumulativa F(x) non k esprimibile analiticamente, possiamo sempre calcolare numericamente l'integrale
per N valori diversi X I ,x2, . . . ,X N (con 21 = a ed per punti tale funzione (vedere Fig. 7.8):
XN
= b) e costruire cosi
267
7.7 Metodo di ricerca lineare
Fig. 7.8. Generazione di variabili casuali mediate il metodo di ricerca lineare. Si costruisce per punti la funzione cumulativa F ( x ) per riportarsi in un caso analog0 a quello della generazione di una variabile discreta
In questo mod0 ci siamo riportati a1 caso gig discusso nel par. 7.4, relativo alla generazione di una variabile discreta. Infatti, attraverso la relazione:
siamo subito in grado di determinare il particolare sottointervallo [xj-l, zj] in cui Q compresa la variabile aleatoria che dobbiamo generare. Se supponiamo che F(x) vari linearmente entro ogni sottointervallo, interpolando linearmente tra i due estremi xj-1 ed xj del sottointervallo prescelto
Dato che la cumulativa F(x) ha, per costruzione, un andamento monotbno crescente ed Q pertanto una funzione regolare, l'approssimazione (7.63) dA in generale un risultato molto buono. Tutte queste considerazioni sono riassunte nel seguente procedimento: Algoritmo -7.6 (Ricerca lineare). Per generare una variabile casuale X , avente una densitd di probabilztd qualsiasi p(x) definita nell'zntervallo Eimitato o illimitato [a,b] occorre:
calcolare numericamente la cumulativa per N punti = b):
XN
XI, 2 2 ,
. . .,X N
(XI
= a;
268
Caoitolo 7. 11 metodo Monte Carlo
1 ~ i p e t e r eil procedimento dull'inizio; se s 1 generare gli eventi {Z1 = z l ) , {Z2.= 22) come:
1 12 + v;;
0.44 il tracciato di g(x) andrh abbastanza rapidamente verso una delle due mode della sua distribuzione (cioi: g(x) = 0 o g(x) = 400), senza riuscire a passare dall'una all'altra. In situazioni di questo tipo, sebbene il teorema 8.1 continui a valere, non k praticamente possibile effettuare il numero di iterazioni necessarie per visitare le zone di maggior probabilita dello spazio degli stati, e quindi la media campionaria del tracciato non i? affatto una buona stima di quella Vera.
8.8 Calcolo di integrali definiti
'
I1 calcolo numeric0 del valore di un integrale definito, oltre ad essere una delle applicazioni piu note e diffuse del metodo MC, i: anche un tipico esempio di uso delle tecniche di simulazione per problemi che a prima vista sembrerebbero non ammettere un approccio statistico. Come vedremo tra poco, con il
312
Capitolo 8. Applicazioni del metodo Monte Carlo
Fig. 8.11. Rappresentazione grafica del metodo "vinci o perdi": per valutare l'integrale (8.32) si conta quante volte B "colpita" la zona tratteggiata generando a caso punti distribuiti uniformemente nel rettangolo ABCD di base (b - a) e altezza h 2 al valore massimo assunto d a f (x)
metodo MC Q conveniente risolvere integrali multidimensionali, dove gli altri metodi numerici presentano diversi problemi di applicazione. Nel seguito, tuttavia, per snellire e semplificare la notazione, considereremo solo le funzioni di una sola variabile, tenendo presente che tutta la trattazione pub venire molto facilmente estesa a1 caso di funzioni multidimensionali. Vi sono due diversi approcci fondamentali che possono essere utilizzati per calcolare 17integraledefinito I:
utilizzando numeri casuali. I1 primo metodo, detto "vinci o perdi" (in inglese hit o r miss), si basa sull'interpretazione geometrica del valore di un integrale definito come misura dell'area sottesa da f (x) e dall'asse delle ascisse nell'intervallo di integrazione [a, b] (zona tratteggiata di Fig. 8.11). Sfruttando da un diverso punto di vista le proprieta che stanno alla base del metodo del rigetto, possiamo infatti determinare I moltiplicando l'area di un rettangolo che racchiude f (x) per la probabilitA che un punto P qualsiasi a117internodel rettangolo si trovi anche all'interno dell'area sottesa da f (x) Ricordando la relazione (7.37) abbiamo:
I area tratteggiata = area rettangolo ABCD h . (b - a)
(8.33)
da cui: I=pA,
con A = h - ( b - a ) .
(8.34)
Se generiamo all'interno del rettangolo ABCD N punti casuali uniformemente distribuiti (XI,yl), (x2,yz), . . . , (xN,yN), e contiamo il numero Ns di "successi", vale a dire il numero di volte in cui yi 5 c2. L'area sottesa dalla regione critica & il livello di significativita SL, corrispondente alla probabilith di sbagliare rifiutando l'ipotesi Ho quando b Vera (errore di I tipo). Nel caso del test a due code il livello di significativita 8 la somma delle due aree delle code indicate con a1 e a 2 in Fig. 9.6. Se invece Ho i: sbagliata e l'ipotesi giusta 15 data dalla densita p(xlHl), l'area della coda, indicata come ,B sempre in Fig. 9.6, corrisponde alla probabilith di rifiutare l'ipotesi giusta, perch6 in questo caso l'ipotesi nulla Ho viene accettata (errore di I1 tipo). L7area.ir = 1 - ,B viene detta potenza del test, e corrisponde alla probabilith di scartare Ho se & Vera H I . La densita p(xIH2) di Fig. 9.6 indica la situazione simmetrica ad HI quando il massimo della densita relativa alla ipotesi alternativa si trova a destra del massimo dell'ipotesi nulla. Se si fissa a priori un livello di significativith a, detto livello del test, , accetta l'ipotesi nulla Ho quando relativo a due valori di coda cl e ~ 2 si x E [el, c2] con probabilita pari a:
358
Capitolo 9. lnferenza statistica e verosimiglianza
Tabella 9.1. La terminologia dei test statistici
Nome ipotesi nulla Ho ipotesi alternativa H I errore del I tip0 a! errore del I1 tip0 P livello di significativith SL area P live110 del test a regione critica o di rifiuto potenza del test .rr = 1 - /3 test pih potente test a una coda test a due code
Significato modello di riferimento modello alternativo scartare Ho quando i: Vera accettare Ho quando 6 Vera Hl probabilith dell'errore del I tip0 probabilita dell'errore del I1 tip0 valore SL fissato a priori intervallo (x < cl o x > c Z ) di Fig. 9.6 scartare Ho quando 6 Vera HI quello che, fissato a, ha 1- P ma,ssimo una sola coda a sinistra o a destra due code a destra e sinistra
dove A indica l'intervallo di accettazione [el, cz] nel caso monodimensionale e un sottoinsieme del supporto della densita di X nel caso multidimensionale. La potenza del test k la probabilitb di scartare Ho essendo Vera H I , ciok la probabilita di ottenere valori nella regione critica quando i: Vera HI :
dove /3 i: la probabilitb dell'errore del I1 tipo, ovvero accettare Ho quando it vera H1 :
P{X€AIH,}=
1:
L(&;x)dx=P.
(9.73)
Per un test ideale, in cui le densitb corrispondenti ad Ho ed HI hanno supporto disgiunto, ,8 = 0 e la potenza 1- /3 = 1 k massima. Tabella 9.2. Verifica tra due ipotesi: terminologia e corrispondenti livelli di probabilita Decisione
HI
Decisione corretta
Errore di I specie
Errore di I1 specie
Decisione corretta 1-P
Queste sono le definizioni legate alla verifica delle ipotesi nel caso pih generale di un test a due code, essendo ovvia la modifica necessaria per il test ad una coda, dove la regione di rifiuto ha forma (-m, c) oppure (c, +oo).
359
9.10 Test di potenza massima
9.10 Test di potenza massima Quando si effettuano test statistici, in genere si fissa a priori il livello di significativita a richiesto dal problema, si costruisce uno stimatore T = T,(&) (la media, la varianza, il chi-quadrato, ecc.), si trova la distribuzione campionaria dello stimatore e si determinano d a questa i valori quantili t , o tl-, dello stimatore corrispondenti alla probabilith a. Cambiando lo stimatore, per uno stesso valore di a , e fissata una ipotesi alternativa H I , la potenza del test risulta dipendere dallo stimatore prescelto. Poniamoci allora la fondamentale domanda: data una osservazione di una variabile X, quale 5 il test di potenza massima, cioi? quello che ha la miglzore regione critica? La questione pub avere in alcuni casi notevole interesse pratico, perch6 i test statistici spesso hanno un costo economico e/o gestionale elevato (si pensi ai test di controllo di qualith in ambito industriale) ed i: quindi importante scegliere, dato un campione di dimensione fissata, il test piu potente, per il quale l'errore di I1 tip0 risulta minimo e di conseguenza il criterio di decisione pic affidabile. Una risposta alla domanda i: data dal teorema di Neyman-Pearson: Teorema 9.6 (di Neyman-Pearson). Si conside~i,sui parametri 13 di u n a funzione di verosimiglianza, l'ipotesi nulla Ho e l'ipotesi alternativa H I :
Il rapport0 di verosimiglianza:
assume valori grandi se d Vera Ho e valori piccoli se ?I vera H I . Il test di potenza massima tra tutti quelli dz livello a 2: allora dato da: si rigetta
Ho se
(9.75)
dove r, d il valore di R ( X ) di Fig. 9.7, tale che P { R ( X ) 5 r, (Ho}= a. Dimostrazione. Chiamiamo R (di livello a) la regione di r i f i t o del test NP e fl (di livello a') u n a regione di m'fiuto di Ho attraverso un qualsiasi altro test diverso da quello NP. I1 teorema vale se si dimostra che, a parita di livello, la probabilitd dell'errore di 11 tipo d m i n i m a per il test NP:
P e r ipotesi si ha :
360
Capitolo 9. lnferenza statistica e verosimiglianza
r
Se
Fig. 9.7. Utilizzando il rapporto R di verosimiglianza, I'ipotesi nulla viene rifiutata se il valore del rapport0 risulta minore del limite r,, che determina il livello di significativit&dato dall'area ombreggiata
p' # /3 possiamo scrivere (si veda la Fig. 9.6):
Se x E 0,allora la (9.75) vale sempre:
mentre, se x E (0'- 62):
Sostituendo queste due ultime relazioni nella (9.77) e considerando che gli integrali su 0 n 0' coincidono, otteniamo la (9.76):
dimostrando cosi il teorema.
0
Applichiamo il teorema alla verifica dell'ipotesi di due medie diverse Ho : ,u = po contro HI : ,u = ,ul con campioni estratti da popolazioni di densit2 gaussiane di uguale varianza 02.In questo caso si ottiene facilmente:
e quindi, passando ai logaritmi:
361
9.10 Test di potenza massirna
Dividendo per 2 n ( m - P I ) , se (PO - p1)
> 0 si ottiene:
In questo caso il test di Neyman-Pearson col calcolo esplicito di r , B equivalente al test sulla media campionaria: si scarta Ho se { M , < m o } . I1 valore mo B determinato dalla condizione sull'errore di I tip0 sotto Ho:
che B soddisfatta quando mo verifica l'eguaglianza
con t , pari al quantile di ordine a della gaussiana standard. Se PO < p1, occorre cambiare segno alla disuguaglianza (9.78) e si scarta Ho :e > mo = Po ( a / f i >t1-,I. E facile vedere che il test sulla media campionaria B il pih potente anche nel caso di test su medie di distribuzioni esponenziali e poissoniane 1401.
{w'
+
-
=m ~ , m p - ~w, ~ ~ + c - , r 7 - ~ ; _ 1 i * l 1 - 13 +~~ ; . ~ r ~ / ~~ ; ~, + -\ yn. L )~ ~~j i - 3 ~ ~ b - e ~ ~ - r ESercizio 9.9 -#ii Si assume come zpotesi nulla Ho che m a variabile X sia gaussiana di media po = 10 e deviazione standard a = 10. 13-ovare la dimensione del campione e la regione critica ottimali per accettare HO con a = 0.05 e potenza 1-/3 = 0.95 rispetto alZ7zpotesi alternativa H I che la gaussiana sia di parametri ,u1 = 20 e stessa a = 10. gp--i-
i-pnp i i
i d .
i
i..
I
ria-.
Risposta. Dalla (9.79) sappiamo che il test sulla media k quello di potenza massima, che ottimizza la regione critica. Se a = 0.05 e /3 = 0.05, dalla Tab. D.l otteniamo:
I1 valore mo k l'estremo della regione critica. Risolvendo nelle incognite mo ed n otteniamo:
Il test richiesto deve quindz campzonare n = 11 valori di X , calcolare la media campionaria M , accettare Ho se { M 5 151, accettare HI se { M > 15). r I , & I , 7 I I " " ,I , ,* : %
A
I
8-
b
(8
362
Capitolo 9. lnferenza statistica e verosimiglianza
pub approssimare con una variabile di distribuzione normale N ( p , a 2 ) = N ( n p , n p ) . Si assume come ipotesi nulla Ho che p = 0.01. Trovare la dimensione del campione e la regione critica ottimali per accettare Ho con a = 0.05 e potenza 1 - p = 0.80 rispetto all'ipotesi alternativa HI che p = 0.02. Risposta. Ripetendo il procedimento dell'esercizio precedente abbiamo:
dove i valori 1.645 e 0.842 si ricavano inteqolando da Tab. D.1. Sottraendo la prima equaxione dalla seconda si trova facilmente n: 0.01n = &(0.1191+
0.1645)
,
da cui n = 804
9.11 Funzioni test Il test di Neyman-Pearson richiede la conoscenza della densit2 p(r) del rapporto di verosimiglianza R , il che, pur essendo sempre possibile in linea di principio con le tecniche sviluppate nel cap. 5 sulle funzioni di variabili aleatorie, in pratica si rivela quasi sempre un'impresa piuttosto difficile e laboriosa. Fortunatamente, come avete appena visto nella (9.79), il problema si semplifica drasticamente se R pub essere espresso nella forma
dove T i: una statistica di distribuzione nota. Infatti, un test attraverso l'operatore T determina i limiti t, corrispondenti a1 livello di significativitA prescelto; trarnite la (9.80) si pu6 quindi determinare il limite r , ed applicare il teorema 9.6. Tuttavia, questa operazione non deve necessariamente essere fatta in pratica: basta sapere che, se vale la (9.80), il test R ( X ) pub essere sostituito da u n test T ( X ) . Anche questo test gode della propriet2 di avere potenza massima. Attraverso la (9.80) il test ad una coda della (9.75) R ( X ) 5 r , pub trasformarsi in un test ad una coda a destra o a sinistra, in un test a due code, oppure in un test con una regione critica piG complicata a seconda del legame funzionale tra R e T, come mostrato in Fig. 9.8. Ad esempio, dalla (9.79) si vede che R i! funzione della media campionaria. Ne segue che lo stimatore della media T = C X i / n , i: la funzione test della media pid potente per campioni estratti da popolazioni aventi densith gaussiane, ciok quello che rnmsimizza 1- ,B una volta scelto il livello del test a.
,,/
=a
------
t,
.- -
-
a)
t
--
. . .
r:i- \ :I- /\)
9.11 Funzioni test
b,
ta
t
I
8
I
I
fa
t'a
t
363
#
, $
I
I
,
j
(
I
t,
t i
th
t
Fig. 9.8. Quando il rapporto di verosimiglinza 8 esprimibile come funzione di un'altra statistica, al17intervallo R 5 r, relativo ad R pub corrispondere un intervallo T 5 t, a), T 2 t, b), t, L T L t: c), T I t,, th 5 T 5 d), che dipende dal tip0 di funzione R = $(T)
Esercizio 9.11 h ~ # # ~ b ~ ? Y $ ~ # $ ~ f l ~rxwt~:!* @ L"d -~ ~1 7T ~ ~ ~ . ~ ~ G ~ ~ ~ P -w&=wm=+% P - : B ~ - ~ P ~ Una ditta wince una gara d7appalto per la fornitura di u n componente elettronico affermando che la percentuale di pezzi difettosi all'origine k minore dell'l%. Trovare il limite a1 di sotto del quale deve restare il numero di pezzi difettosi riscontrati in u n lotto di controllo di 1000'pezzi perch6 si possa affermare, ad u n livello a! del 5%' che la dichiarazione della ditta 6 corretta. Trovare inoltre la potenza di questo test rispetto alle zpotesi alternative di una probabilitlt di difetto del 2% e del 3% e dire se il test 6 di potenza massima.
Risposta. Se l'afidabilitlt 6 dell'1%, il numero di scarti su u n lotto di 1000 pezzi b una variabile binomiale dz valore atteso (media vera) pari a 10. Dato che la probabiliti 6 piccola (1%) ed il valore della media 6 grande, 6 lecito utilizzare l'approssimazione gaussiana della distribuzione di Poisson. Siamo ricondotti a1 caso dell'esercizio 9.10, con la differenza che qui n 6 fisso e /3 incognito. Poiche' il problema richiede u n livello di significativitci del5%, dalla tabella D.l e dalle (3.43,3.44) vediamo che il test a una coda
6 soddisfatto per u n valore della variabile standard T = tl-, il numero degli scarti, dalla (3.37) abbiamo: S-,u - S - 1 0 > 1.645 a -
m
, da cui :
S
1.645. Se S b
> 15.2 .
Dato che la variabile considerata 6 discreta, non esiste u n valore critico che coincide col valore S L assegnato. Potremmo a questo punto randomizzare il test ponendo nella (6.92) a~ = 0.05 e
364
Capitolo 9. lnferenza statistica e verosimiglianza
dove si i: utilizzata la Tab. D.1. Come mostrato nel problema 9.15, il test randomizzato accetta il lotto 1 volta s u 4 quando S = 16. Qui preferiamo procedere in mod0 pi4 semplice (anche se approssimato), adottando come regola di decisione la accettazione del lotto se S 15 ed il rijiuto se si trouano pi4 di 1 5 pezzi difettosi. La potenza del test t. data dalla probabilitd 1- P di scartare Ho (afidabilitd dell'1%) quando b vera l'ipotesi alternativa H I . Ricordiamo che anche pi, come a1 solito, ,L3 P. l'area di Fig. 9.6, che indica la probabilith dell'errore di I I tipo. Considerando come H I un'afidabilitd del 2%, dalla (3.43) e dalla Tab. D.1 otteniamo:
i-nfi~: minimi quadrati lineari e non lineari ed ulteriori informazioni di caratterre tecnico-numerico. Nel seguito del capitolo useremo qualche volta, oltre ai termini italiani corretti, anche i termini inglesi fit e best fit che fanno parte ormai del gergo comune a molti ricercatori. Per evitare equivoci, riportiamo qui sotto la corrispondenza tra i termini utilizzati: = fit adattamento miglior adattamento = best fit = parametri di best fit 8 stime LS dei parametri 6 curva di regressione o curva dei - curva di best fit minimi quadrati Cominciamo ora col discutere due dei tipi di dipendenza tra variabili che si possono presentare e sui quali ci concentreremo per la maggior parte di questo capitolo.
I gradi di liberti ora sono n-p- 1 e non n-p perch6 nella def. 10.1 la dimensione di0bp+l
376
Cawitolo 10. Minirni auadrati
t I
I
I
I
I
I
Fig. 10.1. Carnpionamento di una variabile aleatoria y funzione di una variabile non aleatoria z; campionamenti ripetuti a) e rappresentazione convenzionale nel caso di un solo campionamento b).
10.2 Predittori osservati senza errore In statistica un caso molto frequente 6 dato da una variabile aleatoria Y espressa come: (10.3) Y = f (x) + Z, f (z) f ( x , 6 ) , dove f (x) B una funzione nota (a meno del parametro 8) del predittore non aleatorio x. Osservate che si pub sempre porre (Y) = f(x) e (2) = 0, perch6 se fosse (2)= zo basterebbe ridefinire f come f(x) zo e si ricadrebbe ancora nella (10.3). Questo accorgimento permette di rappresentare Y come somma di una componente deterministica (il suo valore atteso), che coglie la parte essenziale della reIazione col predittore x, e di una parte aleatoria, che rappresenta le fluttuazioni attorno alla media. Nel caso di un insieme di valori xi fissati e osseruabili senza errore, un campionamento della Y ripetuto pih volte per ciascun valore xi fornisce un grafico come quello di Fig. 10.1 a), con le xi fisse e le Y , che fluttuano intorno ai lor0 valori medi; se si effettua una sola prova e la deviazione standard delle Zi 6 nota, il grafico si disegna come in Fig. 10.1 b), con Ie barre d'errore, calcolate a partire dalle deviazioni standard ai delle Zi,, centrate sui valori misurati yi. I1 compito del metodo dei minimi quadrati B determinare la forma funzionale f (x) che lega (Y) alla variabile deterministica x. In altre parole, occorre determinare, per ogni x, la media f (x, 8) come la curva rispetto alla quale le fluttuazioni di Y sono casuali, dove "casuali" significa che la dipendenza tra (Y) e x 6 interamente compresa in f , e che quanto rimane 6 un puro termine d'errore. Se nella (10.1) pi(@)= f (xi, 8), il X 2 i: dato da:
=
+
dove a1 denominatore compare la varianza di Y che, in base alla (10.3), 6 data da:
10.2 Predittori osservati senza errore
377
Fig. 10.2. Campionamento di coppie di variabili aleatorie correlate a) e rappresentazione della densit5 congiunta corrispondente b) .
+
Se la relazione k lineare, si ha ad esempio f (z, 8 ) = Q1 &x. La ricerca di una densit&a partire da un istogramma, ottenuta minimizzando la (9.59)' k riconducibile a1 caso del predittore non aleatorio. Infatti, la funzione f (xi, 8) = Npi(0) coincide con il valore atheso di = Ii,le variabiIi x sono i valori predeterminati dello spettro nel caso di spettro discreto, o il punto medio dello spettro entro il canale predeterminato Ax nel caso di spettro continuo e non vi i: errore su x. L'errore i: solo su Y ed B quello statistico, dato dalle fluttuazioni nel numero di osservazioni cadute durante il campionamento nei diversi canali dell'istogramma. Un'altra situazione molto frequente viene dalle misure di grandezze fisiche, una misurata con errore trascurabile e sostanzialmente sotto il controllo dello sperimentatore (la x), I'altra determinata con meno precisione (la Y). In questo caso la funzione y = f (x, 0) rappresenta la legge fisica che lega le due variabili. Veniamo ora a1 second0 caso di dipendenza tra variabili:
= 0. Poich6 a differenza della (10.3), dove X e Z sono variabili aleatorie e (2) X k ora una variabile aleatoria, tra X ed Y esiste una correlazione statistica in generale non nulla. In un campionamento ripetuto con n prove indipendenti, Yi), che indichiamo noi osserviarno altrettanti valori del vettore aleatorio (Xi, con le coppie (xi, yi), i = 1,.. . ,n. Ponendole su un grafico, si ottiene una nuvola di punti come quella di Fig. 10.2 a). La densit&congiunta di (X,Y), la cui forma i: quella della (4.3), i: rappresentabile come in Fig. 10.2 b), indicando con sfumature di colore diverso i valori degli integrali della densita nelle varie regioni del piano. Come nella (10.3), assumiamo che l'argomento di f nella relazione funzionale che definisce Y venga osservato esattamente. Se siarno interessati non tanto a1 meccanismo aleatorio che genera X quanto alla relazione tra
378
Capitolo
10. Minimi quadrati
X e Y, possiamo ricondurci alla (10.4) fissando un valore x e utilizzando la distribuzione di Y condizionata a {X = x) per il calcolo del X 2 :
dove abbiamo sostituito le a: con le varianze condizionate Var [Klxi] e il valore atteso delle Y , con i rispettivi valori attesi condizionati f (xi, 0 ) = (Y,jzi). Dunque, avendo fissato XI,. . . ,x,, otteniamo 8 minimizzando la (10.6). Per come i! stato costruito il modello, (Ylx) i: dato da f (x) qualunque sia la distribuzione di (X, 2).A1 contrario, quest'ultima influenza Var [Y1x1, essendo Var[Y1x] = Var[f (X)lx] Var[Zlx] = Var[Zlx] .
+
Se X e Z sono indipendenti, allora Var [YI x] = Var [ZI x] = Var [Z], e
Var [Y] = Var [f (X)1 + Var [Z] (10.7)
e il denominatore della (10.6) diventa costante, mentre se X e Z non sono indipendenti non si pub garantire che Var[Zlx] = Var[Z]. I1 legame della (10.5) B molto comune ed il c'aso di Tab. 6.6 i: uno di questi. Infatti, il perimetro toracico di un certo soldato sara correlato non a1 valore medio della statura, ma alla statura d2 quello stesso soldato. Possiamo anche pensare ad uno studio finanziario che cerchi di correlare l'andamento dell'indice di borsa di Milano con quello della borsa di New York: l'indice di Milano sar2 correlato a1 valore corrente della borsa di New York; a questa correlazione si aggiungeranno altre variabili casuali e che conterranno le altre fonti di variazione dell'indice di Milano. Le formule (10.3) e (10.5) sono formalmente le stesse, tuttavia, il significat0 della funzione f i: diverso: nel primo caso x B una variabile non aleatoria e f (x) rappresenta una relazione funzionale analitica tra x e (Y), mentre nel second0 caso f (X) induce la correlazione statistica tra di esse. In questo senso, facendo riferimento alla (10.5), possiamo chiamare f (X) funzione di correlazione tra X e Y. Per chiarire meglio il concetto, quando X e Z sono indipendenti, Var[Z] = Var[Z/x], e dalla (10.7) abbiamo: a:
r Var[Y] = Var[f (X)] + Var[Zlx] .
(10.8)
Siccome Var[Y(x]= Var[Zlz], la (10.8) pub essere riscritta come
Confrontiamo questa. equazione con la (4.55) di pag. 130, che rappresenta la varianza di Y condizionatamente a X = x nel caso in cui (X,Y) sia gaussiana bivariata e che per comodita riportiamo:
10.3 Rette dei minimi quadrati
379
Per analogia tra questa espressione e la (10.9), siamo portati a definire una forma pih generale del coefficiente di correlazione tra X e Y:
dove il segno B quello della covarianza tra X e Y, Cov[X, Y]. Si noti che dalla (10.7) e dalla (10.10) segue che p = f1 quando Var[Z] = 0 e che p = 0 quando f (X) k costante. E anche facile rnostrare (si veda il problema 10.1) che, se f (X) = a + bX, il coefficiente di correlazione B pari alla covarianza tra X e Y diviso il prodotto tra le deviazioni standard:
Riassumendo, se si impone che due variabili abbiano distribuzione congiuntamente gaussiana, allora nel cap. 4 abbiamo mostrato che la funzione di correlazione tra di esse n o n pui, che essere di tip0 lineare. Vale infatti l'equazione (4.54) della retta di regressione per (Ylx):
Questa situazione qui appare come un caso particolare della (10.5) per il quale la funzione di correlazione f (X) pub essere qualunque, ed il coefficiente di correlazione viene definito in generale second0 la (10.10).
10.3 Rette dei minimi quadrati In questa sezione esaminiamo un caso particolarmente semplice della relazione (10.3), alla quale riconduciamo anche la (10.5), considerando X e Z indipendenti e condizionandoci ai valori osservati di X. Percib scriveremo sempre la x in minuscolo. Quando la funzione che lega (Ylx)a x B una retta, cioB f (x, 8) = a bx, con 0 = (a, b ) , la relazione tra x e Y diviene
+
02
indipendentedove assumiamo anche che Var[Y] = Var[Z] = Var[Zlx] = mente dal valore di x. La varianza 02 raramente i: nota. Avendo osservato il campione casuale (xl, yl), . . . , (x,, y,), i1 X 2 da minimizzare si pub scrivere come:
380
Capitolo 10. Minimi quadrati
La minimizzazione della (10.13) non dipende da a: e richiede l'annullamento delle derivate parziali:
Per semplificare la notazione, poniamo
Usando questa convenzione, le (10.14) danno allora luogo a1 sistema di equazioni:
ovvero, in forma matricide
dove i parametri a e b rappresentano le incognite le medie campionarie sono coefficienti numerici noti. Con i metodi dell'analisi matriciale si ottiene subito la stima dei minimi quadrati dei parametri:
dove
D=nSxx-s:, rappresenta il determinante del sistema (10.18). I pararnetri ottenuti sono soprassegnati dal simbolo per indicare che si tratta di valori stimati dai dati, non dei valori veri a e b. Utilizzando la relazione (4.23), dopo un po' di algebra, la (10.20) pub essere scritta come: 6 - S x ~- S x ~SY --r - SY , (10.22) 5: sxsys, s, "^"
dove r i: la stima sperimentale (6.134) del coefficiente di co~~relaxione lineare p della (10.11). Dalla (10.16) ricaviamo ii = (y) - b (x). Con i coefficienti cosi ,. riespressi, la retta dei minimi quadrati stimata, $(x) = 6 bx, risulta essere
+
10.3 Rette dei minirni auadrati
381
una stima della retta di regressione (4.54), che abbiamo riportato alla fine della sezione precedente:
Dunque concludiamo che la retta di regressione rappresenta il luogo dei punti della media della distribuzione condizionata per variabili gaussiane oppure la retta dei minimi quadrati per variabili anche non gaussiane. L'errore sulle stime dei parametri, che verra indicato come a1 solito col simbolo s, si ottiene applicando la legge (5.65) sulla varianza di funzioni di variabili aleatorie, la quale permette di valutare l'effetto di propagazione delle Auttuazioni delle variabili Y (cioi! della parte casuale e) sui parametri ii e i attraverso le (10.19, 10.20):
La covarianza Cov[Y,,Y j ] non compare perch6 si suppone che le osservazioni Y , siano tra lor0 indipendenti. Tenendo presente che
si ottiene:
Applicando la (10.24) e tenendo presente la (10.21) B ora facile vedere che:
Queste sono espressioni esatte delle varianze degli stimatori, perch6 B e dipendono linearmente ddle yi. Ci domandiamo se questi errori si comportano come I/*, cioB come l'errore della stima della media di un campione casuale. Indicata con 32 la varianza campionaria di (XI,.. . ,x,) con denominatore n anzichk n - 1:
S,x
s,"
n
n2'
, g 2 = - -
con qualche passaggio algebrico si trova che k effettivamente cosi:
(10.28)
382
Capitolo 10. Minimi quadrati
Se (xl, . . . ,x,) si comporta come un campione casuale, 3: e (x)2 convergono quasi certamente a valori costanti e dunque gli errori convergono a zero con velocith llfi. Abbiamo gib avuto mod0 di notare piG volte come questo sia un comportamento comune a moltissimi stimatori statistici. Per quanto riguarda il calcolo degli errori, questo non B possibile se a: B incognita. Per stimare a:, riscriviamo la (10.12): Z = Y - (a + bx). Dunque, essendo uz = Var[Z], una sua stima t: ricavabile dalla varianza campionaria dei residui dalla retta dei minimi quadrati,
La media dei residui B zero: infatti abbiamo (1) = (y) - 2 - 6 (x). Ma la (10.23) mostra che la retta dei minimi quadrati passa per il punto ((x) , (y)), dunque (y) = 2 6 ( s ) e (2) = 0. Allora la varianza campionaria dei residui B
+
dove il denominatore (n - 2) fa si che lo stimatore della varianza sia non distorto. Le stime della varianza di 2 e 6 sono percib
's2 (b)
=
s,2 1 n sg
-
Ora abbiamo gli elementi per calcolare degli intervalli di confidenza per i parametri della retta di regressione, quando le Yisono assunte gaussiane indipendenti con media (a bxi) e varianza a:. Partiamo dal fatto che se sapessimo che b = 0, il problema dei minimi quadrati coinciderebbe con quello della stima della media del campione (yl,.. . ,y,). Questo i: stato risolto 2 indipendenti e nella sezione 6.11, mostrando che M (cioi: 2) e S 2 / ~sono hanno rispettivamente distribuzione gaussiana e x2 ridotto con n - 1gradi di liberth. Percib f i ( M - p ) / S aveva distribuzione t di Student con n - 1gradi di liberth. Un simile risultato continua a valere quando dobbiamo stimare anche b: infatti sia 2 sia 6 sono combinazioni lineari di variabili gaussiane indipendenti, mentre s2 (k)/a2(8) e s2(6)/a2 (6) hanno distribuxione X2 ridotto con n - 2 gradi di libert8. Allora, si dimostra che (2 - a)/s(2) e (6 - b)/s(6) hanno entrambe distribuzione t di Student con n-2 gradi di liberth e dunque, gli intervalli di confidenza per a e b con CL= 1 - a sono:
+
10.3 Rette dei minimi auadrati
383
L'unico mod0 non tedioso di dimostrare per bene questi risultati B quello che fa uso del teorema di Cochran e delle proprietg dei proiettori ortogonali su spazi lineari. Rimandiarno gli interessati a [2]. Una volta stimato il modello, questo pub essere utilizzato per valutare (Ylx) in corrispondenza di un punto x (anche non incluso tra i punti sperimentali) (xl,. . . ,x,), oppure per prevedere il valore che osserveremmo per Y in corrispondenza di x. Per prevedere (Ylz) i:naturale utilizzare la stima c(x) = ii+&(x).L'errore ad essa associato dipende dalla covarianza tra d e 6. Infatti applicando la (5.65) e le (10.26, 10.27) otteniamo la stima:
dove compare appunto la stima della covarianza s(G,g). Con la solita notazione AX = X - (X), applicando la (5.83) e sviluppando a1 primo ordine 8 e 6 nelle variabili yt, possiamo calcolare la covarianza Cov[ii,&I:
dove alle derivate non si applica il valore atteso perch6 sono costanti nei valori misurati yi. Con l'aiuto delle 10.25) e con la notazione (10.15) si ottiene in definitiva:
da cui, con la (10.28), la stima
Sostituendo questa stima e le (10.31, 10.32) nella (10.34) troviamo infine:
Poiche $(x) B combinazione lineare di gaussiane indipendenti e s2($) i:un multiplo di s2, B di nuovo possibile diiostrare che
384
C a ~ i t o l o10. Minimi auadrati
Fig. 10.3. Fascia di confidenza
9
3~
tl-a12s(tj) della retta dei minimi quadrati. s(6) i: stimato con la (10.36) per (x) = (9)= 1, S O = 1 e s / n = 0.5
it distribuita come una variabile di Student con n - 2 gradi di liberth e quindi un intervallo di confidenza con un CL= 1 - a per y(x) = a bx it dato da
+
La (10.36) 5 piuttosto istruttiva, perch6 segnala il pericolo di fare estrapolazioni: l'errore di previsione infatti cresce all'incirca come (x - (x)) man mano che x si allontana dal baricentro dei punti sperimentali, rappresentato d a (x). E questo assumendo che a1 di fuori dello spettro sperimentale la relazione tra x e (Ylx)continui a essere lineare, cosa che non possiamo affermare o smentire basandoci solo sul campione osservato. Se non lo &,la (10.36)non 5 neppure pih una stima appropriata della varianza. Di questa osservazione si trova conferma disegnando gli intervalli (10.37)a1 variare di x,ed utilizzando come ordinata $(x). I1 risultato k una fascia attorno alla retta dei minimi quadrati come mostrato in Fig. 10.3. Ricordate perb che questa non d un insieme di confidenza simultaneo con CL= 1 - a , ma solo l'unione di tanti intervalli univariati. Una nuova osservazione Y per un dato valore X = x ha sempre valore atteso a bx; useremo percio y(x) come stimatore di Y. Tuttavia, nella previsione, si deve tener conto anche della varianza della parte casuale e di Y, oltre a quella di y(x). Pertanto, l'errore associato alla stima it questa volta dato da
+
+
+
+
Var [y(x) Z 1 x] = Var [y(x)] Var [ Z1x] = Var [y(x)] a :
(10.38)
dove abbiamo potuto sommare le varianze perch6 la nuova e Q indipendente dalle fluttuazioni d a cui dipendono gli stimatori ii e 6. Sostituendo nella (10.38)lo stimatore ottenuto nella (10.36)e inserendo sg a1 posto di a; abbiamo che l'errore it
10.4 Minirni quadrati lineari: caso generale
385
In definitiva, l'intervallo di stima di Y in corrispondenza di un z fissato e per un certo live110 di confidenza 1 - a, diventa:
dove, come per la stima di a + bx, tl-+ Student con n - 2 gradi di libert8.
6 il quantile della distribuzione di
Esercizio 10.1 ~ s ~ i ~ ~ ~ ~ ~ -ZVJ ~ ~ -A:-.-w ~ ~ IN~ Riprendere l'esercizio 6.16 di pagina 243 e ricalcolare l'intervallo di stima per il perimetro toracico di u n soldato alto 170 cm. - 4 ~ 1
Risposta. La soluzione trovata a suo tempo n o n teneva conto del17incertezza dovuta al fatto di aver usato medie, varianze e coeficiente di correlazione campionari invece di quelli veri. Se ora ricordiamo il risultato dell'esercixio 6.16, t E r n ( t ) s )f s ( t ) s )= 86.9 f4.3 'cm
e facciamo uso della (10.40), possiamo tenere conto di questo fatto ed eseguire la stima corretta:
IZ risultato, anche dopo la correzione, resta praticamente invariato. I livella di confidenza si calcolano con la densiti di Student con (1665 - 2) gradi di libertci e si possono considerare a tutti gli effetti gaussiani. Pertanto, il 68% dei soldati alti 170 c m ha il perimetro toracico compreso tra 82.6 e 91.2 cm. L'intervallo di confidenza (10.36) che contiene la media vera (in senso frequentista) con C L 68% per x = 170 em, vale invece:
-
10.4 Minimi quadrati lineari: caso generale In questo paragrafo generalizziamo a1 caso multidimensionale la discussione fatta nella sezione 10.3. Un problema piti generale di minimizzazione lineare si ha quando abbiamo p predittori raccolti in un vettore x e l'equazione corrispondente alla (10.12) B espressa da
j
~
386
Capitolo 10. Minimi quadrati
dove z j i: l'elemento j-esimo di x. Come nella sezione 10.3, poniamo (Zlx) = 0 e Var[Zlx] = 0;.Percib
Le componenti di a: possono essere variabili differenti o funzioni della stessa variabile, o un insieme delle due cose, second0 la convenienza. Per esempio potremmo avere che la risposta dipende d a un solo predittore tramite un polinomio di grado p P
con xt = (x, x2,.. . ,xP), oppure, pih in generale:
con zt = (fi (z), fi (z),. . . , f , (z)). Se p = 1 nella (lo.&), ricadiamo nel caso particolare della retta dei minimi quadrati. I1 problema di partenza i: ancora quello di stimare 6 a partire da un campione casuale (xl, yl), . . . , (x,, y,), conp+l 0 . Oltre a ricordare queste formule, vale la pena di rileggere il par. 4.5. Torniamo ora a1 nostro problema. Indicando con xij il valore del j-esimo elemento di x i , definiamo la matrice dei predittori:
Indichiamo poi con y il vettore colonna delle risposte (yl, . . . ,yn) e con 8 il vettore colonna dei pammetri (go,dl, . . . ,0,). La colonna di uni nella matrice X serve a tener conto della parte costante del modello, che 6 bene includere sempre, a meno che non si sia certi che fI0 = 0. In questo mod0 possiamo esprimere la (10.41) per tutti i punti sperimentali con una sola equazione matriciale: Y=X(e+Z (10.48) dove Z 6 il vettore colonna (Z1, . . . ,2,) delle fluttuazioni casuali a media nulla, incorrelate, con varianze marginali costanti: Kax[Zi] = 02. I1 X 2 da minimizzare per stimare 8 , che ricaviamo dalla (10.1)' ii
e il suo punto di minimo dipende solo dal numeratore, che possiarno riscrivere in forma matricide
E facile vedere che la condizione di minimo della (10.49)
implica le cosiddette equazioni normali:
avendo l'accortezza di porre xi0 = 1 per l'equazione con 5 = 0. La condizione di minimo espressa dalle equazioni normali (10.51) assume ora la forma compatta: xt = ( x t x ) (e oppure ,3 = a 6 , (10.52)
388
Caaitolo 10. Minimi auadrati
dove abbiamo introdotto le matrici ,6 = xt y e a = X ~ X second0 , una notazione abbastanza diffusa [8, 661. Questa equazione, risolta nelle incognite 0, invertendo X t X , che assumiamo di rango p+ 1,fornisce le stime LS dei parametri e rappresenta finalmente la soluzione del problema dei minimi quadrati lineari con pih predittori (o dei minimi quadrati generali o della regressione multipla): 8 = (x+x)-I X +y a-' p . (10.53) Potete vedere queste equazioni fondamentali codificate in SCILAB con la . nostra routine Nel caso (Y (x)= a bz i: facile vedere che le equazioni normali (10.52) corrispondono proprio alle (10.18). Veniamo ora a110 studio degli errori sulle stime ottenute. usando il formalismo matriciale e tenendo presente che la (10.53) non i! che un caso particolare della (5.75). Infatti possiamo scrivere la (10.53) come
+
dove ogni funzione f j i:una. combinazione lineare degli elementi di y , e applicare quindi la trasformazione delle varianze (5.77)..In questa trasformazione, l'elemento di posizione ji della matrice del trasporto, dato da dfj/dyi, non i! altro che l'elemento di posto ji della matrice ( x ~ x ) - ' x ~ . Applicando questa legge alla (10.53) si ottiene dunque la matrice delle covarianze di 8:
dove si sono utilizzate le (10.44, 10.45), la simmetria di ( x ~ x ) e il fatto che V ( Y )= aZ1, ciok la matrice diagonale con elementi diagonali tutti pari a 02. Questa importante relazione mostra che l'inverso della matrice a = x ~ X contiene tutte le informazioni sugli errori nelle stime dei parametri. Infatti in questa matrice, detta matrice degli errori, 6 una matrice quadrata di dimensione (p 1) x (p l ) , data dal numero di parametri liberi del fit, ed k simmetrica e definita positiva. Gli elementi diagonali sono le varianze delle stime LS dei parametri 8, gli elementi non diagonali rappresentano le covarianze tra tutte le coppie di stime (&, 6,). Un'utile verifica di questa affermazione si pub fare applicando la (10.54) a1 caso bidimensionale (retta dei minimi quadrati); si ottiene infatti:
+
+
in accord0 con le (10.18, 10.26, 10.27, 10.35). La valutazione di ( Y l x ) in corrispondenza di un punto x , come nella sezione 10.3, avviene tramite la trasformazione lineare $(z)= x t 8, dove
10.4 Minimi quadrati lineari: caso generale
389
possiamo pensare a x t come a una riga della matrice X o a un nuovo insieme di valori dei predittori. Applicando ancora la (5.75) e la (5.77) a questo nuovo caso particolare di trasformazione di variabili, si ottiene immediatamente la varianza di $(x): (10.55) Var[$(x)] = x t v ( 8)x , che rappresenta la generalizzazione della (10.34). La stima corretta dell'errore o,, analogamente alla (10.30) si ricava da:
Osservate che i gradi di liberth al denominatore sono sempre dati dal n meno il numero di parametri stimati. Nel caso in cui le Yisiano gaussiane indipendenti possiamo ricavare gli intervalli di confidenza per ogni Bj analoghi a quelli che compaiono nelle (10.33): (10.57) dj E %jf tl-a/2 s(ej) A
dove ~ ( 8 B~ricavabile ) dalla (10.54), sostituendo s, a a,:
Questa formula it utilizzata nella nostra routine L b f i t . L'intervallo di confidenza di livello 1 - a per y(x) = (Ylx) assume la forma (analoga alla (10.37))
dove tl_,lz 6 il percentile della mriabile di Student con n - p - 1 gradi di libertk. Per quanto riguarda l'intervallo di confidenza per Y (simile alla (10.40)) in corrispondenza di un dato valore x , esso B identico a quello della (10.59) dopo aver sommato I al termine sotto radice quadrata:
Spesso la procedura di fit B resa complicata e di difficile interpretazione dalle correlazioni tra le stime LS dei parametri, i cui valori cambiano da un fit all'altro se decidiamo di aggiungere altri predittori a quelli usati nel primo fit, aumentando p nella (10.41). Per ottenere stime incorrelate si deve diagonalizzare la matrice (x~x)-' ricorrendo a sofisticate tecniche di calcolo matricide oppure ortogonalizzando la matrice X in mod0 che soddisfi la condizione
390
Capitolo 10. Minirni quadrati
In questo mod0 x ~ iX :diagonale e anche la matrice degli errori, che ne i:l'inversa, risulta diagonale, le covarianze sono tutte nulle e i parametri risultano tra lor0 incorrelati. Anche se importanti nella pratica, non discuteremo qui i metodi di diagonalizzazione, che sono piuttosto laboriosi e che si possono trovare sui testi dedicati alle tecniche di calcolo numerico, come [66]. Esercizio 10.2 ~ ~ ~ - ~ ~ + ~ - - m w ~ = . .-* --- = - .% ~ ~ ~ ~ Ricavare le equaxionz normali nel caso di u n a relazione quadratica - A -
Risposta. C o n la notazione (10.15) la (10.52) diventa:
Il confront0 di queste equazioni con Ee (10.18) vi suggerisce immedzatament e la generalizzazzone delle equazioni normali ad un polinomio dz qualunque grado. .,,--~l,#lllli~d!~l~i~!%'~:* -,, , r Slfi#ji
10.5 Minimi quadrati lineari pesati Nelle sezioni 10.3 e 10.4 abbiamo considerato le diverse osservazioni della variabile risposta come incorrelate e con varianza costante. Una prima deviazione da questa ipotesi i: che le varianze non siano costanti, ciok che
ovvero Var[K] = a: per ogni i e Cov[Y,, Y j ] = 0, per i # j . Pih in generale, anche le covarianze potrebbero essere non nulle, con una matrice V non diagonale. Se tutti gli elementi di V fossero ignoti, si porrebbe un difficile problema di stima. Per il caso della (10.62), assumiamo di conoscere i rapporti cri/aj, ciok quanto la risposta della prova i k pic (o meno) variabile rispetto a quella della prova j. Allora potremo scrivere la matrice delIe covarianze come V = a; W-I, dove
10.5 Minimi quadrati lineari pesati
391
I pesi (wl, . . . ,w,) sono tutti noti: in tal mod0 0; = a:/wi e anche i rapporti ai/aj sono tutti noti e pari a wj/wi. Se vale la (10.63), allora il X 2 da minimizzare, che scriviamo direttamente per il problema della regressione rnultipla con sf = (1, s i r , . . . , sip),i:
dove abbiarno posto Gi = & y i e Zi = f i x i . Passando alla notazione matriciale, indichiamo con W ; la matrice diagonale con le radici quadrate dei pesi sulla diagonale e poniamo jj = W $ y e x = W ~ XIl. modello lineare che stiarno considerando nelle variabili trasformate & percib
dove Z ii lo stesso del modello (10.48). Risulta immediatamente che minimiz' zare il x2 della (10.64) equivale a minimizzare
Questo X 2 6 formalmente identico a quello della (10.50), percib abbiamo, tenendo conto che W + W = ~ W, della simmetria di W e delle (10.44):
dove le matrici definite nella (10.52) ora diventano a = (xiW X ) e ,k? = x t Wy. Per quanto riguarda gli errori delle stime, si ha subito, dalla (10.54),
mentre la stima di a:, guardando la (10.56), risulta
Se le osservazioni Y, della risposta sono gaussiane indipendenti, per trovare gli intervalli di confidenza per le O,, bastera dunque applicare la (10.57) con
-4
l'errore della (10.58) sostituito da s,
--,, -
= s,
@.Nella routine
_ ~ j j l ~ d troverete 8$ codificate le equazioni (10.64-10.69) per i minimi quadrati pesati. La "previsionen di y(x) in corrispondenza di un valore x non e probabilmente di molto interesse, dunque non conviene applicare direttamente la
392
Capitolo 10. Minirni quadrati
(10.59) a 9. Basta osservare che continua a valere $(x) = x t 8 per la variabile risposta non trasformata e dunque la stima della varianza di +(x) it s ~ x t ( ~ t ~ X ) come - ~ xnella , (10.55). L'intervallo di confidenza di Iivello 1 - a B percib come quello della (10.59):
L'intervallo di previsione per Y(x) si ricava da questo aggiungendo alla stima della varianza di $(x) quella della parte casuale del modello per Y in corrispondenza di x: Z Y ( z )= x + e+ -
fi
cioB V a r [ z / m = s:/w. Qui w B o un nuovo peso, se x non i: un punto sperimentale, o uno dei vecchi pesi in caso contrario. Risulta infine, come per la (10.60)'
Quanto detto fin qui b valido se W B una matrice diagonale. Ma osserviaassieme alla ovvia fattorizzazione di V, cioit mo la trasformazione y = ~3 V = 1r2 W-l = 0: W-4 W-i. Se V non i: diagonale e poniamo V = o:W-', con W matrice nota, riusciarno ad ottenere una fattorizzazione analoga applicando la (4.69): W-I = H H?. Qui H gioca lo stesso ruolo di W-4. Rileggendo la sezione 4.5, si comprende che la trasformazione Y = H-'Y rende Y un vettore gaussiano con matrice delle covarianze pari a a21 e vettore delle medie 2 0 = H - l X 8 , riconducendoci alle ipotesi utilizzate nella sezione precedente per ricavare tutti gli intervalli di confidenza. Dunque i risultati dalla (10.66) alla (10.70) valgono per una qualunque matrice delle covarianze a2W-I senza modifiche; Anche la (10.71) continua a valere inserendo a1 posto di llw l'elemento di posto i sulla diagonale di W-I se si prende in considerazione un punto sperimentale xi, oppure un nuovo coefficiente in caso contrario.
10.6 Proprieti delle stime dei minimi quadrati Qui vi illustriamo i due teoremi fondamentali (tra cui quello di GaussMarkov) su cui si basano le stime dei minimi quadrati lineari. Se non vi piacciono le gioie della matematica, potete leggere solo l'enunciato dei teoremi (e le lor0 conseguenze!) e passare a1 prossimo paragrafo. Teorema 10.1 (Stime corrette). Nel caso di dipendenza lineare dai parametri, le stime dei minimi quadrati (LS) sono non distorte ("unbiased").
10.6 Proprieta delle stime dei minimi quadrati
393
Dimostrazione. Applicando l'operatore media alla (10.53) e tenendo presente la (10.48) si ha immediatamente:
( 6 ) = (x+x)-'xt (Y) = (x'x)-' x'x 8 = O , in accord0 con la (9.14).
0
Teorema 10.2 (di Gauss-Markov). Con riferimento a1 modello (10.48),
tra tutti gli stimatori di 8 lineari in Y e non distorti lo stimatore LS C quello a varianza minima, ovvero lo stimatore pi& eficiente. Dimostrazione. Dobbiamo dimostrare che, se 8* 2 una stima lineare i n Y e non distorta dei parametri, si ha;
dove a C u n qualsiasi vettore di dimensione p. In particolare, se a contiene tutti zeri e 1 nella posizione i-esima, la (10.72) comprende anche i casi
Considem'amo pertanto una generzca stima lineare i n Y e non distorta dei parametri 8: 8*=UY. Nel caso dello stimatore dei minimi quadrati, U = (x+x)-~ Xt.Dato che la stima C per ipotesi non distorta, dalla (10.48) si ha: (O*) = U ( Y ) = U X 8 = O ,
da cui:
ux = I , (ux)' = I
E cruciale notare che questa proprietd non implica affatto U = X - l , perch6 U ed X non sono matrici quadrate. I n base alla (10.54) abbiamo:
Vale ora 1 'identit;:
dove C b la matrice LS degli errom' divisa per a:,
Questa identitb si pub verijicare facilmente utilizzando la (10.74) e il fatto che C , V e le loro inverse sono matrici simmetriche coincidenti con le corrispondenti trasposte:
394
Capitolo 10. Minimi auadrati
Tenendo presente la (10.54) possiamo scrivere la (10.75) come:
la quale mostra che la matrice delle covarianze di 8" 13 uguale alla matrice delle covarianze delle stime LS 8 pi& u n a matrice simmetrica definita positiua, in quanto essa B scritta nella forma H H ~come nella (4.69). Questo dimostra il teorema. Ovviamente, l'uguaglianza V ( 8 * ) = ~ ( 8 si) ha quando U = C X ~= ( x ~ xx*, ) - come ~ d facile verificare. E importante notare come questo teorema n o n implichi alcuna assunzione ne' sulla distribuzione delle popolazioni ne' sulla dimensione del campione y. Cib che viene richiesto B soltanto che i valori medi (Y) siano funzioni lineari dei 17 parametri. Nel caso dei minimi quadrati pesati della sezione 10.5, i teoremi appena dimostrati continuano a valere sostituendo rispettivamente 2 a X e Y a Y. Abbiamo visto che, nel caso di variabili gaussiane e modelli lineari, le stime fornite dal metodo LS forniscono anche intervalli di confidenza per i parametri, per (Ylx)e per Y stessa.
10.7 Verifica del modello e determinazione di forme funzionali I risultati che abbiamo esposto finora, sono validi se il modello ipotizzato per il valore atteso della risposta B corretto. Quando non si conosce a priori la forma funzionale del modello lineare, si comincia a stimarne uno ipotetico scegliendolo nella classe definita dalla (10.41). Consideriamo ad esempio una sottoclasse interessante di modelli di regressione nella quale ciascuno dei p predittori i: funzione della stessa variabile x:
da adattare ad n punti sperimentali con errore a, ignoto. Ricordiamo che il problema consiste nel trovare le curva rispetto alla quale le fluttuazioni dei punti sono casuali, ovvero la curva che rappresenta la relazione funzionale tra x e il valore medio di Y. Questa curva n o n deve passare esattamente per i punti (interpolazione) e pertanto deve avere un numero
10.7 Verifica del modello e determinazione di forme funzionali
395
di parametri inferiore alla dimensione del campione; per questo motivo essa i! detta anche curva di regressione (anche se storicamente questo termine B stato introdotto in un contest0 diverso). La scelta iniziale della curva nella sottoclasse (10.76) avviene in base alla conoscenza del problema in esame e in base all'andamento dei grafici delle coppie (xi, gi), quando cib e possibile, come nelle figure 10.1 e 10.2. Ottenuta la stima dalla minimizzazione del x2, la prima cosa da fare B controllare che i residui 2.z (10.77) - Pi - G(xi) = Yi - $i , che di fatto costituiscono una stima delle fluttuazioni casuali zi, si comportino appunto come fluttuazioni casuali. I1 grafico delle coppie (&, .&) B molto informativo in questo senso. Infatti i residui hanno sempre media nulla e si dimostra che, se il modello include il termine costante 00,la correlazione campionaria tra i valori previsti e i residui Zi B nulla e non sussiste tra essi relazione lineare. Se le ipotesi fatte su f (x, 13)e su media (nulla) e varianza (costante) delle fluttuazioni casuali zi sono compatibili coi dati, dovremmo dunque osservare nel grafico una nuvola di punti racchiusa in una fascia di arnpiezza costante2 e collocata attorno a110 zero. In particolare, se i residui sono anche gaussiani, la fascia risulterh approssimativamente simmetrica attorno a110 zero. Nel caso pesato si devono rappresentare i residui standard (cioi! divisi per l'errore), calcolati per ogni predittore xi:
L'andamento deve apparire casuale ed i valori a1 di fuori della fascia Iti(< 3 devono essere rari, in accord0 con la legge 3a. (Questa B una verifica approssimativa, infatti la varianza di zii! quella della nota 2, con 2 al posto di X). Se 02 non B nota i residui vanno comunque pesati e nel grafko si rappresentano le coppie ($(xi), &&). La Fig. 10.4 mostra tre possibili casi. Nel caso a) il fit B soddisfacente, nel caso b) i punti indicano un andamento che descrive una curva che viola la legge 3g, ad indicazione di una inadeguata forma funzionale introdotta nel fit; il caso c) invece si verifica quando gli errori sui valori grandi di y sono stati sottostimati. Frequentemente questo avviene quando si esegue un fitnon pesato, con errori assoluti tenuti costanti, di dati che invece hanno errore relativo costante. L'errore assoluto cresce allora con y e il grafico dei residui i! come nella Fig. 1 0 . 4 ~ )i ;matematici chiamano questo comportamento col nome di eteroschedasticitd. Tuttavia, diversi modelli possono produrre un grafico dei residui visivamente soddisfacente. Lo si affianca allora a dei metodi iterativi, con i quali Attenzione perb che ~ a r [ &= ] (~2(1- lii), dove lii sta tra 0 e 1 ed B l'elemento di post0 ii della matrice x ( x t x ) - ' x t . P u b accadere che, per certe matrici X, alcuni lii siano sensibilmente diversi dalla maggioranza degli altri.
396
?
-
-
o-3
Ca~itolo10. Minimi auadrati
c)
A v ~ v
-
Fig. 10.4. Possibiii grafici dei residui a seguito di un best fit: fit buono a); forma funzionale insoddisfacente b);
eteroschedasticit&(si veda il testo) c) si confrontano in successione coppie di modelli diversi, ottenuti l'uno dall'altro aggiungendo o togliendo predittori. Nel caso del polinomio della (10.76), potremmo aumentarne il grado di un'unit8 per volta, minimizzare il x2 e decidere quando fermarci. I1 metodo si basa sul fit dei modelli e sulla risposta alla domanda: "I1 peggioramento del fit che otterlgo togliendo determinati predittori f k (x) i: statisticamente significativo o no?" Per rispondere, partiamo dall'esame della figura 10.5, che rappresenta i vettori coinvolti nel nostro problema dei minimi quadrati nello spazio Rn. Per capirne il senso, notiamo che la stima della risposta in corrispondenza di ciascuna riga di X , cioB il vettore delle jj(xi), corrisponde a
Si dimostra che la matrice P non fa altro che attuare la proiezione ortogonale di y sullo spazio vettoriale generato dalle colonne di X , cioB 8 B quel vettore di parametri che avvicina il pih possibile y ai vettori generati da combinazioni lineari delle colonne di X . Consideriamo ora la matrice Xo, ottenuta da X eliminando un certo numero di colonne e tenendo po predittori (quindi Xo ha dimensione n x (po 1)). La stima della risposta con questo modello ridotto sar&naturalmente jjO = Peg, con Po = x ~ ( x ~ x ~ ) - ~matrice x ~ , di proiezione sullo spazio delle colonne di Xo. Cib equivale ad aver posto p - po coefficienti Bi pari a zero. Applicando il teorema di Pitagora a1 triangolo rettangolo tratteggiato in figura 10.5, otteniamo un'importante relazione che interessa i residui della regressione con il modello completo e con quello ridotto. Ricordando che 2; = 11,2112 = Ci(yi - $(xi))2 i: il quadrat0 della norma del vettore 2 , abbiamo (10.80) 114011~ = 112- 2011~+ 1 1 ~ 1 1 ~
+
xi
Se y(x) i: dato dalla prima delle (10.76) e le funzioni fk(x) soddisfano alla proprietii di ortogonalitb (10.61), scrivendo esplicitamente i residui si pub verificare facilmente che la (10.80) equivale alla condizione
10.7 Verifica del modello e deterrninazione di forrne funzionali
397
Fig. 10.5. Rappresentazione vettoriale nello spazio Rn. Regressione con tutti i predittori (matrice X) e con un sottoinsieme di predittori (matrice Xo). La stima della risposta $(X) G y in corrispondenza di ciascuna riga di X i! la proiezione ortogonale di y sullo spazio lineare generato dalla colonne di X. Up discorso simile vale per 5,. E dunque immediato ricavare i vettori dei residui delle due regressioni e la relazione tra essi.
la quale B verificata grazie alle equazioni normali (10.51). Dalla (10.29) B chiaro che gli elementi dei vettori dei residui sono combinazioni lineari delle risposte yi. Se la risposta ha distribuzione gaussiana, le due norme a1 second0 membro, sono relative a vettori ortogonali (quindi incorrelati) che, essendo a loro volta combinazione lineare di vettori gaussiani, sono indipendenti. Inoltre, se vale il modello ridotto con po predittori, si dimostra che
Questi risultati sull'indipendenza e la distribuzione delle norme a1 quad r a t ~ci , danno la risposta alla domanda che ci siamo posti poco fa, perch6, se d valido il modello ridotto, allora
segue la densit&F di Snedecor con ( p - po, n -p - 1) gradi di liberta definita dalla (5.46) e gig utilizzata nell'esercizio 6.11. Questa statistica B infatti il rapport0 tra due distribuzioni x2 ridotto indipendenti. Spesso la (10.83) B scritta con una notazione &versa
e RSS = 1(2(12 i! l'acronimo di residual sum of squares. La statistica (10.84) misura il peggioramento del fit (aumento della somma dei quadrati dei residui) del modello ridotto rispetto a quello del modello completo. Se F i!
398
Capitolo 10. Minimi quadrati
significativamentegrande vuol dire che i predittori eliminati dal modello completo erano importanti, dunque rifiuteremo a1 live110 a l'ipotesi che i relativi coefficienti siano nulli se
Un caso particolare B quello nel quale il modello ridotto si ottiene eliminando un solo predittore, ad esempio ponendo 8, = 0 in una delle (10.76), cosi po = p - 1. La F allora, sotto l'ipotesi Ho : 8, = 0, ha distribuzione F(1, n - p - 1) e non B difficile vedere che sussiste l'uguaglianza Fl-,(l, n - p - 1) = t:-,,2(n - p - I), il percentile della t di Student con (n - p - 1) gradi di liberta. In realta anche F B il quadrat0 di
dove s(8,) i!come nella (10.57), e T ha distribuzione t di Student con (n-p-1) gradi di libertb. Potete verificarlo leggendo la discussione che precede gli intervalli di confidenza per i pararnetri della retta dei minimi quadrati (10.33), dove p = 1, a = 80 e b = 81.Detto cib, rifiuteremo Ho accettando il nuovo parametro (po 1)-esimo se T supera tlPffl2(n- p - 1). Visto in altro modo, un valore grande di T indica un errore relativo piccolo e quindi l'importanza del parametro. Con riferimento a1 problema della scelta del grado del polinomio nella (10.76), potremmo ad esempio partire dal modello con il solo O0 e verificare l'ipotesi Ho : 131 = 0. Se questa viene rifiutata, aggiungeremo il termine di secondo grado e verifichieremo l'ipotesi Ho : 82 = 0 e cosi via. Se k B l'indice del primo test che non porta a rifiutare Ho, porremo p = k - 1. Questo B solo uno dei possibili procedimenti. Se per caso il termine di secondo grado non risultasse significative, ma lo fosse quello di terzo grado, con questo procedimento non ce ne accorgeremmo. T ~ t t oquello che abbiamo visto finora non basta ad assicurare che la determinazione della forma funzionale sia avvenuta correttamente, poich6 sono condizioni necessarie ma non sufficienti. In altre parole, vi sono molte forme funzionali (non solo quella %eran) che soddisfano ai criteri di buon fit sopra elencati. Questa & una ambiguita di fondo, non risolvibile solo per via statistica, della quale occorre sempre essere consci. E quindi molto importante introdurre, nel modello di fit, tutte le informazioni a priori che si hanno del problema e cercare di ridurre gli errori sui dati per quanto possibile. Esemplifichiamo questi concetti simulando un caso realistico. Partendo dal polinomio
+
generiarno dei dati sirnulati di tip0 gaussiano con una deviazione standard relativa piuttosto grande, di f15%:
399
10.7 Verifica del rnodello e determinazione di forme funzionali
+
Tabella 10.1. Risultati di una serie di best fit con polinomi del tipo y(x) = 00 82x2 + 83x3 per i dati della (10.88). SL i: il livello di significativita relativo a1 X 2 ,ottenuto con le 6.118
&x
+
do 01
FIT1 -5.1 f 1.5 12.5 f 0.9
82 93 13.2
= 2.20 X2/v 6 SL 8%
FIT2 -14.8 f 3.4 23.0 f3.4 -1.4dr0.5 3.2 - - 0.64 5
FIT3 -7.0 f 7.6 12.0 f 10.0 2.1 f3.1 -0.3 i0.3 1.9
- = 0.47
50%
4
40%
FIT4
FIT5 1.9 f 1.2
2.8 f 1.7 4.8* 1.0 -0.5 f 0.1
5 . 8 f 0.6 -0.6 f0.1
2.8 5
34 -= 0.67 5
- = 0.55
50%
70%
dove gi B un numero casuale estratto dalla gaussiana standard, secondo le tecniche illustrate nel cap. 7.. I dati ottenuti sono riportati nella (10.88):
dove sy = 0.15 y. I polinomi di regressione dl vario grado ricavati da questi dati sono mostrati nella Tab. 10 he no stati ottenuti col nostro codice fa uso della routine Y(X)= 6 0
+ 01s ,
detto FITl in Tab. 10.1, fornisce un X 2 accettabile, anche se il livello di sigpificativith piuttosto basso invita ad aumentare l'ordine dello sviluppo. Il risultato FIT2 6 ottenuto col polinomio
e porta ad un buon x2. I1 rapport0 (10.83) per il test F tra FIT2 e FITl vale:
Consultando la Tab. D.5 per i livelli a1 5% e all'l%, otteniamo 15.6 > F0.95(1,5) = 6.61 , 15.6 < f0.99(1,5)= 16.3 . I1 test mostra che l'ipotesi nulla (ciob la inutilith di FIT2) pub essere rifiutata a1 livello del 5%, ma non a quello dell'l%. Se consideriamo che la soluzione
400
Capitolo 10. Minirni quadrati
Fig. 10.6. a) Punti sperimentali della (10.88) e polinomi di fit ottenuti in Tab. 10.1; Iinea tratto-punto: FIT1; linea a tratti: FIT2; linea a punti: FIT4; linea piena: FLT5. A parte FIT1, tutti i polinomi hanno 3 parametri liberi e forniscono un buon X2.b) Residui (10.77) tra i dati e la curva piena FITS; si confronti con la Fig. 10.4
i: a1 limite del live110 all'l% e che il x2 di FIT2 B migliore, i: lecito ritenere significativa la soluzione a 3 parametri di FIT2. A questo punto potremmo fermarci, ma vediamo cosa succede con FITS, in cui si utilizza la cubica con 4 parametri
In questo caso il x2 non migliora sensibilmente, 1'F test mostra che il quarto parametro B inutile e tutti i 4 parametri di FIT3 presentano un piccolo valore (10.86) di T e sono pertanto compatibili con lo zero. Tutto questo ci dice che quattro parametri liberi sono eccessivi. In FIT4 e FIT5 si ritenta allora il fit con delle cubiche, ma sopprimendo i parametri O0 e B1 rispettivamente. I fit risultanti sono anch'essi accettabili, soddisfano i criteri a)-c) appena discussi e sono in pratica equivalenti a FIT2. I risultati FIT2, FIT4 e FIT5 di Tab. 10.1 sono dunque tutti egualmente compatibili, anche se noi sappiamo (ma solo perch6 i dati sono stati simulati dalla (10.87)) che la soluzione piu vicina a quella Vera 6 quella di FIT5. La conclusione corretta 6 quindi che gli 8 valori di Tab. 10.88, affetti da un errore considerevole di &15%, sono compatibili con una forma funzionale quadratica o cubica, avente non piu di tre parametri. Tra questa classe di soluzioni rientra la funzione Vera (10.87). L'uso di funzioni ortogonali con--.....-la proprieth (10.61) ottimizza notevolmente la procedura di minimizzazione, perch6 i parametri sono indipendenti e quelli gih trovati non cambiano valore aggiungendone dei nuovi, ma in genere non aiuta a risolvere le ambiguita. La situazione k riassunta in mod0 efficace in Fig. 10.6, dove si vede immediatamente che polinomi di second0 o terzo grado sono statisticamente compatibili con le fluttuazioni dei dati. La figura mostra anche come l'estrapolazzone delle curve a1 di fuori della zona di esistenza dei dati sia estremamente pericolosa: il valore estrapolato corretto, per x = 10, k quello di FIT5,
10.8 Ricerca delle correlazioni
40 1
che & la curva piena; risultati completamente diversi si ottengono con le altre curve, che pure rappresentano bene i dati entro i valori di x misurati.
10.8 Ricerca delle correlazioni I1 metodo per la ricerca del modello (con l'esempio specific0 della ricerca delle forrne funzionali) della sezione precedente si fonda sul confront0 tra coppie di rnodelli annidati I'uno nell'altro. Se confrontassimo ciascun modello con uno stesso modello base di rifermento, potremmo associare a ciascuno di essi una "cifra di merito" che ne riflette il fit ai dati. Una tecnica per far questo e che ora illustreremo prende il nome di ricerca delle correlazioni. Prendiamo in esame la decomposizione dei quadrati dei residui dal modello ridotto (10.80) con p~ = 0, ovvero quello con il solo termine costante Bo e la matrice Xo coincidente col vettore colonna di tutti uni. Dalla (10.53) ricaviamo 80 = (y) = jjOie quindi 2 0 ~= yi - (y). Pertanto
IIc
- Go 11. La decornInoltre, dalla figura (10.5), vediamo che 112 - iolj= posizione (10.80) diviene in questo caso una decomposizione della varianza campionaria di Y e assume la forma:
che viene detta a parole come: devianza totale = devianza spiegata + devianza residua .
(10.90)
Questa eguaglianza, che i: la pih semplice forma di analisi della uarianza, ha un'interpretazione molto interessante, cioi: che la dispersione delle y i attorno a (y) & decomposta in due parti tra lor0 10x0 incorrelate: la prima 6 quella colta dal modello di regressione lineare conp predittori, la seconda i: il residuo, cio&quello che il modello non pub spiegare della variazione presente nei dati. Se il modello interpolasse i dati, si avrebbe che yi - gi = 0 per ogni i e la componente residua sarebbe nulla. Dividend0 la devianza spiegata della (10.90) per la devianza totale otteniamo il coeficiente di determinazzone :
= 1-
RSS Cy=d~i - $iI2 = 1 (n - 1)s; C ~ = J-Y (y)I2 ~
(10.92) *
402
Capitolo 10. Minirni quadrati
> 1. Se Ay k la variazione nella lettura in corrispondenza di una variazione Ax della quantith da misuraxe, la sensibilita si pub definire anche come S = Ay/Az. Negli strumenti digitali l'intervallo di sensibilita i: definibile chiararnente, poich6 in questo caso esso non B altro che un errore di arrotondamento. Ad esempio, se un multimetro digitale costruito a regola d'arte indica una tensione di 2.15V, il valore vero sara compreso tra 2.145 e 2.155 V (vedi Fig. 11.2a), poich6 i: lecito presumere che le operazioni di arrotondamento vengano effettuate correttamente. L'intervallo di sensibilith i: in questo caso A = (2.155 - 2.145) V = 10mV. Poich6 in genere non c'i: correlazione tra l'intervallo di sensibilita e la localizzazione del valore vero all'interno di questo intervallo, possiamo dire che, se x k il valore letto e Ax B l'intervallo di sensibilith, il valore vero sarh compreso, con legge di probabilith uniforme, nell'intervallo x k Ax/2, con un live110 di confidenza del 100%. In sintesi, si suppone che il valore vero sia localizzato in mod0 equiprobabile entro l'intervallo:
11.4 Sensibilit2 e accuratezza degli strumenti
417
Fig. 11.2. a) Negli strumenti digital; l'intervallo di sensibilitii diventa un erroie di arrotondamento. b) Negli strumenti analogici l'intervallo di sensibilit&& dato
dall'arnpiezza della tacca minima sulla scala. I1 valore misurato viene assunto come il punto medio della tacca entro cui cade la misura
An:
valore vero = x f - , 2
(CL = 100%) .
Nel caso di Fig. 11.2a), diremo che il valore vero sta nell'intervallo:
che l'intervallo di sensibilita 6 di lOmV e che la sensibilitii i, S = 100 V - l , cioi! che 1V sposta la lettura di 100 posizioni. Negli strumenti analogici ad ago, l'intervallo di sensibilita ha una definizione meno chiara: l'ago si sposta in mod0 continuo, ma lo spessore stesso dell'ago e la larghezza delle tacche di misura, disegnate sul quadrante dello strumento, definiscono un intervallo minimo di lettura al di sotto del quale non ha senso procedere. Generalmente il risultato viene ancora riportato nella forma (11.2), dove il valore della misura b il punto medio delle tacca entro cui si legge il valore e l'errore i! la ampiezza della tacca minima, centrata sul valore letto (vedere Fig. 11.2b). Spesso si tende ad interpolare ad occhio la lettura, ed a ridurre cosi l'errore. La procedura b lecita, ma in questo caso si deve essere consci che si sostituisce, alla scala dello strumento, una scala soggettiva (pih fine) ottenuta interpolando visivamente tra le tacche segnate sul quadrante dello strumento. In questo caso si pub associare all'intervallo (11.2) non la legge uniforme, ma quella trimgolare (5.35), centrata sul valore letto e di larghezza pari all'intervallo della tacca minima "ideale" trovata ad occhio. A1 posto della interpolazione visiva, 6 comunque meglio in questi casi cercare di utilizzare, se disponibile, uno strumento digitale a pih alta sensibilith. Oltre alla sensibilith, l'altro parametro fondamentale che caratterizza uno strumento B l'accuratezza. Essa i, definita come:
Affermazione 11.5 (Accuratezza o errore sistematico). Per u n o strumento di sensibilitd ideale, si definisce accuratezza, o errore sistematico, lo scostamento tra il valore misurato dallo strumento ed il valore vero. Questo efletto n o n d d i tipo casuale ed ha origine da una taratura imperfetta dello strumento. Nel seguito esso verra indicato con 6. Veniamo ora ad un punto importante: come si combinano, in uno strumento, gli errori dovuti alla sensibilita e quelli di accuratezza?
418
Capitolo 11. Analisi dei dati sperimentali
Se il multimetro digitale immaginato in Fig. 11.2a) avesse una taratura perfetta, se ciob fosse 6 5110) di variabili aleatorie qualunque. Veniamo ora alle incertezze strumentali, alle quali spesso si attribuisce, come mostrato nella (11.2), la densith uniforme. In questo caso a volte si usa, come legge di propagazione degli errori di due misure lo sviluppo di Taylor a1 primo ordine con le derivate prese in valore assoluto:
La generalizzazione a1 caso di n misure i: ovviamente:
Queste formule non rappresentano la deviazione standard della distribuzione risultante, ma la sua larghezza totale quando la composizione delle misure i: lineare. Per questo motivo esse in genere vengono usate per una stima del limite superiore dell'errore, il che pub essere utile nel caso di grandezze correlate in mod0 complicato. I1 valore assoluto delle derivate assicura che l'effetto della propagazione venga sempre preso nel mod0 pih "sfavorevole", quello corrispondente ad un increment0 positivo dell'errore di misura. Se le variabili non sono correlate, allora un mod0 pih corretto di procedere & quello di applicare le (11.4, 11.5) a1 caso della densitb uniforme, la cui varianza, in base alla (3.80), vale A2/12. Per due ed n variabili si ha rispettivamente:
11.6 Misure indirette e ~ r o ~ a g a z i o ndegli e errori
423
da cui si vede che, per ottenere la varianza totale, basta sommare quadraticamente gli errori sistematici e poi dividere per 12. La varianza b stata qui indicata con lettere latine, in quanto si tratta pur sempre di una quantita stimata dai dati nell'assunzione che sia valida l'ipotesi a priom' della densitli uniforme per gli errori sistematici. Queste varianze non vanno perb associate alla densith gaussiana, anche nel caso che la funzione f (x, y) combini Iinearmente le variabili. Infatti, mentre la combinazione lineare di errori gaussiani mantiene intervalli di confidenza gaussiani, in questo caso la somma di due o piii errori sistematici, ciob di due o piG variabili uniformi, dB luogo a densit&differenti, che dipendono dal numero di errori sommati. Sappiamo perb, dal teorema Limite Centrale 3.1, che questa densith tende rapidamente ad una gaussiana. Si pone ora il problema pratico di stabilire a partire da quale numero di misure combinate linearmente sia lecito usare l'approssimazione gaussiana:Il risultato che troveremo probabilmente vi sorprenderh. Affrontiamo il problema trattando in mod0 completo i1 caso istruttivo della somma di due errori sistematici di pari valore. La semplice generalizzazione dell'esercizio 5.2 di pagina 151 indica che la somma di due errori sistematici uguali definiti in [O, A121 segue la densit& triangolare in [O , A]:
o
altrimenti,
Essa B rappresentata in Fig. 11.4 per A/2 = 1. Se i due errori sistematici che si sommano sono definiti in [ O , l ] , la (11.6) fornisce il valore
che b proprio la larghezza totale della distribuzione. Invece, dalla (11.8) abbiamo: 1 1
424
Capitolo 11. Analisi dei dati sperimentali
-
Fig. 11.4. Densitb triangolare della somma di due misure d e t t e da errori sistematici uguali compresi in [O, 11. L'area ombreggiata k il live110 di confidenza corrispondente all'intervallo u 3r u e vale
che i!un risultato esatto in accord0 con la (11.11), perch6 stiamo considerando la somma di due errori. L'area corrispondente all'intervallo )x- p) 5 K a , con K numero reale, pub essere trovata in mod0 elementare dalla Fig. 11.4, oppure, in mod0 piii formale:
Ka(2 - K a ) per ={I per
KO KO
0.649 per 0.966 per per
K=1 K =2 K =3
--
dove nell'ultimo passaggio si i! utilizzato il valore della (11.12)' o sf = 0.408. Questi valori sono molto vicini agli intervalli di probabilita gaussiani della (3.35). I1 fatto sorprendente che vi avevamo preannunciato i! che in genere gli sperimentatori, sulla base di questo risultato, considerano intervalli di confidenza gaussiani gici a partire da errori ottenuti dalla combinazione lineare di dae soli errori sistematici. Questo risultato giustifica anche l'assunzione di una densitb triangolare, che tdvolta viene fatta per certi tipi di errori sistematici, che provengono da test sperimentali o simulazioni che combinano tra lor0 pochi errori sistematici. In questo caso, in base alla (11.11), nelle (11.8, 11.9) si deve porre y = 1/24. Veniamo ora a1 caso della combinazione di errori statistici e sistematici. Per trovare la densita di probabilitb del risultato, nel caso piG semplice dato d d l a sovrapposizione lineare di due misure, una con errore gaussiano e l'altra con errore sistematico uniforme entro un intervallo, basta rifarsi alla formula (5.34) ottenuta nell'esercizio 5.1. Se immaginiamo l'errore sistematico come un intervallo ( a = -A/2, b = +A/2), ed introduciamo la variabile standard t = ( z - p ) / c , dove a 6 in questo caso l'errore statistic0 vero, tenendo conto che dz = a d t , la formula (5.34) diventa:
11.6 Misure indirette e propagazione degli errori
425
Tabella 11.1. Probabilita degli intervalli di confidenza per misure con errori statistici combinati linearmente con errori sistematici. Gli intervalli sono parametrizzati in funzione del rapport0 A/(T e della deviazione standard CT, = d m ,dove a b l'errore statistic0 e A b la larghezza totale dell'errore sistematico della misura
In base alle (3.40, 3.44) possiarno anche scrivere:
Questa densit% i: una funzione pari rispetto all'origine, poich6 i: la convoluzione di due funzioni pari. Essa ha una deviazione standard che vale:
I livelli di probabilita si possono trovare integr riporta i risultati ottenuti con la nostra routine calcola con la regola trapezoidale
11.1 che
La tabella mostra che i risultati, per o = A, cioi: per CJ > A/-, coincidono con i livelli gaussiani (prima riga), mentre, per o
5. Si trova X 2 = 2.925 con 6 gradi di liberti, pari a ~ g ( 6 )= 0.49. Interpolando da Tab. D.3 si trova P{QR 2 0.49) ci 0.82, pari a un p-value di 2(1 - 0.82) r 0.36. Risulta che in media axrivano 4.6 autobus in 5 minuti e che i dati sono compatibili con la distribuzione di Poisson, perch6 se scartiamo questa ipotesi abbiamo un' alta probabilith (36%) di sbagliare.
+
6.10. x2(1) = (356 - 375)'/375 (144 - 125)'/125 = 3.85. P{Q 0.05 d a Tab. D.3. I1 modello i: quindi rifiutato.
> 3.85)
7.12. I risultati devono essere compatibili con la soluzione 5.9 di pagina 467. 7.13. Si generano due numeri x = J1 e q5 = 2 ~ 5 2 Si . registra il numero n di successi x cos(q5) < 0 oppure x cos(q5) > 1 su un totale di N tentativi. La stima di .ir 6 2N/n f ( 2 ~ l n ' ) J m . Si veda la routine
+
+
7.14. Una possibile soluzione B la nostra routine As5m . Si ricordi che l'errore sulla deviazione standard di N, eventi vale (r/a (capitol0 6).
--
--
7.15. P{r* > 0) 6% (r = coefficiente di correlazione campionario). I1 model10 (anche se per poco) va rifiutato Capitolo 8. 8.1. Una soluzione B il nostro codice che genera n = 100 valori gaussiani e calcola la differenza A = in tra il valore massimo e minimo. I1 procedimento viene ripetuto un numero N molto grande di volte per ottenere, alla fine del ciclo, l'istograrnma della variabile A. Appare un istogramma asimmetrico, proveniente d a una popolazione di densitb di forma analitica non nota. Con N = 50000, abbiamo ottenuto, per n = 100, un campione di media e deviazione standard m = 2.508 i0.001, s = 0.302 i0.001. Dallo studio grafico dell'istogramma abbiamo poi determinato il valore quantile Ao.99 = 3.32. I1 controllo deve scartare i1 lotto quando A > 3.32. Si noti che il metodo 6 insensibile a110 spostamento della media (X).
470
Aaaendice C. Soluzioni dei ~roblerni
8.2. Si estraggono a caso i 5 tempi con legge esponenziale e si determinano m l = m i n ( t ~ , t st,5 ) , m2 = min(t2, ts,t4), ms = min(tl,t4), m4 = min(t2,ts). La macchina si ferma dopo un tempo t = max(ml, m2, ms, m4).Ripetendo il ciclo 10 000 volte abbiamo ottenuto un istogramma asimmetrico di parametri m = 2.52 f 0.02 e s = 1.70 f 0.01 giorni. L'istogramma contiene nell'intervallo m f s il 73% circa dei tempi di funzionamento.
8.3. Occorre modificare la funzione Funint della routin escludere il campionamento ad importanza. ile i 2 che va modificata a1 valore voluto. La s el nostro sito. 8.4. I1 valore esatto di I, calcolabile analiticamente, 6 I = 210g 2 - 1 = 0.38629.. .. Per N = 1000, con il metodo della media si ottiene a = 6.25 . l o p 3 ; con il metodo "vinci o perdi" o 2: 1.1 . l o P 2 ; con il campionamento ad importanza (scegliendo g(z) = x) CT 2: 1 . loP3; con il campionamento stratificato (k = 20 strati) a -. 0.3. 8.5. I1 risultato deve essere statisticamente compatibile con il valore I = 8. Con il metodo della media ed N = 1000 abbiamo ottenuto, ad esempio, I = 8.01f0.13. Con il metodo "vinci o perdi" e delimitando la funzione da integrare 1, 0 5 entro l'iper-parallelepipedo definito daIle condizioni -1 5 xl,zz, 2 3 y 3, abbiamo invece ottenuto (semprc con N = 1000) I = 7.89 f 0.36.
3, necessarie sequenze pi3 lunghe per stabilizzare il risultato. I1 valore sembra ottimale. Con 5000 variabili standard ottenute con la routine abbiamo ottenuto m = 0.023 f0.014, s = 0.994 f 0.010, che & un risul accurato di quello otenuto con Metropolis con a = 3. 8.8. Con riferimento alla figura, si deve scrivere un codice che estrae il punto di emissione con le formule x = -2 4[, y = -3 66 e la direzione di volo come cos0 = 1 - 2(, 4 = 2n(. Si h a poi a = htg0, r = R = Jr2 a 2 - 2racos 4. Se R k minore del raggio della finestra R d , la particella b contata dal rivelatore.. Se n B il numero di particelle contate su N generate, l'efficienza B data da E: = n / N f dn(l - n / N ) / h r . Con i dati del problema e la nostra routin bbiamo ottenuto E = 0.059 f 0.002.
+
+
8.9. Una possibile soluzione B la nostra routin uniformemente in -T 5 x 5 n. I valori di c sono i
+
d m ,
che campiona erminale.
8.10. La soluzione dipende dalla valutazione soggettiva del tracciato. I1 lettore dovrebbe essere in grado di verificare che, per n troppo elevato, l'algoritmo non b affidabile nel predire il numero atteso di atomi con spin 1.
Appendice C. Soluzioni dei problemi
471
Capitolo 9. 9.1. La probabilitd di estrarre una biglia nera vale 113 o 213. Dalla densita binomiale si ottiene la tabella:
La stima ML di p vale pertanto: 6 = 1/3 se 0 5 x L: 1, p = 2/3 se 3 5 x 5 4. Se x = 2 la funzione di verosimiglianza (densit5 binomiale) non ha massimo, pertanto lo stimatore ML non B definito in questo caso.
9.3. 2, B tale che J!;
p(z; fi, 5)d z = a , dal teorema 9.2.
9.5. a) Dalla (1.32) di pag. 25 risulta P ( x ; N) = A(x)[(N-n)!I2/[~!(N-2n+ x)!], dove A(%)contiene fattori indipendenti da N. Dato che P ( x ; N) L(N), lo studio della funzione per valori discreti di N mostra che L(N $. 1) 2 L ( N ) finch6 N 5 n2/x - 1. I1 massimo di L(N) si ha quindi per N = 1+int (n2/x - 1), dove int & la p a t e intera dell'argomento. Dai dati si ottiene k = 609. b) Utilizzando l'approssimazione di Stirling e la (3.21) di pag. 73, si ottiene dL/dN = -dIn L(N)/dN = I ~ [ N ( N - ~ ~ + x ) / ( N - ~ dacui ) ~ ] , N = n2/x = 608. Dato che N B una variabile discreta, il limite di Cram&-Rao non B utilizzabile. Anche con l'approssimazione di Stirling, supponendo N variabile continua, la (9.29) B di difficile applicazione. Si pub sirnulare il processo, generando da N = 600 una serie di valori z e studiando l'istogramma degli N stimati. Ripetendo per 5000 volte l'esperimento, si ottiene un istogramma asimmetrico (con una lunga coda a destra) di parametri rn = 618 i 1, s = 80.0 m 0.8. I1 valore massimo 6 ad fi = 600. Nell'intervallo 608 i 80 B contenuto il 72% dei valori. Una stima ragionevole B pertanto: N E 608 & 80, CL = 72%. Dato che x ha densitk binomiale, in approssimazione gaussiana (x > 10, n-x > 10) si pub anche usare la (5.57) di pag. 161, che dB il risultato: Varlfi] = Var[n2/z] 2. (n4/z3)[(1 x/n) (212) (1 - ~ / n ) ~(si ] noti che il secondo termine 6 trascurabile). Si ottiene N E 608 i 88, in buon accordo con la simulazione.
+
9.6. La funzione di verosimiglianza di due prove vale L = p x 1 + x 2 (1 p)2-(xl+xz) = L (p;S). S B sufficiente, P non lo B. Infatti, p pub essere stimato solo dalla somma dei successi, non dal prodotto.
9.7. Tralasciando i fattori costanti, 1nL = -(n/2)[lnc2
+ s2/a2], dove
a2E s2 = w/n (la media k nota). Si noti che (s2)= cr2 e che w B una statistica
sufficiente. Calcolando la derivata prima e seconda di In L si trova che l'informazione attesa vale nI(6) = n/(2u4). Applicando i metodi a) e b) suggeriti, da [I ln L J / ~5 ]t,J e [Is2 - u 2 ) / t , ) , dove t, 6 il quantile, si trova lo stesso risultato, identico alla 6.57 dl pagina 198.
J(T