Metodi di previsione statistica
Francesco Battaglia
Metodi di • • • • previsrone statisttca
~ Springer
FRANCESCO BATTAGLIA
Dipartimento di Statistica, Probabilita e Statistiche Applicate Universita La Sapienza Roma
ISBN 978-88-470-0602-7 Springer Milan Berlin Heidelberg New York Springer-Verlag fa parte di Springer Science+Business Media springer.com ©
Springer-Verlag Italia, Milano 2007
Quest'opera e protetta dalla legge sul diritto d'autore. Tutti i diritti, in particolare quelli relativi alla traduzione, alla ristampa, all'uso di figure e tabelle, alla citazione orale, alla trasmissione radiofonica 0 televisiva, alla riproduzione su microfilm 0 in database, alla diversa riproduzione in qualsiasi altra forma (stampa 0 elettronica) rimangono riservati anche nel caso di utilizzo parziale. Una riproduzione di quest'opera, oppure di parte di questa, e anche nel caso specifico solo ammessa nei limiti stabiliti dalla legge sul diritto d'autore, ed esoggetta all'autorizzazione dell'Editore. La violazione delle norme comporta sanzioni previste dalla legge. L'utilizzo di denominazioni generiche, nomi commerciali, marchi registrati, ecc., in quest' opera, anche in assenza di particolare indicazione, non consente di considerare tali denominazioni 0 marchi liberamente utilizzabili da chiunque ai sensi della legge sul marchio. Impianti forniti dall'autore Progetto grafico della copertina: Simona Colombo, Milano Stampa: Signum, Bollate (Mi) Stampato in Italia Springer- Verlag Italia srl Via Decembrio 28 20137 Milano
Prefazione
Questo volume presenta una trattazione della metodologia statistica relativa alla previsione di fenomeni riferibili al tempo. L' occasione immediata per la realizzazione di questo testo e stata determinata dalla istituzione di nuovi corsi di insegnamento sulla previsione statistica nelle lauree di primo e di secondo livello della Facolta di Scienze Statistiche dell'Universita La Sapienza di Roma; cia ha condizionato la struttura generale del volume, richiedendo la possibilita di una lettura su due diversi livelli di approfondimento, e con differenti pre-requisiti. La trattazione si rivolge, comunque, a lettori che possiedano la formazione tipica dei contenuti di base e di quelli caratterizzanti del primo biennio di una laurea in Statistica. In particolare, e data per nota la conoscenza del calcolo differenziale e integrale di una e pili variabili con elementi di teoria della misura, di serie numeriche e serie di funzioni; della geometria analitica classica, spazi euclidei di dimensione finita e algebra lineare; del calcolo delle probabilita relativo aIle variabili aleatorie univariate (compresi i teoremi limite); della statistica di base e dei fondamenti di inferenza statistica. Invece, alcuni approfondimenti necessari per una pili completa conoscenza degli argomenti trattati sono esposti brevemente nel volume stesso: quelli relativi alle variabili aleatorie multivariate e alle norrnali multiple nel terzo capitolo, altri concernenti l'analisi di Fourier e complementi di trigonometria nell'appendice A. Questo modo di procedere si e rivelato opportuno poiche la piena comprensione dei metodi di previsione statistica richiede l'applicazione e la padronanza di un vasto ventaglio di discipline quantitative. Tuttavia, per non appesantire troppo 10 svolgimento, si e rinunciato a fornire dimostrazioni completamente esaurienti di tutti i risultati, anche se di ognuno si cerca costantemente di fornire la genesi, una spiegazione intuitiva e una prova formale anche se non sempre rigorosa. La scelta e la sistemazione logica del materiale, l'ordine in cui e presentato e la sua motivazione seguono una linea personale dell'autore, e differiscono in buona parte da altri volumi relativi alla stessa problematica, in particolare per
VI
Prefazione
quanto riguarda il primo capitolo (e segnatamente per i concetti di previsione statistica, glob ale e puntuale), per la bipartizione della parte strutturale nei suoi aspetti probabilistici e in quelli statistici, per la parallela distinzione tra processi e modelli autoregressivi a somma mobile, per il risalto dato ai risultati propri del dominio frequenziale, e per la trattazione, anche se succinta, delle catene di Markov e dei processi di punto. E naturale infine che in base agli interessi e alla sensibilita personale dell'autore, alcuni argomenti siano trattati pili approfonditamente della maggior parte dei testi del settore, e altri meno approfonditamente, 0 solo accennati rimandando alla bibliografia. Per un corso introduttivo di primo livello concernente l'analisi e previsione delle serie temporali univariate e i modelli ARIMA si possono prendere in considerazione i capitoli 1, 2, 3, 5 (paragrafi 1, 2, 6), 6, 8, 9 (paragrafi dal 1 al 4 e il 7), 10 (paragrafi dal 1 al 4 e il 6) e 13 (paragrafi 1 e 2). Per un corso pili approfondito di secondo livello si puo completare la trattazione utilizzando, oltre ad approfondimenti quali l'analisi nel dominio delle frequenze e il filtraggio lineare (paragrafi 3, 4 e 5 del capitolo 5 e paragrafo 5 del capitolo 9), le deviazioni dalle ipotesi (capitolo 11) e i modelli a eteroschedasticita condizionale, anche materiale sulle serie bivariate (paragrafi 8 e 9 del capitolo 5, paragrafo 6 del capitolo 9, paragrafo 7 del capitolo 10), sulle catene di Markov e i processi di punti (capitoli 4, 7, 12, 14) e su ulteriori approcci alla previsione puntuale, alternativi 0 complementari ai modelli ARIMA (paragrafi dal 3 al 6 del capitolo 13). Questo libro espone una impostazione e un punta di vista personali, maturati in pili di trent'anni di ricerca nel campo delle serie temporali, e quindi porta con se il riflesso degli insegnamenti e dell' esperienza dei tanti maestri e colleghi che ho incontrato nel mio percorso; non e possibile nominarli tutti anche se a tutti sono grato, rna non posso esimermi dal citare almeno Francesco Carlucci, che mi ha introdotto, fin da studente, ana problematica che sarebbe poi diventata il mio settore principale di ricerca. Desidero infine ringraziare in particolare gli amici e colleghi che con i loro consigli hanno contribuito a rendere pili chiaro e completo questo testo, tra essi Adelchi Azzalini, Roberto Baragona, Maria Maddalena Barbieri, Estela Bee Dagum e Anna Clara Monti.
Rama, Febbraio 2007
Francesco Battaglia
Indice
Parte I Fenomeni dinamici e previsione 1
La previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3 1.1 Introduzione............................................ 3 1.2 La previsione statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.1 Delimitazione del concetto di previsione statistica ..... 6 1.2.2 Previsione statistica globale . . . . . . . . . . . . . . . . . . . . . . . .. 10 1.2.3 Previsione statistica puntuale . . . . . . . . . . . . . . . . . . . . . .. 12
2
Caratteristiche generali dei fenomeni dinamici . . . . . . . . . . . .. 2.1 II primo approccio: la rappresentazione grafica 2.2 Analisi delle tendenze di fondo . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2.3 Analisi della stagionalita 2.4 Analisi dei residui
15 15 22 26 28
Parte II La teoria dei processi aleatori 3
4
Processi aleatori e loro classificazione . . . . . . . . . . . . . . . . . . . . .. 3.1 Che cos'e un processo aleatorio. . . . . . . . . . . . . . . . . . . . . . . . . . .. 3.2 Richiami sulle distribuzioni di probabilita multivariate 3.3 La distribuzione normale multipla . . . . . . . . . . . . . . . . . . . . . . . .. 3.4 Alcune proprieta dei processi aleatori 3.5 Una classificazione dei processi aleatori . . . . . . . . . . . . . . . . . . . ..
33 34 38 44 47
Catene di Markov 4.1 Generalita.............................................. 4.2 Classificazione degli stati e delle catene. . . . . . . . . . . . . . . . . . . .. 4.3 Distribuzioni di equilibrio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.4 Processi non markoviani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..
51 51 58 61 67
33
VIII
5
Indice
Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.1 Introduzione............................................ 5.2 Analisi nel dominio temporale . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.3 Analisi nel dominio frequenziale . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.4 Le relazioni tra i due domini. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.5 I filtri lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.6 Operatori lineari 5.7 I filtri alle differenze per la depurazione di una componente ciclica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.8 Relazioni tra processi stazionari 5.9 Sistemi lineari bivariati
98 102 107
6
Processi lineari 6.1 La decomposizione di Wold 6.2 Processi puramente autoregressivi 6.3 Processi puramente a somma mobile 6.4 Processi misti
111 111 115 128 130
7
Processi di punti 7.1 Caratteristiche generali 7.2 Processi di Poisson 7.3 Cenni sull'analisi nel dominio temporale e frequenziale
133 133 135 138
71 71 74 78 87 90 95
Parte III La statistica dei fenomeni dinamici 8
Inferenza statistica per processi aleatori 8.1 Differenze rispetto all'inferenza parametrica classica 8.2 L'ergodicita
143 143 145
9
Inferenza per processi stazionari 9.1 Introduzione 9.2 Stima della media 9.3 Stima delle autocovarianze e delle autocorrelazioni 9.4 Stima delle autocorrelazioni parziali 9.5 Stima dello spettro 9.6 Inferenza per processi bivariati 9.7 Stima dei parametri per processi ARMA
147 147 148 152 161 163 179 181
10 I modelli rappresentativi 10.1 Introduzione 10.2 Identificazione del modena 10.3 Stima dei parametri e verifica del modello 10.4 Modelli per serie non stazionarie in media 10.5 Modelli per serie non stazionarie in varianza e ad eteroschedasticita condizionata
187 187 190 201 207 214
Indice
10.6 Modelli per serie stagionali 10.7 Modelli lineari per le relazioni tra due processi
IX
218 227
11 Deviazioni dalle ipotesi 11.1 Perturbazioni nei dati e nella struttura 11.2 Perturbazioni dovute a fattori noti 11.3 Dati anomali
233 233 234 237
12 Inferenza per catene di Markov e processi di punti 12.1 Stima delle probabilita per catene di Markov 12.2 Inferenza per processi di Poisson
243 243 246
Parte IV Metodi di previsione puntuale 13
Previsioni per processi stazionari 13.1 Teoria della previsione 13.2 Previsioni con modelli ARIMA 13.3 Previsioni con metodi adattivi 13.4 Previsioni con modelli strutturali 13.5 Spazio degli stati e filtro di Kalman 13.6 La combinazione delle previsioni
14 Previsioni per catene di Markov e processi di punti 14.1 Previsioni nelle catene di Markov 14.2 Previsione per processi di punti
253 253 257 266 271 274 284 287 287 289
Parte V Appendici
A
Fondamenti di Analisi di Fourier A.l Richiami di trigonometria e analisi complessa A.2 Sviluppo di Fourier per funzioni periodiche A.3 Analisi di Fourier per funzioni non periodiche
299 299 305 310
B
Software per la previsione
313
Bibliografia
315
Indice
319
Parte I
Fenorneni dinarnici e previsione
1
La previsione
In questo capitolo iniziale si illustrano i fondamenti logici della previsione e si delimita il campo di interesse alla previsione statistica, intesa come insieme di procedimenti statistici coerenti ed espliciti volti alla attivita di previsione, e se ne discutono alcune caratteristiche.
1.1 Introduzione II tentativo di prevedere il futuro e vecchio quanto il mondo e ha attraversato la intera storia dell'umanita assumendo di volta in volta le forme e le modalita proprie delle varie civilta e anche delle diverse impostazioni religiose. La necessita di prevedere, 0 almeno l'esigenza di tentare di farlo, e evidente, non solo a scapi puramente speculativi e conoscitivi, quanto operativi, per mettere in atto il comportamento pili adeguato a fronteggiare nel miglior modo possibile le diflicolta che si presenteranno, e cercare di trarre il massimo vantaggio 0 beneficio dalla situazione futura. Allo stesso tempo e chiaro che la grande difficolta insita nella previsione deriva dalla incertezza intrinseca del futuro, che al momento in cui va previsto non e ancora (0 per 10 meno del tutto) determinato; la forte rilevanza degli elementi di incertezza nella previsione spiega perche gli strumenti del calcolo delle probabilita e della statistica siano cost essenziali nell' attivita previsiva. Anzi, l'attivita previsiva puo essere qualificata essenzialmente attraverso l'incertezza, come tentativo di produrre affermazioni su fatti non noti (in tutto o in parte): quindi potremmo parlare di previsione anche per questioni non relative al futuro, rna anche, per esempio, distanti nello spazio (0 addirittura nel passato), 0 per lc quali non e possibile una rilevazione diretta ed esauriente; oppure, ancora, quando non sono disponibili conoscenze 0 informazioni sufficienti. Va anche considerato attentamente il ruolo di colui che prevede, poiche a volte egli, 0 la formulazione e pubblicazione stessa delle previsioni, possono modificare il corso del futuro. Mentre cio non avviene quando si tratta della
4
1 La previsione
maggior parte dei fenomeni naturali (il meteorologo non puo - almeno per il momento - influenzare le condizioni climatiche future), e invece pili frequente quando si considera il campo sociale ed economico, in cui spesso l'attivita previsiva non e disgiunta da un tentativo di intervenire sulle condizioni sociali o sul quadro economico per modificarne la situazione 0 le prospettive (alcuni parlano di approccio normativo alla previsione, per esempio quando si tenta di rispondere a domande del tipo: Quale deve essere l'andamento di alcune variabili di politica economica per ottenere un certo risultato sull'occupazione?). Se le previsioni sono elaborate da fonte autorevole e vengono rese pubbliche agli attori del fenomeno previsto, esse possono essere da cost oro considerate come guida di comportamento, 0, all'opposto, come indicazione di ipotetici sviluppi da evitare, e quindi possono, per il solo fatto di essere state pubblicizzate, favorire il loro avverarsi 0 la loro smentita. Cia avviene a volte per le previsioni basate su sondaggi elettorali, e per quelle relative alla congiuntura economica. In ogni caso, la formulazione della previsione e basata sulla conoscenza e sulla rielaborazione di informazioni tratte dalle manifestazioni passate del fenomeno sotto esame, e una operazione di "collegamento tra passato e futuro" (Cipolletta, 1992). Quindi ogni previsione e determinata da un preciso insieme di informazioni (che a volte puo essere esattamente determinato ed esplicitato, rna pili spesso e in parte implicito e non formalizzato): si parla di previsioni condizionali 0 condizionate da tale insieme. Coerentemente, si dovrebbe riporre ogni sforzo nel tentare di precisare la esplicitazione delle informazioni che condizionano la previsione, e nel rendere chiaro e giustificato il processo che porta dalla conoscenza di tali informazioni alla formulazione della previsione. Inoltre cia permette di variare alcune delle condizioni iniziali, e verificare l'effetto di questi cambiamenti sulle previsioni che ne derivano. Questa chiarificazione logica ha permesso l'allargamento del concetto tradizionale di previsione alla formulazione di un intero ventaglio di alternative possibili, condizionate ciascuna dal verificarsi di determinate situazioni che sono al di fuori del controllo del soggetto che prevede. Tale impostazione, spesso detta what . . . if, attribuisce alla previsione il compito di individuare una serie di alternative (a volte dette scenari) che si possono verificare in dipendenza dell'andamento di variabili esogene non controllabili (per esempio la previsione di grandezze macroeconomiche distinta in base all'andamento demografico, 0 la previsione a lungo termine del clima in funzione della situazione energetica). Cia risulta spesso necessario perchc l'attivita previsiva deve combinare tre varieta di fattori: quelli direttamente desumibili, in maniera pili 0 meno precisa, da un'analisi dell'oggi; quelli gia manifestatisi, rna che al momento appaiono connessi in maniera difficilmente apprezzabile, dal punto di vista statistico, ai dati di cui si dispone; e infine i fattori non ancora manifestatisi, rna che eserciteranno un'influenza sulla situazione futura. Queste ultime due categorie impongono che si formulino ipotesi precise sull'andamento e il comportamento dei relativi fattori, non controllabili, conducendo alle varie previsioni condizionali. I problemi metodologici della costruzione di queste
1.1 Introdtiziane
5
alternative ipotetiche sono rilevanti e hanno originato il cosiddetto metodo degli scenari (si veda ad esempio Martelli, 1988). Altro aspetto che presenta spesso notevoli diflicolta e quello della esplicitazione dell'insieme di informazioni, 0 base informativa, sul quale fondare la previsione, specie quando si prendano in considerazione fenomeni molto complessi 0 con elevato grado di incertezza. Inoltre, l'importanza 0 il peso di certe informazioni possono essere variamente valutate, per cui accade che soggetti diversi, anche esperti del settore, forniscano previsioni diverse. Per questo motivo sono stati elaborati diversi metodi volti ad integrare e armonizzare previsioni, oppure opinioni, differenti ugualmente autorevoli. Tra questi va ricordato il metodo Delphi che ha 10 scopo di arrivare attraverso una procedura iterativa alla armonizzazione dei giudizi di un team di esperti (si veda ad esempio Linstone e Turoff, 1975; una esposizione sintetica in italiano e in Marbach et al, 1991). II tema della previsione e talmente vasto che una classificazione netta dei metodi di previsione e difficile, e le classificazioni proposte dai diversi autori sono spesso molto differenti e incompatibili. Osserviamo solo alcuni aspetti distintivi, oltre a quelli gia menzionati: • •
•
•
La natura delle previsioni puo essere qualitativa 0 quantitativa, rna spesso per fenomeni complessi si presentano ambedue gli aspetti. L'oggetto della previsione puo essere il valore futuro di un fenomeno che si manifesta con continuita 0 si puo rilevare a intervalli regolari (come la temperatura, 0 la popolazione, 0 il prodotto interno); oppure il tempo in cui si verifica un fenomeno (previsioni di terremoti, calamita naturali, 0 innovazioni tecnologiche); 0 ancora Ie modalita e le caratteristiche di un evento che si produrra nel futuro (esempio tipico, i risultati elettorali). L' orizzonte della previsione, cioe la lontananza nel futuro degli eventi che si prevedono, viene usuaimente classificato in breve, medio e Iungo periodo. La distinzione non e netta e precisa. In linea di massima si parla di previsioni a orizzonte breve quando Ie condizioni strutturali rimangono immutate poiche l'evento da prevedere sara in larga parte determinato da azioni e comportamenti che sono gia stati messi in atto al momento in cui le previsioni vengono formulate, e viceversa di previsione a orizzonte lungo (0 di lungo periodo) se le condizioni fondamentali che determinano l'evento da prevedere sono ancora sostanzialmente incerte. Infine, con riguardo alla dimensione, la previsione puo riguardare un solo fenomeno (previsione univariata) oppure contemporaneamente pili fenomeni connessi (previsione multivariata) e in tal caso puo essere basata su nessi di causalita attraverso i quali il comportamento di un fenomeno determina, eventualmente con un certo sfasamento temporale, l'andamento di altri (previsione causale).
All'interno del vasto panorama della problematica relativa alla previsione, questo testo si occupa del contributo che la metodologia statistica puo offrire
6
1 La previsione
alla formulazione di procedimenti coerenti ed espliciti, basandosi su alcune caratteristiche essenziali: 1. I fenomeni considerati sono suscettibili di misurazione statistica. 2. La previsione si basa su una base informativa completamente esplicitata. 3. L'andamento del fenomeno e formalizzato attraverso un modello statistico matematico volto a rappresentare sia le sue proprieta dinamiche sia il livello di incertezza. 4. L' esito della previsione viene misurato attraverso una funzione di costo che permette di confrontare tra loro tutti i possibili tipi e gradi di errore, e si adotta il procedimento previsivo che assicura il costo minimo secondo i criteri della teoria delle decisioni statistiche. Attribuiamo il nome di previsione statistica a questa impostazione, e cercheremo di chiarirne meglio caratteristiche e limiti nel paragrafo che segue.
1.2 La previsione statistica 1.2.1 Delimitazione del concetto di previsione statistica
Con l'obiettivo di delimitare meglio il concetto di previsione statistica ne discuteremo brevemente l'oggetto, 10 scopo e il metodo. Oggetto di una previsione statistica. La previsione statistica si applica a fenomeni concettualmente definiti in modo da essere passibili di misurazione oggettiva. Deve essere pertanto precisato e definito il fenomeno e il metodo di misurazione, che deve mantenersi invariato per tutta la durata della rilevazione. Cia garantisce da un lato che l'analisi non sia perturbata da modificazioni nelle modalita di rilevazione, e peraltro costringe a formalizzare compiutamente l'oggetto di studio. Percio alcuni concetti generici (come il clima, 0 il benessere economico) dovranno essere esplicitati nelle loro determinanti quantitative prima di poter procedere a uno studio previsivo. Un aspetto connesso e quello della qualita dei dati utilizzati, alla Quale e quasi superfluo sottolineare che si deve prestare la massima attenzione. Nella previsione statistica, poiche si prendono in considerazione fenomeni che si sviluppano nel tempo, i dati presentano precise relazioni di dipendenza dinamica, che coinvolgono non solo il loro valore, rna anche la loro mutua posizione nel tempo. Errori e imprecisioni nella rilevazione delle manifestazioni quantitative, e anche della loro localizzazione nel tempo, possono portare a conseguenze decisive sul successo della previsione, ancor pili di quanto avvenga nelle indagini in cui la dimensione temporale e assente. Sotto il profilo della valutazione dcll'attcndibilita dei dati, la metodologia statistica ha proposto sviluppi volti, da un lato, a limitare gli effetti dei dati non affidabili sulle conclusioni dell'indagine (robustezza) , e dall' altro a cercare di individuare e correggere, a posteriori e servendosi dell'intero insieme di informazioni disponibili, gli eventuali errori ( validazione). L'importanza di sottoporre i dati a un procedimento
1.2 La previsione statistica
7
di validazione prima di affrontare una analisi dettagliata 0 una previsione e ormai consolidata in letteratura, tanto da poterla considerare una fase irrinunciabile. Meritano naturalmente attenzione anche lc tecniche robuste, che permettono a volte di aggirare l'ostacolo della inaffidabilita dei dati; tuttavia, nel campo dei fenomeni trattati come dipendenti dal tempo, forse per la complessita delle connesse procedure inferenziali, questo tipo di tecniche non e ancora completamente sviluppato nc largamente diffuso a livello applicativo. Un altro aspetto importante, che sta assumendo una sempre maggiore rilevanza, risiede nell'abbondanza e a volte ridondanza delle informazioni disponibili. Una volta definito l'oggetto della previsione, dovrebbe essere attentamente valutato quali tipi di rilevazione sono effettivamente utili e quali si possano ragionevolmente trascurare. L'enorme incremento della massa di dati disponibili, verificatosi in molti settori negli ultimi anni, porta con sc la potenzialita di analisi pili precise, rna anche il pericolo che l'aumento delle dimensioni non possa esser padroneggiato con strumenti statistici sufficientemente potenti ed elastici, e che gli elementi di incertezza e di errore, insiti in ogni rilevazione, moltiplichino i loro effetti. In questo testo verranno prese in considerazione Ie previsioni univariate, che si riferiscono a un fenomeno le cui manifestazioni possono essere sintetizzate, a ogni rilevazione, con un solo numero reale (scalare). La metodologia statistica e stata sviluppata negli ultimi anni anche nel campo della previsione multivariata, che studia il caso in cui siano rilevati simultaneamente pili fenomeni, e ne analizza Ie mutue relazioni di dipendenza (statistica) tra manifestazioni contemporanee e sfasate nel tempo. Questa parte comporta difficolta matematiche e probabilistiche maggiori, e illivello di sistematizzazione attualmente raggiunto e meno completo; percio nel seguito ci si limitera solo ad alcuni accenni, rimandando per un esame pili approfondito ana letteratura specialistica. Scopo di una previsione statistica e studiare lc rnanifestazioni future di un fenomeno, determinate dal permanere di una stabilita nelle proprieta generali strutturali che si sono verificate nel passato. Col riferirsi aIle proprieta strutturali non si intendono indicare i puri e semplici valori della rilevazione, rna Ie caratteristiche del meccanismo di natura statistica e probabilistica che genera il fenomeno, il Quale sara oggetto di formalizzazione matematica e di approfondito studio nel seguito. La richiesta che queste caratteristiche rimangano stabili tra passato e futuro e minimale per dare un senso alla previsione statistica, poiche se questa proprieta venisse a mancare allora la conoscenza del passato non aiuterebbe in alcun modo il compito di formulare congetture sul futuro. Fenomeni di questo ultimo tipo vengono a buon diritto chiamati imprevedibili. Le modalita e diversi aspetti con cui vengono studiate le manifestazioni future del fenomeno previsto costituiscono l'oggetto principale di questo testo e verranno precisate nel seguito: ne verra proposta una articolazione in due impostazioni diverse che indicheremo con i termini di previsione globale e locale.
8
1 La previsione
La previsione globale si occupa delle proprieta statistiche e dinamiche delle manifestazioni del fenomeno allo scorrere del tempo nel futuro, che verranno dedotte per analogia da quelle manifestatesi nel passato dopo averle inferite ed idealizzate. La previsione locale invece prende in considerazione uno specifico istante futuro e la manifestazione che il fenomeno presentera in quell'istante, trattandola come valore incognito su cui costruire procedure di inferenza statistica. La previsione potra basarsi, oltre che sulla attenta analisi del completo insieme di informazioni relativo al passato e al presente, anche su alcune ipotesi, 0 su pili alternative, relative a fattori incontrollabili perche incogniti, 0, pili spesso, perche relativi anch'essi al futuro, permettendo cost di pervenire a insiemi alternativi di previsioni condizionali, da adoperare per costruire scenari diversi. Escluderemo invece che colui che prevede possa intervenire, in alcun modo, sul fenomeno oggetto di previsione, con l'obiettivo di guidarlo 0 modificarlo: l'analisi statistica di questo tipo di procedure, pur ben sviluppata e approfonditamente studiata specie nel campo dei processi industriali e produttivi, appartiene al settore del controllo stocastico. Metodo della previsione statistica e il metodo statistico matematico dell'analisi moderna delle serie temporali, che si avvale, da un lato, degli sviluppi del calcolo delle probabilita relativi ai processi stocastici, e dall'altro del paradigma della inferenza statistica e dei principi della teoria delle decisioni in condizioni di incertezza. I dati vengono assimilati a realizzazioni di variabili aleatorie, e in questo modo il fenomeno viene messo in relazione con una collezione di variabili aleatorie, ciascuna delle quali determina la sua manifestaziane in un certa istante, chiamata processo aleatorio 0 stocastico. Le caratteristiche salienti del fenomena sono in questa modo determinate dalle proprieta matematico- probabilistiche del processo, che costituiscono l'oggetto principale di studio. In altri termini, si passa dal fenomeno oggetto di studio a un suo modello teorico specificato in termini di equazioni, relazioni analitiche, proprieta matematiche e probabilistiche. Esso incorpora una serie di ipotesi ispirate dall'osservazione della realta, e in genere prevede in larga misura semplificazioni 0 "stilizzazioni" del comportamento osservato, in modo da ottenere formule matematiche sufficientemente maneggevoli e interpretabili. Per questo motivo un modello non avra mai l'ambizione di riprodurre esattamente la realta, rna di metterne in evidenza, e quindi di prevedere, solo alcuni aspetti. Nell'ambito della previsione statistica i modelli pili usati si prefiggono anche 10 scopo di mettere in relazione esplicita i dati futuri con quelli passati, e in genere questa relazione e ipotizzata di tipo lineare al fine di assicurare una maggiore semplicita matematica. Una volta costruito un modello e necessario verificare attraverso metodi statistici se esso si adatta soddisfacentemente alla realta che vuole riprodurre. In caso affermativo, e il modello stesso che puo essere adoperato per simulare il comportamento del fenomeno studiato in varie condizioni sperimentali.
1.2 La previsione statistica
9
In questo testo viene privilegiata e analizzata pili a fondo l'impostazione basata sui modelli probabilistici di tipo autoregressivo a somma mobile, che e la pili diffusa e collaudata in una vasta gamma di campi applicativi. Qualche accenno verra dato anche ad alcune estensioni verso modelli di dipendenza dinamica non lineare. Esistono tuttavia altre impostazioni per la costruzione di modelli utili per problemi di previsione, e tra le proposte pili moderne e innovative, e che hanno visto notevole sviluppo pili recentemente, vanno ricordate sicuramente Ie reti neurali e i modelli caotici. Le reti neurali nascono dal tentativo di rappresentare matematicamente, e di riprodurre con strumenti di calcolo, le strutture dei tessuti cerebrali, al fine di riprodurre formalmente i meccanismi di funzionamento del sistema nervoso cerebrale. Le reti sono costituite da un insieme di unita semplici (dette neuroni artificiali) connesse tra lora da collegamenti (sinapsi) che permettono il transito orientato di segnali dall'una all'altra. Alcuni neuroni della rete ricevono segnali dall'esterno (input), altri possono comunicarne all' esterno (output). Ciascun neurone artificiale si trova a ogni istante in uno stato esprimibile mediante un numero (spesso binario), determinato in funzione del complesso di segnali che esso riceve, anch'essi espressi numericamente. In dipendenza della stato in cui si trova, ogni neurone puo trasmettere segnali agli altri neuroni cui e collegato. In tal modo la rete nel suo complesso risponde a un insieme di segnali in input con un insieme di segnali in output. Al variare delle leggi di funzionamento della rete, della distribuzione delle connessioni e delle lora caratteristiche trasmissive, si puo ottenere una gamma vastissima di comportamenti, e un punto di forza delle reti neurali e la possibilita di una fase di "apprendimento" in cui la struttura si adatta gradualmente al fenomeno da rappresentare. Le applicazioni di reti neurali alle serie temporali hanno mostrato una buona capacita previsiva, anche se non c'c evidenza conclusiva che essa sia superiore ai modelli lineari tradizionali (Sharda e Patil, 1990). D'altra parte, studi pili approfonditi hanno mostrato stretti legami tra una classe di reti neurali e i modelli autoregressivi a somma mobile, rna le reti neurali si prestano anche a prevedere fenomeni che si comportano secondo schemi non lineari (per una discussione si veda ad esempio Weigend e Gerschenfeld, 1994, e Chatfield, 1993). Un problema di fondo e che spesso le reti neurali appaiono come "scatole nere" e non e possibile attribuire un significato strutturale ne alle unita ne alle connessioni, e neppure evidenziare precisi legami di dipendenza statistica, ne causale, tra l'input e l'output. Come osservano Fabbri e Orsini (1993), " se da un lato 10 sperimentatore non rimane condizionato da ipotesi aprioristiche nella scelta delle unita della rete, dall'altro la rete stessa non puo far altro che riprodurre in maniera fenomenologica il comportamento del sistema analizzato, senza contribuire alla conoscenza delle relazioni interne tra Ie singole parti. II contributo interpretativo del modello e nullo" . E presumibile percio che, fino a quando non verra superata questa frontiera, collegando pili saldamente la struttura della rete aIle caratteristiche
10
1 La previsione
dinamiche del fenomeno studiato, le applicazioni previsive delle reti neurali non sostituiranno validamente la metodologia basata sui modelli stocastici rappresentativi. I modelli caotici si rifanno invece a una spiegazione dei fenomeni basata su strutture matematiche fortemente non lineari, rna di natura strettamente deterministica, senza ricorrere alla impostazione probabilistica e senza alcun elemento di natura casuale. La possibilita che sistemi non lineari deterministici diano luogo a comportamenti spiccatamente erratici simili a quelli delle realizzazioni di processi stocastici, osservano Tong e Smith (1992), e nota almeno dagli studi di Poincare del XIX secolo; tuttavia l'interesse da parte degli statistici per gli studi suI caos si e acceso negli ultimi venti- trenta anni. A una stimolante discussione di Bartlett (1990) e seguito un meeting della Royal Statistical Society inglese (i cui atti sono riportati nel Journal of the Royal Statistical Society serie B vol. 54 n. 2); il dibattito e ancora aperto anche se la maggior parte degli studiosi ha assunto una posizione critica. Se 10 statistico non puo disconoscere il ruolo dei sistemi non lineari deterministici e del lora comportamento, se non altro perche essi costituiscono la base per la generazione dei numeri pseudo-casuali e quindi per gli studi di simulazione e di Monte Carlo, tuttavia la costruzione di modelli plausibili per la rappresentazione di serie temporali, con caratteristiche vicine a quelle che si riscontrano nei pili importanti campi applicativi, si e rivelata molto difficile e non e ancora molto sviluppata (si veda ad esempio Casdagli, 1992). Queste difficolta fan no sorgere dubbi sulla convenienza di abbandonare la impostazione di tipo stocastico per quella di tipo caotico, anche riconoscendo che l'attribuire natura di variabile casuale alle manifestazioni di un fenomeno reale possa essere una costruzione teorica semplificatrice, e che la incertezza non sia intrinseca, rna dovuta solo a mancanza di informazioni 0 conoscenze sufficienti. E in conclusione arduo valutare, al presente, se i modelli caotici potranno fornire un valida supporto per la previsione nelle applicazioni reali a problemi di tipo economico e sociale. Comunque, la discussione sulla utilita e applicabilit.a delle reti neurali e dei modelli caotici nella previsione di fenomeni dinamici e ancora aperta e ambedue i campi sono oggetto di studio approfondito da parte di studiosi di numerose discipline, pertanto sono da attendersi significativi sviluppi metodologici e applicativi.
1.2.2 Previsione statistica globale La previsione statistica globale prende in considerazione il periodo di tempo che inizia dopo l'ultimo istante noto e si prolunga indefinitamente nel futuro, e ha 10 scopo di descrivere le proprieta e Ie caratteristiche che il fenomeno studiato presenta nel suo dispiegarsi nel tempo. L'assunzione chiave, che traduce e formalizza l'ipotesi fondamentale di stabilita delle caratteristiche del fenomeno preso in considerazione, e che Ie manifestazioni passate e future si ritengono generate da un unico processo
1.2 La previsione statistica
11
stocastico, le cui proprieta principali rimangono stabili e quindi si applicano sia al passato sia al futuro. Lo studio e l'inferenza di tali proprieta vengono effettuate in base all'insieme di informazioni note, e quindi principalmente usando le manifestazioni gia rilevate del fenomeno, ovvero i dati gia noti al momento della previsione. Le caratteristiche inferite vengono attribuite anche al futuro, permettendo di formulare affermazioni (di natura statistica) sul suo comportamento dinamico. Esse concernono l'andamento generale tendenziale, sia dei valori sia della loro variabilita, la presenza di comportamenti ciclici, e le relazioni di dipendenza statistica tra dati consecutivi 0 a una determinata distanza temporale, oltre che 10 studio della dipendenza tra le manifestazioni simultanee 0 ritardate di due 0 pili fenomeni. Queste caratteristiche, come gia pili volte ricordato, vengono riferite ai processi stocastici di cui il fenomeno e assunto come realizzazione. Pertanto sara necessario innanzitutto svolgere uno studio, di natura probabilistica, delle principali proprieta dei processi stocastici, e degli strumenti matematici pili atti a sintetizzarle, cia che viene fatto nella Parte II. L'analisi viene svolta secondo due differenti (rna strettamente connessi) punti di vista, che vengono denominati del dominio temporale (0 dei tempi) e del dominio frequenziale (0 delle frequenze). Nel primo si ha riguardo principalmente alle distribuzioni di probabilita delle variabili aleatorie che costituiscono il processo, e quindi alle relazioni di dipendenza statistica che tra loro intercorrono. Ci si limita in genere a studiare le correlazioni, e quindi la dipendenza viene riconosciuta soltanto attraverso la sua forma lineare. Nel dominio frequenziale, invece, in base a una fondamentale generalizzazione dell'analisi armonica di Fourier, il processo stocastico e visto come la risultante della sovrapposizione di onde periodiche di periodo diverso, ciascuna con una importanza diversa, e ci si propone di analizzare nel dettaglio questa decomposizione, che determina, in linea di principio, l'andamento complessivo del processo. Con 10 studio di natura probabilistica appena accennato arriveremo a definire rigorosamente gli strumenti e indici statistici che permettono di descrivere e sintetizzare le principali caratteristiche di un processo aleatorio. II passo seguente e quello di applicare questi strumenti alla realta effettiva mostrata dal fenomeno nel suo manifestarsi, e che e costituita essenzialmente dall'insieme dei dati rilevati nel passato. Questa fase di raccordo tra la manifestazione concreta di un fenomeno e la sua descrizione attraverso gli indici sintetici costituisce l'attivita propriamente statistica che pili precisamente rientra nel settore della inferenza statistica. La Parte III e quindi dedicata all'inferenza statistica per i processi stocastici. L'inferenza statistica "classica", che si occupa delle manifestazioni ripetute di un fenomeno statico, e associata a uno schema probabilistico che prevede un campione casuale, cioe un insieme di variabili aleatorie indipendenti e identicamente distribuite. Nel nostro caso invece e necessario costruire inferenze prendendo come riferimento insiemi di variabili aleatorie non indipendenti (e d'altra parte non necessariamente distribuite in modo identico). Cia comporta il sorgere di considerevoli difficolta, tuttavia si cerca di continuare a procedere
12
1 La previsione
secondo l'impostazione metodologica dell'inferenza "classic a" . Si individuano innanzitutto le quantita rilevanti che assumono il significato di "parametri" su cui esercitare l'inferenza: nel dominio temporale sono in genere coefficienti di correlazione, mentre nel dominio delle frequenze sono legati a misure di importanza relativa delle varie componenti periodiche. L'inferenza puo essere articolata nelle tre diverse attivita di stima puntuale, stima per intervallo e verifica delle ipotesi, e nell'ambito di ciascuna di esse si cerca di procedere secondo la stessa logica: enunciare proprieta desiderabili, e costruire metodi che le possiedano. Si vedra come in alcuni casi l'estensione all'ambito dei processi aleatori non comporti rilevanti difficolta, mentre per molti altri aspetti (come ad esempio la propricta di consistenza) siano necessarie generalizzazioni piuttosto complesse. Le rilevanti complicazioni che sopravvengono quando viene a cadere la proprieta di indipendenza tipica del campione casuale fanno sl che i risultati analitici che si riescono a ottenere (ad esempio per quanto riguarda le distribuzioni di probabilita degli stimatori) sono meno netti, compatti e semplici dal punto di vista matematico, percio si fa ricorso molto spesso a semplificazioni e approssimazioni, sia nelle ipotesi di partenza sia nella descrizione dei risultati, ed e comune riferirsi al comportamento asintotico. Infine, osserveremo che questa stessa complessita fa SI che i calcoli necessari per effettuare una inferenza su un fenomeno dinamico siano molto onerosi, e non e generalmente possibile effettuarli senza disporre di un elaboratore elettronico e di software specializzato. 1.2.3 Previsione statistica puntuale
Una volta descritte le caratteristiche generali che il fenomeno presentera nel futuro, e pero spes so necessario fissare l'attenzione sul valore con il Quale esso si manifestera in un determinato istante. Frequentemente e necessario prevedere il comportamento del fenomeno nell'immediato futuro (riferirsi cioe al primo dato non ancora realizzatosi), rna puo presentarsi a volte l'esigenza di descrivere in maniera pili 0 meno precisa 10 sviluppo dei dati anche a distanza temporale superiore dall'ultimo istante noto. Nella previsione statistica puntuale prendiamo percio come riferimento un singolo istante riferito al futuro, e consideriamo come elemento da prevedere il dato che sintetizza la manifestazione che il fenomeno assumera a quell'istante. L' oggetto della previsione e quindi una variabile aleatoria, e Ie affermazioni richieste concernono il valore nel Quale essa si realizzera. Si tratta quindi, in sostanza, di una operazione di inferenza statistica, con la differenza che l'oggetto non e un parametro fisso anche se incognito, rna la determinazione di un ente aleatorio, che non si e ancora concretizzata nel momento in cui va prevista. Questa difficolta (peraltro irrilevante se si adotta la impostazione bayesiana) puo essere superata ricorrendo a un modello dinamico rappresenta-
1.2 La previsione statistica
13
tivo (1) che mette in relazione le variabili relative al futuro con quelle relative al passato e dunque gia realizzatisi e note. In questo modo e possibile, in linea di principio, descrivere la distribuzione di probabilita della variabile da prevedere condizionata all'insieme di dati conosciuti, e quindi calcolarne indici sintetici (media, moda, mediana, varianza), e intervalli di valori, associati con la loro massa di probablita, Tuttavia questo puo ancora non essere sufficiente, se e richiesto un valore numerico puntuale da attribuire al valore futuro. E necessaria quindi una funzione dei dati noti, detta previsore, che descriva il valore previsto per il dato futuro. Ma come scegliere tra Ie infinite possibili funzioni quella pili conveniente? A tal fine e opportuno impostare questa scelta come problema di decisione in condizioni di incertezza (per una esposizione della teoria delle decisioni si veda ad esempio Piccinato, 1996). Elemento fondamentale di tale impostazione e la esplicitazione di una funzione di costo (detta anche di perdita) che a ogni possibile esito, descritto dalla coppia (valore previsto, valore effettivamente realizzatosi) associ un numero, in modo da ordinare gli esiti possibili dal pili desiderabile al meno favorevole. Per ogni possibile funzione assumibile come previsore, viene calcolato il costo medio (0 perdita media, detta anche rischio), usando la distribuzione di probabilita della variabile futura condizionata ai dati noti, e viene scelta come previsore ottimo quella funzione che fornisce il costo medio pili piccolo. Come si vede, questa impostazione (a parte Ie difficolta matematiche eventualmente insite nella minimizzazione su uno spazio di funzioni) offre un quadro logico preciso e rigoroso per la risoluzione del problema della previsione puntuale, rna comporta la difficolta della formulazione della funzione di costo, che potra cambiare a seconda della natura dei fenomeni analizzati e degli scopi della previsione. Per questo si e cercato di trovare forme di previsori che risultassero ottimi rispetto a intere classi di funzioni di costo. II risultato pili rilevante di questo tipo e i1 seguente: se la funzione di costo e quadratica, cioe dipende dal quadrato della differenza tra valore previsto e valore effettivamente realizzato, allora il previsore ottimo, che assicura cioe il costo medio pili piccolo, e la media condizionata del dato da prevedere, dati i valori gia realizzatisi all'origine della previsione. La differenza tra valore effettivo e previsto e detta errore di previsione, di conseguenza il costo medio e, nel caso quadratico, proporzionale all'errore quadratico medio di previsione (anche chiamato varianza di previsione). Pertanto l'uso della media condizionata come previsore assicura anche la minimizzazione dell'errore quadratico medio. Questa considerazione, assieme alla relativa facilita di calcolo della media condizionata e alla ragionevolezza dei criteri quadratici, ne spiega la larga diffusione e il motivo per cui frequentemente ci si riferisce alla media condizionata come previsore ottimo senza specificazioni. Vanno peraltro sempre tenute presenti le caratteristiche della 1
In questa testa l'aggettiva rappresentativo viene usato nel sensa di atta a rappresentare le caratteristiche dinamiche del fenomeno, e nan ha attinenza can la rappresentativita campionaria.
14
1 La previsione
funzione di costo quadratica. Se l'andamento parabolico rispecchia l'esigenza spesso fondamentale di evitare errori molto elevati, la simmetria puo rivelarsi a volte inadeguata, poiche errori di previsione positivi 0 negativi di ugual ammontare ricevono la medesima valutazione di costo, mentre in alcune situazioni applicative sbagliare in meno 0 in pili comporta conseguenze di diversa gravita, Non esistono criteri generali pili specifici, e nei casi dubbi sara sempre opportuno, ove possibile, eseguire pili previsioni seguendo differenti funzioni di costo, in modo da evidenziare la diversita delle conseguenze insite in ciascuna scelta. La problematica della costruzione dei modelli rappresentativi e affrontata nel capitolo 10, mentre la Parte IV e interamente dedicata alla previsione statistica puntuale.
2
Caratteristiche generali dei fenorneni dinarnici
In questo capitolo introduciamo gli strumenti e le considerazioni statistiche pili semplici volte a una prima analisi delle rilevazioni di un fenomeno al trascorrere del tempo. Un'analisi generale descrittiva e sempre opportuna come primo passo dell'analisi statistica vera e propria, e permette di evidenziare le caratteristiche pili macroscopiche del fenomeno studiato, indirizzando anche alla scelta delle tecniche pili appropriate per approfondire l'indagine. II linguaggio che useremo qui e discorsivo e pili attento a introdurre i concetti che non al rigore formale. Supporremo di avere a disposizione un insieme di dati numerici relativi a un fissato fenomeno, rilevati a tempi equispaziati e consecutivi, che chiameremo serie storica 0 temporale e indicheremo simbolicamente con una lettera minuscola indicizzata dal numero progressivo, ad esempio (Xl,X2, ... ,X n ) .
2.1 II primo approccio: la rappresentazione grafica Quando si considerano fenomeni dinamici il numero di dati a disposizione e spesso molto grande, ed e difficile apprezzarne le proprieta leggendo la lista dei loro valori; d' altra parte essi sono ordinati naturalmente in funzione del trascorrere del tempo, e quindi eimportante cogliere la relazione tra un singolo dato e quelli che 10 precedono e seguono. Uno dei metodi pili semplici ed efficaci per rappresentare simultaneamente tutte le osservazioni, e favorire l'intuizione relativa alloro andamento complessivo e aIle eventuali regolarita, e quello di rappresentare i dati graficamente in funzione del tempo. Su un sistema di assi cartesiani viene rappresentato un punto per ogni dato, usando come ordinata il valore del dato e come ascissa l'istante a cui si riferisce, oppure pili semplicemente, il suo numero d'ordine progressivo, ad esempio (t, Xt) per t == 1,2, ... , n se la rilevazione e composta da n dati consecutivi. I punti cost ottenuti vengono uniti da una spezzata. II grafico che si ottiene ha il vantaggio di essere completamente informativo rispetto
16
2 Caratteristiche generali dei fenomeni dinamici 30 25 20 15 10
5 0-+----.------.--.----.----.----.------.--.------.---------,---,--------,-------,----.------.----.-
1890
1900
1910
1920
1930
1940
1950
1960
Fig. 2.1. Tasso di disoccupazione annuale negli Stati Uniti, dal 1890 al 1970
ana rilevazione (cioe ne conserva tutte le informazioni numeriche) rna rende facile una interpretazione complessiva dana Quale risultano pili evidenti le caratteristiche generali. Consideriamo la Fig. 2.1 dove e riportato il grafico del tasso annuale di disoccupazione negli Stati Uniti dal 1890 al 1970 (fonte: Hipel e Me Leod, 1994). L'andamento evidenzia con chiarezza i vari periodi storici (ad esempio il periodo seguente all'inizio della crisi economica del 1929, che mostra alta disoccupazione) e da anche un'idea della variabilita intrinseca del fenomeno, segnalata dall'entita media delle variazioni da un an no al successivo. I fenomeni sociali ed economici, quando vengono seguiti in periodi lunghi, mostrano frequentemente periodi di limitata durata caratterizzati da un comportamento disomogeneo, che sono generalmente indotti da perturbazioni di alcuni fattori determinanti (come la "grande depressione" degli Stati Uniti). A volte invece si trovano dati isolati incongrui con i precedenti e seguenti, che potrebbero essere determinati anche da errori di misura 0 da cause eccezionali e circoscritte (si parla dati anomali 0 outliers, cia potrebbe essere accaduto per il dato del 1922). 0 ancora, puo accadere che da un certo istante di rilevazione in poi il fenomeno cambi le sue caratteristiche principali (come potrebbe accadere se vengono variate le modalita di rilevazione, oppure il quadro legistlativo che 10 influenza) . Fortunatamente queste mutazioni nella struttura si verificano generalmente su una scala pili ampia di quella che interessa l'attivita previsiva, e conseguentemente in genere ci si trova ad analizzare insiemi di rilevazioni che presentano una situazione sostanzialmente omogenea nel tempo. In questi casi i fenomeni dinamici oggetto di studio mostrano caratteristiche strutturali che esercitano una influenza analoga durante tutta la rilevazione, e che sono poi l'oggetto di maggiore interesse ai fini previsivi, dato che ci si puo legit-
2.1 La rappresentazione grafica
17
120 110 100 90 80
70 60 + - - - - - - - - - - , - - - - - - , - - - - - - - , - - - - - - - - - - , - - - - - - - , - gen-90
gen-92
gen-94
gen-96
gen-98
gen-OO
Fig. 2.2. Indice della produzione industriale italiana nel settore estrattivo (miniere e cave), mensile dal 1990 al 2000
timamente attendere che influiscano con modalita simili anche nel futuro. Un esempio e nella Fig. 2.2 che riporta l'indice della produzione industriale italiana nel settore estrattivo, mensilmente dal 1990 al 2000 (fonte Istat). Nella impostazione classica dell'analisi delle serie storiche, ovvero quell'insieme di metodi statistici sviluppati per la descrizione dei dati rilevati su un fenomeno dinamico (senza ricorrere alla teoria dei processi aleatori), impostazione che e stata sviluppata soprattutto per serie di natura economica nella prima meta del ventesimo secolo, si riconoscono essenzialmente tre catgorie di caratteristiche strutturali che spiegano la variabilita nel tempo: il trend, il ciclo, la staqioruiiiia. Si parla di trend quando ci si riferisce all'andamento tendenziale di fondo, crescente 0 decrescente, di un fenomeno, caratterizzato da una variazione relativamente lenta nel tempo, e sempre nello stesso verso, che si riconosce graficamente dal fatto che la linea indicante la serie non tende a restare approssimativamente orizzontale (parallela all' asse delle acisse), rna si dispone su una traiettoria obliqua, crescente 0 decrescente al trascorrere del tempo. Questo andamento e molto frequente quando si considerano grandezze macroeconomiche 0 sociali, meno frequente per serie di natura meteorologica 0 idrologica. Si consideri a titolo di esempio la Fig. 2.3 che riporta (a) la popolazione degli Stati Uniti ogni 10 anni dal1790 al1980 (fonte Brockwell e Davis, 1987) e (b) il quoziente di mortalita annuale per l'Inghilterra negli anni dal 1886 al 1911 (fonte: Ripel e McLeod, 1994). II ciclo 0 ciclo congiunturale 0 economico, e legato a variazioni pluriennali delle grandezze macro-economiche originate dall'alternarsi di periodi di sviluppo e contrazione 0 crisi, tipico della economia capitalista, che comporta un andamento oscillante di molti indicatori, senza che pero i cicli che cost si ven-
18
2 Caratteristiche generali dei fenomeni dinamici
17
1790
1840
1890
1940
1
1866
1876
1886
1896
1906
(b)
(a)
Fig. 2.3. Serie con trend: (a) Popolazione degli Stati Uniti, decennale dal 1790 al 1980; (b) Quoziente di mortalita in Inghilterra, annuale dal 1866 al 1911
31
61
91
121
Fig. 2.4. Serie di vendite mensili di un prodotto, serie M di Box e Jenkins (1970)
gono a creare siano molto simili l'uno all'altro no per la loro ampiezza ne per la loro periodicita (che tuttavia viene in genere ritenuta compresa approssimativamente tra 3 e 7 anni). Quindi, rilevando un fenomeno economicamente significativo, come la produzione 0 le vendite, per un intervallo sufficientemente lungo, si riconosceranno delle oscillazioni non regolari, con distanza tra i massimi pari a qualche anno, che possono essere ricondotte al ciclo congiunturale; spesso queste oscillazioni si sovrappongono a una tendenza crescente che rimane avvertibile anche nelle fasi di crisi (si veda ad esempio la Fig. 2.4 che si riferisce a rilevazioni mensili di vendita di un bene, serie indicata come Serie M in Box e Jenkins, 1970). La siaqionalita invece si riferisce aIle variazioni indotte sul fenomeno dall'alternarsi delle stagioni durante l'anno, ed e quindi determinata dalle modificazioni climatiche e del comportamento umana e sociale che si susseguono nei diversi periodi dell'anno. Le variazioni stagionali si riscontrano solo se i dati sono rilevati con cadenza inferiore all'anno; spesso i dati sono mensili e allora
2.1 La rappresentaziane grafica
19
Fig. 2.5. Marti per cause accidentali negli Stati Uniti, mensilmente dal1973 al1978
l'effetto dei fattori stagionali si ripete ogni 12 dati, se sono trimestrali si ripete ogni 4 dati, se sono settimanali ogni 52 e cosi via. In ogni caso la periodicita di queste variazioni e precisa e nota, mentre non si puo escludere che la loro intensita sia diversa da un anna all'altro. Prendiamo come riferimento una serie mensile, come quella di Fig. 2.5 che riporta i morti per cause accidentali negli Stati Uniti dal 1973 al 1978 (fonte Brockwell e Davis, 1987). L' esistenza di stagionalita si nota dal fatto che i dati presentano uno schema tipico che si ripete ogni 12 dati, in quanto all'interno di ciascun an no ci sono mesi in cui il fenomeno presenta valori pili alti (nel nostro caso luglio e agosto) e altri mesi in cui invece i valori sono pili piccoli (per la nostra serie gennaio e febbraio), e questa avviene pili a meno regolarmente in tutti gli anni. Una descrizione sintetica dell'effetto della stagionalitn si puo avere osservando il grafico dei valori medi dei dati riferiti allo stesso mese (0 trimestre, 0 settimana etc.), che e riportato per la nostra serie nella Fig. 2.6. La differenza tra Ie barre verticali permette di apprezzare subito l'esistenza di diversita tra i vari mesi e di valutarne la rilevanza. Tra i fenomeni con forte stagionalita, oltre ovviamente a tutti quelli meteorologici, citiamo la produzione industriale in Italia, che se rilevata su base mensile evidenzia spesso un minimo marcato nel mese di agosto, quando molte aziende chiudono per le ferie estive. La Fig. 2.7a riporta il grafico dell'indice generale della produzione industriale (mesi da gennaio 1993 a dicembre 2000, fonte Istat) e la Fig. 2.7b evidenzia le medie mensili. Nell'irnpostazione classica si ipotizza che un fenomeno possa essere spiegato attraverso la composizione (additiva 0 moltiplicativa) delle tre componenti trend, ciclo e stagionalita, pili un effetto di natura casuale, attribuibile a un complesso di cause non sistematiche. Tuttavia, anche se queste componenti sono usualmente quelle pili rilevanti almeno nel campo economico, esse non
20
2 Caratteristiche generali dei fenomeni dinamici
G
F
M A
M G
LAS
0
N
0
Fig. 2.6. Grafico delle medie mensili della serie di Fig. 2.5
80 1
i
70
80 50
III J I
GFMAMGlAS
40 -
(a)
o
N
0
(b)
Fig. 2.7. Indice generale della produzione industriale in It alia: (a) dati mensili dal gennaio 1993 al dicembre 2000 ; (b) grafico delle medic mensili esauriscono le t ipologie che si riscontrano in ambiti pili vasti . A t it olo di esempia riportiamo il gra fico del num ero di macchie solari registrato annualmente (fenomeno su cui ritorneremo in seguito, Fig. 2.8) e quello del num ero mensile di casi di morbillo a New York (Fig. 2.9). Nel primo casu vediamo che il fenomeno mostra un comport ament o approssimativamente cicIico con un a periodicita attorno a 10-11 anni, rna non pre cisa ne costante; nel secondo casu vediamo invece che i dati pr esentano una mar cata st agiona lita, rna le caratteristiche di ciasc un mese non si pr esent ano simili ogni anno, rna piu t to sto ad anni alte rni. Se ne puo dedurre che l'articolazione basata su trend - cicIo - stagionalit a risulta a volt e troppo schema tica, e che c'e bisogno di un a impostazione pili generale, che ci viene fornit a dalla cosiddet ta analisi rnoderna delle serie st oriche, la quale, corne gia osservato , ricorre a un a impost azione probabili sti ca e quindi lega ogni dato a un a variabile aleatoria di cui esso e realizzazione; in questo qu adro e pili facile studiare alt re cara t te ristic he come un andament o
2.1 La rappresentazione grafica
21
160
Fig. 2.8. Numero annuale di macchie solari, anni dal 1770 al 1920
Fig. 2.9. Numero mensile dei casi di morbillo registrati a New York dal 1952 al 1962
ciclico di periodicita qualunque. Uno strumento esplorativo semplice di qualche utilita per indagare l'esistenza di ciclicita e il grafico a dispersione delle coppie di dati che sono stati rilevati a una fissata distanza temporale. Infatti se il fenomeno tende a ripetersi ogni k unita di tempo (mesi, giorni, anni) allora i dati rilevati a distanza temporale pari a k tenderanno ad essere concordanti (ad esempio in una serie trimestrale con stagionalita, i dati a distanza 4, essendo relativi allo stesso trimestre di due anni consecutivi, tenderanno ad essere pili simili). Se disegnamo su un piano cartesiano i punti con coordinate date da queste coppie di valori (il punta che ha came ascissa il data Xl e came ardinata il data Xk+l,
22
2 Caratteristiche generali dei fenomeni dinamici
.,
....
... -.
(a)
(b)
Fig. 2.10. Indice generale della produzione industriale in Italia: (a) dispersione a distanza 12 mesi; (b) dispersione a distanza 2 mesi
il punto con ascissa X2 e ordinata Xk+2 e cost via) la nuvola che si ottiene dovrebbe percio denotare la concordanza, e quindi disporsi tendenzialmente secondo una fascia rettilinea, come nello studio della regressione lineare. L'idea e esemplificata nella Fig. 2.10 dove sono riportati, per la serie dell'indice generale della produzione industriale, il grafico a dispersione delle coppie di dati a distanza di 12 mesi (a sinistra) e quello delle coppie di dati a distanza di 2 mesi (a destra). Come si vede, nel primo caso si ha una relazione lineare molto evidente, mentre nel quadro a destra non si ritrova una concordanza apprezzabile. Nel seguito di questo capitolo introduciamo alcuni strumenti statistici tradizionalmente adoperati per 10 studio del trend e della stagionalita, motivandoli intuitivamente e per Ie loro proprieta descrittive. Si vedra pili avanti come alcuni di questi modi di procedere possiedano una giustificazione formale anche nell'analisi moderna, fondata su sviluppi statistico-matematici rigorosi.
2.2 Analisi delle tendenze di fondo Quando si vuole prendere in considerazione una specifica componente della serie, si possono distinguere due aspetti e quindi muoversi verso due obiettivi: la rappresentazione della componente e la sua rimozione. Nel primo caso cercheremo di costruire una nuova serie storica che contenga solo l' effetto della componente scelta, nel secondo caso si modificano i dati della serie rilevata in modo che la serie risultante non risenta pili della componente. C'e un modo ovvio di rimuovere una componente dopo che la si e rappresentata (cioe sottrarla ordinatamente ai dati, oppure dividerla se si suppone un modello di composizione moltiplicativa invece che additiva), rna come vedremo tra poco non e l'unico modo possibile di procedere.
2.2 Analisi delle tendenze di fonda
23
120.0 110.0 100.0 90.0 80.0 70.0 60.0 50.0 40.0
7 Fig. 2.11. Indice mensile generale della produzione industriale can retta adattata al trend
La rappresentazione del trend (0 del trend e del ciclo insieme) si puo effettuare seguendo due impostazioni alternative: 1. Interpolazione (0 perequazione) analitica 0 parametrica: si suppone che l'effetto del trend sia assimilabile a una funzione matematica del tempo, i cui parametri vengono stimati sulla base dei dati. 2. Interpolazione (0 perequazione) meccanica 0 non parametrica: si sostituisee ogni dato con una media locale in modo da far risaltare nel risultato soltanto l'andamento di lungo periodo. L'interpolazione analitica corrisponde graficamente ad adattare alla linea dei dati una retta, 0 una parabola (0 una funzione ancor pili complicata). Cia viene fatto in genere con il metodo dei minimi quadr iti (in modo che la somma dei quadrati degli errori sia minima) e corrisponde ( d effettuare una analisi di regressione (eventualmente non lineare) sulle copp j { ( Xt, t), t == 1, 2, ... , n }. La scelta della funzione e guidata dall'esame del ~rafico della serie: spesso appare sufficiente una semplice retta (ad esempio per le serie delle Figg. 2.3b e 2.4) mentre in alcuni casi di crescita a ritmo accelera:o puo essere pili adeguata una parabola 0 una funzione esponenziale (ad esernpio nel caso della serie di Fig. 2.3a). In ogni caso tutti i software statistici sono in grado di effettuare immediatamente questo tipo di analisi. Un esempio e nella Fig. 2.11 in cui si e adattata una retta ai dati dell'indice generale della produzione industriale gia presentati nella Fig. 2.7a. La perequazione meccanica, invece, si basa su un insieme di considerazioni meno immediate, e fa uso della tecnica delle medie mobili (strumento che si riconduce alla teoria del filtraggio che verra illustrata nel Cap. 5). In breve, se si sostituisce a ogni singolo dato una media dei dati relativi a un interval10 che 10 comprende, si avra un effetto di "lisciamento" che fa scomparire le
24
2 Caratteristiche generali dei fenomeni dinamici 120.0 110.0 100.0 90.0 80.0 70.0
Fig. 2.12. Indice mensile della produzione industriale nel settore estrattivo con medie mobili a 19 termini
oscillazioni rapide e quindi lascia presenti nel risultato solo quelle pili lente, ovvero Ie tendenze di fondo. In questo modo la serie originaria viene trasformata in modo da far risaltare solo il trend e l'eventuale ciclo pluriennale. Una esemplificazione si trova nella Fig. 2.12 che riporta la serie dell'indice della produzione industriale nel settore estrattivo e, in tratteggio, la serie delle medie mobili semplici a 19 termini (ottenute sostituendo a ciascun dato Xt la media aritmetica semplice dei dati nell'intervallo tra t - 9 e t + 9), la quale, come si vede, evidenzia l'andamento tendenziale con caratteristiche di trend e di ciclo pluriennale. Naturalmente sorge il problema di Quale tipo di media adoperare (quale ampiezza dell'intervallo e quali pesi se si usa una media ponderata), problema che e stato ampiamente dibattuto nella letteratura statistico-economica (si veda ad esempio il Cap. 3 in Di Fonzo e Lisi, 2005). Una volta rappresentata la tendenza di fondo, ci si puo porre il problema di depurare i dati da tale componente (a volte si dice detrendizzare la serie). II modo pili semplice sembra quello di sottrarre ordinatamente dai dati originali quelli del trend stimato. Questa operazione e usualmente efficace, rna presenta almena due inconvenienti:
• E legata alla procedura usata per •
la rappr eseutazionc del trend, e risente quindi di qualunque eventuale errore 0 imprecisione in tale procedura. Non permette di risalire facilmente dana serie detrendizzata ana serie originale.
Per tali motivi si preferisce a volte ricorrere a semplici trasformazioni dei dati che permettono di rimuovere la presenza del trend senza doverlo preventivamente esplicitare e rappresentare, ed hanno anche il vantaggio di essere immediatamente invertibili, assicurando la possibilita di risalire facilmente dalla serie depurata alla serie originale; tali trasformazioni si basano sulla
2.2 Analisi delle tendenze di fonda
(a)
25
(b)
Fig. 2.13. Popolazione degli Stati Uniti decennale dal 1790 al 1980: (a) serie delle differenze prime; (b) serie delle differenze seconde
tecnica della differenziazione della serie osservata. II principio di base e semplice e consiste nel calcolare Ie differenze tra ciascun dato e il suo precedente: Yt == x, - Xt-I· La serie delle differenze (0 serie differenziata) {Y2' Y3, ... , Yn} e in relazione diretta ed immediata con i dati originali, rna presenta caratteristiche dinamiche completamente diverse. L'operazione puo essere ripetuta pili volte, calcolando Ie differenze sui dati differenziati: Zt == Yt - Yt-I == (Xt - Xt-I) - (Xt-I - Xt-2) == Xt - 2Xt-1
+ Xt-2
cioe la serie detta delle differenze seconde, e cosl via. L'efficacia di questo metodo nella rimozione del trend si basa su una semplice considerazione: se una serie ha una crescita lineare nel tempo, l'incremento tra un dato e il successivo tende a mantenersi costante; se la crescita e quadratica, la differenza tra due incrementi successivi tende a rimanere costante e cosi via. Pertanto quando si ha a che fare con una serie il cui trend eben rappresentabile da una funzione polinomiale nel tempo (diciamo di grado k), la serie che si ottiene applicando l'operazione di differenza un numero sufficiente di volte (almeno k) non mostra pili tendenza di fondo. Qui il problema e decidere l'ordine di differenziazione necessario, decisione che puo essere effettuata esaminando i grafici delle serie che risultano dalla applicazione ripetuta delle differenze. II procedimento e esemplificato nella Fig. 2.13 dove si considera la popolazione degli Stati Uniti gia riportata nella precedente Fig. 2.3a. Nella Fig. 2.13a si trova la serie delle differenze prime, nella Fig. 2.13b la serie delle differenze seconde. Come si vede l'applicazione delle differenze una sola volta non e sufficiente per eliminare il trend crescente, mentre se si applica la differenziazione una seconda volta (Fig. 2.13b) si ottiene una serie risultante priva di trend. Anche la tecnica delle differenze va inquadrata nell'ambito della teoria del filtraggio line are che verra illustrata nel Cap. 5, dove la analizzeremo pili dettagliatamente.
26
2 Caratteristiche generali dei fenomeni dinamici
2.3 Analisi della stagionalita Lo studio delle variazioni stagionali e pili agevole se condotto su serie prive di tendenze di fondo, pertanto in genere si rimuove prima un eventuale trend e poi si passa all'analisi dei fattori stagionali. Anche per la stagionalita ci si puo porre il duplice obiettivo di rappresentare l'influenza delle stagioni oppure di rimuoverla dalla serie (si parla anche in tal caso di serie destagionalizzate). La rappresentazione puo essere effettuata per via analitica supponendo che l'intensita dei fattori stagionali rimanga costante nel tempo: allora si identifica la stagionalita con una funzione periodica di periodo annuale (e dunque periodo 12 se i dati sono mensili, 52 se sono settimanali e cosi via). Le funzioni periodiche ad argomento intero hanno una specifica forma matematica (combinazione lineare di funzioni trigonometriche, come viene illustrato nell'Appendice A) e quindi se ne possono stimare i parametri sui dati rilevati, con una logica analoga a quella adottata per il trend. Tuttavia, come verra mostrato nella Sez. 10.6, cia equivale semplicemente ad assumere l'effetto stagionale di ciascun mese pari alla media di tutti i dati relativi a quel mese nei diversi anni; in sostanza quindi con questo metodo la stima della stagionalita e data proprio dalle medie mensili (che abbiamo riportato ad esempio nelle Figg. 2.6 e 2.7b). Per quanto riguarda la rimozione della stagionalita, oltre a sottrarre le medie mensili, e molto usato in alternativa il ricorso a medie mobili di ampiezza annuale. Infatti (supporremo per fissare le idee di avere una serie mensile) se a ogni dato si sostituisce una media dei suoi 12 dati contigui pili vicini, si ottiene una nuova serie in cui ogni elemento risente in pari misura dei fattori stagionali (in quanto ogni dato della nuova serie contiene un dodicesimo di gennaio, un dodicesimo di febbraio e cosi via). Ne segue che nella serie delle medie mobili non si avvertono variazioni stagionali. La tecnica e esemplificata nella Fig. 2.14 dove si mostra il risultato della sua applicazione all'indice generale della produzione industriale italiana. Si noti tra l'altro come la serie delle medie mobili, oltre a non presentare stagionalita, risulta molto pili liscia della originale: infatti, come tutte le medie mobili, tende ad eliminare le oscillazioni pili rapide. Anche per la stagionalita, come per il trend, e possibile ricorrere a semplici trasformazioni dei dati che permettono di rimuovere le variazioni stagionali. Anche in questo caso ci si basa su una differenza, sottraendo a ciascun dato quello dell'anno precedente che si presenta nella stessa posizione stagionale. Se parliamo di dati mensili, quindi, si considerano le differenze Yt == Xt - Xt-12, se i dati sono trimestrali si considera x, - Xt-4, se sono settimanali Xt Xt-52; poiche i dati che si sottraggono risentono in egual misura dei fattori stagionali, si puo ritenere che nella differenza la stagionalita non avra aleun effetto (sempre che, come ipotizzato anche prima, l'ampiezza delle variazioni stagionali rimanga costante nel tempo). Come esempio, il grafico della Fig.
2.3 Analisi della stagionalita
27
120.0 110.0 100.0 90.0 80.0 70.0 60.0 50.0 40.0
Fig. 2.14. Indice generale mensile della produzione industriale con la serie delle medie mobili a 12 termini 15.0
-10.0
Fig. 2.15. Indice generale mensile della produzione industriale: serie delle differenze dodicesime
2.15 riporta Ie differenze dodicesime calcolate sulla serie dell'indice generale della produzione ind ustriale. I valori delle serie differenziate ottenute con Ie differenze dodicesime hanno il significato di incrementi annuali del fenomeno rilevato, tuttavia si faccia attenzione che queste serie, oltre alla rimozione della stagionalita, hanno anche altre caratteristiche dinamiche ben diverse dai dati originali, poiche l'operazione di differenza introduce modificazioni profonde nella struttura di dipendenza temporale, come verra chiarito nel Cap. 5.
28
2 Caratteristiche generali dei fenomeni dinamici
2.4 Analisi dei residui Accenniamo per completezza allo studio dei residui, fase che completa, nell'analisi classica delle serie storiche, la procedura di scomposizione. Dopo aver determinato lc serie corrispondenti alle componenti trend ciclo e stagionalita, si valuta il successo del procedimento andando a calcolare la parte non spiegata della serie originale (i cosiddetti residui) che dovrebbe presentarsi come un insieme di valori completamente casuali, senza caratteristiche sistematiche. In pratica si sottraggono ordinatamente dai dati originali Ie componenti trend cicIo e stagionalita calcolate, e si ottiene cost la serie dei residui (se invece si supponesse un modello di composizione moltiplicativo anziche additivo, allora si dividerebbe invece che sottrarre). II concetto di casualita dei residui viene esplicitato in diversi modi alternativi, rna nella grande maggioranza della letteratura si ricorre a questo punto a una impostazione probabilistica, assumendo che i residui siano realizzazioni di variabili aleatorie, e si valuta la casualita sulla base del controllo di alcune proprieta: 1. I residui hanno media nulla. 2. I residui hanno ugual varianza. 3. Ciascun residuo e incorrelato con tutti gli altri. Oltre a una verifica empirica sul grafico dei residui, esistono molti test statistici che permettono di sottoporre a verifica queste tre proprieta e simili caratteristiche. Se non si fanno ipotesi sulla forma della distribuzione di probabilita dei residui, vengono spesso preferiti test non parametrici (basati sulla permutazione, si veda ad esempio il Cap. 2 di Piccolo, 1990). Una ulteriore assunzione, molto comune in letteratura, e quella di distribuzione normale (di Gauss) dei residui. Per sottoporla a verifica si puo calcolare la distribuzione di frequenza (l'istogramma) e applicare uno dei molti test statistici di norrnalit.a, che sono disponibili nei pili comuni software statistici. Va sottolineato che l'istogramma e un valido strumento di indagine sulla forma della distribuzione se i dati sono indipendenti, e quindi costituiscono un campione casuale. Se invece i dati fossero dipendenti, l'istogramma non fornirebbe una stima plausibile della distribuzione di probabilita, in quanto Ie osservazioni non possono essere pensate come "prove ripetute". Cia spiega perche non si usa calcolare l'istogramma di frequenza delle serie storiche, rna solo dei residui. Esemplifichiamo la procedura complessiva di scomposizione classica con riferimento alla serie dell'indice mensile generale della produzione industriale dal1990 a12000, che abbiamo pili volte considerato (Fig. 2.7a). La componente cicIo-trend, stimata come media mobile a 24 termini, compare nella Fig. 2.16a, mentre nella 2.16b sono riportate le medie mensili ripetute periodicamente, che quindi costituiscono la stima della componente stagionale. Sottraendo ordinatamente i dati delle due serie di Fig. 2.16 dai dati originali si ottengono i residui, riportati nella Fig. 2.17, che possono essere anche interpretati come errori della procedura. L'andamento dei residui non mostra regolarita evidenti
2.4 Analisi dei residui 110.0
29
20 10
-10 100.0 -20
-30 -40
-50
90.0
(a)
(b)
F'ig. 2.16. Indice mensile generale della produzione industriale: (a) serie delle medie mobili a 24 termini; (b) serie periodica delle medie mensili
8.0
4.0
0.0
-4.0
-8.0
Fig. 2.17. Residui della scomposizione della serie dell'indice mensile generale della produzione industriale
e quindi non suggerisce dubbi sulla casualita (si noti la scala pili piccola delle precedenti). L'istogramma della distribuzione di frequenza dei residui, infine, e invece riportato nella Fig. 2.18 e permette di valutare le differenze, abbastanza sensibili, rispetto all'andamento campanulare tipico della normale.
30
2 Caratteristiche generali dei fenomeni din amici
..
" p
I-
2 0
mr -10,00
-5,00
rn 0,00
5,00
10 ,00
F ig . 2. 18. Istogramma della distribuzione dei residui della Fig. 2.17
Parte II
La teoria dei processi aleatori
3
Processi aleatori e lora classificazione
Questo capitolo ha 10 scopo di introdurre i principali sviluppi del calcolo delle probabilita relativi ai processi aleatori, illustrando gli strumenti interpretativi delle lora proprieta dinamiche e tratteggiando una classificazione.
3.1 Che cos'e un processo aleatorio II concetto di processo aleatorio 0 stocastico rappresenta la naturale estensione della variabile aleatoria multipla a un numero infinito di componenti. Anche se questa estensione risulta generalmente intuitiva, l'introduzione di infiniti componenti comporta a volte qualche difficolta dal punto di vista matematico. II punto di partenza e uno spazio di probabilita (D, A, P), dove D e l'insieme degli eventi elementari, A e la sigma algebra degli elementi di D, e P e una misura di probabilita definita su A. Una variabile aleatoria X e una funzione misurabile da D in JR (insieme dei numeri reali) , che associa quindi a ogni evento w (elemento di D) un numero reale. Su tale spazio di probabilita e definita una collezione di variabili aleatorie ciascuna contraddistinta dal valore di un indice 0 parametro t appartenente a un insieme T. Un processo aleatorio e quindi definito come una collezione di variabili aleatorie {Xt, t E T} . L'insieme puo essere numerabile, nel qual caso si usa generalmente la convenzione di indicarne gli elementi con i numeri naturali (0 interi). In questo caso il processo viene detto a parametro discreto (a volte anche sequenza aleatoria). Se invece T ha la potenza del continuo, come quando e costituito da un intervallo o da tutta la retta, si parla di processo a parametro continuo (a volte funzione aleatoria). Ovviamente anche i valori che le variabili X, possono assumere cambiano: nella generalita delle applicazioni si suppone pero che il supporto sia uguale per tutte le X t , e che esse abbiano la stessa natura. II caso pili frequente e che vengano assunte assolutamente continue; a volte si suppone che abbiano una distribuzione discreta, oppure dicotomica come vedremo nel seguito.
34
3 Processi aleatori e loro classificazione
Alternativamente, e in modo equivalente, un processo aleatorio puo essere pensato come una funzione dall'insieme prodotto cartesiano T x [2 in JR.: X, == f (t, w) con la proprieta che per ogni t E T la funzione f (t, .) sia misurabile. In questo modo, per ogni t fissato si ha una variabile aleatoria, mentre per ogni w fissato si ha una funzione di t E T. In altri termini, in corrispondenza di ogni evento dello spazio di probabilita, ciascuna variabile aleatoria X, si realizza in un valore Xt; la collezione ordinata di tali valori {Xt, t E T} viene chiamata una realizzazione del processo e a ciascuna realizzazione e associata in linea di principio una probabilita (0 una densita). Pertanto le caratteristiche di un processo aleatorio sono legate alla sua distribuzione di probabilita, che coinvolge un numero infinito di componenti e la cui esplicitazione comporta difficolt.a insormontabili. Tuttavia e stato dimostrato che la struttura probabilistica del processo e completamente specificata dalla conoscenza di tutte le distribuzioni di probabilita multiple con un numero finito di componenti. In altri termini la conoscenza delle distribuzioni di probabilita delle variabili multiple (XiI, X t 2 , ... , X t n ) per ogni n e per ogni scelta di tl, t2, ... , t.; nell'insieme T, determina completamente le propriota del processo. II paragrafo che segue riassume le principali proprieta delle distribuzioni di probabilita multiple finite, con particolare riferimento alla distribuzione normale.
3.2 Richiami sulle distribuzioni di probabilita multivariate Consideriamo una variabile aleatoria m-dimensionale che indichiamo con (Xl, X 2 , ... , X m ) , e specifichiamo la sua distribuzione di probabilita attraverso la funzione di ripartizione multipla (0 congiunta):
Se la variabile e assolutamente continua, esiste la funzione di densita f(XI,X2, ... ,x m ) tale che
Integrando rispetto ad una 0 pili variabili sul loro supporto si ottengono le cosiddette marginali, cioc Ie funzioni di ripartizione (0 densita) di un sottoinsieme delle m variabili; ad esempio
3.2 Richiami sulle distribuzioni di probabilita multivariate
F l d x l , X2) =
j
=
j
Xl jX2
-00
35
_ooh2(tl,t2)dhdt2
Xl jX2 j+oo j+oo f (tl, t2, ..., t m) dtldt2,..dtm .
-00
-00
-00
'"
-00
Una variabile m- pla ha m distribuzioni marginali can (m - 1) componenti, m( m - 1)/2 distribuzioni marginali can (m - 2) componenti, (7:) distribuzioni marginali can (m - k) componenti, ..., m distribuzioni marginali (univariate) can una componente. Comunque dalla definizione risulta evidente che la conoscenza delle marginali non implica la conoscenza della distribuzione congiunta, perche non ci da informazioni sul modo in cui Ie variabili si associano. Solo se le variabili sana indipendenti si ha che la probabilita dell'intersezione e uguale al prodotto delle probabilita, e quindi le marginali permettono di ricostruire la congiunta. Ad esempio can due variabili, se sana indipendenti, si ha F(XI,X2) == F I (Xl) F2 (X2) e !(XI,X2) == !1(XI)!2(X2). In caso contrario questa relazione non vale e quindi ad esempio !2(X2) i- !(XI, X2)/!1(XI). L'espressione a destra puo essere interpretata in termini di probabilita condizionate, e descrive la distribuzione di una variabile condizionatamente ad una particolare determinazione dell'altra. E possibile definire in modo analogo la distribuzione condizionata di un sottoinsieme delle m componenti, data il valore assunto da un altro sottoinsieme (a intersezione nulla can il precedente) in questa modo. Siano A e B due sottoinsiemi di {I, 2, ..., m}, can An B == 0, B i- 0, consideriamo i vettori aleatori XA == (Xi, i E A), X B == (Xi, i E B) e sia XB un punta del supporto di X B . La distribuzione di probabilita di XA condizionata a X B == X B e data da
Naturalmente se il vettore XA e il vettore X B sana indipendenti
I momenti di una variabile multipla sana definiti come media del prodotto delle componenti, ciascuna elevata a un particolare esponente /112 ... m
==
j
(kl, ka- . . , , k m )
= E
(X;l X;2 ... x~m) =
+OO ... j+oo X~lX~2 ... X~1n! (Xl, X2, ... , X
-00
m )
dXldx2··· dx-; .
-00
Ovviamente si possono ottenere tutti i momenti delle distribuzioni marginali ponendo uguali a zero gli esponenti k, relativi alle variabili escluse, ad esempio
36
3 Processi aleatori e loro classificazione
Le medie delle singole variabili sono espresse come momenti con tutti gli esponenti uguali a zero tranne uno unitario
+00
E (Xl) = ; _00 xI!1 (xI) dX1 = JL 1 (1) = JL 12 ... m (1,0, 0, ..., 0) e i momenti centrali possono essere definiti sostituendo negli integrali le quantita Xj - E (X j ) al posta delle Xj. I momenti delle distribuzioni condizionate verranno generalmente indicati con il simbolo E (. I·) dove a destra della barra si esplicita l'evento condizionante, il Quale spesso viene indicato in maniera sintetica con X j invece che X, == Xj. Per esempio
1: 1: 00
E(xrxiIX3,X4) =
00
xix~f(X1,X2,X3,X4)/h4(X3,X4)dx1dx2'
La funzione generatrice dei momenti della variabile m-pla
e definita da
e i coefficienti del suo sviluppo in serie sono i momenti, che sono quindi legati alle derivate della H dalla relazione
O:l=···=O:rn=O
Le funzioni generatrici dei momenti di un sottoinsieme della m- pla si ottengono dalla H ( aI, a2, ..., am) ponendo uguali a zero gli argomenti relativi alle variabili da trascurare, ad esempio H 123 (aI, a2, a3)
== H (aI, a2, a3, 0, 0, ...,0) == E{exp(al Xl +a2 X2 +a3 X3)} .
Se le componenti sono indipendenti, la funzione generatrice dei momenti si fattorizza nel prodotto delle funzioni generatrici dei momenti delle singole componenti. II logaritmo della funzione generatrice dei momenti e detta funzione dei seminvarianti 0 cumulanti
e i coefficienti del suo sviluppo in serie sono chiamati cumulanti. Una lora espressione piuttosto semplice e fornita dal seguente teorema (Brillinger, 1981 p.19):
3.2 Richiami sulle distribuzioni di probabilita multivariate
37
Teorema 3.1. Data una variabile aleatoria m-pla, per ogni r ~ m e per ogni r-pla (aI, a2, ..., a r ) il coefficiente di (al x a2 x ... x a r ) nello sviluppo in serie della funzione generatrice dei cumulanti, indicato con cum (Xl, X 2, ..., X r ) e dato da cum(X l , X 2, ...,Xr ) == (3.1) =
t
p=l
(_l)p-l (p - I)!
(II Xj) E(II Xj) ... E(II Xj)
LE Dp
JErI
JE r 2
JEr p
dove la seconda somma e estesa all'insieme Dp di tutte le partizioni (rl' r2, ..., rp ) dell'insieme (1,2, ..., r) in p parti. Va sottolineato che il teorema vale anche se le Xl, X 2 , ... , X; non sono tutte diverse tra loro, quindi la formula permette di ricavare anche i cumulanti di ordine superiore di una variabile univariata ponendo Xl == X 2 == ... == X; == X. I cumulanti godono di molte proprieta importanti e sono legati agli altri momenti. Ad esempio si dimostra che cum (X j) == E(X j), cum (Xj,X j) == Var (X j) , cum (X j, X k ) == Cov (X j, X k ) ; inoltre se nelle variabili (Xl, X 2 , ..., X r ) un sottoinsieme e indipendente dalle altre, cum (Xl, ..., X r ) == O. Spesso la notazione matriciale risulta molto utile e comoda nel trattare l'algebra delle variabili multiple. Se indichiamo con X == (Xl, ..., X m ) ' il vettore delle variabili aleatorie, con x == (Xl, ... , X m ) ' il vettore dei valori assunti, con J-L == (J-Ll, ..., J-Lm)' dove J-Lj == E (Xj) il vettore delle medie, possiamo scrivere J-L == E (X). I momenti centrali secondi (varianze e covarianze) si possono indicare con O"ij == E {(Xi - J-Li) (Xj - J-Lj)} e riunire in una matrice detta di dispersione E == ((O"ij)) == E {(X - J-L) (X - J-L)'}. La matrice di dispersione viene anche indicata con E == Var(X). Poiche O"ij == O"ji la matrice risulta simmetrica; inoltre e anche definita positiva. Infatti la forma quadratica c' E c e sempre maggiore di zero essendo pari alIa varianza della variabile aleatoria y == c' X == Lj CjX j. Escludererno sempre il caso degenere che lc componenti siano linearmente dipendenti, 0 pili precisamente che esista una combinazione lineare delle componenti costante con probabilita uno. La notazione matriciale e comoda quando si trattano trasformazioni lineario Consideriamo le variabili Z == (Z 1, Z2, ..., Zn)' ottenute dalle X attraverso una trasformazione lineare Z == AX dove A e una matrice di costanti note a n righe e m colonne. Le medie, varianze e covarianze delle Z possono essere ottenute facilmente sfruttando Ie proprieta di Iinearita delle medie
J-Lz == E (Z) == E (AX) == AE (X) == AJ-L Var (Z) == E {(Z - J-Lz) (Z - J-Lz)'} == E {(AX - AJ-L) (AX - AJ-L)'} ==
== E{A (X - J-L) (X - J-L)' A'} == AE{(X - J-L) (X - J-L)'}A' == AEA' .
38
3 Processi aleatori elora classificazione
Nel caso che n == meA ammetta inversa, c'e corrispondenza biunivoca tra X e Z e ci possiamo aspettare che sotto le ipotesi che X abbia distribuzione di probabilita assolutamente continua, anche Z == AX possieda una densita che puo essere facilmente calcolata a partire da quella della X. Infatti
Pr{Z E C} =
J
···LIx(X)dX
con D == {x == (Xl, X2, ... , X m ) : Z == Ax E C}. Data la biunivocita, si puo effettuare nell'integrale la sostituzione delle variabili (Zl' ... , zm) alle (Xl, ... , X m ) il cui Jacobiano e 1/ IAI. Ne segue
Pr{Z
E
C}
=
J.. LIx (A- z) 1~ldZ 1
e quindi la densita di Z e Ix (A-lz) I~I. La funzione generatrice dei momenti puo essere espressa in forma vettoriale ponendo a == (aI, a2, ..., am)' :
Hx (a) == E{exp(a'X)} .
(3.2)
In questo modo si puo calcolare facilmente la funzione generatrice dei momenti di una trasformazione lineare invertibile Z == AX + /1 Hz (a) == E {exp (a' Z)} == E {exp (a' AX + a' /1)} == H x ({3) ea ' J1-
(3.3)
dove {3 == A' a.
3.3 La distribuzione normale multipla La distribuzione normale multipla riveste un ruolo del tutto particolare nell'analisi statistica multivariata, in ragione della sua proprieta caratteristica che la dipendenza tra Ie componenti si esercita in modo esclusivamente lineare, ed e quindi sintetizzata dai coefficienti di correlazione. Ogni qual volta si possa ritenere sufficiente studiare la dipendenza tra variabili limitandosi alla forma lineare, la normale puo essere presa in considerazione come distribuzione approssimante. Questa considerazione si estende anche allo studio dei processi aleatori. Un processo aleatorio viene detto gaussiano se tutte Ie sue distribuzioni di un numero finito di variabili sono normali multiple. Richiamiamo la definizione di distribuzione normale multipla.
Definizione 3.2. Una variabile aleatoria a m componenti X == (Xl, X 2 , ... ,Xm )' con media /1 == (/11, /12, ... , /1m)' e matrice di dispersione E == ((aij)) ha distribuzione normale multipla se e assolutamente continua e la sua detisiia di probabiiitii, posto X == (Xl, X2, ... , X m )' e data da: p (x) = (27r)-m/2I17I- 1/ 2 exp { -~ (x - J-l)' 17- 1 (x - J-l)} .
(3.4)
3.3 La distribuzione normale multipla
39
Simbolicamente si indica X N(J-l, E). La distribuzione e completamente specificata, oltre che dalle medie, dalle sole varianze e covarianze: cia rende ragione del fatto che la dipendenza si esplica in forma lineare, perche due variabili multiple che abbiano le stesse covarianze e varianze, hanno la medesima distribuzione multipla (e quindi 10 stesso tipo di legame). La genesi della (3.4) puo essere compresa facilmente partendo dal caso di componenti indipendenti e standardizzate. Se Zl, Z2, ..., Zm sono m variabili normali standardizzate indipendenti, la loro densita congiunta e data dal prodotto delle densita individuali: r-;»
(
)_rr
rr
m
P ZI, Z2, ... , Zm
-
m ( () _ )-1/2 j=1 Pj Zj - j=1 21f
e
-z~ /2 _ J
-
()-m/2 21f exp
{1,} -"2 Z Z
ove si e scritto z == (Zl,Z2, ... ,Zm)'. Notiamo che E(Z) == 0 e Var(Z) == I. Questo e il tipo pili semplice di associazione tra m variabili. Per avere dipendenza non nulla, possiamo sfruttare una trasformazione lineare biunivoca considerando le nuove variabili X == (Xl, X 2, ... ,Xm)' ottenute da X == AZ + J-l dove A e una matrice quadrata regolare. Sappiamo che E(X) == p., e si calcola facilmente 17 == Var(X) == E{AZ(AZ)'} == AA'. Inoltre sappiamo che la densita multipla di X e ottenuta secondo la regola : PX (x)
== pz [A- l (X - J-l)] IAI- l == I
= (21f)-m/2IAI- exp {
-~ (X
- p,)' A,-I A-I (X - p,)} .
Infine notando che 17- 1 == A,-l A-I e che 1171 == IAA'I == IAI si ottiene la densita (3.4). Questo procedimento suggerisce anche un modo per estendere il concetto di standardizzazione a una normale multipla. Se X e normale multipla con media J-l e matrice di dispersione 17, poiche E e definita positiva esiste la sua matrice radice quadrata, ovvero una matrice Q tale che E == QQ', e Q e regolare. Percio possiamo considerare la trasformazione lineare: 2
Z ==
o:' (X -
J-l)
che definisce la nuova variabile a m dimensioni Z == (Zl, Z2, ... , Zm)'. Si ottiene facilmente E(Z) == 0, Var(Z) == Q-lE{(X - J-l) (X - J-l)'}Q-l' == Q-lQQ'Q,-l == I, quindi le (Zl, Z2, ..., Zm) sono normali standardizzate indipendenti. Per le proprieta analitiche della distribuzione normale si verifica che sono di forma normale tutte le distribuzioni marginali della X == (X l,X2, ...,Xm) e anche tutte le distribuzioni condizionate. Se consideriamo un sottoinsieme di componenti 5 C (1,2, ..., m), la distribuzione marginale delle Xj, j E 5 e normale con vettore delle medie dato dal corrispondente sottovettore di u: J-ls == (J-lj, j E 5)', e matrice di dispersione ottenuta selezionando da 17 Ie righe e le colonne relative alle componenti di 5.
40
3 Processi aleatori elora classificazione
Per le distribuzioni condizionate, ferma restando la forma gaussiana, lc medie, varianze e covarianze richiedono uno sviluppo meno immediato.
Ricaveremo ora una formula che generalizza il noto risultato bivariato: E (X
IY == y) == ux + -aXY ayy
(y - f-LY) , Var (X
IY == y) == a x x
a~y - . ayy
Consideriamo una partizione di (1,2, ..., m) in due parti 51 e 52 di numerosita rispettivamente m1 e m2 (con m., + m2 == m) e riordiniamo i vettori X, f-L e la matrice E in modo che compaiano ai primi posti gli indici appartenenti a 51, e poi tutti quelli che appartengono a 52. Possiamo usare una notazione conseguente:
/1 == (/1(1») /1(2) ==
dove
X(l)
X(l)
condizionata a
(Xj,j
E 51)" X(2) X(2)
==
==
X(2»)
(21T)-m/2
IE I-
PX(l) (X(l)
IX(2)
==
E 52)' e cosi via. La distribuzione di
si puo scrivere:
X(2)
== PX
1/2
(Xj,j
(X(l)' X(2») /PX(2) (X2)
exp {-~ (x - f-L)' E- 1 (x - f-L)}
(2Jr)-m2/2I17221-1/2 exp { -~ (X2 - JL(2))'
==
(21T)-m 1/2
x exp { -
==
E:;} (X2 - JL(2)) }
(lEI / 117221)-1/2 X
~
[(X - JL)' 17- 1 (X - JL) - (X2 - JL( 2) )' 17221 (X2 - JL (2))]} .
Se partizioniamo anche la matrice 17- 1 riunendo prima lc m i righe e colonne di 51, e poi le m2 righe e colonne di 52 nel modo seguente:
otteniamo le relazioni:
ed eseguendo i prodotti tra le matrici condizionate:
(a)
V11E11 + V12E21 == I
(b)
V11E12 + V12E22
==
(c)
V21E11 + V22E21
== 0
(d)
V21E12
0
+ V22E22 == I
.
3.3 La distribuzione normale multipla
41
Dalla (b) si ricava postmoltiplicando per E 221 : V12 == -V11E12Ez/
e sostituendo nella (a) e premoltiplicando ancora una volta per V1I 1 si ha: V11
1
== Ell - E12E2;lE21 .
Ricavando dalla (b) la 1712: 1712 ==
- V1I 1V12E22
e sostituendo nella (d), dopo aver postmoltiplicato per E2;l, si ricava: 172;1
== V22 - V21V111V12.
Usando queste relazioni possiamo sviluppare la forma quadratica che appare nell'esponenziale della densita condizionata:
- (X2 - f-L(2))' (V22 - V21V111V12) (X2 - f-L(2))
==
== (Xl - f-L(l))' V11 (Xl - f-L(l)) + (X2 - f-L(2))' V22 (X2 - f-L(2)) +
+ 2 (Xl
- f-L(l))' V12 (X2 - f-L(2)) - (X2 - f-L(2))' (V22 - V21V111V12) (X2 - f-L(2))
== [Xl - fL(l) + V1I 1V12 (X2 - fL(2))]' VII [Xl - fL(l) + VII 1 V12 (X2 - fL(2))] ==
Ponendo f-L l 12 == fL(l) - 1712172;1 (X2 - fL(2))' 17112 == 1711 - 1712172211721 la densita condizionata, che e funzione dell'argomento Xl, risulta:
ed e di forma normale a segue:
m1
dimensioni con media f-L l 12 e varianza E 112 . Ne
Calcoliamo adesso la funzione generatrice dei momenti partendo da variabili normali standardizzate indipendenti. Poiche la funzione generatrice dei
==
42
3 Processi aleatori elora classificazione
momenti di una variabile normale standardizzata e pari a H (t) == exp { t 2 /2 }, per un vettore di m normali standardizzate indipendenti Z == (Zl, Z2, ..., Zm)' avremo:
Quindi, considerando una trasformazione lineare X
H x (0:)
== AZ + J-L si ottiene:
= en' JL Hz (A' 0:) = exp { 0:' JL + ~o:' AA' 0: }
e indicando con E == AA' la matrice di dispersione se X
u. (0:) = exp {
0:' JL
+ ~o:' EO:}
r-;»
N (J-L, E), allora:
.
Ne segue che la funzione generatrice dei cumulanti e:
K (0:) = log H (0:) =
0:' JL
+ ~o:' Eo: = L O:iJLi + ~ L L O:iO:j(Jij i
i
.
j
Poiche sono nulli i coefficienti di grado superiore a 2 in Q, ne segue che i cumulanti di ordine superiore a 2 di una distribuzione normale sono nulli. Questa proprieta ecaratteristica (cioe esclusiva) della forma normale, e usandola insieme al teorema 3.1 ci permette di calcolare facilmente alcuni momenti di ordine superiore. Consideriamo una variabile multipla can media nulla E (Xi) == 0 e calcoliamo la formula (3.1) per r == 3. Le partizioni D p (p == 1,2,3) sono le seguenti: D I == {(1,2,3)} D 2 == {[(I) , (2,3)] , [(2) , (1,3)] , [(3) , (1, 2)]} D 3 == {[(I), (2), (3)]} .
Quindi: E (Xl) E (X 2X 3 ) + E (X 3 ) E (X I X 2) + 2E (Xl) E (X 2) E (X 3 )
o == cum (Xl, X 2, X 3 ) == E (X IX 2X 3 ) - E (X 2) E (X I X 3 )
-
e ricordando che E (Xi) == 0 si ottiene:
In modo analogo si dimostra che tutti i momenti di ordine dispari sono nulli. II risultato per r == 4 si ottiene nel seguente modo. Le partizioni risultano:
3.3 La distribuzione normale multipla
43
{(1,2,3,4)} ~ {[(I) , (2,3, 4)] , [(2) , (1,3, 4)] , [(3) , (1,2,4)] , [(4) , (1, 2,3)] , [(1,2) , (3,4)] , [(1,3) , (2,4)] , [(1,4) , (2,3)]} ~ {[(I), (3), (2,4)], [(1), (4), (2,3)], [(2), (3), (1,4)], [(2), (4), (1,3)], [(3), (4), (1,2)]} ~ {(I) ,(2),(3),(4)}
1)1 ~ 1)2
1)3
1)4
e il cumulante:
°
~ cum (Xl, X 2 , X 3 , X 4 ) ~ E (X 1X2X3X4 )
+
+ E (X2 ) E (X 1X3X4 ) + E (X3 ) E (X 1X2X4 ) + + E (X4 ) E (X 1X2X3 ) + E (X 1X2 ) E (X3X4 ) + E (X 1X3 ) E (X 2X4 ) + + E (X 1X4 ) E (X 2X3 ) } + 2{E (Xl) E (X 3 ) E (X2X4 ) + + E (Xl) E (X4 ) E (X 2X3 ) + E (X 2 ) E (X3 ) E (X 1X4 ) + - {E (Xl) E (X 2X3X4 )
+ E (X 2 ) E (X4 ) E (X 1X3 ) + E (X 3 ) E (X4 ) E (X 1X2 )}+ - 6E (Xl) E (X 2 ) E (X 3 ) E (X 4 )
tenendo sempre conto che E (Xi) ~ 0, i ~ 1,2,3,4 gli unici termini che non si annullano sono E (X 1X2X3X4 ) e i prodotti del tipo E (X 1X2 ) E (X3X4 ) . Riordinando otteniamo: E (X 1X2X3X4 ) ~ E (X 1X2 ) E (X 3X4 )
+ E (X 1X3 ) E (X 2X4 ) +
+ E (X 1X4 ) E (X 2X3 )
che e nota come formula di Isserlis e permette di esprimere i momenti quarti in funzione delle covarianze. La propricta caratteristica della normale di avere i cumulanti di ordine superiore a 2 tutti nulli permette tramite applicazioni ripetute del teorema 3.1 di calcolare tutti i momenti di qualunque ordine (pari) in funzione delle covarianze. Tra le variabili derivate dalla normale multipla esiste una generalizzazione multivariata della t di Student, e la distribuzione chi-quadrato ha un ruolo rilevante. Infatti sappiamo che se Z ~ (ZI, Z2, ..., Zm)' e normale multipla standardizzata, cioe E (Z) ~ 0, E (ZZ') ~ I, allora la Zf + Z~ + ... + Z~ ~ Z' Z si distribuisce secondo un X2 con m gradi di liberta. Se invece X ~ (Xl, X 2 , ... , X m )' e normale multipla con una media E (X) ~ J-l e matrice di dispersione E {(X - J-l) (X - J-l)'} ~ E allora possiamo prima riportarci alla standardizzata con la gia introdotta trasformazione Z ~ (X - J-l) dove E ~ QQ'. Pertanto la Z' Z ~ (X - J-l)' E- 1 (X - J-l) ha distribuzione chi quadrato con m gradi di liberta. In realta molte funzioni quadratiche di variabili normali hanno una distribuzione che si approssima al chi-quadrato. Consideriamo un vettore normale standardizzato Z ~ (Zl, Z2, ..., Zm)' e una matrice quadrata simmetrica A. La matrice A puo essere scritta A ~ U AU' dove A ~ diag (AI, A2'..., Am) e i Ai sono gli autovalori mentre le colonne di U sono gli autovettori, e U e ortogonale. Se consideriamo la forma quadratica:
o:'
44
3 Processi aleatori elora classificazione
Q (Z)
== Z' AZ == Z'U AU' Z == Y' AY
dove Y == U' Z, lc Y sono normali multiple standardizzate perche hanno media zero e matrice di dispersione E{YY'} == E{U' ZZ'U} == o't: == I. Quindi dato che A e diagonale: m
Q (Z)
==
L AjYj2 j=l
con Yj2 che sono chi-quadrato con un grado di Iiberta indipendenti. Ne segue che ogni forma quadratica costruita su normali standardizzate e distribuita come una combinazione lineare di variabili chi-quadrato indipendenti con un grado di liberta, e i coefficienti della combinazione lineare sono dati dagli autovalori della matrice della forma quadratica. Ne segue che se la A ha autovalori uguali a 0 oppure 1 la Q(Z) e un chi-quadro, in caso contrario la distribuzione e pili complicata (si veda ad esempio Johnson and Kotz (1970), vol. 2), rna puo' essere approssimata con un multiplo di un chi-quadro del tipo cx~ dove 9 e scelto in modo da ottenere la stessa media e la stessa varianza: E{ Q (Z)} == E Ai == cg; V ar{ Q (Z)} == 2 E A; == 2c2 9 da cui si ricava c
==
E A;/ E Ai, 9 == (E Ai)2 / E A;.
3.4 Alcune proprieta dei processi aleatori
e
L'insieme dei processi aleatori come 10 abbiamo introdotto talmente vasto da comprendere intere classi di processi con caratteristiche e comportamenti molto complicati, anche patologici 0 degeneri, che sono poco utili come modelli di fenomeni reali. Per questo motivo si usa restringere il campo dei processi aleatori da utilizzare come modelli, imponendo che essi soddisfino alcune proprieta che garantiscono almeno i due aspetti seguenti: 1. Quando 1'insieme in cui varia il parametro (ad esempio il tempo) e illimitato, il comportamento del processo al crescere del parametro non deve degenerare. 2. Le caratteristiche fondamentali del processo {Xt } al variare del parametro t nel suo insieme T devono mantenere una sorta di stabilita ovvero omogeneita, devono cioe essere proprie del processo e quindi manifestarsi in maniera analoga indipendentemente dal valore del parametro. Per cautelarsi dal degenerare del processo e in genere sufficiente assumere che i momenti di ogni ordine finito sono finiti, D'ora in poi assumeremo in tutto il testo che questa proprieta sia soddisfatta. Per assicurare I'ornogeneita delle caratteristiche del processo Ie propriet.a che si richiedono sono indicate con il concetto di st.azionarieta. II massimo che possiamo richiedere e che una traslazione del parametro non modifichi in alcun modo le caratteristiche univariate e multivariate delle variabili del processo: questa e la stazionarieta in senso forte.
3.4 Alcune proprieta dei processi aleatori
45
Un processo aleatorio {X t, t E T} e stazionario in senso forte se per ogni n naturale e per ogni n-pla (tl, t2, ..., tn) E T" e per ogni scelta di h tale che t, + h E T Vi, si ha:
P (X h
== Xl,
Xt2
== X2, ... , X t n == X n ) == ==
P (X h +h
== Xl,
X t 2+ h
== X2, ... ,
X t n +h
== X n )
(3.6)
dove la P e da intendersi naturalmente come funzione di densita se la distribuzione e assolutamente continua. In particolare applicando la proprieta con n == 1 si ha che tutte le variabili Xi sono somiglianti. La proprieta di stazionarieta forte implica che la distribuzione (e quindi tutti i momenti) resti invariata rispetto a traslazioni del parametro, e quindi coinvolge l'intera distribuzione di probabilita del processo a un numero arbitrario di componenti. Essendo questa proprieta molto restrittiva, in genere ci si accontenta di richiedere un tipo di stabilita me no rigorosa, che coinvolga solo i momenti fino a un certo or dine (e non la distribuzione di probabilita nel suo complesso). Si parla di stazionariet.a in senso debole, e del relativo ordine. Un processo aleatorio {Xt, t E T} e detto stazionario in senso deb ole di ordine s (naturale) se per ogni naturale n ::; s e per ogni scelta di (tl, t2, ...,tn) E T": e h tale che ti + h E T, Vi, si abbia:
La proprieta sottintende che tutti i momenti in (3.7) debbono essere finiti. Sotto questa condizione, la stazionarieta in senso forte implica quella deb ole di ogni or dine s. Notiamo che se il processo ha distribuzione gaussiana, allora tutti i momenti possono essere espressi in funzione di medie e covarianze (momenti di ordine 1 e 2), ed' altra parte queste ultime caratterizzano completamente la distribuzione di probabilita, Pertanto, nel caso di processi normali, la stazionarieta in senso forte e quella debole di or dine due coincidono (purche le medie e Ie varianze siano finite). In realta anche quando non si assuma la normalita, la propricta di stazionarieta a cui si fa pili frequentemente riferimento e quella debole di ordine due, a cui a volte ci si riferisce come stazionariet.a tout court. Vediamone nei dettagli il significato. Per un processo aleatorio {X t , t E T} stazionario in senso debole del secondo ordine, la (3.7) implica che Ie variabili univariate hanno tutte la stessa media, che possiamo quindi indicare con un simbolo unico /1: t E T.
Per n == 2 invece, la (3.7) puo essere scritta ponendo t l == t e t 2 - t l == l:
46
3 Processi aleatori elora classificazione
e quindi il momento secondo dipende solo dal valore di l, cioe dalla differenza tra i parametri delle due variabili. Per ottenere la covarianza tra le variabili e sufficiente sottrarre il prodotto delle medie, uguale a J12 indipendente da t e l. La espressione che si ottiene, funzione solo di l (chiamato lag 0 ritardo) viene detta funzione di autocovarianza del processo r(l):
Cov (Xt, X t+l ) == E (XtX t+l )
-
E (X t) E (X t+l ) - J1)} == r (l) .
== E{(Xt - J1)(Xt+l
(3.8)
E immediato rendersi conto che:
r (0) == Var (Xt ) r (l) == r (-l)
Vt E T Vl .
Come nella statistica multivariata, anche qui puo essere opportuno ricorrere a un indice relativo, compreso tra -1 e 1, e si definisce quindi la funzione di autocorrelazione del processo:
Cov (X t, X t+l ) r (l) -- C orre l (X t, X t+l ) -_ -----;======================== JVar (X t ) Var (Xt + l ) r (l) r (0) .
(3.9)
Naturalmente r (0) == 1, r (l) == r (-l) e Ir(l) I ~ 1. La maggior parte delle analisi che si effettuano sulle serie storiche prende in considerazione le relazioni lineari tra le variabili, e quindi si limita all'analisi dei momenti di ordine uno e due. Tuttavia, anche all'interno dell'insieme dei processi debolmente stazionari al secondo ordine si usa restringersi a un sottoinsieme che soddisfi ulteriori proprieta, Esse devono assicurare che la dipendenza tra due variabili diventi sempre piu' deb ole al crescere della distanza parametrica che Ie separa. In altri termini, si limita la dipendenza a una forma locale, che possa essere riconosciuta sulla base di una realizzazione finita, cioe di un insieme limitato di variabili del processo. Questo obiettivo puo essere raggiunto con due tipi (alternativi rna di fatto equivalenti) di condizioni, dette condizioni di mixing. II primo tipo concerne le distribuzioni congiunte, e impone che al crescere della distanza tra le variabili esse si avvicinino all'indipendenza. Una richiesta tipica e che la quantita: (3.10) tenda a zero al crescere di h. In alternativa si puo richiedere invece che siano convergenti le serie dei cumulanti (Brillinger, 1981 p.126):
L 00
Icum{Xt,Xt+U 1 '
•••
,Xt+uk}1
m possiamo scrivere (usando la proprieta di Markov):
p~;) = Pr{Xn +s = ilXs = j}
=
== Pr{ X n +s == i, Xm+squalunque IXs == j} == k
== L Pr{ X n +s == i, X m +s == IIXs == j} == l=1 k
== LPr{Xn +s == ilXm +s == l.X, ==j}Pr{Xm+s == IIXs ==j} == l=1 k
==
'""'" (n-m) (m) ~Pil Plj' l=1
(4.2)
Questo risultato va sotto il nome di equazione di Chapman e Kolmogorov, e puo essere scritto anche nel modo seguente: k
(n+m)
v.,
c: v;(n) Plj(m) '""'"
==
n,m==1,2, ...
(4.3)
l=1
Poiche le probabilita di passaggio in n passi sono tutte esprimibili in funzione di que lle in un numero di passaggi inferiore, e facile capire che in realta per calcolarle tutte e sufficiente conoscere le sole probabilita di passaggio in un passo, cioe le probabilita di transizione contenute nella matrice P. Infatti, se indichiamo con p(n) la matrice delle probabilita di passaggio in n istanti: p(n) == ((p~7))), le equazioni di Chapman e Kolmogorov descrivono gli elementi di p(n+m) come il prodotto delle righe di p(n) per le colonne di p(m), ovvero: p(n+m)
== p(n) p(m) .
Allora ponendo m == 1 si ha: p(n+1)
e quindi per induzione: p(n)
==
p(n) p
== P" .
In conclusione, le probabilita di passaggio in n passi sono gli elementi della potenza n-esima della matrice di transizione. Ovviamente poiche I' P" == I' come si verifica immediatamente, ogni colonna di P" e una distribuzione di probabilita ben definita. Oltre alle probabilita condizionate, possiamo studiare le probabilita non condizionate, cioe le probabilita che a un certo istante il processo assuma un determinato valore (0, col linguaggio delle catene, la probabilita che la
54
4 Catene di Markov
catena a un certo passo sia in un determinato stato). Queste probabilita, dette probabilita di stato, verranno indicate con: j == 1, ..., k
n == 0,1, ...
e il relativo vettore (colonna) sara: P
(n) _ ((n) (n) (n))' , - PI ,P2 ,···,Pk .
In particolare, immaginiamo che la catena abbia inizio aH'istante zero nel Quale il valore assunto e determinato in base a una distribuzione di probabilita iniziale p(O). Allora al primo passo avremo: k
pj1)
= Pr{X1 = j} = LPr{Xo = l}Pr{X1 = j IXo = l} l=l k
_ '"""" (0) - L-JPl Pjl l=l
e al secondo passo: k
k
pj2) = Pr {X2= j} = L
Pr {Xo = l} Pr {X 2= j IXo = l} = LPfO)pj~) =
l=l
l=l
k
==
k
L
Pr {Xl == l} Pr {X 2 == j
IX1 == l} == LPjl)Pj[
l=l
l=l
e cosi via, in generale possiamo scrivere: (n+m) Pj
k
==
,,(m) (n) LJPjl
v;
n,m==1,2, ...
(4.4)
[=1
e in forma matriciale:
Esempio 4.1 (Testa 0 croce). Sviluppiamo l'esempio del numero di successi nel lancio di una moneta ( 1 ) . Gli stati sono indicati can i numeri da zero in su, e possiamo supporre di partire al tempo zero can nessun successo, quindi pjO) == 1 per j == 0, pjO) == 0 per j > O. Se si assume che la probabilita di un successo (testa) sia pari a q (0.5 nel caso di moneta perfetta) Ie probabilita di transizione sono: Pi+1,i == 1
q,
Pi,i
== 1 -
q,
Pj,i ==
0
j
-# i, i + 1
Si noti pero che a stretto rigore si tratta di una catena infinita.
4.1 Generalita
55
e la matrice P ha il seguente aspetto (si ricordi che 10 stato di partenza associato alla colonna e 10 stato di arrivo e associato alla riga):
1-q 0 q 1-q
o o
P==
q
0
e
000 000 1- q 0 0 q 1- q 0
Calcoliamo le probabilita di stato agli istanti 1 e 2: dalle (4.4) otteniamo che p(l) == pp(O) e poiche p(O) == (1,0,0, ...), p(l) e dato dalla prima colonna di P: 1 P61 ) == 1 - q, ) == q .
pi
Per ottenere p(2) moltiplichiamo P per p(l) , ottenendo la combinazione lineare della colonna prima e seconda di P con coefficienti 1 - q e q:
pi
2
)
== (1 - q) q + q (1 - q) == 2q (1 - q) ;
Si puo intuire facilmente che la iterazione di questa procedura porta a definire la probabilita di stato all'n-esimo passo come una binomiale: j == 0,1, ..., n .
Anche le probabilita di transizione in pili passi seguono una struttura binomiale, perchc Pr {X n +m == i IXm == j} sara nulla per i < j mentre i ~ j corrisponde a ottenere i - j successi in n prove:
~~)
P1,J
=
(
n )
..
~-J
q i-j
(1 _
q )n-i+
j
i
'2 j .
Esempio 4.2 (Scommesse su testa 0 croce). Immag .iiamo uno scommettitore che punta ogni volta un euro sull'uscita della testa comincia con 3 euro, e si ritirera se esaurisce la somma a sua disposizione, OJ .pure raggiunge 6 euro. A ogni lancio, se il risultato e testa guadagna un eure, se e croce ne perde uno. Consideriamo come stato della catena la somma che possiede. A ogni lancio, se il risultato e testa essa aumenta di uno, se e croce diminuisce di uno. Se invece la catena e nello stato zero, il giocatore smette di puntare e quindi la catena rimane indefinitamente in tale stato. Lo stesso avviene se il giocatore ha raggiunto il suo scopo, cioe se la catena e arrivata nello stato 6. La matrice di transizione, sempre supponendo che la probabilita di testa sia q, e la seguente:
56
4 Catene di Markov
a
1 da ---+ 0
1
1 11- q
0 0 0 0 0 0
2
3 4 5 6
2
3
0
0
1-q
0 0
q
0
1-q
4 0 0 0
0 0 0 0
q
0
1-q
0 0 0
q
0
0 0
q
0
0
0
q
1
0
5 0 0 0 0
6 0 0 0 0
1-qO
Come si vede la matrice di transizione ha una struttura simile alla precedente, eccettuata la prima e l'ultima colonna che si riferiscono a stati che si comportano in maniera assorbente: cioe se la catena arriva in quello stato non se ne allontana pili. II vettore delle probabilita iniziali allo stato 0, avendo supposto che il giocatore comincia a giocare con 3 euro, sara p(O) == (0,0,0,1,0,0,0)' e quindi ad esempio: p(l) == pp(O) ==
p(2) = pp(l) =
(0,0,1 -
q,
0, q, 0, 0)'
(0, (1- q)2 ,0,2q(1- q) ,0,q2,0)'
e cosl via.
Esempio 4.3 (Passeggiata aleatoria). Con il termine passeggiata aleatoria (random walk) si indica il processo descritto dalla posizione di una parti-
cella che si muove su una retta in modo casuale: ad ogni passo si puo spostare verso sinistra con probabilita q, verso destra con probabilita p, 0 rimanere ferrna con probabilita (1- p - q). Per semplicit.a supporremo che gli spostamenti siano di lunghezza unitaria, quindi la ascissa al passo n si puo scrivere:
dove Zn puo assumere valori -1,0,1 con probabilita q, 1 - p - q, p, e le {Zj, j == 1, 2, ... } sono indipendenti. La catena descritta dalla posizione X n puo assumere come valori tutti i numeri interi, e ha matrice di transizione: a
1 da
k-1 k k+1
---+
k-1
k
k+1
q 0 0 ... 1-p-q q 0 p 1-p-q q p 1-p-q ... 0 0
0
p
cioe e una matrice a banda diagonale con 1 - p - q sulla diagonale principale, valori q al di sopra e valori p al di sotto.
4.1 Gcneralita
57
Nella teoria delle passeggiate aleatorie si considerano le barriere, cioe particolari stati che non possono essere superati a destra (barriere superiori) oppure a sinistra (barriere inferiori). Le barriere possono essere di tipo assorbente (se la catena una volta arrivata in quello stato vi rimane indefinitamente) oppure riflettenti (se la catena una volta arrivata in quello stato ritorna con certezza nello stato assunto precedentemente). Le distribuzioni di probabilita condizionate dal trovarsi in uno stato barriera sono percio diverse: se b e uno stato barriera assorbente, allora dato X n == b avremo X n + l == b con probabilita uno. Se invece b e una barriera riflettente, allora condizionatamente a X n == b, X n + l e con probabilita uno uguale a b-l (se e barriera superiore) oppure b+ 1 (se e barriera inferiore). Ad esempio consideriamo una passeggiata aleatoria con barriera riflettente superiore nello stato 3 e barriera assorbente inferiore nello stato -1. La matrice di transizione diventa:
a 1 da -1 0 1 2 3
---+
-1 1
0
q 0 I-p-q 0 0 0
P 0 0
1
2
0
0 0
q I-p-q P 0
3 0 0 0
q I-p-ql P
0
II caso precedente dello scommettitore e un esempio di passeggiata aleatoria con P == 1 - q (e quindi 1 - P - q == 0), una barriera assorbente inferiore in 0 e una barriera assorbente superiore nello stato 6.
Esempio
4.4 (Giorni di pioggia a Tel Aviv).
In un classico articolo Gabriel e Neumann (1962) proposero di utilizzare una catena di Markov per descrivere l'alternanza di giorni di pioggia e asciutti in alcuni mesi dell'anno a Tel Aviv. La catena ha quindi due soli stati: piove 0 asciutto, e i tempi si riferiscono ai giorni. Se attribuiamo il valore zero allo stato giorno asciutto e il valore 1 allo stato giorno di pioggia abbiamo una matrice di transizione a due righe e due colonne: p
== [POO POI] . PIO
PII
Poiche pero la somma degli elementi di ciascuna colonna e uno, possiamo esprimerle assumendo due sole incognite, ad esempio la probabilita di passare da un giorno di pioggia a un giorno asciutto POI == a e quella di passare da un giorno asciutto a uno di pioggia PIa == {3:
p==[I-{3 {3
a].
I-a
Per escludere casi degeneri assumeremo che 0 < a < 1 e 0 < {3 < 1. La semplicita dello schema probabilistico della catena a due stati permette di ricavare facilmente altre quantita interessanti. Ad esempio consideriamo la durata di una sequenza di giorni di pioggia, che
e una variabile aleatoria che
58
4 Catene di Markov
indichiamo con S. Dato che il giorno iniziale piove (X o == 1), perche sia S == k deve verificarsi simultaneamente Xl == 1, X 2 == 1, X 3 == 1,...,Xk- 1 == 1, Xk == O. Sfruttando la proprieta markoviana, la probabilita dell'intersezione di questi eventi puo essere scritta come prodotto di probabilita condizionate: Pr{XI == 1,X2 == 1, ... ,Xk -
== 1,Xk == 0 IXo == 1} == == Pr{X I == 11Xo == 1}Pr{X2 == 11X I == 1} x··· x Pr{Xk-1 == 11Xk-2 == l}Pr{Xk == 0 IXk- 1 == 1} == l
k-l POI == a ( 1 - a )k-l . == PII
(4.5)
Quindi S ha la distribuzione geometrica di parametro a (e il suo valor medio ella). Analogamente la durata di una sequenza di giorni asciutti e una variabile aleatoria geometrica di parametro (3. Notiamo che la (4.5) puo essere interpretata come la probabilita che, partendo da un giorno di pioggia, il primo giorno asciutto si verifichi esattamente dopo k giorni. E cioe, nella terminologia delle catene, la probabilita che il primo passaggio dallo stato 0 allo stato 1 avvenga esattamente dopo k passi.
4.2 Classificazione degli stati e delle catene Gli stati delle catene di Markov possono essere classificati a seconda della possibilita che si ha di passare da uno all'altro, oppure di tornare in uno stato dopo averlo visitato (cioe dopo che la catena ha assunto quello stato come valore a un certo istante). Prima di tutto, si dice che uno stato e periodico di periodo h se e possibile ritornarvi solo dopo un numero di passi multiplo di h, ovvero quando e uguale a zero per tutti gli n che non siano multipli di h. Non prenderemo in considerazione questa eventualita, e quindi supporremo che nessuno degli stati della catena sia periodico, in altre parole che tutti gli stati siano aperiodici (in questo caso anche la catena e detta aperiodica). Definiamo ora le probabilita di primo passaggio e quelle di primo ritorno. La probabilita di primo passaggio dallo stato j allo stato i in n passi si riferisce all'evento seguente: la catena all'istante t e nello stato i, negli n - 1 istanti seguenti e in stati diversi da i, e all'istante t + n e nello stato i:
p;;)
ii~n) Naturalmente
= Pr{Xn = i.X; # i (r = 1,2, ... ,n -1) IXo =
r: ==
j} .
Pij; se sommiamo rispetto a n otteniamo: 00
iij
= Lii~n) n=l
che e la probabilita di raggiungere prima 0 poi 10 stato i partendo dallo stato j, detta probabilita di passaggio da j a i. Se calcoliamo il numero di passi medio:
4.2 Classificazione degli stati e delle catene
59
00
mij
= L nfi~n) n=l
chiameremo mij tempo medio di passaggio da j a i. Analoghi concetti possono
fY;)
essere estesi al ritorno nello stesso stato: e la probabilita che partendo dallo stato j, ci si ritorni per la prima volta dopo n passi:
Ii;) == Pr {X
n
== j, X; =F j (r == 1,2, ..., n - 1) IXo == j} .
Anche qui sommando rispetto ansi ottiene la probabilita di ritorno nello stato, cioe la probabilita che la catena, partendo dallo stato j, ci ritorni prima o poi: 00
!Jj = Lfj~) n=l
e il tempo medio di ritorno: 00
mj
= Lnfj~) . n=l
Uno stato j si dice transitorio se Ijj < 1, cioe il ritorno nello stato non Se invece si ha Ijj == 1, e quindi si ritorna prima 0 poi nello stato con probabilita uno, 10 stato si dice ricorrente. In questo caso, a seconda che il tempo medio di ritorno mj sia finito 0 infinito, 10 stato si dice ricorrente positivo 0 ricorrente nullo. La classificazione degli stati che abbiamo proposto e basata sulle probabilita di primo passaggio 0 di primo ritorno, che non sono di calcolo immediato, rna possono essere espresse anche in termini delle probabilita di transizione p~7). Infatti esse sono legate da semplici relazioni che adesso introduciamo.
e certo.
L'evento (X n == i IXo == j) la cui probabilita e p~7) puo essere decomposto distinguendo quando e avvenuto il primo passaggio da j a i, che puo essersi verificato ai passi 1,2, ..., n. Poiche queste possibilita sono incompatibili, possiamo scrivere:
n
==
L Pr [primo passaggio in i al passo rlXo == j} Pr {X
n
== i IXr == i}
r=l n
== 'Z:: """'" f~:)p~~-r) 1,) 1,1,
n == 1,2, ...
r=l
dove abbiamo indicato per completezza p~~) valida anche per i == j e quindi:
(4.6) 1 per ogni i. La relazione
e
60
4 Catene di Markov
n == 1,2, ... Queste relazioni possono essere sintetizzate definendo lc funzioni generatrici delle probabilita:
I: fi~n) sn 00
Fij (s) =
Pij (S )
n=l
_
-
00
~
(n) n
~Pij S
Vi,j.
n=l
Infatti moltiplicando i membri della relazione (4.6) per s" e sommando rispetto a n da 1 a infinito si ricava:
e ancora:
Fi j (s) == Pi j (s) / [1
+ r; (s)]
Vi,j.
Notiamo che la probabilita di ritorno nello stato j, fjj, e uguale a F j j (1) == + Pj j (1)]. Se Pj j (1) efinito, allora F j j (1) esempre minore di uno. Ne segue che uno stato j e transitorio se e solo se Pj j (1) < 00. Ma Pj j (1)
Pj j (1) / [1
PJ7) , n = 1,2, ..., e quindi uno stato e ricorrente se e solo se la serie 2::'=1 PJ7) e divergente. Se invece la serie e convergente, 10 stato j e transitorio. Si puo inoltre dimostrare che se 10 stato j e ricorrente, allora il limite per n -+ 00 di PJ;) e uguale al reciproco del tempo medio di ritorno mj (e se mj non e finito allora PJ7) ----+ 0). Questo risultato e noto come teorema
e la
serie dei
ergodico per le catene di Markov, rna sul concetto di ergodicita torneremo nei capitoli successivi. Passiamo adesso a considerare gli insiemi e sottoinsiemi di statio Si dice che due stati i e j comunicano se e possibile passare dall'uno all'altro in un numero finito di passi, cioe se esiste un intero m tale che p~?) > 0 e un intero
r tale che PJ:) > o. E stato dimostrato che se due stati comunicano devono essere dello stesso tipo (transitori 0 ricorrenti). Chiamiamo chiuso un insieme di stati C tale che tutti gli stati di C comunicano tra loro, rna non comunicano con gli stati non appartenenti a C, cioe Pij == 0 se j E C e i ~ C. Se la catena entra in un insieme chiuso di stati, permane indefinitamente all'interno dell'insieme. E stato dimostrato che gli stati ricorrenti di ogni catena possono essere decomposti in maniera unica in insiemi chiusi, all'interno di ciascuno dei quali tutti gli stati comunicano e sono dello stesso periodo (oppure aperiodici) e tutti ricorrenti nulli 0 ricorrenti positivi. La catena in sostanza, si puo suddividere in sottocatene chiuse, e una volta che si sia entrati in una di queste non se ne puo uscire. II caso pili semplice, interessante e adeguato alle applicazioni e che non ci siano sottocatene, e quindi non esistano sottoinsiemi chiusi di statio Cia avviene quando tutti gli stati comunicano, ovvero comunque scelti due stati i e j esistono sempre p~?) > 0 e > O. In questo caso la catena viene detta irriducibile. Una catena irriducibile e aperiodica viene anche chiamata ergodica.
P]:)
4.3 Distribuzioni di equilibria
61
4.3 Distribuzioni di equilibrio Se consideriamo una catena irriducibile e aperiodica vediamo che ogni stato puo essere rivisitato un numero indefinitamente grande di volte, e procedendo indefinitamente la catena continuera a muoversi tra tutti gli stati (perche non ci sono sottoinsiemi chiusi). Abbiamo indicato con p;n) == Pr{Xn == j} Ie probabilita di trovare la catena nello stato j al tempo n, e la irriducibilita implica che da un certo n in poi, tutte queste probabilita sono strettamente positive per ogni j. Ci possiamo domandare allora se queste quantita ammettono limite, ovvero se esiste una distribuzione {1r j} con 1r j > 0 Vj, E 1r j == 1 j
e:
(4.7)
Vj .
La risposta e affermativa: ogni catena irriducibile e aperiodica ammette una distribuzione limite, detta anche distribuzione di equilibrio, per la Quale vale la (4.7). Senza addentrarci per il momento nella dimostrazione, esaminiamo invece il significato di questa proprieta. Se consideriamo le equazioni di Chapman e Kolmogorov (4.4) e prendiamo illimite n ---+ 00, indicandolo con 1rj, otteniamo: k
1rj
==
'"""" (m) ~Pjl 1rl
m == 1,2, ...
l=l
e in forma matriciale, indicando il vettore delle probabilita (1r1, 1r2, ... , 1rk )' SI. 0 tt'rene: 1r
== P'":»
m==I,2, ...
1rj
con
1r
(4.8)
Quindi se le probabilita iniziali della catena sono date dalle 1rj == Pr {Xo == j}, allora la distribuzione di probabilita dello stato rimane uguale a 1r a ogni passo (il che spiega il nome di distribuzione di equilibrio). La (4.8) indica anche che la distribuzione limite 1r e completamente determinata dalla matrice P, cioe dalle probabilita di transizione. Vediamo come determinarla. Se prendiamo m == 1 si puo scrivere:
(P - I) 1r == 0 che costituisce l'equazione caratteristica della matrice P in corrispondenza all'autovalore ,\ == 1. In effetti, la matrice P ha un autovalore uguale a 1: infatti, se ricordiamo che la somma degli elementi di ogni colonna di P euguale aI, ne segue che la somma degli elementi di ogni colonna di P - I e uguale al vettore nullo; pertanto P - I e singolare. In conclusione 1r e autovettore (destro) di P associato all'autovalore ,\ == 1, ovviamente normalizzato in modo che E 1rj == 1. Le particolari caratteristiche della matrice P assicurano (e il j
cosiddetto teorema di Perron e Frobenius) che gli eIementi dell'autovettore
62
4 Catene di Markov
sono tutti positivi, che l'autovalore uguale a 1 e il massimo autovalore, che e semplice (ha molteplicita uno), e che tutti gli altri autovalori sono in modulo minori di uno. Inoltre anche gli elementi della matrice potenza P" hanno un limite preciso: al crescere di n tutte le colonne di P" convergono al vettore di equilibrio 7r: . (n) 1im Pi' == 7ri Vi,j. (4.9) n~oo
J
Questa proprieta si spiega dal punto di vista logico, considerando che dopo un numero sufficiente di passi non ha pili rilevanza 10 stato da cui si e partiti, rna prevalgono Ie caratteristiche della catena che attribuiscono a ciascuno stato la sua probabilita di occupazione. Osserviamo che in realta l'esistenza della distribuzione di equilibrio di stato proprio conseguenza di questa proprieta del limite delle probabilita di transizione. Infatti dalla (4.4) si ottiene:
e
k
p;n) = LP;7)piO) l=1
e prendendo illimite per n
-+ 00: k
k
lim p~n) == "p(O) lim p\n) == "p(O)7r' ==7r' .
Z::
n~oo J
l=1
l
n~oo Jl
Z:: l=1
l
J
(4.10)
J
Dal punto di vista matematico, invece, la proprieta (4.9) si puo spiegare ricorrendo alla rappresentazione spettrale della matrice P. Siano a1, ... , ak gli autovettori (destri) di P (normalizzati in modo che la somma degli elementi di ciascun vettore sia pari a 1), e sia H == (aI, a2, ..., ak) la relativa matrice, e A == diag (AI, A2, ..., Ak) la matrice diagonale degli autovalori, per cui PH == HA == Lj Ajaj. Assumiamo per semplicita che esista l'inversa H- I e ne indichiamo
le righe con b~ per cui H- I == (bl , b2, ..., bk)', si ha pre e postmoltiplicando H- 1 p == AH- 1 , ovvero bjP == Ajbj, quindi bj sono autovettori a sinistra, normalizzati in modo che bjaj == 1. Possiamo scrivere P == H AH- 1 e quindi anche P == Lj Ajajbj. Ricordiamo che Al == 1 e il relativo autovettore destro e 7r, mentre poiche I' P == I' l'autovettore a sinistra associato a Al == 1 e proporzionale a I' e anzi I' realizza la normalizzazione richiesta perche l'7r == L 7rj == 1. Quindi al == at • b1 == 1. Per la matrice potenza e immediato k
che P" == HAn H- 1 == L Ajajbj. Prendendo il limite per n
-+ 00,
poiche
j=1
1 == Al
> IAj I (j == 2, ... , k) otterremo: lim P" == AI a I b~ == 7r I' == (7r, tt, ... , 7r) .
n~oo
Esempio 4.5 (Pioggia a Tel Aviv). Poiche la matrice delle probabilita di transizione e:
4.3 Distribuzioni di equilibrio
63
1 - ;3 a ] [ ;3 I-a
p==
== (1fo, 1f1) puo essere ricavata dal sistema
la distribuzione di equilibrio 1f (P - I)1f == 0 che si scrive:
-;31fO + a1f1 == 0 . { ;31fo - a1f1 == 0 Tenendo conto pero che 1f1 == 1 - 1fo perche
1fo
I: 1fj
==
1fo + 1f1
== 1 otteniamo:
;3 1f1 == a +;3 .
a
==--
a+;3
Si puo facilmente ricavare che gli autovalori di P sono A1 == 1 e A2 == 1 a - ;3. In corrispondenza a A2 == 1 - a - ;3 l'autovettore e proporzionale a (1, -1) I (come si vede solo per A == 1 e assicurato che gli elementi siano positivi). Quindi possiamo scrivere:
H ==
[ai
f3 1 ] -1 a+13
H- 1 -
-
[1a+13 - a~13 1]
[1
0 ]
A- 01-a-;3
13
e si verifica facilmente P == H AH- 1. Le matrici di transizione in n passi sono date da:
Pn
[a~13 1] a~f3 -1
;3t ] [1 a~f3 == _ 1 [aa] + (l-a-;3t [{3 -a] .
=
HAnH-1
a
+ f3
=
f3 f3
a
[1 0 0 (1 - a -
+ f3
-
1] a~f3
-(3 a
Poiche 11 - a - 131 < 1 la seconda matrice tende ad annullarsi per n lim n-too
tr: == [a/ (a + 13) a/ (a + 13)] 13/ (a + 13) 13/ (a + 13)
==
---+ 00
e:
[1f O 1f0] 1f1 1f1 .
Esempio 4.6 (Scommesse e la rovina del giocatore). Se riprendiamo l'esempio 4.2 del paragrafo precedente vediamo che la catena descritta non e irriducibile, poiche gli stati 0 (bancarotta) e 6 (raggiungimento dello scopo) sono assorbenti, quindi costituiscono un sottoinsieme chiuso. E evidente che essendo positiva la probabilita di raggiungere questi due stati, la probabilita di rimanere fuori, cioe di restare tra gli stati 1 e 5, durante n passi tende a zero quando n tende all'infinito, quindi l'assorbimento e certo. II calcolo della probabilita di assorbimento nei vari stati e in diverse situazioni si puo ottenere basandosi su una relazione ricorsiva che coinvolge le probabilita di primo passaggio nello stato assorbente. Senza entrare nei particolari (per i quali si veda ad es. Karlin (1966), p.72), possiamo fornire i seguenti risultati. Se q e la probabilita
64
4 Catene di Markov
di vincere e p == 1 - q, si comincia con r euro, e si termina il gioco quando si raggiunge il capitale m, allora la probabilita di rovina (assorbimento nello stato zero) e la seguente: r m
1--,
(4.11)
p==q.
Se supponiamo che il gioco non abbia un confine superiore, e cioe che 10 scommettitore continui indefinitamente a giocare, la probabilita di rovina si ottiene prendendo il limite per m ~ 00, e risulta pari a 1 se p 2: q, cioe q ~ 1/2, e pari a (p/q)T se q > 1/2. Ne concludiamo che anche nel caso di un gioco equo (q == 1/2) il protrarsi indefinito della scommessa porta alla rovina certa. Esempio 4.7 (Passeggiate con barriere semi-rifiettenti). Consideriamo una semplice catena a tre stati 0,1 e 2, con barriera inferiore in e superiore in 2. La probabilita di passare nello stato superiore e q, quella di passare in uno stato inferiore e p. Se la catena arriva in uno stato barriera, la discesa (0 salita) viene impedita e la catena rimane ferma nello stato barriera, oppure si muove in direzione opposta. Percio se si e nello stato ci si spostera in 1 con probabilita q, e si rimarra in con probabilita 1 - q; analogamente avviene con la barriera riflettente superiore. La matrice di transizione e la seguente:
°
°
°
p==
pO] 1-q q I-p-q P [ ° q 1-p
.
Questa catena e irriducibile e aperiodica e quindi ammette distribuzione di equilibrio. Per ottenerla possiamo risolvere il sistema (1- P)1r == che risulta:
°
0]
q P-p -q + q -p [ -q P
°
Tenendo conto del vincolo
1rl
+ 1r2 + 1r3
p2
1ro
== - - - - p2 + q2 + pq
1rl
O] [1r1rl 1r2
[0]° °
== 1 si ottiene facilmente:
pq
== - - - - p2 + q2 + pq
Notiamo che se p == q cioe la probabilita di muoversi e uguale nelle due direzioni, i tre stati hanno la stessa probabilita limite pari a 1/3, e cia indipendentemente dalla probabilita di restare fermi.
Esempio 4.8 (La diga). Le catene di Markov sono state adoperate per schematizzare il comportamento dei bacini artificiali. Lo stato della catena indica la misura del contenuto del bacino a intervalli fissi (ad esempio un giorno, 0
4.3 Distribuziani di equilibria
65
un mese); tra una misurazione e l'altra si suppone che vi sia un affiusso di acqua pari al volume j con probabilita qj (j == 0,1,2, ..., m), L qj == 1 e un deflusso costante pari a l , se la diga non e vuota (altrimenti nessun deflusso). Illivello massimo e m, e se l'affiusso supera m viene disperso. La matrice delle probabilita di transizione e del tipo: 1
0 0 1 2 3
qo ql q2 q3
qo ql q2 q3
3 0 0 qo ql
2 0
qo ql q2
... m-1
m 0 0 0 0
0 0 0 0
m-1 qm-l qm-l qm-2 qm-3 ... ql qo m qm qm q{ q2 q:n-2 q:n-l dove si e posta q; == 1 - qo - ql - ... - qm-j-l == qm + qm-l + ... + qm-j· Anche qui esiste una distribuzione di equilibrio, anche se ricavarla e molto pili difficile. In questo caso possono essere utilizzate Ie funzioni generatrici delle probabilita. Definiamo:
L qj zj
L 00
00
Q (z) ==
II (z)
==
JrjZ
j
j=O
j=O
e per semplificare il problema supponiamo che non vi sia limite superiore alla capacita massima. La relazione di equilibrio Pit == Jr puo essere cost scritta:
(si veda ad esempio Cox e Miller (1965), p. 115) e moltiplicandola per sommando rispetto a k si ottiene: 1 JroQ (z) - -JroQ (z)
z
da cui:
zk
e
1
+ -Q (z) II (z) == II (z) z
II (z) = JroQ (z) (z - 1) . z - Q (z)
Se poniamo:
C(z)= l~Q(z) 1-z da cui:
1_C(z)=Q(z)-z 1-z possiamo scrivere:
_ JroQ(z) _ ~ j II (z) - 1 _ C (z) - JroQ (z) L.. C (z) . J=O
(4.12)
66
4 Catene di Markov
Ora:
C (1) = lim 1 - Q (z) = Q' (1) = a z-*l1- z
(affiusso medio)
e quindi, dato che Q(I) ==
2: j
qj == 1, si conclude che:
lim II (z) ==
L
Kj
00
z-*l-
< CX)
se e solo se
a 0.5, per la crgodicita. Poniamo KO == 1 - 2q == p - q. La funzione generatrice delle probabilita dell'affiusso e:
e quindi: _
II ( z ) -
II denominatore
II(z)
ez -
=]fO
KO
(p+ qz2) (z -1) 2. Z - P - qz
p - qz2 == (z - 1) (p - zq) percio:
p+qz 2
p 1 - z (q/ p)
= ]fo
p
00 j (p+ qz 2) Lz
()j
j =0
fJ..
p
()j + L - z J
q , q 00 ==KO+ZKO-+LKOZJ P j=2 P q
== KO + ZKo- + P
00
q
L zJ j=2 { 00.
'
J
KO ( - )
q
00
P
j=2
'KO
== KO + ZKo- + Lz J -
P
P
(
q
-
P
)j-1
KO
'+2
j=O P
( q q -
)j
P
KO
q
P
P
+ -q (-)
, 2}
J-
==
•
In conclusione la distribuzione di equilibria ponendo q/p == r
e la seguente:
4.4 Processi non markoviani
Pr {X
==
O}
==
(p - q) ==
67
1-r 1+r 1-r
-
Pr{X=l}=(p-q)qjp= l+rr
Pr{X=k}=P~q(~)k = C~r)rk,
k=2,3, ...
L'andamento fondamentale delle probabilita e geometrico rna e alterato nella probabilita di zero e di 1 (che sono inferiori). Ad esempio se P == 2/3 si ottiene Pr{X == O} == 1/3, Pr{X == 1} == 1/6 e Pr{X == k} == 1/2 k,k == 2, .... Si puo ottenere facilmente un risultato in modo analogo (ed e lasciato come esercizio) quando l'affiusso puo assumere i tre valori 0,1 e 2 con probabilita Po, PI e (1 - Po - PI), purche naturalmente l'affiusso medio sia inferiore a uno (e quindi bisogna imporre la condizione Po > 1 - Po - PI). Una impostazione del tutto simile e utile come schema aleatorio per l'analisi delle file di attesa, cioc quando si vuole studiare la distribuzione di una risorsa limitata e che richiede un certo tempo di espletamento, tra pili richieste che pervengono in sequenza. Esempio tipico e la richiesta di un determinato servizio (ad esempio pagamenti 0 riscossioni) a uno sportello da parte di un insieme di clienti che arrivano in tempi successivi. Consideriamo uno sportello con un solo punto di servizio, e supponiamo che il tempo necessario a servire un cliente sia deterministico e pari a uno. Invece gli arrivi allo sportello avvengono indipendentemente l'uno dall'altro, e il numero di arrivi nell'unita di tempo e una variabile aleatoria. Se consideriamo la grandezza "numero di clienti in attesa" essa descrive una catena di Markov analoga a quella che abbiamo preso in considerazione, e i risultati sono analoghi.
4.4 Processi non markoviani Finora abbiamo esaminato processi in cui valeva la proprieta markoviana, essenziale per schematizzare la situazione attraverso una catena. Naturalmente spesso la proprieta di Markov non e soddisfatta, anzi il valere di questa proprieta va considerato pili un'eccezione che la regola, in quanto anche processi di struttura molto semplice non la soddisfano come mostrato dall'esempio seguente.
Esempio 4.9. Consideriamo una collezione di variabili indipendenti con distribuzione normale {et,t == 1,2, ... }, e costruiamo un processo prendendo semplicemente la differenza tra due valori contigui:
Data la normalita ciascuna X n e dipendente cia en e cia en-I mentre e indipendente da tutte le altre variabili del processo {et}. Inoltre, poiche
68
4 Catene di Markov
X t - 1 == et-l - et-2 e quindi et-l == X t relazione ricorsiva per il processo {Xt } :
1
+ et-2,
sostituendo si ottiene una
Ne segue che la distribuzione di X; condizionata a X t - 1 == x e uguale a quella di -x + et - et-2, e quindi non e indipendente da X t - 2 (perche questo non e indipendente da et-2). Se decidiamo di condizionare anche a X t - 2 , dato che in modo analogo al precedente si ottiene et-2 == X t - 2 + et-3, ne segue che
e quindi la distribuzione di X; condizionata a X t - 1 == x, X t - 2 == y coincide con quella di -x - y + et - et-3, che non e indipendente da X t - 3 , e cosl via. Pertanto questo semplice processo non e markoviano. Esiste pero, in alcuni casi, la possibilita di riportarsi a una catena di Markov definendo in modo diverso gli stati, cioe allargando il concetto di stato fino a includere piu valori consecutivi del processo. Un esempio chiarira meglio questa possibilita. Esempio 4.10. Consideriamo a tempi equidistanziati un'apparecchiatura che puo essere funzionante (stato 1) oppure in avaria (stato 0) supponendo che a ogni passo la probabilita di passare dal funzionamento all'avaria sia p; se la macchina e in avaria, il tempo di riparazione e aleatorio e quindi si assume che la probabilita che venga riparata in tempo per il passo successivo sia (3. II processo forma quindi una catena con matrice di transizione:
o o 1 - {3 1
{3
1 P 1- p
Ora, supponiamo invece che il tempo d'intervento sia comunque superiore a un passo, e che quindi quando l'apparecchiatura va in avaria rcstera sicuramente in avaria anche al passo successivo, mentre la probabilita che venga riparata prima del secondo passo resta (3. La proprieta di Markov non e piu valida poiche: Pr {X n + 1 == 0 IX n == 0, X n -
1
==
I} == 1
Pr {X n + 1 == 0 IX n == 0, X n -
1
==
O}
== 1 - {3
e quindi la distribuzione di X n + 1 dipende non solo da X n rna anche da X n - 1 . Proviamo allora a ridefinire il concetto di stato, considerando come stati lc cop pie di valori assunti dal processo ai passi n e n - 1. Qui otteniamo quattro stati al passo n: 11
(X n
==
1, X n -
1
==
10
(X n == 1, X n -
1
== 0)
1)
4.4 Processi non markoviani
01
(X n
Xn-
1
== 1)
00
(X n == 0, X n -
1
== 0)
== 0,
69
Con questa schematizzazione, poiche 10 stato contiene informazioni relative anche ai passi precedenti, si recupera la proprieta markoviana, cioc il processo definito dai quattro stati precedenti diventa una catena di Markov con matrice di transizione seguente: a 1 da 00 01 10 11
---+
11 00 01 10 1 - j3 1 0 0 0 0 p P j3 0 0 0 0 1-pl-p 0
L'idea di ampliare 10 spazio degli stati ha una validita generale e puo essere utilizzata efficacemente se le distribuzioni condizionate dipendono da un numero finito di valori precedenti. In altri termini, se la probabilita dei valori assunti da X n dipende dai valori precedenti fino a X n - m , si puo considerare il processo (multivariato) Yn == (X n , X n - 1 , X n - 2 , ... , X n - m + 1 ) anch'esso discreto se X n e discreto (anche se il numero degli stati cresce esponenzialmente con m). Poiche:
il processo {Yn } descrive una catena di Markov. Questa tecnica viene usata spesso anche nel caso di processi a parametro discreto e valori continui, perche permette di descrivere pili facilmente anche modelli rappresentativi e di sfruttare la proprieta di Markov, e ha portato a un importante capitolo della modellistica per serie temporali che viene chiamato dei modelli nello spazio degli stati (state-space models), e verra introdotto sommariamente nella parte dedicata alla previsione.
5 Processi stazionari
Si illustrano le caratteristiche dei processi aleatori a valori continui e parametro discreto, con particolare riguardo a quelli stazionari, affrontando sia l'analisi nel dominio temporale sia quella nel dominio frequenziale, e accennando allo studio delle relazioni tra due processi.
5.1 Introduzione Consideriamo in questo capitolo i processi aleatori con spazio del parametro discreto, coincidente per comodita con l'insieme dei numeri naturali, e a valori continui, cioe costituito da variabili aleatorie che possiedono distribuzioni di probabilita assolutamente continue. In realta la forma delle distribuzioni di probabilita non sara l'elemento centrale di interesse (a parte la distinzione se essa e gaussiana oppure no), mentre I'analisi sara centrata essenzialmente sui momenti (e principalmente sui momenti secondi). Siamo nel campo propriamente detto dell'analisi delle serie temporali, e la classe di processi aleatori a cui si fa costante riferimento e quella dei processi stazionari, 0 pili precisamente dei processi stazionari al secondo ordine, caratterizzati dalle proprieta:
== J1 Cov (X s , Xt) == r (s - t) E (Xt )
costante per ogni t dipende solo dalla differenza
Is - tl .
Per eliminare casi patologici e degeneri e sveltire la trattazione, supporremo sempre che i momenti di ordine primo e secondo siano finiti. La motivazione del considerare processi stazionari, dal punto di vista logico, risiede nel fatto che assumiamo una certa omogeneita di comportamento nel fenomeno che si studia: questa condizione e essenziale per poter sperare di prevedere il futuro traendo insegnamento dal passato. Rinunciare a ipotizzare che il comportamento futuro di un fenomeno rispecchi Ie caratteristiche
72
5 Processi stazionari
Fig. 5.1. Serie con trend
fondamentali che ha mostrato nel passato rende inutile la conoscenza di quest'ultimo e contraddice l'assioma su cui si basa la previsione statistica. E vero che la ipotesi di stazionarieta (pur debole solo fino al secondo ordine ) impone al processo una rigidita nel tempo che pochi fenomeni naturali, rna specialmente socio-economici, manifestano: la media sempre uguale, la variabilita sempre uguale. Sono esclusi pertanto tutti gli andamenti tendenziali crescenti o decrescenti (il cosiddetto trend) e anche fenomeni di aumento della variabilita, caratteristiche che invece incontriamo frequentemente. Ma a questo inconveniente si ovvia frapponendo logicamente tra i dati e il processo aleatorio una operazione di trasformazione statistica, costruendo cioe delle serie trasformate che evidenzino le caratteristiche di omogeneita tipiche di un processo stazionario. Approfondiremo la questione (non esente da controversie) nei paragrafi successivi, rna per chiarire quanto affermato e bene anticipare un semplice esempio. Se abbiamo rilevato una serie che presenta un andamento crescente regolare come quello della Fig. 5.1, e evidentemente difficile pensarla come realizzazione di un processo aleatorio a media costante: qui sembra che ad essere pili 0 meno costante da un istante all'altro sia proprio l'incremento subito dalla serie. Cia suggerisce di considerare proprio la serie dei dati relativi agli incrementi tra un dato e il successivo, detta anche serie delle differenze: Yt == Xt - Xt-l .
(5.1 )
Se noi disegniamo il grafico dei dati differenza Yt, riportato nella Fig. 5.2, vediamo che qui la stabilita e una caratteristica direttamente della media: quindi una semplice trasformazione dei dati (5.1) ci ha portato a una nuova serie Yt che si puo pensare senza perplessita come generata da un processo stazionario. Cercheremo allora di studiare le proprieta del processo stazionario associato alla Yt invece che alla Xt, purche poi siamo in grado di costruirci
5.1 Introduzione
73
4.t
t.4
.6
-l.t
-3.0
--...-...-_................_--........----------.......
.........
t40
-.....--------------...-...-_~ t64
300
Fig. 5.2. Serie della Fig. 5.1 differenziata
strumenti teorici che ci facciano risalire dalle proprieta della Yt a quelle della Xt . Uno strumento di questo tipo e costituito dalla teoria del filtraggio che vedremo pili avanti in questo capitolo. Lo sforzo di far rientrare nell'ambito dei processi stazionari anche fenomeni che apparentemente non 10 sono, anche a costo d'approssimazioni, si spiega con i grossi vantaggi che la stazionarieta comporta sotto il profilo metodologico. I processi stazionari sono caratterizzati dalla funzione di autocovarianza (0 autocorrelazione) che e costituita da una successione numerabile di valori, e questo ne permette una rappresentazione su uno spazio di Hilbert (in termini irnprecisi rna espressivi una generalizzazione a infinite dirnensioni di uno spazio metrico) e l'estensione di tutta una serie di risultati di natura geometrica. Di particolare rilievo la possibilita di estendere l'analisi di Fourier ai processi aleatori stazionari. Si tratta di interpretare il processo come la sovrapposizione additiva di componenti cicliche sinusoidali dotate di diversa periodicita, e ciascuna moltiplicata per un coefficiente aleatorio. L' analisi della diversa rilevanza delle componenti a seconda della loro periodicita (0 come anche si dice, della loro frequenza) viene chiamata analisi spettrale. Questo tipo di sviluppi non e naturalmente indipendente dalle caratteristiche dei momenti secondi, rna c'e una relazione assai stretta (come vedremo in seguito). Nello studio dei processi stazionari, si usa individuare una bipartizione in due campi di interesse, chiamati domini: il dominio dei tempi (0 temporale) e il dominio delle frequenze (0 frequenziale). Siamo nel dominio temporale quando si studiano le caratteristiche del processo in quanto successione di variabili nel tempo, e si utilizzano strumenti riconducibili alle autocovarianze; siamo nel dominio frequenziale quando ci si riferisce alle proprieta delle diverse componenti cicliche che compongono il processo e si usano rnetodi tipici dell'analisi spettrale. Illustreremo separatamente i principali sviluppi relativi
74
5 Processi stazionari
ai due domini nei prossimi due paragrafi, e nel successivo chiariremo i legami tra Ie principali grandezze caratteristiche dei due domini. Per la comprensione dell'analisi nel dominio delle frequenze e indispensabile la conoscenza dei fondamenti dell'analisi di Fourier (a volte chiamata analisi armonica) che sono riportati nell'Appendice A.
5.2 Analisi nel dominio temporale Lo studio nel dominio dei tempi corrisponde all'angolo visuale pili naturale nell'analisi di un processo stazionario, poiche parte direttamente dai dati e dai lora momenti. Abbiamo visto come la stazionarieta in senso deb ole al secondo ordine implichi che la media delle variabili X, sia uguale per ogni t: E (Xt ) == u. Quindi J-l costituisce un termine costante e invariante rispetto al parametro. Per semplificare le formule che deriveremo, sara spesso como do eliminare la media, supponendo che sia J-l == 0, 0, in alternativa, considerando, invece del processo Xt, il processo degli scarti dalla media It == X; - u. Le conclusioni che troveremo relativamente ai momenti centrali valgono evidentemente per X, come per It, rna spesso l'eliminazione della media u rende gli sviluppi pili semplici. II nucleo dell'analisi risiede quindi nei momenti secondi, che vengono sintetizzati dalla funzione di autocovarianza:
che come abbiamo gia notato, in conseguenza della ipotesi di stazionarieta dipende solo dalla differenza dei parametri delle due variabili covariate. Come gia anticipato, per coerenza definitoria indicheremo con ,(0) la varianza del processo, e le proprieta della operazione di covarianza implicano:
,(h)==,(-h),
I, (h)1 0 possiamo definire la matrice analoga alla precedente di dimensione h, che prende il nome di matrice di autocovarianza, e l'analoga matrice di autocorrelazione:
R(h) ==
1
r (1)
r (1) r (2)
1
r (2) r (1)
r (1)
1
... r(h-1) ... r (h - 2) ... r (h - 3)
r (h - 1) r (h - 2) r (h - 3) ...
1
Le matrici r(h) e R(h) sono di Toeplitz per ogni h, quindi sono simmetriche (rispetto a tutte e due le diagonali) e definite positive, quindi il determinante e maggiore di zero per ogni h. Inoltre si puo dimostrare che il determinante
76
5 Processi stazionari 1. 00
.50
.oo~
......,
...-
.......
-0.50
-1. 00
...........-...-......_ ....._ ....
.....-
--...-_~
......_ ......_ ......_ .-...---.l..... ~4
36
Fig. 5.3. Esempio di correlogramma
della matrice di autocorrelazione R( h) e minore 0 uguale a uno, e quello della matrice di autocovarianza r(h) e minore 0 uguale a ,(O)h. Una ulteriore importante proprieta delle matrici di questo tipo, che si riferisce allo spettro, verra discussa nel paragrafo 5.4. Le caratteristiche dei momenti secondi vengono spesso sintetizzate graficamente attraverso il correlogramma, che e il grafico della funzione di autocorrelazione r(h) in funzione di h, disegnato solo per valori positivi dell'argomento (in quanto e una funzione simmetrica): i punti sono generalmente congiunti all'asse delle ascisse mediante segmenti verticali, e naturalmente l'intercetta e r(O) == 1. Un esempio e in Fig. 5.3 dove e riportato il caratteristico andamento decrescente verso zero in modulo dell'autocorrelazione (il motivo di questo andamento verra chiarito meglio in seguito, quando parleremo di ergodicitaj.Uno sguardo al correlogramma permette di rendersi subito conto della forza dell'associazione lineare tra le variabili del processo, a seconda della lunghezza dei tratti verticali: un processo a variabili incorrelate, caratterizzato quindi da l h == O r(h)= { Oh~O denota assenza di legami lineari tra le variabili e il suo correlogramma non ha segmenti verticali, mentre processi con forte autocorrelazione presentano invece (almeno per qualche h) segmenti molto lunghi. La ascissa h, che denota 10 sfasamento temporale tra le due variabili di cui si misura la correlazione X, e Xt+h, viene comunemente detto ritardo 0 lag. II correlogramma fornisce informazioni anche sul modo in cui si esplica la dipendenza lineare: a ogni tipologia di andamento caratteristico del processo corrisponde uno schema tipico d'andamento del correlogramma. Per esempio, se la serie tende a oscillare attorno
5.2 Analisi nel dominio temporale
Fig. 5.4. Serie simulate: (a) processo AR(1), .fdF (,\) .
(5.8)
Poiche F ('if) == L.: == ,(0), la misura F distribuisce la varianza del processo sull'asse delle frequenze, attribuendo aIle N frequenze Aj la loro parte di spiegazione della varianza; la F e una misura totalmente discreta (a salti), come anche totalmente discreta e la Z (A), con la differenza che mentre la (5.8) e un integrale ordinario che definisce una funzione ,(h), la (5.7) e un ente aleatorio (e chiamato integrale stocastico) ed e da intendersi come una uguaglianza che assume validita per ogni realizzazione del processo, se le Z (A) sono calcolate in funzione delle {Xt } . Si noti che abbiamo adottato la convenzione di definire la misura continua a destra, quindi F(A)== F(A+) (1). L' analisi spettrale di un processo stazionario si basa essenzialmente sui seguenti due teoremi detti di rappresentazione spettrale di un processo stazionario.
a;
Teorema 5.1 (di Cramer e Kolmogorov). Per ogni processo stazionario {X t } esiste un processo aleatorio continuo {Z (A)} definito per per cui vale l'uguaglianza in media quadratica:
-1r
\2)][Z (A3) - Z (A4)] } = 0 E
IZ (A)
81
- Z (w)1
2
==
F (A) - F (w)
A>
W .
II teorema di rappresentazione spettrale e d'importanza fondamentale per la teoria dei processi stazionari, ed e stato molto studiato. Priestley (1981), a cui si rimanda, illustra ben quattro approcci alternativi per la dimostrazione. II processo {Z (A)} (estensione delle variabili z, precedenti) e a valori complessi, rna considerando Ie parti reale e immaginaria si puo ottenere una rappresentazione in termini reali:
x, -
1 7r
J.L =
COS
»u: (A) +
1 7r
sin AtdV (A)
e anche i processi {U(A)} e {V(A)} si dimostrano a incrementi indipendenti. Inoltre le varianze degli incrementi risultano: E [U (A) - U (w)]2 == E [V (A) - V (W)]2 == 2 [F (A) - F (w)]
dove si
A>W
e posta F( -1r) == 0, e risulta anche:
Si noti che la (5.9) e un integrale stocastico, cioe una operazione di passaggio allimite su variabili aleatorie, e quindi la uguaglianza e da intendersi nel senso che il quadrato della differenza tra primo e secondo membro ha media pari a zero. Teorema 5.2 (di Wold, detto anche di Wiener e Kintchine). La Junzione di autocovarianza r (h) di un processo stazionario pUG essere scritta come un integrale di Lebesgue-Stieltjes: '"Y (h)
=
in una misura F(A) con F(-1r)
i:
== 0,
e-i>.hdF (A)
F(1r)
==
(5.10)
Var{X t } .
Si puo mostrare che la tesi (5.10) puo essere vista come conseguenza del teorema di Cramer e Kolmogorov. A tal fine e utile riscrivere lc proprieta di secondo ordine del processo Z(A) in questa modo, dove dZ(A) sta per Z(A) -
Z (A-):
E {dZ (A) dZ (w)}
=
dF (A)
==0
A==W
A#- w.
82
5 Processi stazionari
Con questa notazione, dalla (5.9) otteniamo facilmente: "'I (h)
i:i:
== E (X t =E
-
JJ;) (X t + h
-
JJ;) ==
exp{iiA-i(i+h)w}dZ(A)dZ(w) =
i:
e-ih>'dF(A).
Eseguendo 10 stesso tipo di sviluppi sulla rappresentazione del processo { X t } in termini reali, si ottiene una analoga rappresentazione reale delle autocovarianze:
217'0 cos(Ah)dF (A) .
'Y (h) =
Notiamo che il processo Z (A) eredita dalle caratteristiche delle trasformate di Fourier z, la proprieta:
Z(A)==Z(-A) e quindi il suo andamento edeterminato essenzialmente solo dai valori positivi dell'argomento A, per questo la forma reale viene espressa come integrale del solo intervallo (0, 11"). Infatti si ha:
dF(A) == dF( -A) . Per 10 stesso motivo, le rappresentazioni (5.9) e (5.10) non cambiano se si cambia segno all'esponente della funzione esponenziale, cioe se si cambia icon -i e viceversa (in alcuni testi infatti la rappresentazione dell'autocovarianza presenta una esponenziale positiva). La varianza del processo aleatorio si puo dunque scrivere: 'Y (0) =
i:
dF (A) = F (1f) - F (-1f)
e per convenzione e semplicita si assume sempre F( -11") == O. La funzione misura F(A) induce allora una decomposizione della varianza nelle parti attribuibili a ciascuna componente ciclica di frequenza A. I teoremi di rappresentazione non comportano condizioni particolari per la F (A) chiamata misura spettrale 0 spettro (0 funzione di ripartizione spettrale) che puo essere di natura del tutto generale e quindi composta da una parte a salti F 1 (A) e una parte assolutamente continua F2 (A) (escludiamo come usuale che contenga una parte singolare):
Ricordiamo che la parte assolutamente continua F2 (A) ammette una funzione di densita continua f (A) (detta densiia spettrale) tale che:
5.3 Analisi nel dominio frequenziale
83
5 4.5 4
3.5 3
2.5 2 1.5 1 0.5
917 25 33 41495765 73 818997
91725334149576573818997
o irrrn'TT1TrrTTTTlTTTTTllmrmmmTITTTTTTTTTlrmmmmrmmmmmmnTTTTmmrnmmn I 1 9172533 41495765 738189 97
.Q5
(b)
(a)
(c)
Fig. 5.6. Misura spettralc: (a) parte a salti ; (b) parte assolutamente continua; (c) somma delle due parti
mentre la parte a salti F I (A) e costante eccetto un numero finito di punti Aj (j == 1, ... , k) nei quali ha un incremento pari a F (Aj) - F (Aj-) == Vj:
F I (A)
0
A :::;
vI
Al
Al
VI
+ V2
< A :::; A2 A2 < A :::; A3
VI
+ v2 + ... + Vi
Ai < A < Ai+I
VI
+ V2 + ... + Vk A> Ak
==
e
Un esempio di misura F(A) e delle sue due componenti riportato nella Fig. 5.6. AIle frequenze Aj nelle quali F(A) ha un salto di ampiezza Vj corrisponde una componente sinusoidale del tipo U (Aj) cos Aji + V (Aj) sin Aji che ha varianza finita diversa da zero pari a Vj e contribuisce additivamente con questo termine alIa varianza complessiva del processo. Ai sottointervalli (A', A") in cui non vi sono salti nella F(A) corrisponde invece un insieme di componenti sinusoidali di frequenza compresa tra A' e A" il cui contributo individuale alla varianza del processo e infinitesimo, ma il contributo complessivo e misurato da F (A") - F (A'). Percio si puo anche dire, se ~ e un punto di assoluta continuita della misura spettrale F, con densita pari a f(~), che f (~) d~ e la parte di varianza del processo spiegata dalle componenti cicliche di frequenza compresa tra ~ e ~ + d~. In ogni caso la rappresentazione spettrale (5.g) del processo {X t} 10 descrive come sovrapposizione (somma, integrale) di funzioni sinusoidali aventi frequenza compresa tra 0 e n, ciascuna moltiplicata per una ampiezza aleatoria. Le ampiezze relative a frequenze diverse sono incorrelate, e pertanto la rappresentazione spettrale descrive il processo come "somma" di termini incorrelati, di modo che la sua varianza e data dalla "somma" delle varianze dei singoli termini. La difficolta ulteriore e originata dal fatto che i termini sinusoidali possono avere due tipi di effetti diversi, avendo responsabilita e peso diversi nello spiegare la variabilita: ci saranno componenti cicliche a varianza finita (diversa da zero) che corrispondono a salti nella misura spettrale, e ci saranno componenti a varianza infinitesima, per le quali il contributo in-
84
5 Processi stazionari
dividuale a ,(0) e nullo, rna se consideriamo tutte quelle di un intervallo di frequenze forniscono un contributo non nullo. Possiamo distinguere tre casi a seconda della natura della misura spettrale. 1. Misura spettrale completamente discreta. Se la misura spettrale si presenta con una forma a gradini, cioe costante eccettuato un numero finito (0 una infinita numerabile) di punti Aj allora il processo puo essere espresso come una somma di componenti cicliche di frequenza Aj e ampiezza aleatoria di media nulla e incorrelate tra loro, e puo essere scritto come una combinazione lineare di sinusoidi:
X, - J-l ==
L {A j cos (Ajt) + B j sin (Ajt)} . j
2. Misura spettrale assolutamente continua. La misura spettrale ammette ovunque derivata uguale alla densita spettrale f (A) e il processo puo essere scritto come un integrale di Riemann della sinusoide moltiplicata per una funzione aleatoria:
x, -
JL =
1"
{A (A) cos (At) + B (A) sin (At)} dA
(vedremo pili avanti una rappresentazione pili esplicita di questi tipi di processi). 3. Misura spettrale mista con una parte a salti e una parte assolutamente continua. La rappresentazione pili naturale del processo in questo caso di pensarlo come la somma di due processi completamente incorrelati, dei quali il primo, Vi, ha misura spettrale completamente discreta e costituita dai soli salti, e il secondo processo, W t , ha misura spettrale assolutamente continua pari ana sola componente assolutamente continua, e quindi possiede densita spettrale:
e
con E(Vi Wt+h) == 0 per ogni h, W t ha misura spettrale assolutamente continua con densita spettrale f (A), e:
Vi
==
L {A j cos (Ajt) + B, sin (Ajt)} . j
E facilmente comprensibile come questa doppia natura comporti rilevanti difficolta di analisi, ed'altra parte i fenomeni che studiamo presentano raramente un andamento periodico preciso e costante (il che segnalerebbe la presenza di una componente ciclica a varianza non infinitesima): pertanto si preferisce prendere come riferimento ideale dei fenomeni che analizzeremo solo processi che hanno una misura spettrale assolutamente continua, priva di parte a salti. I vantaggi analitici e le possibilita di ulteriori sviluppi, che questa ipotesi, per quanto semplificatrice, comporta, hanno convinto la generalita
5.3 Analisi nel dominio frequenziale
85
degli studiosi del settore ad accettarla, salvo considerare poi con tecniche specifiche i casi in cui questa ipotesi appaia troppo restrittiva (ne vedremo un esempio in seguito quando affronteremo il problema della stagionalita). Assumeremo quindi d'ora in poi, salvo esplicito avviso contrario, che la misura spettrale F(A) sia assolutamente continua, e che quindi esista la sua derivata f(A), positiva per ogni A, che chiamiamo densita spettrale. Questa ipotesi comporta che le rappresentazioni spettrali diventano integrali ordinari:
"((h)
x, -
J-L
=
i:
e-i>.h 1
== j7r e-i>.t Z (>') d>' = -7[
(>') d>'
=
217r
cos(>'h)1 (>.) d>'
(5.11)
r cos(>'h)U (>') d>' + Jor sin(>.t)V (>.) d>'
Jo
(5.12)
e le varianze delle componenti del processo si possono scrivere simbolicamente: 2
E IZ (A)1 == f (A); DaIle proprieta di simmetria del processo Z (A) discende f (A) == f (- A). 11 grafico della densita spettrale viene quindi in genere disegnato solo per le ascisse comprese tra 0 e it . Ai valori massimi delle ordinate del grafico (i cosiddetti picchi) corrispondono Ie frequenze che indicano Ie componenti periodiche pili rilevanti del processo. La funzione di densita puo essere espressa in funzione delle autocovarianze in maniera analoga a come abbiamo espresso, nel caso del processo circolare, la varianza delle Zj: 1 00
f(A) == -
21r
L
,(s)ei SA
.
(5.13)
s=-oo
Questa formula puo essere ottenuta direttamente dalla rappresentazione spettrale (5.11) rna ricorrendo a strumenti matematici avanzati (2). Percio ci limiteremo a verificare che essa soddisfa la rappresentazione spettrale. Se moltiplichiamo ambo i membri della (5.13) per exp{ -ihA} ed integriamo rispetto a A da -1r a 1r otteniamo:
dove si e usata la formula per l'integrale dell'esponenziale riportata nell' Appendice A. Anche in questo caso si puo ottenere una espressione in termini reali ricordando che ,(h) == ,( -h): 2
La sostituzione diretta nella (5.13) della espressione (5.11) per ,(h) da luogo a un integrale del tipo 8 (A - w) f (w) dw dove 8 e la funzione (generalizzata) delta di Dirac, e quindi l'integrale e pari a f(A).
J
86
5 Processi stazionari
f(>.) =
2~ {')'(O)+2~')'(h)COS>'h}
.
La densita spettrale decompone la varianza del processo ,(0), e non si presta percio a confronti tra due processi diversi: a questo fine risulta conveniente ricavare una misura normalizzata, che si ottiene semplicemente dividendo per ,(0): la detisiio. spettrale normalizzata g(A) definita da
g(A) == -1
2n
L00 r(h)e i Ah == -1
2n
h=-oo
{oo 1+2Lr(h)cosAh } h=l
che fornisce immediatamente, dividendo ambo i membri della (5.11) per ,(0), una rappresentazione spettrale delle autocorrelazioni:
r (h) =
I:
g (>.) e-i>..hd>. =
21'' cos(>.h)g (>.)d>. .
La interpretazione della densita spettrale normalizzata g(A) e analoga a quella non normalizzata, rna poiche g(A) ha integrale pari a uno essa si presta a confrontare le caratteristiche spettrali di processi diversi. E il caso di notare che la (5.13) esprime la densita spettrale come una serie, e che l'esistenza della densita spettrale garantisce la convergenza di tale serie; in particolare, poiche per A == 0 si ha f (0) == E, (h), la continuita assoluta della misura spettrale nel punto A == 0 assicura la convergenza della serie delle autocovarianze e quindi la condizione necessaria ,( h) ----t 0 per h ----t 00. Cia comporta che i processi aleatori a misura spettrale assolutamente continua presentano un'autocorrelazione che tende a zero all'aumentare del ritardo, quindi in un certo senso la influenza del passato tende a perdersi all'aumentare della distanza temporale (almeno in termini di dipendenza lineare): cia avviene perche non vi sono componenti cicliche con importanza non infinitesima in termini di spiegazione della variabilita (le componenti cicliche si ripetono indefinitamente in maniera periodica, e quindi comportano una memoria infinita). II calcolo della densita spettrale di un processo viene spesso eseguito usando proprio la espressione precedente, a partire dai valori delle autocorrelazioni. Ad esempio, per un processo a variabili incorrelate, per il quale r(O) == 1, r( h) == 0 per h i- 0, si ottiene: 9 (A)
1
L r (t) e 2n t=-oo
== -
00
i At
== -
1
2n
Questo processo ha densita spettrale costante (vale anche ovviamente f(A) == ,(0)/2n): la costanza della densita spettrale e proprieta caratteristica dei processi a variabili incorrelate (come si verifica subito andando a sostituire f(A) == ,(O)/2n nella (5.11)); essi hanno preso il nome di rumore bianco (white noise) che proviene da una analogia con l'ottica, in quanto la luce bianca e composta da tutte le frequenze in eguale ammontare.
5.4 Le relazioni tra i due domini
87
5.4 Le relazioni tra i due domini Tra la funzione di autocovarianza e la funzione di densita spettrale intercorrona come abbiamo visto le relazioni: h
== 0,1, ...
00
f (A) = ~ " 21r ~
"1 (h) e
i Ah
h=-oo
e cia comporta che le funzioni ,(.) e f(·) hanno un contenuto informativo equivalente, 0 pili precisamente che la conoscenza completa dei valori ,(h) per ogni h permette di ottenere esattamente la f(A) per A E (-1r, 1r), mentre la conoscenza della intera f(A) per ogni A permette di calcolare tutte le ,(h) per ogni h. Questa dualita esuscettibile di una ulteriore interpretazione in termini della matrice di dispersione del processo. Consideriamo la variabile multipla costituita da N variabili contigue del processo: X == (Xl, X 2 , ... , X N )' e la sua matrice di autocovarianza di dimensione N gia definita quando si analizzava il dominio temporale:
, (0) , (1)
r(N) ==
, (1) , (0)
... ,(N-1)
... , (N - 2)
, (N - 1) , (N - 2) ...
== ((, (i - j))) .
, (0)
Essa e una matrice simmetrica e definita positiva, pertanto ha autovalori reali e maggiori di zero. Verifichiamo che gli autovalori sono approssimativamente proporzionali alla densita spettrale calcolata alle frequenze equispaziate Aj == ~ i, e l'approssimazione migliora al crescere di N. Pili precisamente, se indichiamo con aI, a2, ... , aN gli autovalori, con v ,V2, ... , VN gli autovettori associati (normalizzati), e con Vj (k) il k-mo eleme Ito del vettore Vj, si ha:
Infatti dimostriamo che vale: (5.14)
Consideriamo l'elemento k-esimo di
(rVjh
=L
rksVj (s)
rVj:
1
= IN L"1 (s -
k) exp {iAjS} =
s
=
1
JNL"1(s-k)ex P{iAj(s-k)}exP{iA jk}.
88
5 Processi stazionari
Ponendo s - k == h, per N grande la sommatoria rispetto ad h tivamente uguale a 27r f(Aj) e quindi:
e approssima-
che dimostra la (5.14). In sostanza a meno del termine 27r, l'insieme {f(Aj),j == 1, ... ,N} costituisce l'insieme degli autovalori della matrice r(N), detto anche spettro della matrice. Notiamo che data l'ortogonalita dei vettori Vj possiamo scrivere:
a:f-b a==b Ne segue con facilita una interessante interpretazione geometrica delle relazioni tra i due domini come trasformazione ortogonale di spazi metrici. Infatti sempre considerando X == (X 1,X2 , ... ,XN )' nello spazio R N , costruiamo la trasformazione Z == (ZI,Z2, ...,ZN)' attraverso la combinazione lineare con gli autovettori Vj: (5.15) La trasformazione Z == V X e ortogonale perche sono ortogonali i vettori VI, e definisce nuove variabili aleatorie dette trasformate di Fourier del processo. I loro momenti si ottengono facilmente ricordando le formule di ortogonalita riportate nell' Appendice A:
V2 , ... , V N,
j
1 Var (Zj) = N
L L Cov (Xt, X N
== 1,2, ... ,N
N
s)
exp {iAj (t - s)}
r:::o
21r f (Aj)
t=1 8=1
1
Cov (Zj, Zk) = N L t
r:::o
L Cov (Xt, X s ) exp {iAjt - iAkS} = 8
~LI'(h)eiAjhLexP{i(Aj-Ak)S}=O h
j:f-k
8
dove nel trasformare le sommatorie si e compiuta una approssimazione valida per N grande. In conclusione le trasformate di Fourier (5.15) sono (approssimativamente) incorrelate per frequenze diverse, e hanno varianza pari alla densita spettrale (moltiplicata per 27r); rappresentano una trasformazione ortogonale dei dati che rende le coordinate linearmente indipendenti e incorrelate.
5.4 Le relazioni tra i due domini
89
Osserviamo che in corrispondenza a ogni realizzazione del processo, ciascuna trasformata di Fourier si realizza in un numero (complesso) proporzionale alla somma dei prodotti tra i valori del processo e quelli della componente ciclica exp{ iAjt}. Quindi la trasformata fornisce una misura di associazione lineare (concordanza) tra i dati e la componente sinusoidale di frequenza Aj, il che spiega il legame tra il momento secondo della trasformata e la densita spettrale alla frequenza Aj. La trasformazione che abbiamo effettuato coinvolgeva un tratto finito del processo (X1,X2 , ... ,XN ) e portava alle trasformate di Fourier calcolate sullc sole frequenze multiple di ~, le Aj == ~ j chiamate anche frequenze di Fourier, che formano N punti equidistanti nel segmento (0,21r), e quindi if punti equidistanti nell'intervallo (0,1r) sul Quale studiamo la densita spettrale. La proprieta di avere varianza proporzionale alla densita spettrale e la incorrelatezza non vale percio esattamente per le trasformate di frequenza arbitraria A: (5.16) rna spesso assumeremo queste proprieta valide approssimativamente per ogni A, supponendo N sufficientemente grande. Cia permette di svolgere l'analisi spettrale basandosi completamente sulle trasformate di Fourier, una scelta compiuta da diversi testi autorevoli (ad esempio Brillinger, 1981). Ritornando infine alle relazioni tra i due domini, temporale e frequenziale, possiamo concludere che sono formalmente equivalenti, e i risultati che si possono ricavare con le analisi in un dominio sono equivalenti a quelli che si possono ottenere lavorando nell'altro. I motivi che giustificano il portare avanti 10 studio in ambedue le impostazioni sono essenzialmente due: 1. Anche se gli sviluppi sono tecnicamente equivalenti, quasi sempre sono differenti Ie interpretazioni che possiamo darne nei due domini, e in uno dei due risultano pili intuitive e illuminanti; il dominio temporale ha il vantaggio di riguardare direttamente le singole variabili aleatorie del processo ai singoli istanti, mentre in quello frequenziale la rappresentazione del processo come sovrapposizione di componenti incorrelate permette una analisi probabilistica pili semplice. 2. Con riferimento alle applicazioni reali, in genere le informazioni che si possono desumere permettono solo una conoscenza parziale e distorta di I (.) e di f (.): spesso possiamo basarci solo su stime dei I ( h) per h non maggiore di un certo ritardo massimo M, e su stime della densita spettrale in un numero finito di punti, quindi non su tutto l'intervallo (-1r, 1r). Questa conoscenza parziale fa perdere la corrispondenza biunivoca tra autocovarianza e spettro, e quindi svolgere l'analisi in ambedue i domini puo permettere di sfruttare al meglio le informazioni disponibili. Avvertiamo infine che in alcuni testi prevalentemente orientati al dominio temporale, per sfruttare alcune proprieta dello spettro esso viene implicitamente definito usando le cosiddette junzioni generatrici delle autocovarianze
90
5 Processi stazionari
e autocorrelazioni, che sono formalmente serie di potenze nel campo complesso. La funzione generatrice delle autocovarianze G (z) (dove z e un numero complesso) e definita da:
L 00
G (z) ==
r (h) zh
h=-oo
e la funzione generatrice delle autocorrelazioni R(z) da:
L 00
R(z) ==
r(h)zh.
h=-oo
Le funzioni generatrici coincidono con la densita spettrale (assoluta lizzata) se poniamo z == ei)..:
0
norma-
e da questo legarne discendono le loro proprieta. Inoltre esse risultano uno strumento comodo per sviluppare l'algebra formale dei modelli lineari, come sara mostrato in seguito.
5.5 I filtri lineari Abbiamo pili volte visto come anche nella teoria dei processi aleatori la capacita di trattare combinazioni lineari di variabili multivariate ci permetta di ottenere importanti risultati. E naturale percio tentare di sviluppare metodi analoghi quando si tratta di combinare linearmente tutte le variabili di un processo. Questa idea porta alla teoria del filtraggio lineare di cui esporremo i fondamenti. Un filtro lineare applicato a un processo stocastico {Xt } definisce un nuovo processo {yt} in cui ogni variabile Ys , per ogni istante s intero e ottenuta da una combinazione lineare delle {Xt , t intero}. II caso pili rilevante, e che analizzeremo, e quello che Ys sia ottenuto come combinazione lineare dei valori del processo attorno al tempo s, e che i pesi della combinazione rimangano fissi (il filtro si dice in tal caso invariante nel tempo): (5.17) La sommatoria puo essere estesa a valori positivi e negativi di u; nel caso che coinvolga solo i valori positivi 0 nulli, il filtro si dice fisicamente realizzabile, poiche il calcolo di yt e possibile in funzione dei soli valori fino al tempo t, X t - j , j == 0,1,2, .... In caso contrario il filtro e fisicamente irrealizzabile, perche il calcolo del risultato all'istante t dipende dai valori futuri del processo {Xt } . Nel caso fisicamente realizzabile, il filtro puo essere pensato come un sistema, cioe una serie di operazioni complesse viste come un tutto unico, che
5.5 I filtri lineari
91
riceve a scadenze regolari dall'esterno una informazione X, (detta input) e restituisce nello stesso istante un messaggio yt (detto output):
x,
-t
IFiltro l-t yt .
II filtro agisce come una scatola nera che conserva memoria delle informazioni ricevute nel passato. La sommatoria nel filtro (5.17) puo essere anche estesa fino a +00 e -00, rna in tal caso, per assicurarci che i valori di output siano limitati, imporremo che la serie dei pesi sia assolutamente convergente:
Per semplificare l'esposizione supporremo sempre che i pesi C u siano definiti per ogni u intero, ponendoli eventualmente uguali a zero, cosl che le sommatorie risulteranno sempre da -00 a 00, rna data l'assoluta convergenza potranno essere scambiate di posta tra loro e con gli integrali. Infine nel caso particolare (rna rilevante) che si verifichi Cu == c- u per ogni u, il filtro viene detto simmetrico. Analizzeremo adesso le proprieta del processo {Yi} che chiameremo anche output del filtro 0, pili spesso, processo filtrato, in relazione alle proprieta del processo {X t } (detto anche input 0 processo origine del filtro), assumendo che {Xt} sia stazionario al secondo ordine con media E (X t) == J1x, funzione di autocovarianza Cov (X t , X t+ h) == 1x (h), e densita spettrale Ix (,,\). La media di {yt} si ottiene immediatamente:
E (Yt) = /Ly = E
(L cuXt-u) = /Lx L
u
C
ed e quindi costante per ogni t. Per la funzione di autocovarianza dell'output avremo:
Cov (Yt, Yt+h) = Cov (
~ ~ cucvXt-uXt+h-V) =
== LLcuCv1x(h+u-v) ==1y(h). u
(5.18)
v
Si conclude che anche Cov (yt, yt+h) dipende solo da h e quindi il processo output {yt} e anch'esso stazionario al secondo ordine. La sua funzione di autocovarianza dipende naturalmente da quell a dell'input, 1x (h) e dai pesi del filtro {cu } , attraverso una doppia convoluzione; percio la struttura dell'autocovarianza di {yt} puo essere anche profondamente diversa da quella di {Xt } . Ad esempio se {Xt} e rumore bianco con 1x (0) == 0- 2, 1x (h) == 0 per h i- 0, la funzione di autocovarianza del processo filtrato e (sostituendo nella (5.18)):
1y (h) ==
0-
2
L CuCu+h u
h
== 0,1,2, ...
92
5 Processi stazionari
Se ci poniamo adesso nel dominio frequenziale, l'effetto del filtraggio presenta caratteristiche di maggiore semplicita, Vediamo infatti di calcolare la densita spettrale del processo output {It}, che denoteremo con Jy(A):
"" " iAh . Jy(A) == -1 "~ ,y(h)eiAh == -1~~~cucvlx(h+u-v)e 2K
2K
h
h
u
v
Tutte le sommatorie sono da -00 a 00. Possiamo cambiare indici sostituendo == h + u - v ad h, tenendo conto che h == T - U + v:
T
fy (A)
=
2~ L"( (T) e i AT L T
cue-
i AU
U
L cue-
== Jx (A)
cve
i AV
=
V
2
i AU
L
2
== Jx (A) IH (A)1 .
(5.19)
La densita spettrale alla frequenza generica A di {It} e data dalla densita spettrale alla stessa frequenza del processo input {Xt } moltiplicata per il valore, a quella frequenza, del modulo al quadrato di una funzione pari alla trasformata di Fourier dei pesi:
U
chiamata Junzione di trasjerimento oppure junzione di risposta di jrequenza del filtro. Dunque mentre l'autocovarianza di {It} al ritardo h dipende da quella che {Xt } presenta a tutti i ritardi, invece la densita spettrale di {yt} alla frequenza A dipende solo da quella di {X t } alla medesima frequenza: nel dominio frequenziale il filtraggio non introduce nessuna contaminazione 0 "miscela" . II motivo di questa maggiore semplicita si comprende se cerchiamo di costruire una rappresentazione spettrale del processo filtrato {yt} andando a sostituire la rappresentazione spettrale di {X t } nella formula del filtro (5.17): yt =
L
I:
cuXt- u =
U
= /1y +
e
i At
/1y
+
L
c«
in:
eiA(t-U)dZ
(A)
u -n
H (A) dZ (A) .
Vale ancora la decomposizione additiva in funzione delle frequenze, ma ora la singola componente ciclica di frequenza A ha la forma e i At H (A) dZ (A). Poiche H(A) e un numero complesso, separiamone parte immaginaria e reale e scriviamola sotto forma di modulo e argomento: posta
H(A) == ReH(A) +ilmH(A) R (A) ==
IH (A) I ==
{
(Re H (A))2
+ (1m H (A))2 }
() (A) == arctan {ImH (A) / ReH (A)}
1/ 2
(5.20)
5.5 I filtri lineari
93
,
,
'1 0
---
.
.
01
0
.. (c)
(b)
(a)
.
Fig. 5.7. Guadagni dei filtri : (a) passa basso; (b) passa alto; (c) passa banda
possiamo scrivere:
H (,X) = R (,X) cos [8 (,X)] + iR (,X) sin [8 (,X)] = R (,X) exp {i8 (,X) }
I:
e la rappresentazione spettrale divent a: Y t-J.Ly =
exp {i ['xt + 8 ('x )]} R ('x ) dZ ('x ) .
(5.21)
La funzione R ('x) = IH('x )1 viene det ta guadagno del filt ro, la funzione 8('x) viene det ta fase. Ogni compo nent e di fissata frequenza viene dunque modificat a moltipli cando l'ampiezza per il numero reale R ('x ), e intr oducend o nella component e ciclica un a fase pari a 8('x). Resta valida la int erpretazione come sovra pposizione di sinusoidi con ampiezza aleatoria e incorrelate. In sostanza il filtraggio agisce separatamente su ciascuna componente ciclica , modificandone la fasat ur a (la collocazione sull'asse temporale) at traverso la funzione di fase 8('x), e modificandon e l'am piezza mediante moltiplicazione per il valore R ('x ): ne se~ue che la varianza della componente viene moltiplicat a per il quadra to R (,X) . La varianza della componente di frequenza ,X in {Xd e f x (,X) , e allora quella della analoga componente sara f y (,X) = R (,X)2 f x (,X) . Abb iamo cioe ottenuto il risult ato (5.19). Ma l'aver ricavato una rap presentazione spet t rale per Yi ha evidenziato anche che nell'operazione di filt raggio ciascuna componente ciclica subisce uno sfasamento sull'asse tempora le, percio i massimi (e i minimi) delle ciclicita in {Xd risulteranno in {Yi } spostati all'indiet ro di un ritardo pari a 8('x)/'x . II filtraggio quindi confonde i punti di svolta, a meno che non sia 8('x) = 0, rna per avere l'annullament o della fase (si veda la (5.20)) la funzione di trasferimento deve essere reale: cio avviene quando il filtro esimmet rico poiche in tal caso :
H (,X) =
L cue
L 00
iUA
= Co + 2
Cu cos (u'x )
.
u= l
P urt ropp o in questo caso i coefficienti con indice u negat ivo non possono essere t utti nulli. Ne concludiamo che i filtri fisicamente realizzabili comportano necessari amente uno sfasament o, perche hann o funzioni di fase non ident icamente nulle. II nome di filtro deriva dalla capacita di attenuar e la densita spet trale ad a!cune frequenze, moltiplicand ola per valori del guadag no vicini a zero , e cioe
94
5 Processi stazionari
filtrare alcune bande di frequenza. Un filtro che abbia una funzione di guadagno del tipo rappresentato in Fig. 5.7a viene chiamato passa basso poiche preserva la densita spettrale aIle frequenze minori di w (basse frequenze) e annulla il contributo delle frequenze superiori. Per un motivo analogo un filtro che abbia un guadagno del tipo illustrato in Fig. 5.7b viene chiamato passa alto, e quello della Fig. 5.7c si chiama passa banda: lascia passare nell'output soltanto le componenti di frequenza compresa tra ,X e w. Va osservato che gli andamenti riportati nella Fig. 5.7 sono puramente ipotetici e irraggiungibili, infatti la funzione di trasferimento e comunque una combinazione lineare di esponenziali complesse e quindi il guadagno e una funzione continua di ,X che tende ad avere un andamento oscillante. La struttura particolarmente semplice dei risultati nel dominio frequenziale permette di analizzare facilmente, in questo dominio, anche il caso che si vogliano applicare diversi filtri lineari in sequenza (0 come si dice in cascata). Consideriamo cioe, oltre al processo {yt} originato da {Xt } con il filtro {cu } :
anche il processo {Zt} ottenuto da {yt} filtrando con pesi {du } :
z, ~
L dvyt-v ~ L L dvcuXt-u-v . v
v
u
Se indichiamo con HI (,X) ~ Ecue-i>..u e H 2 (,X) ~ Edve-i>..v le due funzioni di trasferimento, con R 1(,X), R2('x) e 01(,X), 02('x) i rispettivi guadagni e fasi, si ricava facilmente che l'applicazione del doppio filtraggio modifica nel passaggio da {Xt } a {Zt}, ogni componente ciclica di frequenza ,X moltiplicandone l'ampiezza per R1('x)R2('x) e sfasandola con una fase pari a 01('x) + 02('x). Percio la densita spettrale di {Zt} e R 1(,X)2 R 2(,X )2fx('x). In sostanza, nell'applicare in cascata pili filtri, gli effetti sulle ampiezze si moltiplicano e quelli sulle fasi si sommano. Esempio 5.3. Per chiarire meglio gli effetti dei filtri consideriamo un input deterministico costituito solo dalla combinazione lineare di due sinusoidi:
x,
= 5 cos (1ft)
+ 10 cos { ~ (t -
1)} .
La prima componente ha frequenza 1r, periodo 2 e oscilla tra -5 e +5, l'altra ha frequenza 1r/ 4, periodo pari a 8, ampiezza 10 e massimo in t~l (si veda Fig. 5.8a). Consideriamo il filtro:
yt
e un
~
Xt-
2
+ X t +2
.
filtro simmetrico con H (,X) ~ e- i 2 >.. + ei 2>.. ~ 2 cos 2'x. Quindi, per ,X ~ 1r, H(1r) ~ 2, e per ,X ~ 1r/4, H(1r/4) ~ 2cos1r/2 ~ 0, la fase e nulla perchc il filtro e simmetrico. Ne segue che il filtro riproduce esattamente la prima componente moltiplicata per 2 (Fig. 5.8b).
Esso
5.6 Operatori lineari
95
Vediamo adesso un semplice filtro asimmetrico:
Poiche CI ~
H (A)
V2, C-2
~ 2 avremo:
= V2e- i >' + 2ei 2 >' = (V2COSA + 2cos2A) - i (V2sinA - 2sin2A) .
Sostituendo a A il valore 1r e il valore 1r/ 4, abbiamo: Re { H (1r)} ~
V2 cos 1r + 2 cos 21r ~ 2 - V2
1m {H (1r)} ~ 2 sin 21r -
V2 sin 1r ~ 0
V2 cos(1r/ 4) + 2 cos( 1r/2) ~ 1 ~ 2 sin( 1r/2) - V2 sin( 1r/ 4) ~ 1
Re { H ((1r /4) )} ~ 1m {H
da cui:
((1r/ 4))}
IH (1r)1
~ 2-
o(1r) ~ arctan(O) ~ 0;
V2; IH (i) I ~ V2 0 (1r/ 4)
~
arctan(l) ~ 1r/ 4 .
ecostituita dalla somma della prima componente moltipliV2) e la seconda moltiplicata per V2, rna quest'ultima e sfasata
In sostanza la serie
cata per (2 sull'asse temporale di una quantita pari a O(A) / A per A ~ 1r/ 4: 0 (i) istante. Nella Fig. 5.8c e riportato l'output del filtro.
/ (i)
~ 1
5.6 Operatori lineari Ricordiamo che un operatore lineare su uno spazio vettoriale V e una applicazione V ---+ V tale che per ogni coppia di elementi VI, V2 EVe per ogni coppia di numeri reali nl e n2 si abbia (nl VI + n2 V2 ) ~ »,» (VI) + n2 0 (V2 ) . Alcuni operatori lineari vengono diffusamente usati nell'analisi delle serie temporali perche permettono di conseguire semplificazioni notevoli; in particolare si usano gli operatori:
°:
°
ritardo B
tale che
BXt
~
Xt-
I
anticipo F
tale che
FXt
~
X t +1
differenza \7
tale che
\7Xt
~
Xt
-
Xt -
I .
Data la linearita degli operatori, si puo dimostrare che essi soddisfano tutte le usuali regole dell'algebra, percio si puo operare su di essi come se fossero variabili matematiche ottenendo risultati che hanno senso. Vediamo alcuni esempi:
96
5 Processi stazionari
20 , . . - - - - - - - - - - - - - - - - 10 O-+----+-----I---l~-+-----I----+-fl#~+----K-~--+--~-\----I-~f------+-~-#fI---J,r------l
-10
-20 - ' - - - - - - - - - - - - - - - - - (a)
I--campen. per. 2 - - .. 'campen. per. 8 --serie 1 15 - , - - - - - - - - - - - - - - - - - - - - - - - .
10
5 O-+---+----f---lr-----+---+----t----I----f---+--+---+----+----+-+---r---+-----+--f---+---f------t---f---t----f---ll--l
-5
-10 -15 - - & . . - - - - - - - - - - - - - - - - - - - - '
(b)
I-filtro 1 1
------=============::::::~
L-
______l
20 - , - - - - - - - - - - - - - - - - - - - - - - , 10 O-+----\~~~~rr--+------+-----,~---+--~~~-.f---llIHo----+~--A-fl'--'I...--+-~
-10
-20
.....1.--
----1
1--10 camp·· .. '2° camp. sfasata --fi~ro21 Fig. 5.8. (a) serie deterministica periodica; (b) output filtro 1; (c) output filtro 2
Se: allora: Aneara:
\7 X,
~
X, - X t -
1 ~
(1 - B) X,
5.6 Operatori lineari
~(k) . (-B) k-j X; == ~(k) Z:: . (-1) k-j X t - k+ j
\7 k X; == (1- B) k X, == Z::
j=O
J
j=O
97
.
J
Possiamo dare un significato anche agli inversi degli operatori, ponendo B- 1 == P, di modo che B- 1X, == X t + 1, B- kX, == p kX; == X t + k, e inoltre B- 1 F == p-1 B == I (l'operatore identita che non modifica il suo operando). Per l'inverso dell'operatore differenza \7, potremmo invocare formalmente i risultati per le serie geometriche con ragione in modulo minore di 1:
1
1
\7- == 1 _ B == 1 + B
~.
2
+ B + ... == ~ BJ
.
j=O
In realta anche se questo sviluppo ha una validita formale le cose non sono cosl semplici. Consideriamo l'operazione yt == X, - aXt - 1 == (1 - aB) X, e cerchiamo di risalire dalla yt alla X, sostituendo ripetutamente: otterremo X,
== yt + aXt - 1 == yt + a (yt-1 + aXt - 2 ) == yt + ayt-1 + a2X t - 2 == == ... == yt + ayt-1 + a2yt_2 + ... + akyt_k + ak+ 1X t - k- 1 .
L'espressione a destra non contiene solo valori {yt} perche compare il termine ak+ 1X t-k-1. Se l'influenza di questo termine puo essere resa trascurabile allora sara possibile esprimere X, in funzione delle {yt} e quindi avremo costruito l'operatore inverso: rna cia e possibile solo se lal < 1, di modo che a k + 1 --* 0 al crescere di k. Pertanto se \a\ < 1 possiamo scrivere: (1 - aB)-l
== 1 + aB + a2B 2 + ... ==
L akB k 00
lal < 1.
k=O
In caso contrario, non epossibile esprimere {X t } in funzione lineare delle {yt} e quindi l'operatore (1 - aB) non ammette inverso per lal ~ 1. Dati due polinomi nell'operatore ritardo a (B) == ~ auBu, f3 (B) == ~ f3u B u, se a (B) X, == f3 (B) X, per ogni possibile X, allora au == f3u per ogni u. Con la notazione basata sugli operatori un filtro lineare puo essere espresso nel seguente modo:
u
dove C(B) e un polinomio (0 una serie di potenze) nell'operatore B, ed e in relazione con la funzione di trasferimento H(A) del filtro poiche vale ovviamente la: u
L'ultima proprieta menzionata sui polinomi nell'operatore assicura che se due filtri, con 10 stesso input, forniscono 10 stesso processo in output, essi hanno
98
5 Processi stazionari
eguali coefficienti. Pili delicato e il problema dell'esistenza del filtro inverso, cioe se sia possibile risalire dall'output {yt} all'input {Xt } attraverso ancora un filtro lineare. Se questo filtro esiste, 10 indicheremo per coerenza con: X, == C- 1 (B) yt .
Si dimostra che questo filtro esiste se le radici deIl'equazione nel campo complesso C(z) == 0 hanno tutte modulo maggiore di uno (si dice che sono al di fuori del cerchio unitario). Senza dilungarsi in una dimostrazione rigorosa, possiamo spiegarci questo risultato nel caso di polinomio di ordine finito, con radici distinte PI, P2, ..., PP diverse da zero:
C (B) == Co + CI B = do (
+ ... + cpBP == do (PI -
B) (P2 - B) ... (pp - B) ==
I}Pj) (1 - ~) ( 1 - ~) ... ( 1 - ~)
dove do == (-l)Pc p . Se Ipjl > 1 per ogni j == l, ... ,p, abbiamo visto che si possono definire gli operatori inversi:
e quindi esiste il polinomio inverso che si ottiene applicandoli in sequenza: 1 ---B 1 -'" --B 1--1-PI
P2
1 --B I--
[ do(
IIpj )]-1 == C-
1
(B) .
Pp
In conclusione, se le radici dell'equazione C(z) == 0 hanno tutte modulo maggiore di uno, l'operatore C(B) ammette inverso e quindi in una equazione del tipo yt == C(B)Xt si possono "dividere" ambo i membri ottenendo X, == C- 1 (B) yt. Se C(B) ha grado finito, C- 1 (B) non 10 avra e sara una serie di potenze.
5.7 I filtri aIle differenze per la depurazione di una componente ciclica Nell'ambito dei filtri lineari, quelli che corrispondono all'operatore differenza assumono una importanza del tutto particolare e una grande rilevanza nei modelli rappresentativi di serie temporali, tali da giustificare una analisi pili accurata. II filtro alle differenze k-esime e definito da: (5.22)
L' effetto caratteristico di questo filtro sta nella sua natura di differenza: yt registra l'incremento nel passare da un dato a quello che 10 segue di k istanti.
5.7 I filtri alle differenze per la depurazione di una componente ciclica
99
Essendo una differenza (un saldo) non risente di fattori che influenzino nel medesimo modo i dati che si trovano a distanza temporale k: in altri termini, il risultato del filtro non risente di componenti periodiche di periodo k eventualmente presenti in Xt. Infatti ci si puo facilmente convincere che se la serie X, fosse periodica di periodo k, la serie filtrata yt == X, - X t - k sarebbe costantemente uguale a zero. Se il processo si puo pensare come la somma di due componenti: X, == Z, + Pi, dove {Zt} e stazionario con misura spettrale assolutamente continua, e Pi e un polinomio trigonometrico che rappresenta una componente ciclica di periodo k:
applicando il filtro alle differenze k-esime si ottiene:
in quanto Pt == Pt - k . Percio il processo filtrato ha misura spettrale assolutamente continua, in altri termini ha eliminato il salto nello spettro. In conclusione l'applicazione di un filtro alle differenze permette di eliminare l'influenza di una singola componente ciclica di periodo noto e fissato. Questo ne giustifica ad esempio l'uso nella destagionalizzazione, come vedremo nella parte relativa ai modelli rappresentativi. Tuttavia, la rimozione della ciclicita di periodo k non e il solo effetto indotto dal filtro alle differenze kesime: analizziamo la situazione per mezzo della teoria del filtraggio. Possiamo scrivere: con
Co
== 1, Ck == -1, Cj == 0, j i- 0, k
e quindi per le autocovarianze si ha: (5.23) L'autocovarianza dell'output e una combinazione lineare (con somma dei pesi uguale a zero) di quelle dell'input con una risonanza di k ritardi in avanti e indietro. Anche dalla (5.23) si puo argomentare che se il processo avesse una forte periodiclta di periodo k allora le 1x(') rimarrebbero pressappoco uguali sommando (0 sottraendo) al lag un multiplo del periodo, e quindi le autocovarianze dell'output diventerebbero all'incirca nulle. La funzione di trasferimento risulta:
==
H (,\)
Co
+ Cke-iAk == 1 -
e-
i Ak
== (1 - cos'\k) + i sin'\k
e pertanto per il guadagno e la fase si ottiene: R
2
(,\)
== H (,\) 2 == (1 - cos '\k) 2 + sin 2 ,\k == 2 - 2 cos'\k == == 4 sin 2 (,\k/2) I
1
(5.24)
100
5 Processi stazionari
Jt/4
Jt/2
(a)
3Jt/4
-2
-l......-
--'
(b)
Fig. 5.9. Filtro aIle differenze ottave: (a) guadagno; (b) fase
sin Ak } 2 sin (Ak/2) cos (Ak/2) == arctan - - -2- - - - 1 - cos Ak 2 sin (Ak/2) Ak Ak 1r == arctan cot - == - - - . (5.25) 2 2 2 L' andamento del guadagno e sinusoidale oscillando tra il valore zero se A e multiplo di 21r/ k e il valore 4 per frequenze intermedie del tipo ~ + j. La fase non e mai nulla (poiche il filtro non e simmetrico) ed ha un andamento lineare rispetto a A. Un esempio e riportato per k == 8 in Fig. 5.9 (da tener presente che la fase, essendo una arcotangente, e determinata a meno di multipli di 1r). In conclusione nel processo output saranno attenuate le componenti cicliche di frequenza attorno a 21r/ k e alle sue armoniche, corrispondenti ai periodi k e suoi sottomultipli, mentre viene amplificato l'effetto delle componenti di frequenze intermedie (fino a raddoppiare l'ampiezza), pertanto oltre agli effetti propri del filtro consistenti nel rimuovere le ciclicita di periodo k, vengono introdotti effetti "impropri" 0 "spuri" che possono creare nell'output comportamenti ciclici artificiali in corrispondenza alle frequenze intermedie. La fase e sempre diversa da zero e quindi i punti di svolta delle ciclicita dell'input si ritroveranno spostati nell'output. E importante notare infine come il guadagno si azzeri per A == 0, e abbia quindi valori molto piccoli in corrispondenza a frequenze molto basse: percio i filtri alle differenze hanno un effetto anche sulle componenti di periodicita molto grande (di lungo periodo), attenuandone fortemente l'importanza. Questa considerazione aiuta a comprendere il comportamento del tutto particolare del filtro alle differenze k-esime quando si ponga k == 1; in questo caso (poiche la periodicita minima discernibile in processi a parametro discreto e pari a 2) l'effetto del filtro non e quello di rimuovere una componente periodica, rna conserva invece l'effetto di alleggerimento delle componenti di periodo molto grande. La forma del filtro ') () ( /\ == arctan {
2;
e:
ovvero consiste nell'incremento tra un dato e il successivo. Questo filtro consente in via di principio di rimuovere un trend lineare, cioe un andamento della media in funzione lineare del tempo. Infatti supponiamo
5.7 I filtri alle differenze per la depurazione di una componente ciclica
che E(Xt ) == a+bt, mentre Z; == X, - (a+bt) l'output del filtro e:
yt
==
X, - X t -
1
==
101
eun processo stazionario; allora
Z, -
Zt-l
+b
quindi un proeesso aneora stazionario con media costante pari a b. Tuttavia, anche in questo caso l'effetto del filtro non si limita alla stabilizzazione della media, rna si estende ad altre caratteristiche. II suo guadagno e la fase si ottengono dalle formule precedenti ponendo k == 1:
() (A)
1r
A
2
2
== - - - .
II guadagno e una funzione crescente e al variare di A tra 0 e 1r passa dal valore 0 a 4 (raggiungendo 1 a 1r /3). In definitiva il filtro alle differenze prime abbatte tutte le ciclicita con periodo grande, ed esalta queIle con periodicita piccola, arrivando a raddoppiare l'ampiezza per le frequenze pili vicine a 1r (corrispondenti a periodi poco superiori a 2). Per concludere, ricordiamo che l'effetto dell'applicazione di pili filtri in sequenza e quello di moltiplicare i guadagni e sommare le fasi. A volte i filtri alle differenze vengono applicati ripetutamente:
(5.26) II guadagno di questo filtro
e la potenza d-esima di quello
alle differenze:
percio l'effetto e ancora pili energico poiche per le frequenze per cui R(A) a uno, Rd(A) e ancora pili piccolo, mentre in corrispondenza allc frequenze per Ie quali R(A) e superiore a uno, Rd(A) e ancora pili grande. La fase del filtro e d volte quell a originale. Si verifica facilmente che l'applicazione iterata d volte del filtro alle differenze prime permette di rimuovere un trend in cui la media sia un polinomio di grado d nel tempo. Una semplice generalizzazione dei filtri alle differenze, che permette di controllarne meglio l'energia filtrante, ecostituita dai cosiddetti filtri alle quasi differenze in cui si sottrae solo una quota a compresa tra 0 e 1, del dato passato: yt == X t - aXt-k .
e inferiore
Ripercorrendo quanto abbiamo visto precedentemente, si conclude che questo filtro ha una funzione di trasferimento pari a:
H (A) == 1 - ae i k A == (1 - a cos Ak) - io. sin Ak
102
5 Processi stazionari
e conseguentemente il guadagno risulta:
R (A)2 ==
IH (A) 2 == 1 + o? cos2 kA + o? sin 2 kA 1
2Q cos kA ==
== 1 + Q2 - 2QcoskA che ha un andamento analogo, con i massimi e minimi posizionati alle stesse ascisse, del filtro alle differenze (Fig. 5.9a) rna i suoi valori oscillano tra (1-Q)2 e (1+Q)2 invece che tra 0 e 4, e quindi al decrescere di Q si puo diminuire l'abbattimento delle componenti periodiche di periodo k, e contemporaneamente diventa meno pronunciata l'esaltazione che il filtro apporta all'ampiezza delle componenti di frequenze intermedie. Si noti pero che i filtri alle quasi differenze non godono, diversamente da quelli alle differenze, della proprieta di rimuovere completamente componenti cicliche, ne trend nella media.
5.8 Relazioni tra processi stazionari Considereremo ora l'analisi di pili processi stocastici stazionari definiti sullo stesso insieme parametrico, per studiarne Ie relazioni nei due domini temporale e frequenziale. Anche in questo caso ci limiteremo a considerare Ie relazioni di dipendenza lineare tra processi. Cominciamo dallo studio di una coppia di processi, ovvero da un processo bivariato {Xt , yt}. Le sue caratteristiche aleatorie sono definite dalle distribuzioni di probabilita congiunte, rna queste potrebbero non essere stazionarie anche se 10 sana singolarmente Ie distribuzioni di {Xt } e que lle di {yt}. Se ci limitiamo a richiedere la stazionarieta congiunta al secondo ordine, cioe la omogeneita dei momenti secondi, bisogna verificare che anche i momenti incrociati del tipo Cov{Xs , yt} dipendano solo da (t - s). Un processo stocastico bivariato {Xt , yt} si dice stazionario al secondo ordine se valgono Ie proprieta:
Vt
Cov (X t , X t +h) == 1x (h)
Cov (yt, yt+h) == 1y (h)
Cov (Xt , yt+h) == 1xy (h)
Vt, h .
(5.27)
Vt,h
(5.28)
(5.29)
L'ultima proprieta definisce una funzione di variabile intera, 1xy (h) detta funzione di covarianza incrociata 0 cross- covarianza. E da tenere in considerazione che, anche se usiamo 10 stesso simbolo, la funzione di cross-covarianza ha proprieta molto diverse dalle autocovarianze, in quanto prima di tutto non e una funzione pari:
inoltre non e semidefinita positiva, poiche la forma quadratica costruita sulle cross-covarianze: EiEjCiCj 1xy (hi - h j) puo avere segno qualunque, e infine
5.8 Relazioni tra processi stazionari
103
non ha massimo per h == 0 poiche puo raggiungere il suo valore massimo in corrispondenza a un ritardo qualsiasi. Ne segue che ad esempio il grafico della cross-covarianza va disegnato per ritardi sia positivi sia negativi, e inoltre se si vogliono confrontare Ie covarianze tra diverse coppie di processi va costruito un nuovo indice relativo analogo al coefficiente di correlazione. In genere si definisce la funzione di correlazione incrociata 0 cross- correlazione nel modo seguente: r xy (h) -
1xy (h)
Cov (Xt , yt+h)
-----;=======~
JVar (Xt ) Var (yt+h)
(5.30)
La funzione r xy (h) e proporzionale alla 1xy (h) (e quindi non e pari) e in base alla disuguaglianza di Schwartz si ha Ir xy (h)\ < 1. In questo caso pero rxy (0) non e pari a uno, rna pari alla correlazione tra Ie variabili contemporanee X; e yt dei due processi. L'interpretazione che si puo dare alla funzione di cross-correlazione deriva dalla sua natura di misura delle relazioni lineari tra le variabili dei due processi a una determinata distanza temporale. Se non esiste alcuna dipendenza lineare tra Ie variabili dei due processi, allora sara r xy (h) == 1xy (h) == 0 per ogni h (anche per h == 0). In caso contrario il grafico dei valori detto anche crosscorrelogramma, ci indichera la concordanza (0 discordanza) tra gli elementi di un processo e quelli delI'altro: spesso ad esempio si va a cercare qual eil ritardo che corrisponde alla cross-correlazione di valore assoluto massimo. Se essa e abbastanza elevata, il ritardo puo essere considerato come una indicazione dello sfasamento temporale prevalente tra i due processi, ed aiuta a capire se uno dei due tende ad anticipare il comportamento dell'altro, fattore molto importante nel campo della previsione. Lo studio delle relazioni tra i due processi puo essere sviluppato anche nel dominio delle frequenze poiche esistono rappresentazioni spettrali anche per processi bivariati. Ricordiamo che Ie rappresentazioni spettrali univariate dei processi {Xt } e {yt} descrivono ciascuno dei due come sovrapposizione di componenti cicliche di frequenza compresa tra 0 e 7[, con ampiezze aleatorie incorrelate tra loro per frequenze diverse: X, - J1x ==
yt - My ==
E{dZx
E{
(.\)
J J
e i>..t dZx (.\)
ei>..t dZ y (.\)
dZ x (w)} ==
az; (.\) dZ
y
(w)}
==
{oIx () .\ {oIy(.\)d.\
d.\
104
5 Processi stazionari
Ma sono incorrelate anche le ampiezze delle componenti di {Xt } con quelle delle componenti di {yt}? La risposta e affermativa poiche si puo dimostrare che: E{dZx (A) (w)} == 0
sz;
Quindi le relazioni lineari tra {Xt } e {yt} si esercitano soltanto tra Ie componenti di egual frequenza, e la loro covarianza definisce una nuova densita detta densita spettrale incrociata:
La funzione di densita spettrale incrociata (0 cross-spettrale) f xy (A) pero, ha valori complessi e si rappresenta separando le parti reale e immaginaria: fxy
(A) == C (A)
+ is (A)
(5.31)
dove C(A) viene chiamata densita cospettrale (ed e pari) mentre S(A) viene detta densita spettrale di quadratura (ed e dispari). II loro reciproco ruolo si comprende meglio partendo dalla rappresentazione spettrale in termini reali dei processi:
x, yt -
/-Lx
/-Ly
J J
= =
[cos('xt)dUx (,X)
[cos('xt)dUy (,X)
+ sin('xt)dVx (,X)]
+ sin('xt)dVy (,X)] .
Ciascuna componente ciclica di frequenza A (compresa tra 0 e 1r) e costituita da un termine coseno e un termine seno (che vengana chiarnati in quadratura perche hanno andamento analogo rna sfasato di un angola retto). La covarianza tra le parti coseno e uguale a quella tra le parti seno:
E{ dUx (A) .u.; (A)} == E{ dVx (A) dVy (A)} == 2c (A) rnentre la covarianza tra le parti in quadratura, cioe un coseno per un seno e viceversa, e pari alla densita di quadratura:
E{ au, (A) dVy (A)} == E{ dVx (A) dUy (A)} == 2s (A) . In corrispondenza a questa rappresentazione spettrale, se ne puo ricavare una conseguente per le cross-covarianze: "(xy
(h)
=
1:
ei>.h fxy
(,X) d,X
=
21"
[cos ('xh) c (,X)
+ sin ('xh) s (,X)] d,X
e per la covarianza tra Ie due variabili X; e yt: Cov (Xt , yt)
= "(xy (0) =
21"
c (,X) d,X .
Da questa interpretazione si traggono subito alcune utili conclusioni. Ad esempio:
5.8 Relazioni tra processi stazionari
105
Se i due processi {Xt} e {yt} sono completamente incorrelati, cioe (h) == OVh , allora c('x) == s('x) == O. - Se consideriamo il processo somma S, == X, + yt, la sua componente di frequenza ,X e ei>..t {dZx (,X) + dZy (,X)} percio la sua densita spettrale risulta: lXY
!x+y (,\)
= E {dZx (,\) + dZ y (,\)} { dZ x (,\) + sz; (,\)} = == fx('x) + fy('x) + 2c('x) .
- Se yt == X; allora fxy('x) == fx('x) e quindi c('x) == fx('x) e s('x) == O. In maniera analoga al caso univariato, attraverso una trasformazione inversa si possono ottenere le espressioni delle funzioni spettrali in termini delle covarianze incrociate:
1 'LJ " lXY (h) ei>"h fxy (,X) == 21r
(5.32)
h
e separando parti reali e immaginarie si ottiene anche: (5.33) 1
s (,\) = 21f
L hxy (h) - 'Yxy (-h)} sin,\h . 00
(5.34)
h=l
La difficolta di trattare con funzioni complesse, e la considerazione che la dipendenza complessiva si esplicita attraverso Ie sole relazioni Iineari tra componenti di egual frequenza, consiglia di usare una diversa schematizzazione, in termini di regressione lineare tra componenti di egual frequenza. Fissato '\, la covarianza tra le ampiezze e fxy('\) , mentre come gia sappiamo le rispettive varianze sono pari alle densita spettrali univariate f x (,X) e f y (,\); pertanto Ia correlazione tra le due componenti si calcola facilmente, e il suo quadrato e detto funzione di coerenza:
K (,\) =
I!xy (,\)
2 1
fx (,\) fy (,\) .
(5.35)
Si noti che Kxy('x) == Kyx('x), percio non abbiamo scritto gli indici. La coerenza e una funzione pari, a valori compresi tra 0 e 1, e fornisce la correlazione (al quadrato) tra Ie ampiezze delle componenti di frequenza ,X nei due processio Se K('x) == 0 per ogni ,X tra 0 e 1r allora i due processi sono totalmente incorrelati e lXY (h) == 0 per ogni h. All'altro estremo se K('x) == 1 per ogni ,X vuol dire che c'e una perfetta relazione lineare tra le componenti cicliche di ogni frequenza nei due processi. Perche cia accada non e necessario che i due processi abbiano valori uguali 0 proporzionali, rna e sufficiente che l'uno sia un filtro lineare deIl'altro:
106
5 Processi stazionari
come si puo controllare facilmente: in effetti tutta l'analisi spettrale bivariata puo essere svolta studiando una regressione lineare dinamica delle {Xt } sulla ¥t, come e illustrato nel prossimo paragrafo. Dal punto di vista interpretativo, nel dominio frequenziale si esamina il grafico della funzione di coerenza per individuare quelle ciclicita le cui componenti hanno la correlazione pili rilevante tra i due processi (cioe le frequenze ,X alle quali K (,X) e pili vicina ad uno). Tra queste, pero si prendono in considerazione solo le frequenze alle quali ambedue i processi abbiano una densita spettrale di valore rilevante: in tal caso si puo dedurre come le associate componenti periodiche, di importanza non trascurabile in tutti e due i processi, siano legate linearmente. Un ulteriore passo consiste nel domandarsi se tali componenti di egual frequenza nei due processi siano sfasate (in altri termini, se i loro punti di massimo si realizzano contemporaneamente oppure no); una risposta e fornita dalla cosiddetta funzione di fase, pari all'argomento del numero complesso Jxy('x), cioe 'Pxy (,X) == arctan {s (,X) / c (,X)}; essa va interpretata nel modo usuale, cioe 10 sfasamento temporale misurato sull'asse dei tempi tra le due componenti si valuta pari a 'Pxy (,X) / ,X. I metodi che abbiamo introdotto per processi bivariati si possono generalizzare ai processi multivariati. Sia X (t) == {Xl (t) ,X2 (t) , ..., X m (t)}' un processo stocastico multivariato; esso si dice stazionario al secondo ordine se ha le medie costanti e tutte Ie covarianze tra variabili sfasate dipendono solo dal ritardo, cioe: E{Xj (t)} == Ilj Vt
Cov {Xi (t), X j (t + h)} == "'Iij (h)
Vt, h, i,j .
In tal caso, posta Il == (JL1, JL2, ..., JLm)' possiamo definire le matrici di crosscovarianza:
r (h) == E {[X(t) - JL][X(t + h) - JLJ'} == (("'Iij (h)))
(5.36)
che hanno la proprieta r (h) == r (- h)'. Le matrici di cross-covarianza non sono simmetriche, eccettuata r(O) che e la matrice di dispersione di X(t), e quindi e anche definita positiva. Si definisce anche la matrice delle densita spettrali, che ha sulla diagonale principale le densita spettrali dei processi univariati e agli altri posti Ie densita spettrali incrociate:
F (,X) ==
J1 (,X) J12 (,X) J21 (,X) J2 (,X)
JIm (,X) J2m (,X)
(5.37)
Im1 (,\) 1m2 (,\) ... 1m (,\) Percio la matrice F('\) e complessa, rna ha la diagonale reale. Poiche come si controlla facilmente, lij (,\) == Iji (,\) == Iji (-,\), trasponendo la matrice se ne ottiene la complessa coniugata: F (,X) == F (,X)', matrici con questa proprieta
5.9 Sistemi lineari bivariati
107
vengono dette Hermitiane. Inoltre F (,X)' == F (-,X). Si dimostra anche che F('x) e semidefinita positiva per ogni 'x. Gli elementi di r(h) sono termine a termine, le trasformate di Fourier degli elementi di F (,X), percio si scrive anche:
r (h) =
F(A) =
I:
e-i>.h F p.) dA
~ ~ 27f L.-t
(5.38)
r(h)ei>'h.
(5.39)
h=-oo
Per ottenere I'analogo delle correlazioni incrociate, cioe Ia matrice R(h) che ha al posta (i,j) l'elemento rij (h) == 1ij (h) / V1ii (0) 1jj (0), si definisce prima Ia matrice diagonale delle varianze:
111 (0) D==
o
o o
0 122 (0) ...
o
0
...
1mm (0)
e quella dei reciproci degli scarti quadratici medi:
S
==
D- 1 / 2
==
1/ V111 (0) 0 0 1/ V122 (0) ...
o
o
0 0
... I/V1mm (0)
con la quale otteniamo:
R(h) == Sr(h)S. Anche per le matrici di cross-correlazione vale R (h) == R (-h)'.
5.9 Sistemi lineari bivariati Cost come 10 studio della relazione lineare tra due variabili aleatorie puo essere impostato in termini di regressione lineare dell'una sull'altra, anche l'analisi delle relazioni lineari tra due processi puo essere inquadrata in un modo concettualmente analogo che potremmo chiamare di regressione dinamica: il processo {yt} viene pensato come risultato di un filtro Iineare applicato ad {Xt}, a cui viene sommata una componente di errore, assunta indipendente da {Xt} e a media nulla:
(5.40) u
La situazione schematizzata dalla (5.40) viene detta sistema lineare bivariato, e anche in questo caso si parla di sistemi fisicamente realizzabili se bu == 0 per
108
5 Processi stazionari
valori negativi di u. Le caratteristiche (di primo e secondo ordine) di {yt} sono percio determinate da quelle di {Xt } e dai pesi {bu } che quindi logico siano legati alle covarianze incrociate. Supponiamo per semplicita che E(Xt ) == 0 e indichiamo con re(h), fe(h) l'autocovarianza e la densita spettrale del processo {et}, che e supposto stazionario al secondo ordine (rna non necessariamente un rumore bianco). Quanto all'indipendenza tra {Xt} ed {et}, ci e sufficiente assumere che Cov {Xt, et+h} == 0 per ogni h. Le proprieta del processo {yt} si ottengono facilmente in modo analogo a quanto abbiamo gia visto per i filtri lineari:
e
u
u
(5.41) "/y (h) = Cov (Yt, Yt+h) = Cov {
~ buXt- u + et, ~ bvXt+h-v + et+h } =
== LLbubvrx(h+u-v)+re(h). u
v
(5.42) In particolare, se {Xt} ed {et} sono ambedue rumore bianco, rxy (h) == bh Var (X t ) . Nel dominio delle frequenze si ottiene invece, usando le (5.41) e (5.42) e ponendo B (A) == L bue- iuA:
fxy (A) == -1 L rxy (h) eiAh == -1 L L bur x (h - u) eiAh == 2K
2K
h
h
u
== B(A)fx(A)
(5.43)
1 L L L bubvrx(h+u-v)e iAh fy(A)==2K
h
u
1 L +2K
re(h)e iAh ==
h
v
== IB (A) 2 fx (A) + I; (A) .
(5.44)
1
e
Pertanto la funzione di trasferimento B (A) interpretabile come il coefficiente di regressione della componente di frequenza A di {Xt } sulla omologa componente di {yt}, e 10 sfasamento e dato dall'argomento del numero complesso
B(A): arctan
B (A) } {1m fxy(A) } { (A) } ReB (,X) =arctan Refxy('x) =arctan c('x) {1m S
gia definita come la funzione di fase .¢ (>.) dV (>.)
ei(t~u)>'dV (>.) .
=
I:I:
i:
Cov (et, et+h) = E
(6.5)
eit>'dV (>.) .
(6.6)
descritto dalla rappresentazione spettrale
e quindi:
1
i:
ei>.tdZ (>.) =
i:
e un rumore bianco
ei>.te-iw(t+h)dV (>.) dV (w) = 2
e-i>.h E IdV (>')1 =
e-i>.hd>. = 0,
h
f
°.
richiedere che l'integrale J:'7r log f (A) d): esista. I processi che non soddisfano questa proprieta vengono detti singolari 0 deterministici.
E necessario
6.1 La decomposizione di Wold
113
Pertanto la rappresentazione (6.5) si puo scrivere:
L huEt-u . 00
X; -
J-L
==
(6.7)
u=o
II teorema di decomposizione di Wold e stato ricavato nell'ambito della teoria della previsione, e in essa assume ulteriori significati come vedremo nel seguito. Esso collega in qualche modo la stazionarieta (debole) e la Iinearita, poiche mostra come i processi stazionari si possono pensare come filtri lineari su un rumore bianco: rna va tenuto presente che questo teorema fornisce una sola tra le tante possibili rappresentazioni, e non esclude quindi che la natura delle relazioni tra le variabili del processo sia non lineare, 0 che esista una rappresentazione di X, mediante l'uso di funzioni non lineari, che sia pili semplice e meno dispendiosa in termini di parametri della (6.7) che coinvolge una infinita numerabile di coefficienti h u . Se indichiamo con a 2 la varianza delle Et, le caratteristiche di {X t } possono essere espresse in funzione dei pesi h., ricordando le regole dei filtri lineari:
L L huhsE (Et-UEt+T-S) == L huhu+Ta 2 00
1x (T) ==
00
00
u=os=o
T2::0
u=o
e chiamando:
L i;«": 00
H (>..) ==
u=o la funzione di trasferimento, si ottiene la densita spettrale: 2
f (>..) == IH (>")1 2 ~ 2n
.
In sostanza le proprieta di secondo ordine del processo sono completamente determinate dalla successione dei pesi {h u } 0 equivalentemente dalla sua trasformata H(>..). Per ricavare pili facilmente alcuni risultati e comodo ricorrere agli operatori di ritardo B, con i quali il processo puo essere scritto:
L huBUEt == H (B) Et 00
X, -
J-L
==
u=o
dove si e usato 10 stesso simbolo H della funzione di trasferimento per indicare la funzione generatrice dei pesi H(B):
L huBu . 00
H (B) ==
u=o
Naturalmente, non tutte Ie possibili scelte dei valori dei pesi {h u } corrispondono a filtri che producono un output limitato e stazionario: bisogna tener presente che la tesi del teorema di Wold implica:
114
6 Processi lineari
h o == 1 Non e detto inoltre che il filtro possa essere invertito permettendo la espressione del rumore bianco ct in funzione di Xt: (6.8) Sappiamo gia che cio epossibile se tutte le radici dell'equazione H(z) == 0 hanno modulo maggiore di uno. In tal caso il processo si dice invertibile (anche se pili precisamente dovremmo dire che ammette una rappresentazione invertibile). Poiche H(O) == 1 si ha anche H- 1(O) == 1 e quindi la rappresentazione invertita (6.8) si esplicita in:
L 00
x,
==
Co
+
CjXt - j
+ ct
j=1
dove Co == H (B)-1 J1 == J1 (1 - Cl - C2 - ... ). Questa decomposizione e utile nelle previsioni perche descrive X; come somma di due termini, dei quali il primo e funzione lineare dei dati passati, mentre il secondo e con essi incorrelato, infatti Cov (X t - s , ct) == 0 per s == 1,2, ... (come si ottiene subito sostituendovi la (6.7) e ricordando che {Ct} e rumore bianco). Passeremo adesso a imporre particolari vincoli sulla forma dei pesi {h u } , ottenendo classi diverse di processi stocastici che studieremo pili in dettaglio. II motivo per cui si ricorre a queste restrizioni e fondamentalmente che la rappresentazione di Wold dipende in linea di principia da un numero infinito di parametri hI, h 2 , ... , il che ne limita I'applicabilita (in quanto non epossibile evidentemente stimare un numero infinito di parametri), e quindi cerchiamo di ricondurci a una schematizzazione che richieda un numero finito di termini. La scelta pili semplice che si possa compiere e quella di considerare solo i primi pesi hI, h2 , ... , h q con un fissato q, si suppone cioe che sia h j == 0 per j > q, in tal caso il processo e descritto da una combinazione lineare finita:
X t == J1
+ Ct + h 1 Ct-l + h2Ct - 2 + ... + hqct-q
(6.9)
e viene chiamato processo a media mobile di ordine q: X; M A (q). La denominazione media mobile (M A==moving average), anche se di uso generalizzato, e alquanto impropria poiche la somma dei pesi della combinazione lineare (6.9) non e pari a uno, pertanto qui si preferira la qualificazione di processi a somma mobile. In alternativa si puo cercare di descrivere con un numero finito di termini il polinomio inverso: H (B)-I == 1 -
CI
B -
C2 B 2 -
... - cpBP .
In questo caso, sotto la condizione che il polinomio 1 - CIZ - C2Z2 - ... cpzP abbia radici solo con modulo maggiore di uno, il processo puo essere rappresentato con la equazione seguente:
6.2 Processi puramente autoregressivi
115
dove Co == Jl(l - CI - C2 - ... - cp ) , che costituisce una versione finita della rappresentazione invertita, ed esprime X; in funzione lineare del suo recente passato. Questi processi vengono chiamati autoregressivi di ordine p: X, AR (p). Si puo infine pensare che una maggiore efficienza in termini di riduzione del numero di parametri si consegua usando tutte e due Ie limitazioni simultaneamente, e considerando cioe polinomi H(B) che possono essere espressi come "rapporto" di due polinomi di grado finito: f'..I
H (B) == ~ (B)-l dove:
e (B) == 1 -
e (B)
OIB - 02B2 -
- OqBq
fJ> (B) == 1 - cPIB - cP2 B 2 -
- cPpBP
e si e introdotta la simbologia proposta da Box e Jenkins, ormai usata in modo generalizzato nell'analisi delle serie temporali. Se le radici di ~(z) sono al di fuori del cerchio unitario, la rappresentazione si puo scrivere: ~
(B) (X t
-
Jl)
==
e (B) Et
ovvero:
dove Co == Jl (1 - cPI - ... - cPp). Questi processi vengono detti misti 0 processi autoregressivi a somma mobile di ordine (p,q): X, ARMA(p,q). Passiamo ad esaminare pili nel dettaglio ciascuna classe. Per semplificare la trattazione considereremo solo gli scarti dalla media, cioe i processi del tipo Zt == X t - M: nelle loro rappresentazioni autoregressive e a somma mobile scompare il termine costante Co proporzionale ana media, poiche E(Zt) == O. f'..I
6.2 Processi puramente autoregressivi II processo puramente autoregressivo di ordine p soddisfa l'equazione: (6.10) che si puo anche scrivere:
dove come gia detto {Et} e un rumore bianco con E(Et) == 0, E(E;) == 0- 2 . Porche la (6.10) corrisponda a una rappresentazione di Wold e necessario che
116
6 Processi lineari
il polinomio nell'operatore B sia invertibile, e quindi le sue radici devono essere est erne al cerchio unitario: q> (z)
== 0 =} Izi > 1 .
(6.11)
Questa condizione viene detta generalmente condizione di stazionarietd poiche la relazione (6.10) nel caso che essa non valga, porterebbe a una espansione di Zt in funzione lineare degli ct-u non convergente, e quindi con varianza infinita. Immaginando in alternativa che il processo abbia origine a un tempo fissato (diciamo t == 0), Z, puo essere espresso come combinazione lineare di {cs, s == 0,1, ..., t}, rna la sua varianza cresce in modo illimitato con t se non vale la condizione di stazionarieta. Se invece la condizione di stazionarieta e soddisfatta, Zt ammette una espansione come combinazione lineare delle Ct di ordine infinito rna convergente, a volte detta anche a media mobile infinita e indicata con MA(oo): Zt == ct + ~lCt-l + ~2Ct-2 + .... La (6.10) corrisponde all'idea intuitiva che il valore del processo al tempo t puo essere pensato come la somma di due termini, uno determinato dalla sua storia passata (cPIZt-l + ... + cPpZt-p) e uno incorrelato con essa (Ct: infatti da Z; == e, +~lcs-l +~2cs-2 + ... si ottiene subito che la covarianza tra Ct e Zt-j e nulla per j positivo). Percio un processo AR(p) ha memoria solo di quanto e successo nei p istanti precedenti, mentre la parte "nuova" di Zt, non legata al passato, e data da e.: cio spiega perche Ie ct vengono chiamate innovazioni (0 anche urti 0 residui). Studiamo ora i momenti secondi. II modo pili diretto e quello di moltiplicare ambo i membri della relazione (6.10) per Zt-h (h positivo) e prendere la media:
E (ZtZt-h) == ¢lE (Zt-lZt-h) + ¢2E (Zt-2Zt-h) + ...
+ cPpE (Zt-pZt-h) + E (Zt-hCt) cioe, ricordando che E(Zt) == 0 e che Zt-h
e incorrelato con Ct:
e ovviamente per lags negativi ,(h) == ,( -h). Per la varianza invece si pone h == 0, e considerando che E (ZtCt) == E {c; + ~lctct-l + ~2ctCt-2 + ...} == E (c;) == a 2 :
Questi risultati possono essere espressi agevolmente anche in funzione delle autocorrelazioni r(h). Dividendo ambo i membri della prima per ,(0) si ha: (6.12) Per la seconda si dividono e moltiplicano per ,(0) i termini che contengono ,(.) al secondo membro, e poi si ricava ,(0) al primo membro ottenendo:
6.2 Processi puramente autoregressivi
"( (0) = 1 _
a2
2. Per h == 2, la
6.2 Processi puramente autoregressivi
125
variabile condizionante e la sola Zt-l, percio possiamo applicare la formula del coefficiente di correlazione parziale usata nella regressione:
che, identificando X con
z;
Y con
Zt-2,
W con
Zt-l
diventa:
In conclusione:
1f(1) = r(l)
=~; 1- ¢2
1f(2) = (h;
1f(h) = 0 h > 2.
Infine, la varianza puo essere scritta: a2
, (0) == -1---¢-lr-(1-)---¢-2r-(-2) Passiamo adesso al dominio delle frequenze. La densita spettrale si ottiene dalla regola generale:
a2 27r
11 -
1
¢l ei >..
-
¢2 ei2>" 12
che puo essere riscritta in termini reali come segue:
La densita spettrale puo essere, a seconda del valore dei parametri ¢l e ¢2, monotona crescente 0 decrescente oppure avere un massimo (unico) interno, il che accade quando I¢l (1 - ¢2) / (4¢2) I < 1, e il massimo si raggiunge alla frequenza AQ == arccos {¢l (¢2 - 1) / (4¢2)}. In tal caso c' e un picco nello spettro alla frequenza AQ, e ci possiamo attendere che il comportamento del processo evidenzi questa tendenza alla periodicit.a. Questo andamento corrisponde al caso che abbiamo esaminato sotto il profilo del dominio temporale, in cui le radici dell'equazione x 2 - ¢lX - cP2 == 0 siano complesse. Tuttavia, come e osservato da Piccolo (1974) non c'e perfetta coincidenza ne tra Ie condizioni necessarie perche si verifichi il fenomeno, nc tra Ie frequenze caratteristiche, a giustificazione ulteriore che si tratta di una pseudo periodicita e per tale motivo viene percepita in modo diverso dai diversi strumenti che utilizziamo nei due domini temporale e frequenziale.
126
6 Processi lineari
Processi autoregressivi di ordine superiore. Quando si considerano processi autoregressivi di ordine p > 2:
la varieta dei lora comportamenti puo essere molto grande, e l'andamento della
r( h) e della f (A) il pili vario, pur rispettando alcune caratteristiche generali. La
funzione di autocorrelazione rispetta comunque la forma (6.16), e quindi puo risultare da una combinazione lineare di termini esponenzialmente decrescenti verso 10 zero, con segno costante 0 alterno (corrispondenti a radici reali) e di termini sinusoidali smorzati verso 10 zero al crescere di h (corrispondenti a coppie di radici complesse coniugate). Per la funzione di autocorrelazione parziale, ripercorrendo il ragionamento svolto prima, ci si rende conto che essa si annulIa per argomenti maggiori di p, mentre al ritardo p vale cPP (ed e in genere diversa da zero per h < p):
7r (h) == 0 h > P Si faccia attenzione che la coincidenza tra 7r(') e cP avviene solo per l'ultimo ritardo, pari all'ordine del modello. II valore effettivo dell'autocorrelazione parziale potrebbe essere espresso in funzione delle autocorrelazioni ordinarie in modo piuttosto complicato (ad esempio Box e Jenkins, 1970): si puo dimostrare che 7r(h) e pari al rapporto tra due determinanti: 7r(h) == IQhl/IRhl dove Rh e la matrice di autocorrelazione di dimensione h, con elemento (i, j) pari a r(i - j), e Qh si ottiene da Rh sostituendo l'ultima colonna col vettore [r(I),r(2), ... ,r(h)]'. Ma esiste un modo pili semplice per ricavarle. Infatti la 7r( s) puo essere pensata come il coefficiente di Zt-s nella regressione di Zt su Zt-l, Zt-2, ..., Zt-s, e per questo motivo sara uguale all'ultimo parametro cP nel sistema di Yule-Walker (6.12) scritto per s equazioni (cioe per i ritardi h == 1,2, ..., s). Se indichiamo come prima con R m la matrice di autocorrelazione con m righe e colonne, e con:
rm
cPm
== ==
{r (1), r (2), ..., r (m)}'
(cPm,l, cPm,2, ..., cPm,m)'
i coefficienti della regressione di Z, su Zt-l, Zt-2, ..., Zt-m sono dati dal vettore cPm che soddisfa il sistema:
cPm
== R~lrm
(6.19)
e quindi 7r (m) == cPm,m. La (6.19) ha per m == 11a soluzione ovvia cPl,l == r(I), e puo essere risolta iterativamente per m crescente attraverso un ingegnoso metoda ideato da Durbin (1960) che fornisce anche il coefficiente di determinazione di ogni regressione, che e dato da:
6.2 Processi puramente autoregressivi
127
Le formule di Durbin sono: m
¢m+1,m+1
¢m+1,j
~
r (m + 1) - L ¢m,jr (m + 1 - j) j=l -----m ------1 - L ¢m,jr (j) j=l
¢m,j - ¢m+1,m+1¢m,m+1-j
~
j
(6.20)
~ 1,2, ... , m
(6.21)
e permettono di calcolare i vettori ¢m iterativamente per valori crescenti di m, a partire da ¢1,1 ~ r(l): 1r
(2) =
d.
tr2,2
= r (2) - r (1)2. 1- r ()2 1
¢2,1 ~ ¢1,1 - ¢2,2¢1,1 ~ r
'
(1)
1 - r (2)
( )2
1- r 1
e cost via. II metodo di Durbin e un esempio istruttivo di come l'algebra lineare possa permettere il raggiungimento di utili risultati. Esso si basa sulla seguente proprieta delle matrici: se A e una matrice quadrata regolare simmetrica n x n, eve un vettore n xl, allora:
Questa proprieta puo essere controllata verificando che M M- 1 ~ M- 1 M ~ I. Ora, posta Tm ~ {r (m), r (m - 1) , ..., r (2), r (I)}' si verifica subito che per le matrici di autocorrelazione vale:
e quindi: -1 R rn-l-L
[R0":- 0] 0 + 11
-
1
r-,m Rm rm 1-
[R
- 1R- 1 R- 1- ] mrmrmm-mrm rz]
1
-r~R~l
e questa relazione permette di esprimere iterativamente la soluzione delle equazioni di Yule-Walker per ordini m crescenti. Osserviamo che rm e il vettore dei termini noti delle equazioni di Yule-Walker scritte in ordine inverso, cioe per m, m -1, ...,2,1. Se poniamo ¢m ~ {¢m,m, ¢m,m-1, ..., ¢m,2,¢m,l}' il sistema si puo scrivere Rm¢m ~ r m e quindi ¢m ~ R~lrm' Pertanto l'inversa si puo riscrivere nel modo seguente: -1
R m+ 1
_
-
(
R m-1 0 ) 0' 0
1
+ 1-r~¢m
¢m¢m -, -¢m -:
[-
-([J'm
1
.
128
6 Processi lineari
Calcoliamo adesso gli elementi del vettore ¢m+ 1 == R~~ 1 r m+ 1 tenendo conto che r~+ 1 == {r~, r (m + I)}. Se usiamo la stessa decomposizione anche per il vet tore cPm+ 1 :
otteniamo:
-¢'mrm + r (m + 1) cPm+l,m+l == - - - - - - - 1-
r;»:
che fornisce la prima formula di Durbin, e: ¢*'
== R~lrm + ¢m [¢~rm - r (m + 1)] / (1 - r~¢m) == == cPm - cPm+l,m+l¢m
da cui deriva la seconda formula.
6.3 Processi puramente a somma mobile II processo a somma mobile rumore bianco:
e generato
da un filtro finito costruito su un
e quindi e sempre stazionario mentre e invertibile se Ie radici di 8(z) giacciono al di fuori del cerchio unitario, pertanto Ie condizioni da imporre sui parametri ()j per ottenere l'invertibilita sono Ie medesime che sono richieste ai cPj di un processo puramente autoregressivo per la stazionarieta. Ritroveremo spesso analoghe forme di simmetria tra processi AR e M A, per cui si parla di dualiti: tra i due schemi. Si possono applicare i risultati del filtraggio lineare ponendo Zt == EuCuEt-u con Co == 1, Cu == -()u, u == 1,2, ..., q e Cu == 0 altrimenti, e si ottiene:
u
u
== a 2 (-()h
+ ()l()h+l + ()2()h+2 + ... + ()q-h()q)
h
== 1,2, ... , q
e ,(h) == 0 per Ihl > q. Pertanto l'autocorrelazione di un processo MA(q) si annulla per ritardi maggiori dell'ordine q (come avviene per l'autocorrelazione parziale nel processo autoregressivo, altro esempio di dualita). La autocorrelazione parziale invece non ha un andamento facilmente descrivibile. Processo a somma mobile del primo ordine. Soddisfa l'equazione:
6.3 Processi puramente a somma mobile
129
ed e quindi invertibile per I() I < 1. La funzione di autocorrelazione ha diverso da zero solo il primo coefficiente: ()
r(l) == - - I
+ ()2
che comunque al variare di (), non raggiunge mai valori superiori a 1/2 in modulo. La densita spettrale risulta:
e quindi ha andamento monotono crescente se () > 0, monotono decrescente se () < O. Si tratta quindi di una struttura correlativa piuttosto debole, e limitata a dati contigui. SuI processo di ordine 1 si puo illustrare facilmente una ulteriore proprieta della invertibilita, che e valida in generale e giustifica ulteriormente la utilita di tale condizione: in generale esistono diversi processi con la stessa funzione di autocorrelazione, rna di essi uno solo e invertibile; percio nell'insieme dei processi invertibili c'e corrispondenza biunivoca tra funzione di autocorrelazione e parametri. Infatti, se preso un qualunque numero p (minore di 1/2 in valore assoluto), cerchiamo un processo a somma mobile che abbia autocorrelazione r(l) == p, otteniamo due possibilita, dato che l'equazione in (): ()
- 1 + 02 = P ---+ p02
ha due soluzioni: ()1/2
+0+ P=
0
-1 ± J1- 4 p2 == - - - - - -
2p
ambedue reali perche abbiamo scelto Ipl < 1/2. Tuttavia poiche il prodotto delle radici dell'equazione di secondo grado ax 2 + bx + c == 0 e c] a, abbiamo ()1()2 == 1 e quindi una sola delle due e minore di uno in modulo, cioo dei due processi uno solo e invertibile. La forma invertita del processo e:
della forma autoregressiva con ordine infinito e parametri pari aIle potenze successive di (). La funzione di autocorrelazione parziale del processo M A(l) ha andamento approssimativamente simile a ()h (si veda ad esempio Box e Jenkins, 1970).
Processo a somma mobile del secondo ordine. II processo soddisfa:
130
6 Processi lineari
e Ie condizioni di invertibilita sono:
Le autocorrelazioni sono nulle per h
> 2 e:
Anche in questo caso la r(2) non puo superare 1/2 in modulo, e anche la r(1) ha un massimo pari a 1/ {2 (J3 - 1)} ~ 0,683 percio anche questi processi hanno una struttura dinamica lineare non troppo pronunciata. La densita spettrale:
puo essere monotona crescente 0 decrescente in (0,1f), oppure avere un massimo e anche un minimo interno.
6.4 Processi misti I processi che hanno sia la struttura autoregressiva sia quella a somma mobile vengono chiamati brevemente processi ARMA (dall'unione delle sigle AR e MA) di ordine (p,q):
Per essi si pone la questione della stazionarieta, che porta a richiedere che le radici di 0 e che le {Et} sono incorrelate:
6.4 Processi misti
E (Ztct) == E (cPZt-1 E (ZtCt-l) == E (cPZt-1
+ ct
+ ct
- Oct-I) e, == a
2
- OCt-I) Ct-I ==
== ¢E(Zt-ICt-l) - OEC;_I == (¢ - O)a2 Ne segue:
131
.
r (0) == ¢r (1) + a 2 {I - 0 (¢ - O)} r (1) == ¢r (0) - Oa 2
e per h maggiore di uno invece i momenti misti sono nulli e ritorna la relazione autoregressiva:
r(h) == cPr(h-1)
h == 2,3, ...
Pertanto la varianza risulta:
e per la funzione di autocorrelazione:
r (1) == (1 - ¢O) (cP - 0) . 1 + 02
-
2¢O
'
r (h) ==
¢h-I r
(1),
h == 2,3, ...
In sostanza l'autocorrelazione segue un andamento esponenziale smorzato, determinato dalle potenze del parametro cP (e quindi alternante in segno se cP < 0) rna innestato su un primo valore che e diverso da cP, e ha segno uguale alla differenza cP - O. L'andamento dell'autocorrelazione parziale invece e influenzato principalmente dalla struttura a somma mobile (e non si annulla mai). La densita spettrale:
a 2 1 + 02 - 20cosA 21r 1 + ¢2 - 2¢COSA
e monotona su ¢ < O.
tutto l'intervallo (0,1r), decrescente se ¢ > 0 e crescente se
Nel caso pili generale di ordine (p, q) qualunque, naturalmente il comportamento del processo diventa ancora pili articolato. Per quanto riguarda le autocorrelazioni, si puo dire che la forma della equazione di Yule-Walker e differente da quella autoregressiva solo per h :::; q, quindi l'andamento dell'autocorrelazione per ritardi grandi e essenzialmente determinato dalla parte autoregressiva. Tuttavia e difficile descrivere andamenti tipici delle autocorrelazioni 0 della densita spettrale di processi con particolari ordini (p, q), poiche processi con ordini diversi possono mostrare caratteristiche simili (fermo restando che ovviamente un processo con ordine (Po, qo) appartiene anche a tutte Ie classi di processi di ordine (p, q) con p 2:: Po e q 2:: qo).
7 Processi di punti
Analizziamo i processi aleatori a valori discreti e parametro continuo, e in particolare i processi di punti, utilizzati per descrivere il verificarsi nel tempo di eventi particolari. L' analisi e centrata essenzialmente sul tipo di processo pili semplice e diffuso, il processo detto di Poisson.
7.1 Caratteristiche generali Un processo di punti e a parametro continuo, quindi costituito da una infinita continua di variabili aleatorie che possono pero assumere (almeno nella forma pili semplice) solo due valori (ad esempio zero e uno) corrispondenti all' assenza 0 presenza di un evento. Quindi un processo di punti schematizza una situazione in cui in ogni istante puo verificarsi 0 meno un evento, situazione di grande interesse in molti settori (emissione di particelle da parte di una fonte radioattiva, arrivi clienti a uno sportello, verificarsi di incidenti automobilistici, di terremoti e molti altri problemi). In tutti questi casi si verifica un numero finito di eventi in ogni intervallo di lunghezza finita, e quindi e pili como do descrivere il processo in termini degli istanti nei quali si verificano gli eventi, Ti, oppure degli intervalli di tempo tra un evento e l'altro, Xi; oppure, ancora, studiando il numero di eventi che si verificano in un dato intervallo di tempo. In ogni caso, risulta comodo (anche se non indispensabile) fissare un istante di partenza che indichiamo come tempo 0: t == 0, cost che possiamo definire:
Ti. == istante in cui si verifica il k-esimo evento, ovvero tempo d'attesa fino al k-esimo evento X k == intervallo di tempo tra il verificarsi dell' evento (k - 1)-esimo e il verificarsi dell' evento k-esimo
N(s, t)
== numero di eventi verificatisi nell'intervallo temporale
tra i quali intercorrono Ie relazioni:
(s, t)
134
7 Processi di punti
N (0, t)
< k {:} T k > t .
Per avere una corrispondenza con il comportamento dei fenomeni reali, ci aspettiamo che le T k, Xk e N(s, t) abbiamo distribuzioni non degeneri, con medie e varianze finite: rna per ottenere questo scopo ci dobbiamo assicurare che il ritmo con cui si verificano gli eventi sia sufficientemente lento in modo da evitare che in ogni intervallo si realizzi un numero infinito di eventi: si capisce facilmente, anzi, che la probabilita di un evento in ogni singolo istante deve essere zero (perche in un intervallo finito c'e una infinita continua di singoli istanti). II problema si supera con gli strumenti propri del calcolo infinitesimale: definiamo la densita media degli eventi nell'intervallo (s, t) come E {N (s, t)} / (t - s) e ne consideriamo il limite quando l'intervallo ha una ampiezza che va a zero:
h() t
== l.
im hlO
E{N(t,t+h)} h
.
Consideriamo solo processi in cui la funzione h(t), detta densitd degli eventi 0 intensito: e finita per ogni t. La proprieta di stazionarieta puo essere definita facendo riferimento alle distribuzioni di probabilita del numero di eventi N su intervalli distinti: si richiede cioe che per ogni n e per ogni npla di coppie (ai, bi , a; ~ bi ) e per ogni h > la distribuzione congiunta di {N (ai, bi ) , i == 1, ..., n} sia uguale a quella di {N (ai + h, b, + h), i == 1, ..., n}. Una analisi approfondita si ottiene solo imponendo condizioni semplificatrici. La pili comune e che gli intervalli di tempo tra un evento e il successivo, Xk, siano indipendenti tra di lora e abbiano la medesima distribuzione di probabilita: si parla in tal caso di processi di rinnovo. Be E(Xk ) == JL, Var(Xk) == (J2, allora poiche Ti; == Xl + X 2 + ... + Xk risulta E(Tk) == kJL, V ar(Tk) == k(J2 data l'indipendenza, e inoltre il teorema del limite centrale assicura che la distribuzione di T k e asintoticamente normale. Per il numero di eventi in un intervallo si ottiene facilmente:
°
< r + I} - Pr {N (0, t) < r} == == Pr {Tr + l > t} - Pr {Tr > t} == Pr {Tr < t} - Pr {Tr + l ~ t}
Pr {N(O, t) == r} == Pr {N (0, t)
e le probabilita dei T j possono essere calcolate come convoluzione di quelle delle Xi; Poiche gli eventi si verificano a distanza media JL, possiamo dedurre che in media, in un intervallo di ampiezza t si verificano t/ JL eventi. Un risultato pili preciso, rna asintotico, si ricava sfruttando la norrnalita asintotica delle Tk: N(O, t) e asintoticamente normale con media t/JL e varianza (J2t/JL3. Infatti posta yt == {N (0, t) - t/ JL} / J (J2t/JL3 e qt == t/ JL+yJ(J2t/JL3 possiamo scrivere:
7.2 Processi di Poisson
Pr {yt
135
< y} == Pr {N (0,t) < qt} == Pr {Tqt > t} == == Pr { T qt - qtJ-l > t - qtJ-l} . a0ii a0ii
Ora al crescere di t e quindi di qt la variabile a cui si riferisce l'ultima probabilita tende alla normale standardizzata mentre il limite dell'argomento
e:
1· · t - qtJ-l 11m - - - == 1m
t-+oo
a0ii
t-+oo
-y
VI + ya/ Jfii == -y .
Quindi se indichiamo con q>(.) la funzione di ripartizione della normale standardizzata avremo: lim Pr {yt
t-s-co
< y} == 1 -
q> (-y)
== q> (y) .
II caso pili semplice, rna niente affatto banale, di processo di rinnovo e quello in cui I'intensita h(t) e costante, e gli eventi si verificano in modo completamente indipendente l'uno dall'altro, il relativo processo e chiamato processo di Poisson.
7.2 Processi di Poisson II processo di Poisson semplice (0 omogeneo) e caratterizzato da una intensita costante A. Poiche escludiamo che nello stesso istante si possa realizzare pili di un evento, e d'altra parte la probabilita che si verifichino eventi nell'intervallo (t, t + h) deve andare a zero se h tende a zero, indicando con o(h) un infinitesimo di ordine superiore a h quando h tende a zero si usa scrivere: Pr{N(t,t+h) == I} == Ah+o(h)
Pr{N(t,t+h) ==O} == l-Ah+o(h) + h) > I} == o(h) .
Pr{N (t, t
(7.1) (7.2) (7.3)
Inoltre si assume che, per ogni t e h, la variabile aleatoria N(t, t + h) sia completamente indipendente dalle variabili del processo relative a istanti fino a t. Poiche il ritmo del prodursi degli eventi e indipendente dallo scorrere del tempo, in quanto la densita e costante e non dipende da t, non dipendono dal tempo neanche le caratteristiche dell'intervallo tra due eventi consecutivi. Indichiamo con X questa variabile (nel paragrafo precedente era X k ) e cerchiamo di calcolarne la distribuzione indicando con to l'istante nel quale si e verificato l'ultimo evento: Pr {X
> x + h} == Pr {prossimo evento dopo to + x + h} == == Pr{ X > x, nessun evento tra to + x e to + x + h} == == Pr {X > x, N (to + x, to + x + h) == O} == == Pr {X > x} Pr { N (to + x, to + x + h) == 0 IX > x} .
136
7 Processi di punti
Ma le proprieta di indipendenza del processo fanno sl che il numero di eventi tra to + x e to + x + h sia completamente indipendente daIl'evento (X > x) che si riferisce aIle variabili relative a istanti fino a to + x, quindi la probabilita condizionata e uguale a quella non condizionata, e usando lc (7.1 )-(7.2)-(7.3): Pr {X
> x + h} == Pr {X > x} {I - Ah + o( h)} .
Se indichiamo F(x) == Pr{X si ha:
> x}, prendendo illimite per h tendente a zero d
dx F (x) == - AF (x) . Questa equazione differenziale puo essere risolta usando come condizione iniziale F(O) == Pr{X > O} == 1 e da F(x) == e- AX da cui: Pr {X
< x}
== 1 -
F (x)
== 1 -
e- Ax
.
Concludiamo che l'intervallo tra due eventi consecutivi ha distribuzione esponenziale di parametro A (ricordiamo che la media e 1/ A e la varianza 1/ A2 ) . Se fissiamo to == 0, cioe assumiamo che si parta con un evento al tempo zero, allora il tempo di attesa fino al primo evento T 1 e esponenziale. II tempo di attesa fino al k-esimo evento T k e invece la somma di k variabili esponenziali indipendenti con 10 stesso parametro A, ed e noto che ha una distribuzione di tipo gamma con parametri (k, A) e densita: k k-l ( fx}=>.x
-AX
e
(k~l)!
e naturalmente media k/ A e varianza k/ A2 . Consideriamo adesso il numero di eventi in un intervallo di tempo. Innanzitutto con una semplice integrazione per parti si ha:
Percio sfruttando la relazione ricavata nel paragrafo precedente (e tenendo conto che le Ti. sono assolutamente continue): Pr {N (0, t) == r} == Pr {Tr
< t} - Pr {Tr + 1 < t}
==
(At)r
-,-e r.
-At
.
Ne consegue che la distribuzione di N(O, t) e del tipo di Poisson con parametro At (media e varianza sono eguali a At). La costanza della intensita media comporta la stazionarieta, percio il numero di eventi in un intervallo di tempo qualunque ha una distribuzione di Poisson di parametro pari a A moltiplicato la lunghezza dell'intervallo. II processo non ha memoria nel senso che il suo
7.2 Processi di Poisson
137
comportamento a ogni istante e completamente indipendente da quanto si e verificato prima di quell'istante: percio e a maggior ragione un processo markoviano. Questa sua estrema semplicita (analoga per certi versi a quella del rumore bianco nei processi stazionari) rappresenta il suo maggior punto di forza, poiche permette di calcolare facilmente le distribuzioni di probabilita di tutte Ie variabili in gioco. Essa costituisce pero spesso anche il maggior limite nell'impiego dei processi di Poisson in alcuni campi applicativi nei quali il verificarsi degli eventi che interessano e influenzato dalla storia passata del processo. Cia ha portato a studiare diverse estensioni basate su intensita non costanti, per le quali rimandiamo a testi pili specializzati. Esempio 7.1. II processo di Poisson viene impiegato come schema idealizzato delle chiamate telefoniche in arrivo a un centralino. Fissata l'unita di misura del tempo (ad esempio minuti), il sistema ecaratterizzato dall'intensita media A: vuol dire che in un minuto arrivano in media A chiamate al centralino, e che l'intervallo medio di tempo tra una chiamata e la successiva e 1/ A minuti. Queste informazioni sono utili ad esempio per dimensionare il centralino: supponiamo che la durata media delle conversazioni sia pari a Mminuti. Una valutazione approssimativa procede come segue: in un'ora si registrano in media 60A chiamate che impegnerebbero le linee in totale per 60AM minuti, il che si puo realizzare (sempre in media) se sono disponibili almeno AM linee telefoniche. E possibile anche un calcolo pili accurato ponendosi l'obiettivo che la probabilita di trovare una linea occupata sia al di sotto di una certa soglia. Questioni di questo tipo sono trattate dalla cosiddetta teoria delle code (queueing theory). Esempio 7.2. II processo di Poisson costituisce anche la base della teoria del-
l'affidabilita, che studia il comportamento di componenti soggetti ad avaria. Supponendo che la probabilita di avaria sia costante nel tempo, il tempo trascorso fino all'avaria e esponenziale; e nell'ipotesi che la riparazione sia istantanea, il numero di avarie in un intervallo di tempo segue una distribuzione di Poisson. Tuttavia in questo caso e evidente che l'ipotesi di una probabilita di avaria costante nel tempo e in molte situazioni irrealistica, percio si preferiscono in genere schemi pili complessi in cui essa varia nel tempo. Infatti 10 schema del processo di Poisson prevede che dopo ogni evento si riproducano esattamente le stesse condizioni iniziali: tradotto in termini di affidabilita, cia corrisponde a ipotizzare che dopo ogni riparazione il componente abbia la medesima affidabilita di uno nuovo, e quindi non si puo tenere conto in alcun modo della eventuale usura. Una immediata generalizzazione, molto utile nella pratica, e l'ammettere che I'intensita del processo possa essere variabile nel tempo, ferma restando la completa indipendenza degli eventi: processi di questo tipo vengono anche detti di Poisson non omogenei. Le caratteristiche delle probabilita (7.1)-(7.2)(7.3) diventano le seguenti:
138
7 Processi di punti
Pr {N (t, t + dt) == 1} == A(t)dt + o(dt) Pr {N (t, t + dt) == O} == 1 - A(t)dt + o(dt)
Pr{N(t,t+dt) > 1} ==o(dt). Ripercorrendo il ragionamento svolto precedentemente si ricava che il numero di eventi in un intervallo di tempo (8, t) ha distribuzione di Poisson con parametro pari a A (u) duo I tempi di attesa tra gli eventi X k rimangono indipendenti, mentre per gli istanti T j ai quali si verificano gli eventi si possono ricavare facilmente le distribuzioni condizionate. Posto u > t si ha:
J:
P (Tk == u ITk-1 == t) du == Pr {evento in (u, u + du) [ultimo evento in t }
== Pr{nessun evento in (t, u), evento in (u, u + du)}
= exp {-
l
u
A(x) dx} A(u) du .
Questa osservazione permette di descrivere il processo in termini di probabilita condizionate, e concatenando queste probabilita si puo scrivere l'intera distribuzione dall'istante iniziale t == 0 fino a qualunque istante finale to. Se si sono verificati n eventi agli istanti tl, t2, ..., tn, la densita di probabilita congiunta (in altri termini la verosimiglianza) puo essere calcolata nel modo seguente:
Pr{T I ==t l, T2 == t2, ...,Tn == tn, Tn+ l > to - tn} == == Pr {T I == tl} Pr {T2 == t21 TI == tl} ... Pr {Tn == tnlTn- 1 == tn-I} X Pr {Tn+ 1 > to - tnlTn == tn} ==
= >. (t I ) exp { X
_l
x(t n ) exp { -
t l
A(x) dx }
1~~
1
x(t2) exp {
x(x) dx }
= A (tIP (t2) ... A (t n ) exp {
exp { -
-1:
X
2
A(x) dx}
X ...
1~D A(x) dx} =
_ltD A (x) dX} .
Ovviamente questo processo non soddisfa la proprieta di stazionarieta neanche debole, poiche le medie e le varianze del numero di eventi non dipendono solo dalla lunghezza dell'intervallo considerato rna anche dalla sua localizzazione.
7.3 Cenni sull'analisi nel dominio temporale e frequenziale Anche per i processi di punti stazionari e possibile definire funzioni di autocovarianza e densita spettrale, che assumono pero significati diversi rispetto ai processi a parametro discreto. Daremo solo alcuni cenni di questa impostazione.
7.3 Cenni sull'analisi nel dominio temporale e frequenziale
139
Possiamo descrivere il processo di punti attraverso due formulazioni alternative: la successione degli intervalli tra un evento e l'altro, e il numero di eventi in intervalli di tempo. Nel primo caso sempre supponendo che si parta da un istante iniziale t == 0 in cui si verifica un evento, Ie attese aleatorie tra un evento e l'altro: Xl, X 2 , ... possono essere considerate esse stesse un processo aleatorio a parametro discreto, stazionario, con media J1x e varianza Possiamo calcolarne la funzione di autocovarianza:
a;.
e la corrispondente densita spettrale:
Per il processo di Poisson (come per tutti i processi di rinnovo), la indipendenza delle Xi comporta che la funzione di autocovarianza e nulla: 1x (h) == 0, h i= 0 e quindi la relativa densita spettrale e costante: Ix (A) == a;/27r. Per processi pili complicati, l'analisi mette in luce Ie relazioni (solo quelle lineari) tra i tempi di attesa degli eventi: ad esempio un valore positivo di 1x (1) segnala che i tempi di attesa di eventi consecutivi sono correlati positivamente, e percio a tempi brevi tendono a seguire tempi brevi, spesso questo comportamento corrisponde all'esistenza di occasionali addensamenti di eventi. In modo simile, la densita spettrale puo mettere in luce tendenze all'andamento ciclico dei tempi di attesa che si traducono nelI'esistenza di cluster di eventi, pili 0 meno regolarmente distanziati nel tempo. Un modo alternativo di studiare le proprieta di secondo ordine e quello di considerare il processo (a parametro continuo) descritto dal numero di eventi negli intervalli (t, t + Llt) considerando Llt piccolo, ed esaminandone illimite per Llt -+ o. Questo quadro di riferimento sembra pili naturale perche pili vicino alla logica del capitolo precedente, in cui si mettono a covariare le variabili del processo X(t): infatti intuitivamente N(t, t + Llt) tende a X(t) quando Llt tende a zero. Pero qui si incontrano difficolta analitiche maggiori. Useremo la notazione semplificata LlN (t) == N (t, t + Llt). Poiche in ogni istante si puo verificare solo un evento oppure nessuno, e la densita degli eventi e costante per la stazionarieta: h(t) == h, abbiamo a meno di infinitesimi di ordine superiore a Llt che Pr{ LlN(t) == I} == hLlt e Pr{ LlN(t) == O} == 1 - hLlt da cui E{LlN(t)} == hLlt. Definiamo la densita di covarianza 1N(S) per s reale maggiore di zero attraverso: 'YN(S) = lim Cov{.1N(t),.1N(t+s)}. Llt-tO (Llt) 2 Ora poiche: E { LlN (t) LlN (t
+ s)} == Pr {LlN (t) == 1, LlN (t + s) == I} == == Pr { LlN (t) == I} Pr { LlN (t + s) == 1 ILlN (t) ==
I}
140
7 Processi di punti
definendo:
h avremo:
s
=
lim P {L1N (t + s, t L1t~O
+ S + L1t)1 evento in t} i1t
lim E{L1N(t) L1N(t+ s)} =hh L1t~O
(i1t)2
s
da cui:
_ u
E { i1N (t) i1N (t + s)} _ lim E { i1N (t)} E { i1N (t + s) } L1t~O (i1t)2
rN (s ) - L1}~o (i1t)2 == h (hs - h) .
Nel processo di Poisson, in cui il numero di eventi in un intervallo e indipendente da cia che avviene precedentemente, li; e uguale a h per ogni S, e quindi rN (s) == 0 per s > 0 e la relativa densita spettrale e costante. In altri tipi di processi l'autocovarianza segnala quanto I'intensita e legata (linearmente) alla storia precedente. Infatti se rN (s) e positiva significa che l'essersi verificato un evento s istanti prima influisce positivamente sulla densita degli eventi, 0, in altri termini, troveremo pili spesso eventi a distanza s di quanti ne troveremmo in un processo di Poisson. Anche in questo caso l'interpretazione delle proprieta del secondo ordine non e cosl immediata come per i processi a parametro discreto e in genere una autocovarianza diversa da zero corrisponde a processi Ie cui realizzazioni presentano addensamenti di eventi in alcuni intervalli, e rarefazioni in altri.
Parte III
La statistica dei fenorneni dinarnici
8
Inferenza statistica per processi aleatori
Questo capitolo introduce all'analisi statistica dei fenomeni dinamici, prendendo in considerazione la problematica generale dell'inferenza statistica su processi aleatori, e le differenze rispetto all'inferenza parametrica per campioni casuali.
8.1 Differenze rispetto all'inferenza parametrica classica La parte della metodologia statistica che prende il nome di inferenza statistica parametrica ha per oggetto il seguente problema: Sia X una variabile aleatoria con distribuzione Fea (.) appartenente a una famiglia {Fe (.) , 0 E e}, e supponiamo che siano disponibili N realizzazioni indipendenti tra loro della X: si vogliono fare affermazioni su 00 . Nei casi pili frequenti la scelta della famiglia equivale a specificare la forma della distribuzione, il parametro 0 corrisponde a un indice della distribuzione (spesso un momento), l'insieme e e un intervallo, e la natura delle affermazioni e del tipo seguente: 1. Attribuzione di un valore specifico a 00 (stima puntuale). 2. Formulazione di un intervallo di valori per 00 (intervallo di confidenza). 3. Scelta tra due sottoinsiemi di valori per 00 (test d'ipotesi). In ognuno di questi casi, per decidere la strategia migliore si cerca prima di studiare le caratteristiche dell'errore che si commetterebbe, che e (a me no di casi degeneri) un ente aleatorio: si giudichera ottima la strategia che permette di conseguire l'errore pili "piccolo" possibile. Questa impostazione sembra applicabile negli stessi termini anche ai processi aleatori, rna qui si presenta una differenza fondamentale: i dati sono relativi, nella generalita dei casi, a una serie storica, quindi a una parte finita di una realizzazione del processo: non a pili realizzazioni somiglianti indipendenti (come nel caso classico) e nemmeno a una realizzazione completa, rna solo a una parte di essa. Inoltre Ie variabili che costituiscono la parte finita
144
8 Inferenza statistica per processi aleatori
della realizzazione del processo che noi osserviamo non hanno necessariamente la stessa distribuzione e potrebbero essere state generate da valori di B diversi. Si comprende percio come nel caso dei processi aleatori la procedura inferenziale sia pili delicata e soggetta a restrizioni. Per fissare le idee, supponiamo che sia possibile rilevare i valori assunti dalle variabili (Xl, X 2 , ... , X N ) di un processo aleatorio a parametro discreto { X t } : il minimo che possiamo chiedere e che il valore del parametro oggetto di inferenza sia uguale nelle distribuzioni che hanno generato tutti gli N dati: se si compie inferenza sulla media, che X 1,X2 , ... ,XN abbiano la stessa media; se si vuol fare inferenza sulla varianza, che X 1,X2 , ... ,XN abbiano la stessa varianza, e cost via. Cia vuol dire che ci dovremo limitare a processi stazionari: noi prenderemo in considerazione processi stazionari al secondo ordine, e costruiremo inferenze per i momenti primi e secondi, e per 10 spettro. Risolto questo, si presenta pero una complicazione pili seria, che dipende dalla mancanza di indipendenza: non siamo pili in presenza di un campione casuale, poiche lc variabili (Xl, X 2 , ... , X N ) non sono indipendenti: e d'altra parte sono proprio i legami di dipendenza tra loro che costituiscono l'oggetto principale dell'indagine. La mancanza di indipendenza non permette pili il ricorso ai semplici teoremi asintotici che garantiscono la possibilita di controllare e contenere l'errore al crescere del numero dei dati: quindi non si estendono automaticamente al caso dei processi quelle proprieta di consistenza a cui siamo abituati nel caso di campioni casuali, basandosi sulle quali si puo essere certi che al crescere del numero di informazioni la inferenza permette risultati pili precisi, e l'errore che commettiamo diventa trascurabile all'aumentare del numero dei dati a disposizione. Per esemplificare, nella stima della media, se (X I,X2 , ... ,XN) e un campione casuale, costituito di variabili tutte indipendenti, con la medesima distribuzione la cui media e m e la varianza v, possiamo considerare 10 stimatore X N == (Xl + X 2 + ... + X N) IN sapendo che E(XN) == m, Var(X N ) == vlN, percio al crescere del numero dei dati N, X N ha una distribuzione che degenera sul valore costante m. Ma se lc Xi non sono indipendenti, la Var(X N) non e pari a v IN, potrebbe addirittura non essere decrescente al crescere di N: cia significherebbe sostanzialmente che aumentando il numero di dati la nostra inferenza non diventa pili precisa, e quindi non sappiamo sfruttare adeguatamente le nuove osservazioni, oppure addirittura esse non forniscono nuove informazioni su B. II poter contare su una forma di consistenza e quindi essenziale per poter costruire una inferenza plausibile, rna mentre nell'inferenza parametrica basata su campionamento casuale questa proprieta e automaticamente verificata, nel caso dei processi aleatori dovremo sempre controllare che essa sia soddisfatta. Essa puo valere quando si considera un certo parametro 0 momento, e non valere per un altro, e in ogni caso essere soddisfatta da un certo tipo di processo e non da un altro: per questo viene considerata come una proprieta del processo stocastico, denominata erqodicita, che consideriamo nel prossimo paragrafo. Le difficolta nell'inferenza per processi aleatori sono tali che in genere si riescono a raggiungere solo risultati parziali 0 approssimati, muovendosi di
8.2 L'ergodicita
145
solito in due direzioni: si considera il comportamento asintotico degli stimatori che spesso puo essere ricavato facendo uso di alcune forme di teoremi limite, oppure si parte dalla assunzione di norrnalita dei dati, e a volte entrambe.
8.2 L'ergodicita II termine di ergodicita viene usato con significati diversi da scuole diverse, poiche rappresenta un tema assai complesso e suscettibile di una trattazione matematica molto approfondita. II problema fondamentale da cui nasce la nozione di ergodicita deriva dal raffronto tra il comportamento delle medie di insieme (0 campionarie) e le medie temporali. Considerando il processo stazionario {X t } e la singola variabile X s per s fissato, una media temporale e la media aritmetica di N variabili contigue del processo: X(N) == (X s + X s + I + ... + X s+ N- I ) IN; una media di insieme e invece la media effettuata su pili copie indipendenti della medesima variabile X s : X(N) = (X~1)+X~2)+ ... +X~N))/N dove (X~1),X~2), ... ,X~N)) e un campione casuale semplice della variabile X; (che naturalmente sarebbe osservabile solo se potessimo rilevare pili realizzazioni indipendenti della stesso processo). In generale se X(N) e X(N) hanno la stessa distribuzione il processo viene chiamato ergodico. Ma il termine ergodico viene anche usato, e pili frequentemente, nel senso che gli abbiamo attribuito precedentemente, che si riferisce alla proprieta di consistenza di uno stimatore. Pili precisamente, se () e un parametro che puo essere espresso come media di una funzione del processo () == E{f(Xt ) } , e si considera la media temporale della stessa funzione: N
eN == L f A
t=l
(X t ) IN, allora il processo
in probabilita a () quando N
e ergodico rispetto a () se eN converge A
----* 00:
J~ Pr { leN - BI < E } = 1 .
(8.1)
In sostanza cia significa che la media temporale conserva la proprieta pili importante della media campionaria, cioe la validita della legge dei grandi numeri che permette di effettuare inferenze sempre pili precise all'aumentare delle informazioni. II caso pili semplice equando si prende f(X t) == Xt: allora il processo si dice ergodico in media quando (Xl + X 2 + ... + X N )IN converge in probabilita alla media del processo. Prendendo f(X t) == XtXt+h si parlera invece di crgodicita in autocovarianza, e cost via. Esamineremo specificamente le condizioni di ergodiclta nell' ambito della trattazione dell'inferenza sui singoli parametri e sulle classi di processi aleatori che abbiamo introdotto.
9
Inferenza per processi stazionari
In questo capitola si tratta l' analisi delle serie temporali, cioe le procedure di inferenza statistica relativa ai parametri rilevanti dei processi stazionari: la media, la varianza, le autocovarianze e autocorrelazioni, la densita spettrale, i coefficienti dei processi autoregressivi a somma mobile.
9.1 Introduzione Passiamo ora a considerare i processi a parametro discreto e valori continui. In questo caso la necessita di considerare inferenze su parametri che siano rilevanti per tutte le variabili del processo consiglia, come gia osservato, di restringere il campo ai processi stazionari. Ci limiteremo a richiedere la stazionarieta al secondo ordine, e l'inferenza avra per oggetto le quantita caratteristiche che abbiamo studiato nei capitoli precedenti, e che descrivono Ie proprieta del secondo ordine del processo: la media, le autocovarianze e le autocorrelazioni, nel dominio temporale; e la densita spettrale, nel dominio frequenziale. Se si tratta di un processo bivariato, prenderemo in considerazione anche lc covarianze incrociate e le funzioni cross-spettrali. Schematizziamo il problema come segue. Supponiamo di disporre di una serie temporale (Xl, X2, ... , X N) generata dal processo {Xt } , cioe Xi e realizzazione della variabile Xi del processo (i == 1,2, ... , N); {Xt} e stazionario al secondo ordine, con media E(Xt ) == u, funzione d'autocovarianza ,(h) e densita spettrale f(A). Scelto un parametro di interesse () (che potra essere la media u, 0 il valore di ,(h) per un h fissato, 0 la densita spettrale f(A) in corrispondenza a una fissata frequenza), si dovra determinare una funzione == f (X I, X 2, ..., X N) che funga da stimatore, in modo che l'errore commesso sia una variabile aleatoria che soddisfa criteri di ottimalita. Allora si stima il parametro attribuendogli il valore assunto dallo stimatore sulla serie osservata cioe {) == f (Xl, X2, ... , X N). Si capisce subito pero che comunque le affermazioni inferenziali permetteranno solo una caratterizzazione limitata, poiche non e certo pensabile di
eN
eN - ()
148
9 Inferenza per processi stazionari
effettuare inferenza su tutti gli infiniti valori di ,(h) per ogni h, oppure su tutte le ordinate f (A) per A variabile con continuita tra 0 e 1r. Tenuto conto che i dati a disposizione (Xl, X2, ... , X N) si riferiscono a un intervallo di tempo limitato, e ragionevole limitare i valori del ritardo h per i quali si stima ,(h). Nel dominio frequenziale invece, poiche dovremo accontentarci anche in questo caso di formulare affermazioni su un numero finito di parametri, e ci interessa in genere l'andamento su tutte Ie possibili frequenze tra 0 e 1r, il modo di procedere pili comune e quello di concentrare la procedura inferenziale sui valori che la densita spettrale assume in corrispondenza a un insieme finito di frequenze equispaziate del tipo Aj == 1rj/M (j == 0,1, ... ,M). Va sottolineato come, anche sotto il profilo dell'inferenza, e necessario procedere parallelamente nei due domini: infatti se e vero che la ,(h) e la f(A) sono in corrispondenza biunivoca essendo una coppia di trasformate di Fourier, non e detto che cia valga anche per gli stimatori: in particolare si vedra come un soddisfacente stimatore delle autocovarianze ha una trasformata di Fourier che rappresenta un cattivo stimatore della densita spettrale. Pertanto, per ottenere proprieta soddisfacenti dal punto di vista inferenziale (cioe delI'errore che si commette), e necessario costruire indi pendentemente Ie stime delle autocovarianze e quelle dello spettro (e vedremo come per queste ultime il compito si riveli pili difficile). Nei paragrafi che seguono svilupperemo separatamente alcuni risultati di inferenza per quanto attiene la media del processo, Ie autocovarianze e autocorrelazioni, e poi esamineremo il problema della stima della densita spettrale.
9.2 Stima della media Nell'inferenza basata su campioni casuali il miglior stimatore della media e dato dalla media del campione. Nel nostro caso, come gia osservato, avendo una sola realizzazione, e solo in parte nota, possiamo costruire solo la media temporale:
X La media
e ovviamente:
N=X
1+X2+ooo+XN
N
percio 10 stimatore e non distorto. Calcoliamo la varianza (che all'errore quadratico medio):
e quindi uguale
9.2 Stima della media
149
Se prendiamo come indice di sommatoria h == t - s al posta di s, il dominio (1 < t < N, 1 < s < N) si trasforma nei due triangoli (0 < h < N - 1, h + 1 < t :::; N) e (-1 :::; h :::; - N + 1, 1 :::; t :::; N + h) e la somma si trasforma in:
Ora, ricordando che l'autocovarianza e pari: ,(h) == ,( -h) e prendendo s -h come indice di sommatoria del secondo termine si ottiene infine: N - l
Var (X N ) =
~2 { ~ (N 1
= N
L
N-l
(
N-l
hh(h) + ~ (N - sh(s)
Ih l )
1- N
'Y (h) .
==
}
= (9.1)
h=-N+l
Possiamo ora esaminare il problema dell'crgodicita. II processo si dice ergodico in media se 10 stimatore X N converge in probabilita a J1 quando N ~ 00. Poiche: E (X _ )2 Pr {IXN - III < k} 2: 1 ~2 11 dalla disuguaglianza di Cebicev, la consistenza e assicurata se E (X N - J1) 2 tende a zero, cioe se tende a zero la varianza (9.1). Cia sarebbe assicurato se convergesse la serie le cui somme parziali sono
la quale ha 10 stesso comportamento al limite della: 00
L,(h)
(9.2)
per il teorema di Cesaro. Percio se la serie (9.2) e convergente si ottiene la ergodicita: eondizione suffieiente perche il proeesso sia ergodieo in media e ehe la serie delle autoeovarianze sia eonvergente. Tuttavia questa condizione non e necessaria: una condizione necessaria e sufficiente perche la varianza tenda a zero si ricava facilmente ricorrendo al dominio frequenziale, usando la rappresentazione spettrale dell'autocovarianza:
150
9 Inferenza per processi stazionari
La varianza si riscrive:
dove si
e posta : KN (A)
=
~ ~
h=-N+l
=
(1- ~)
e-
i Ah
=
~ { 1+ 2~ (1 - ~) cos Ah}
=
1 sin 2 (N A/2) N2 sin 2 (A/2) chiamata funzione nucleo di Fejer (per il calcolo del risultato si veda l' Appendice A). Al crescere di N, se A i- 0, sin 2 (A/ 2) i- 0, e KN(A) tende a zero. Viceversa nel punto A == 0 il limite destro e sinistro di KN(A) coincidono e valgono 1 (ricordando il limite notevole sin y/ y ~ 1 per y ~ 0). Percio per N ~ 00 la KN(A) si annulla ovunque eccettuato in A == 0 nel Quale vale 1. Ne segue che:
che e nulla se la misura spettrale e continua nell'origine: condizione necessaria e sufficiente per l' erqodiciia in media e ehe la misura spettrale sia continua in A == o. Percio tutti i processi che hanno densita spettrale assolutamente continua f(A) sono ergodici in media. Inoltre, poiche:
L r (h) == 21rf (0) 00
lim N Var (X N) ==
N----+oo
-00
ne ricaviamo un valore approssimato:
Per quanto riguarda la distribuzione di probabilita di X N, essa dipende ovviamente da quella del processo: se si assume che il processo egaussiano, allora X N e combinazione lineare di normali, e quindi ha distribuzione normale. In alternativa possiamo cercare di applicare un teorema centrale di convergenza che assicuri la normalita asintotica di X N: esistono molte generalizzazioni del
9.2 Stima della media
151
teorema del limite centrale (che si applica a variabili indipendenti) che sostituiscono l'indipendenza con condizioni meno restrittive, ad esempio l'ipotesi che il processo possa essere rappresentato in forma lineare:
dove pero le {Et} sono indipendenti. Possiamo percio ipotizzare nelle applicazioni che la media sia asintoticamente normale, il che permette ad esempio la costruzione di intervalli di confidenza:
-~ XN
-
ka / 2
VN f (0)
dove k a / 2 e il quantile della normale standardizzata. Anche per quanto riguarda i test delle ipotesi, si puo ricorrere alla teoria di Neyman e Pearson assumendo la gaussianita del processo rna attribuendo allc conclusioni solo validita asintotica. Le maggiori difficolta dell'inferenza su processi aleatori rispetto al caso del campionamento casuale possono essere esemplificate in questo semplice caso, notanda che la media della serie non e in genere stimatore di massima verosimiglianza, nemmeno per processi gaussiani. Infatti se consideriamo la log verosimiglianza, indicando con Vij == r (i - j) gli elementi della inversa della matrice di autocovarianza di ordine N si ha: log L
(Xl, X2,
000'
XN
IJL) ex:
1
-"2 L 2:)Xi N
N
JL)
(Xj -
JL) Vij
i=l j=l
ed eguagliando la derivata rispetto a Ma zero si ottiene: N
N
L L VijXj
M==
i=l j=l N N
L L
i=l j=l
Vij
I pesi Cj == E~l Vij sono tutti uguali solo nel caso di rumore bianco, e solo in tal caso X N e stimatore di massima verosimiglianza. Tuttavia, al crescere del numero di osservazioni in modo bilaterale (cioe verso il futuro e verso il passato), si puo dimostrare che Ie differenze tra i Cj tendono a zero, quindi potremmo dire che X N e asintoticamente di massima verosimiglianza. Nonostante queste difficolta, 10 stimatore X N e certamente la forma pili naturale, ed e adottato senza eccezioni nella letteratura. Esso si giustifica perche e in sostanza 10 stimatore per analogia, ovvero secondo il metoda dei momenti ed e 10 stimatore ottimale nel caso di rumore bianco.
152
9 Inferenza per processi stazionari
9.3 Stima delle autocovarianze e delle autocorrelazioni Passiamo adesso a considerare l'inferenza quando il parametro d'interesse una autocovarianza:
e
compresa la varianza, oppure una autocorrelazione:
r (h)
== ' (h)
,(0) .
Data la parita considereremo solo autocovarianze per h positivo 0 nullo (la varianza) e autocorrelazioni per h positivo (porremo per comodita 10 stimatore di r(O) uguale a 1 con probabilita uno). La simbologia che adotteremo e quella pili comune nella letteratura: indicheremo con i(h) 10 stimatore di ,(h) e con f(h) 10 stimatore di r(h); preferiamo questa notazione poiche e usata molto diffusamente, anche se comporta una piccola incoerenza con la notazione precedente, in quanto gli stimatori non sono denotati da lettere maiuscole pur essendo variabili aleatorie. Per costruire uno stimatore, possiamo anche in questo caso prendere spunto dalla situazione nella quale le variabili sono indipendenti (che ci riporta alla inferenza classica su campioni casuali): rna cia vale solo per la stima della varianza ,(0), poiche tutti gli altri ,(h) sono nulli in caso d'indipendenza. Per la varianza sappiamo che nel caso gaussiano, 10 stimatore di massima verosimiglianza risulta: N
i (0) = ~ ~ (Xt
-
X)2
(9.3)
t=l
che adotteremo come stimatore della varianza. Sappiamo gia che questo stimatore e distorto nel caso di campione casuale, ci possiamo aspettare che sia ancora pili seriamente distorto nei processi aleatori, rna tratteremo in seguito questo aspetto. Per quanto attiene alle autocovarianze, la scelta pili intuitiva (e di fatto unanimemente accettata) e di calcolare una media temporale dell'analogo della covarianza empirica tra due caratteri statistici. Poiche ,(h) e la covarianza tra due variabili che distano h istanti, noi consideriamo nella serie storica a disposizione (Xl, X2, ... , X N ), i prodotti degli scarti dalla media delle osservazioni che distano esattamente h istanti, del tipo (Xj - x) (Xj+h - x), e ne formiamo la media aritmetica. La stima risultante e realizzazione della stimatore seguente: N-h
i(h)=~~(Xj-X)(Xj+h-X),
h=0,1,2,...
(9.4)
j=l
Notiamo che nella serie i prodotti del tipo (Xj - x) (Xj+h - x) sono soltanto JV - h, quelli per j == 1,2, ..., N - h perchc per valori maggiori di j coinvolgerebbero le osservazioni successive alla XN che non sono note; percio nella (9.4)
9.3 Stima delle autocovarianze e delle autocorrelazioni
153
i termini della sommatoria sono soltanto N - h, cioe sempre meno numerosi al crescere di h, e la sommatoria non si puo calcolare per h 2:: N. Inoltre la (9.4) non e una media aritmetica esatta, poiche dividiamo per N una somma di N - h termini, quindi la somma dei pesi e 1 - hlN e non e 1. E possibile pensare a una media aritmetica esatta: 1
L (Xt -X) (Xt+h -X) _
N-h
1* (h) = N _ h
N
_
t=l
= N _
h:Y(h)
rna questa forma eormai stata abbandonata dalla maggior parte degli analisti, per i motivi che saranno chiariti tra breve. Esaminiamo Ie proprieta degli stimatori, iniziando con la distorsione. Qui il problema e essenzialmente che si deve usare una stima della media per calcolare gli scarti. Poiche:
(Xt - X) (Xt+h - X)
==
(Xt - f-L) (X t+h - f-L)
+ (X - f-L)2 +
- (X t - f-L + X t+h - f-L) (X - f-L) si ottiene: N-h
Ni (h) ==
L
t=l
N-h
(X t - X) (Xt+h -
X)
==
L
t=l
(X t - f-L) (X t+h - f-L)+
L'ultimo termine e approssimativamente uguale a -2(N - h)(X - f-L)2 (anche se nella prima sommatoria non sono considerati gli ultimi h dati, nella seconda i primi h). Prendendo infine la media e dividendo per N:
E{:Y (h)}
=
N-h N-h ~1 (h) - ~E (X N-h
~ ~,(h) -
2
- JL) =
N-h
JV221r f (0) .
II secondo termine, pari approssimativamente alla varianza di X, si ritiene generalmente trascurabile almeno per N grande, percio si assume
Si conclude che i(h) e distorta, e la distorsione e pari a una quota (hIN) del valore vero, percio e asintoticamente non distorta. I valori stimati dell' autocovarianza tenderanno quindi a essere pili piccoli in modulo del valore che si stima, in altre parole i(h) e distorta verso l'origine. Si deduce subito che E{,* (h)} ~ ,(h), quindi la versione alternativa dello stimatore sarebbe approssimativamente non distorta. Allora quali sono Ie ragioni della preferenza verso i(h)? Fondamentalmente le due seguenti:
154
9 Inferenza per processi stazionari
1. Se valutiamo l'errore quadratico medio dei due stimatori abbiamo:
EQM fY(h)}
=
E {i' (h) -1' (h)}
2
~ Var{'Hh)} + l' (h)2 ~22
EQM {,* (h)} == E {,* (h) - , (h)}2 == =
Var{ * (h)} l'
=
2 N Vari' (h)} (N _ h)2 l'
VarfY(h)} (1 _ h/N)2
=
ed e opinione prevalente che l' EQ M {1( h)} tenda ad essere inferiore a quello dell'altro stimatore, anche se cia non puo essere dimostrato valido per tutti i processi stazionari (rna vale, come si verifica subito, per il rumore bianco). 2. E importante che considerando le stime collettivamente per tutti i valori di h si ottenga una funzione 1(h) che soddisfa le proprieta soddisfatte dalla funzione di autocovarianza ,(h). La parita e soddisfatta per costruzione dalla 1(h), la relazione Ii (h) I S; 1 (0) e anche soddisfatta, controlliamo la definitezza positiva: poiche
L LCiC/Y (i - j) i
=
j
~ L L LCiCj (Xt - X) (XHi-j - X) = i
j
t
~ ~ L LLci (Xs - i- X) Cj (X
S-
i
=
j
j- X)
=
s
~ ~ [~Ci (X i-X)r > o. s-
Si deduce che 1(h) e definita positiva; invece questa proprieta non assicurata per la (h).
,*
e
In conclusione useremo la forma dello stimatore (9.4) calcolando la varianza 1(0) e le autocovarianze relative ai ritardi crescenti 1,2, ... , fino al massimo ritardo, chiamiamolo M, e possiamo poi porre (se c'e necessita di estendere formalmente la definizione dello stimatore) 1(h) == 0, h > M. In via di principio potremmo scegliere M == N - 1, rna quando h e vicino a N gli stimatori sono composti da una somma di pochi termini (soltanto N - h), e la distorsione (circa, (h)h/ N) e elevata, percio si preferisce limitare il valore del ritardo massimo di stima: se e possibile una indicazione deriva dallo specifico fenomeno che si studia, per il quale a volte si puo restringere l'interesse a una gamma limitata di ritardi. Altrimenti sono state proposte varie considerazioni empiriche, che consigliano di non spingere la stima dell'autocovarianza oltre ritardi pari a un sottomultiplo del numero dei dati del tipo N /5 0 N /3. Ma per una valutazione pili approfondita delle proprieta degli stimatori 1(h) dobbiamo studiarne i momenti secondi, verificando anche se e sotto quali condizioni essi sono consistenti (cioe la ergodicita dei momenti secondi). Teniamo conto che noi costruiamo l'insieme di stimatori {1 (0) ,1 (1) , ... ,1 (M)} calcolandoli sugli stessi dati, percio c'e ragione di ritenere che essi siano correlati.
9.3 Stima delle autocovarianze e delle autocorrelazioni
155
Quindi dovremmo calcolare quantita del tipo:
C ov {i (h) , i (k)} == E {[ i (h) -
Ei (h)] [i (k) - Ei (k)]}
(9.5)
le quali, sostituendo la espressione (9.4) dello stimatore, risultano funzione dei momenti quarti (e terzi) del processo. Questi momenti si possono calcolare in funzione dei cumulanti come abbiamo accennato nel secondo capitolo. Ricordiamo le formule derivanti dalla (3.1) (che abbiamo poi sviluppato nel caso della normale ponendo i cumulanti uguali a zero): E (X IX2X3 ) == cum {Xl, X 2 , X 3 } E (X IX2X3X4 )
== E (X IX2 ) E (X 3X4 ) + E (X IX3 ) E (X 2X4 ) +
+ E (X IX4 ) E (X 2X3 ) + cum {Xl, X 2 , X 3 , X 4 }
(9.6)
dove e da ricordare che si e supposto E(Xi ) == 0 e quindi E(X) == o. Anche in questo caso, ricaveremo formule approssimate la cui validita e solo asintotica; per ricavarle, inoltre, supporremo per semplicita che la media del processo sia nulla. Vediamo dapprima la correlazione tra stimatori della media e dell'autoeovarianza:
Nel caso della distribuzione gaussiana i cumulanti terzi sono nulli; negli altri casi inveee per ottenere l'ineorrelazione sara necessario ipotizzare limitazioni sul eomportamento della serie dei cumulanti, in modo che i termini N 2 e N 3 al denominatore assicurino che la correlazione tende a zero. Per valutare le covarianze del tipo (9.5) assumiamo aneora per semplicita ehe la media sia nulla, oppure che sia nota e la sottraiamo direttamente dai dati, di modo ehe calcoliamo 10 stimatore con la formula:
i (h) =
~
N-h
L
t=l
XtXt+h
156
9 Inferenza per processi stazionari
che permette sviluppi pili facili dei quarti momenti. Poiche ci interessa un risultato asintotico possiamo anche porre E{')t(h)} ~ r(h). Allora:
C ov { ')t (h) , ')t (k)} == E { ')t (h) ')t (k)} -
r (h) r (k)
.
Sviluppiamo il momento quarto usando la (9.6):
E {i (h)i (k)} 1 = N2 L
~2 E { ~ ~ XtXt+hXsXsH }
=
=
L {E (XtXt+h) E (XsXs+k ) + E (XtXs) E (Xt+hX sH)+ s
t
+E (XtXs+k) E (Xt+hX s) + cum (X t, x.,«, X s, X s+k)} == 1
= N2
L L {"( (h) "((k) + "( (t - s)"( (t - s + h t
k) +
s
1
+ "((t-s-k)"((t-s+h)}+ N2 LLcum(Xt,Xt+h,Xs,XsH)' t
s
Ipotizziamo anche in questo caso che la somma estesa ai cumulanti e divisa per N 2 tenda a zero quando N -+ 00, allora per N grande otteniamo:
C ov { i (h) i
1 N (k)} = N2
N
L L b (t - s)"( (t - s + h - k) + t=l s=l
+r (t - s - k) r (t - s + h)} ed effettuando la sostituzione d'indici u == t - s: 1 Cov {i (h), i (k)} ~ N L
b
(u)"( (u + h - k)
+ "( (u -
k)"( (u + h)}
u
h~0 , k~0
(9.7)
dove la sommatoria rispetto ad u si estende a tutti i valori positivi e negativi. La formula appena ricavata, nota come formula di Bartlett, vale per ogni h e k, e permette di calcolare prima di tutto le varianze degli stimatori:
Var{i(h)}
~~L
{"((u)2 +"((u-h)"((u+h)} =
u
=
~L{"((u)2+"((u)"((U+2h)},
h=1,2, ...
u
2 ~
Var{r(O)}~ N~r(u A
)2 .
u
Vediamo che le varianze dipendono dalla serie dei r(u)2 in modo analogo a come la varianza di X dipendeva dalla serie delle r(u), quindi Ia ergodicita in
9.3 Stima delle autocovarianze e delle autocorrelazioni
157
autocovarianza e assicurata dalla convergenza della serie delle ,( u)2. Pili precisamente, ricorrendo alla rappresentazione spettrale sotto l'ipotesi di misura spettrale assolutamente continua (5.11) otteniamo:
VarfY(h)}
=
~ L {// ei(>'-I')U!(>")!(p,)d>..dp+ u
+ // ei>.(u~h)e-il'(u+h)! (>..)! (p,) d>"dp, } = =
~ { / ! (>..)2 d>" + /
e-
i2>.h!
(>..)2 d>..} .
Pertanto se la densita spettrale al quadrato e integrabile, la varianza tende a zero. Una condizione pili precisa per la ergodicita in autocovarianza e allora la seguente:
Notiamo esplicitamente che questa condizione presuppone la assoluta continuita della misura spettrale, mentre per I'ergodicita in media era sufficiente la continuita nell'origine. Per quanto riguarda la correlazione tra Ie stime, la (9.7) e difficilmente valutabile in generale, si puo osservare solo che per ritardi molto diversi tra loro, per cui h - k e grande, e la ,(h) va velocemente a zero al crescere di h, allora nei prodotti ,( u ),(u + h - k) e ,( u - k),( u + h) almeno un fattore sara piccolo, e la covarianza sara moderata, mentre tendono a essere pili correlate tra loro le stime per ritardi consecutivi. Un caso interessante da esaminare e quello che il processo sia rumore bianco: in tal caso ,(h) == 0 per h # 0 e le formule si semplificano molto:
Cov{i(h),i(k)} ==0,
h#k
VarfY(h)} =
1'~)2,
Var{i'(O)}
21'~)2
=
h =I- 0 .
Nel caso del rumore bianco, quindi, gli stimatori delle autocovarianze sono tutti incorrelati, e hanno la medesima variabilita, eccettuato 10 stimatore della varianza del processo, i(O), la cui varianza e il doppio degli altri. Esempio 9.1. Per un processo a somma mobile di ordine q, in cui sia ,(h) == 0 per Ihl > q vediamo facilmente che le stime i(h) e i(k) sono incorrelate se la differenza tra i ritardi e maggiore di q. Nel caso pili semplice q == 1, posta ,(I) == p,(O), avremo Cov{i(h),i(h+j)} == 0 per j == 2,3, ... mentre Cov{i(h),i(h+ I)} == 2p,(0)2/N (ricordiamo che Ipl < 1/2).
158
9 Inferenza per processi stazionari
Passiamo ora a considerare la stima delle autocorrelazioni. Lo stimatore generalmente adoperato e ricavato per analogia dalla definizione r( h) == ,(h)/,(O): N-h
(h) f ( h) == ~ (0) == A
L: (Xt
t=l
'Y
-
X) (Xt + h
-
X) (9.8)
N
L: (x, - X)2 t=l
La consistenza e assicurata se il processo e ergodico in autocovarianza, perche il limite del rapporto e uguale al rapporto dei limiti essendo diverso da zero il limite al denominatore: lim Pr {I f (h) - r (h) I < E} == 1 .
N-+oo
Tuttavia le altre proprieta sono pili complicate, ad esempio la distorsione e difficile da calcolare poiche f( h) e un rapporto tra due variabili aleatorie, in genere correlate. Ci contenteremo percio di risultati asintotici, ottenuti ricorrendo a uno sviluppo in serie di Taylor:
f (x, y) == f (xo, Yo)
+ (x - xo) fx (xo) + (y - Yo) fy (Yo) + R 2
.
Prendiamo come funzione f(x, y) == x/y e identifichiamo x con i(h), y con i(O), Xo con ,(h) e Yo con ,(0). Da:
:: = xo + x - xo _ (y - ;0) xo + R 2 Y
Yo
Yo
Yo
si ricava:
I risultati si ottengono trascurando il resto R 2 che contiene termini di grado superiore a uno nelle differenze i(h) - ,(h) e i(O) - ,(0): poiche queste differenze tendono a zero al crescere di N, gli sviluppi risultanti si possono interpretare come riferiti alla parte principale dell'infinitesimo f( h) - r( h) al tendere di N all'infinito. Dalla (9.9) si ha allora E{f(h)} ~ r(h) e per i momenti del secondo ordine:
9.3 Stima delle autocovarianze e delle autocorrelazioni
=
159
~Cov {1' (h) , l' (k)} - 'Y (h)3 Cov {1' (0) , l' (k)} + r (0) r (0) _ r (k) C ov {A (h) A(O)} + 'Y (hh (k) V ar {A (O)} 'Y (0)3
'Y
'Y (0)4
, 'Y
'Y
e sostituendo la (9.7):
Cov {f (h), f (k)}
=~L
~
{r (u) r (u + h - k) + r (u - k) r (u + h) + 2r (h) r (k) r (u)
2
+
u
h > 0, k > 0
- 2r (u) r (h) r (u - k) - 2r (u) r (k) r (u - h)},
(9.10)
da cui si puo ricavare anche una espressione per la varianza delle stime delle au tocorrelazioni:
Var{f(h)}
~ ~ L{r(u)2+ r(u-h)r(u+h)+ u
+ 2r(u)2r(h)2 - 4r(u)r(h)r(u - h)} . Queste espressioni hanno una parte simile alle analoghe riguardanti le autocovarianze, ma si aggiungono ulteriori termini di grado 3 e 4 nelle autocorrelazioni. Percio anche in questo caso ci si puo attendere che le stime per ritardi non molto diversi siano fortemente correlate.
Esempio 9.2. Per un processo nel quale r(h) == 0 per h > q le stime delle autocorrelazioni sono incorrelate solo se i ritardi considerati sono maggiori di q e contemporaneamente la loro differenza e maggiore di q. Per il caso q == 1 abbiamo, posta r(l) == p, che Var{r(l)} == (1 - 3p2 + 4p4)/ N , Var{r(h)} == (1 + 2p2)/ N , h == 2,3, .... Per le covarianze, per h > 1 si ottiene:
Cov{f(h),f(h+s)} =
~~r(u)r(u+s)=
{
2P/ N p2/N
o
S
== 1
s:2 . s - 3,4, ...
Queste espressioni semplificate si generalizzano facilmente: se r(h) == 0 per h > q, allora possiamo scrivere:
Cov{f(h),f(h+s)}
1
= NLr(u)r(u+s),
b
>«. s=1,2, ...
u
Var{f(h)} =
~Lr(u)2,
h>q.
u
Viceversa, per un processo autoregressivo del primo ordine con r(l) applicando la formula si ottiene:
¢
160
9 Inferenza per processi stazionari
In particolare Var{f(l)} == (1 - ¢2)/N, quindi la variabilita della stima dell'autocorrelazione al ritardo uno, massima nel caso del rumore bianco, diminuisce all'aumentare di I¢I tendendo a zero per I¢I ~ 1. Ricordiamo pero che il valore ¢ == ±1 non corrisponde a un processo stazionario, e quindi l'autocorrelazione (teorica) in questo caso non e definita.
i= 0 e 0, h i= k, Var{f(h)} ~ u», Per quanto riguarda la distribuzione di probabilita degli stimatori, essa e praticamente incalcolabile, rna esistono diversi risultati asintotici, che dimostrano la validita del teorema centrale di convergenza sotto alcune ipotesi di regolarita, Uno dei pili utilizzati concerne i processi lineari, come nel caso che abbiamo ricordato per la media aritmetica: supponiamo che valga la rappresentazione: Nel caso del rumore bianco tutto si semplifica: E{f (h)} ~ 0, h
Cov{f(h),f(k)}
~
L hsEt-s 00
X; - fJ ==
(9.11 )
s=o
con lc {Et} indipendenti e somiglianti, e inoltre E(Et) < 00, Lu h~ < 00, L u lui h~ < 00. Allora si puo dimostrare (Anderson, 1971) che per ogni h positivo la variabile multipla:
IN {i (0) - r (O)}, IN {i (1) - r (1)}, ..., IN {i (h) - r (h)} converge in distribuzione a una normale multipla con medie nulle e varianze e covarianze date dalle formule gia ricavate in modo approssimato, e inoltre converge in distribuzione alla normale anche la variabile:
IN {f (1) -
r (1)}, IN {f (2) - r (2)}, ..., IN {f (h) - r (h)} .
Come immediata conseguenza, per un processo composto di variabili indipendenti le ffi {f (h) - r (h)}, h == 1,2, ... sono asintoticamente normali standardizzate indipendenti. Questi risultati permettono di calcolare intervalli di confidenza approssimati per i singoli elementi r( h) e r( h), mentre epili difficile calcolare regioni di confidenza simultanee per tutti i ritardi, poiche Ie stime per ritardi differenti sono correlate. L'unica eccezione avviene quando questa correlazione viene a mancare, ovvero nel caso di un processo rumore bianco. In questa situazione le stime della autocorrelazione sono asintoticamente normali indipendenti con media zero e varianza liN, quindi se k a / 2 e il quantile della normale standardizzata possiamo costruire l'intervallo di confidenza:
9.4 St ima delle aut ocorre lazioni par ziali
161
0.5
a -0.5 -1 Fig. 9.1. Autocorrelazione t eorica (linea continua ) e stimata (barre) su un a realizzazione finita di un AR(2 ) pseudo-period ico
che e valido ugualmente per t ut ti i ritardi. Spesso l'ip otesi pr incipale da sot to porr e a verifica e che la serie sia completamente incorrelata: r(h ) = 0, Vh # O. Per controllarla agevolmente nel grafico , si usa tracciare sul correlogramma du e linee orizzo ntali al di sopra e al di sotto dell'asse delle ascisse, a egua le distan za ka: /2/ ffi: questa banda viene tracciata dalla maggior pa rte dei softwar e per l'an alisi delle serie temporali. Se il processo che ha generato i dati e un rumore bian co, le singole stime sono ap prossi mativamente normali con media zero e varianza 1/ N , e quindi assu mono un valore che olt repassa la banda solo con proba bilita a . Di conseguenza, se la serie e stata generata da un ru more bianco e abbiamo stimato M autocorre lazioni, ci possiamo asp ettare che approssimativamente solo a.!v! valori ecceda no la ban da di confidenza. Se invece il processo generatore non e un rumore bianco, avra autocorrelazioni pronun ciate diverse da zero , e quindi le stime tenderanno ad avvicinarsi a quei valori, collocandosi con maggiore frequenza all'esterno della banda. Alcuni software calcolano una banda di frequenza pili precisa usa ndo , invece che 1/ ffi, 10 scarto quadratico medio dello stimatore ottenuto sostituendo Ie stime delle autocorre lazioni nella (9.10) (si veda ad esempio la Fig. 5.5 del capitolo 5). Un esempio di st ima del correlogramma e riportato nella Fig. 9.1 che illustra la st ima effett uata su un processo autoregress ivo del secondo ord ine, la cui autocorrelazione teorica e pure riportata nel grafico.
9.4 Stima delle autocorrelazioni parziali Abb iamo visto il significato delle autocorrelazioni parziali in termini di regressione: l'auto correlazione parziale al ritardo h, ;r(h), e uguale al coefficiente di
162
9 Inferenza per processi stazionari
Zt-h nella regressione di Zt SU (Zt-l, Zt-2, ... , Zt-h). Pertanto ai fini della stima si potrebbero eseguire ripetute regressioni sulla serie storica osservata, aumentando via via l'ordine dei regressori mediante le variabili precedenti, e assumere come stime i coefficienti di regressione dell'ultimo termine. Esiste tuttavia un metodo computazionalmente pili semplice e rapido (e che da essenzialmente gli stessi risultati) consistente nello stimare le autocorrelazioni (ordinarie) e sostituirle nelle formule di Durbin (6.20) e (6.21). In questo modo si possono stimare ricorsivamente i parametri autoregressivi di una autoregressione di ordine m per valori di m crescenti, e porre la stima della autocorrelazione parziale di argomento m uguale alla stima di cPm,m. Se indichiamo con n-( h) le stime da calcolare delle autocorrelazioni parziali, mentre f (h) sono quelle gia ottenute delle autocorrelazioni ordinarie, si procede COS!: • •
(1) Si pone ovviamente n-(O) == 1,n-(1) == f(1)'¢I,1 == f(1). (2) Per m == 1 dalle(6.20) si ottiene:
_ f(2) - ¢1,lf(1) 7[''" (2) -- 1 ,+,2 2 - - - - " , - - , 1 - cPI,lr(1)
•
e dalla (6.21) si stima l'altro coefficiente ¢2,1 == ¢l,l - ¢2,2¢1,1. (3) Avendo stimato i ¢m,j per m == 1 e 2 si puo calcolare la stima di 7['(3) usando ancora la (6.20) per m == 2:
11-(3)
• •
=
¢2,1 f(2) ¢2,2 f (1) 1 - cP2,1 r(1) - ¢2,2r (2)
f(3)
-A
-A
e si stimano anche i rimanenti coefficienti ¢3,j usando la (6.21) con m == 2. (k+ 1) Sulla base delle stime dei coefficienti ¢k,j e delle autocorrelazioni ordinarie stimate si ottiene ancora dalla (6.20):
La procedura puo essere iterata fino al ritardo massimo di stima, che e legato a quello adoperato per la stima delle autocorrelazioni ordinarie. Quanto alle proprieta campionarie degli stimatori delle autocorrelazioni parziali, la loro forma pili complicata di quelle ordinarie non permette in generale di ottenere risultati analoghi. Possiamo pero affermare che, essendo le n-( h) funzioni continue delle f( h), se il processo e ergodico in autocovarianza allora anche lc stime delle autocorrelazioni parziali sono consistenti. Un risultato asintotico semplice si ottiene solo se il valore teorico di 7['( h) e uguale a zero. Pili precisamente, Quenouille (1949) ha dimostrato che per un processo autoregressivo di ordine p le stime fr(h) per h > p sono asintoticamente normali indipendenti con media zero e varianza 1/N.
9.5 Stima dello spettro
163
Percio possiamo anche in questo caso disegnare il grafico delle stime n- (h) in funzione di h (detto correlogramma parziale) e considerare bande di confidenza attorno allo zero di ampiezza k a / 2 / VN, come per Ie autocorrelazioni ordinarie, poiche, nel caso che il processo sia un rumore bianco, e per N grande, tutte le n-(h), h == 1,2, ... sono approssimativamente normali indipendenti con media zero e scarto quadratico medio 1/ J(N).
9.5 Stima dello spettro Entriamo ora nel campo dell'inferenza per il dominio frequenziale. Come vedremo qui gli sviluppi si complicano e incontriamo problemi nuovi. Supporremo che il processo aleatorio {Xt} abbia densita spettrale f(A) di quadrato integrabile (di modo che e ergodico in autocovarianza) e ci prefiggeremo 10 scopo di stimare la densita f(A) per A fissato. Due sono Ie strade che intuitivamente si possono percorrere (apparentemente distinte): a) Poiche f(A) e la varianza della componente di frequenza A, che e pari alla media del quadrato dell'ampiezza (in quanto I'ampiezza ha media nulla) possiamo basarci sui moduli al quadrato delle ampiezze A(A) che possono essere stimate attraverso le trasformate di Fourier (5.15). b) Dato che f (A) e la trasformata di Fourier delle autocovarianze, possiamo prima caicolare le stime delle autocovarianze e poi prenderne le trasformate. I due metodi conducono sostanzialmente al medesimo stimatore che viene chiamato periodogramma. Infatti se consideriamo la trasformata di Fourier caicolata alla frequenza A sui dati: N
ZN (.\)
essa
= ~ I:: (Xt yN
-
x) ei>..t
t=l
e la realizzazione della variabile aleatoria: N
ZN (.\) =
la cui media
~ I:: (Xt - X) ei>..t
yN
t=l
e nulla, e la varianza:
E{IZn (.\)1 2 }
=
~L
L E{ (x, - X) (Xs -
t
X) }ei>..(t-s) =
s
Y: (1- I~) ~y(h)ei>"h
h=-N+l
dove si e usato uno sviluppo analogo a quello introdotto parlando dell'ergo2 dicit a in media. Pertanto per N ~ oo,EIZN(A)1 tende a 27rf(A), e quin2 di IZN (A) /27r risulta stimatore asintoticamente non distorto della densita spettrale. Esso prende il nome di periodogramma IN(A): 1
164
9 Inferenza per processi stazionari N
IN (>')
=
~ IZN (>')1 2 = ~ ~ (Xt y2wN
2w
1
= 2n
L
N-l
.
:Y(h)et>'h
c: t=l
1 {
= 2n
2 -
X)
ei>.t
N
:Y(0)+2L:Y(h)cos>'h
h=-N+l
}
(9.12)
h=l
dove i(h) e 10 stimatore dell'autocovarianza (9.4) e si e ancora una volta eseguito il cambio di indici h == t - s nelle sommatorie. L'ultima espressione mostra che il periodogramma eesattamente la trasformata di Fourier della funzione che stima le autocovarianze, estesa ponendo i(h) == 0 per Ihl ~ N: quindi anche il modo di procedere indicato in b) suggerisce l'uso del periodogramma. II periodogramma, pur essendo asintoticamente non distorto, presenta un grave inconveniente che 10 rende inutilizzabile nel caso di processi aleatori, poiche non e consistente. Lo possiamo verificare facilmente nel caso pili semplice in cui il processo {Xt } sia formato di variabili gaussiane indipendenti. Per facilitare 10 studio prenderemo in considerazione solo le frequenze i, (j == 0,1, ... , N/2), considerando solo processi di Fourier del tipo Aj == a media nulla (e quindi non sottrarremo pili X) e separando parti reali e immaginarie:
't
dove:
1 A j == - - V2wN
2 L X, cos -.!!. jt N N
t=l
n, == - - - L x, sin -.!!.jt 1
N
2
V2wN
t=l
N
, j
== 1,2, ... , N /2 .
Se {Xt} e un rumore bianco gaussiano, le A j e B j sono anch'esse variabili normali a media nulla e ricorrendo aIle formule di ortogonalita esposte nell' Appendice A si ottiene:
,(0) 2w
N
2w
2w
Cov {Aj, A k } == -N ~ cos Njtcos N kt ==
{:-r
l' (0) ~ 2n 2n C ov { B i- B k} == -N c: sin N jt sin N kt ==
2w
t=l
, (0) ~
2w
{o
j i= k
,(0) / (4w) j == k
{o
,(0) / (4w)
ji=k j==k
. 2w
Cov{Aj,B k } == 21rNL..--cOS Njtsln Nkt==O. t=l
In conclusione le A j e B, sono variabili normali completamente indipendenti, con varianza uguale a ,(0)/(41r). Ne segue che anche i periodogrammi I(Aj), j == 1, ..., N /2 sono indipendenti. Inoltre:
9.5 Stima della spettro
165
ha una distribuzione chi quadrato con due gradi di liberta poiche e somma dei quadrati di due normali standardizzate indipendenti, si usa anche dire simbolicamente I (Aj) 'd~) X~. Da questa relazione ricordando che E(X~) == v, Var(x~) == 2v, discende subito: r-;»
E{I (Aj)}
= l' (0) =
211"
Var{I(A')}== J
f(A)
(,(0))2 4 = (,(0))2 =f(A)2. 411"
211"
Quando la distribuzione del processo non e gaussiana, questi risultati non sono validi se non approssimativamente, rna si puo ricorrere anche qui a una forma di teorema limite centrale per invocare la normalita di A j e B j quando N ---+ 00, e quindi la distribuzione asintotica chi quadro per il periodogramma. Questi risultati, che abbiamo ricavato nel caso del rumore bianco, possono essere estesi almeno asintoticamente ad altre classi di processi, e in particolare ai processi lineari del tipo (9.11) (anche qui per semplicita supponiamo JL == 0):
L 00
x, ==
hsEt-s .
s=o
Vediamo come. La trasformata di Fourier diventa:
e per N grande possiamo prendere come nuovo indice di sommatoria u == t - s che ha un campo di variazione approssimativamente indipendente da s per cui: Z (Aj) == _1_ EueiAjU hseiAjS == z; (Aj) H (Aj)
~
L
L
u
s
dove H(A) e la funzione di trasferimento del filtro {h s } e Z; e la trasformata di Fourier di un rumore bianco e quindi ha la distribuzione ricavata precedentemente. Ne segue:
dove I, (Aj) e il periodogramma del rumore bianco che ha distribuzione chi quadro con 2 gradi di Iiberta moltiplicato per V ar{ Et} / (411") == (J2 / (411"). Poiche la densita spettrale del processo e, come abbiamo pili volte visto, pari a f (A) == 2 (J2 H (Aj) / (211"), concludiamo: I
1
166
9 Inferenza per processi stazionari
ovvero 21 (Aj )I f (Aj) si distribuisce come un chi quadrato con 2 gradi di liberta, il che ci permette di calcolare media e varianza: (9.13) ricordando sempre che queste formule sono state ricavate sotto alcune ipotesi, e che comunque la loro validita e approssimativa e asintotica; ricordiamo inoltre che il risultato concerne solo le frequenze di Fourier del tipo Aj == ~ j, rna questo e un problema di minore importanza perche al crescere di N esse sono sempre pili numerose e distribuite in modo equispaziato tra 0 e Jr. Dagli sviluppi riportati finora dovrebbe apparire evidente come il periodogramma, non essendo consistente, non risolve efficacemente il problema della stima spettrale. Dovrebbe risultare altresl intuibile il perche della mancata consistenza: fissata la frequenza, il periodogramma non e una media, rna si basa su una sola trasformata. In base a questa considerazione, alcuni tentativi di arriyare a una stima consistente si sono mossi nella direzione di costruire qualcosa di analogo a medie di periodogrammi. Altri autori hanno sviluppato il problema ponendosi pili dal punto di vista del dominio temporale: il periodogramma ha la forma di una trasformata di Fourier delle stime delle autocovarianze (si veda la 9.12):
IN (>..)
=
~ 2Jr
N-l
'" ~
:y (h) ei Ah
h=-N+l
pertanto si potrebbe pensare che essendo le i( h) consistenti, risulti consistente anche 1N(A): il motivo sostanziale per cui questa proprieta non vale e che si somma un numero di stime i(h) crescente, pari a 2N - 1: la varianza della singola i(h) e dell'ordine di liN, rna la varianza della somma non tende a zero. Questo suggerisce che si potrebbe modificare il modo con cui si sommana Ie i(h) limitando gli estremi a numeri minori di N, ed eventualmente ponderando. Vedremo come queste due idee apparentemente indipendenti portino a proporre stimatori dalla struttura essenzialmente simile, che costituiscono tutta una classe di stimatori consistenti della densita spettrale, legati al concetto di finestra (window) nei due domini. Infatti l'idea che abbiamo esposto, relativa al dominio temporale, porta a considerare forme del tipo:
..)
=~ L 2Jr
w (h):Y (h) e
i Ah
h
dove i pesi {w(h)} si annulleranno per valori elevati di h, rna sempre inferiori a N. Dal punto di vista frequenziale, invece, pensare a una media del periodogramma corrisponde a ipotizzare stimatori del tipo:
9.5 Stima dello spettro
167
La funzione {w(h)} viene chiamata finestra d'intervallo, e per rispettare la dimensione della densita spettrale, e considerato che i(h) == i(-h), dovra soddisfare le proprieta w(O) == 1, w(h) == w(-h). La funzione W(A) viene invece chiamata finestra spettrale. Ora, se poniamo:
w (>') = ~ 2: w (h) e- i h A 21r
(si noti che W(A) e reale perche w(h) e '
-7f
e pari) otteniamo facilmente che
' - w) dw =
= ~ J1I"
-7f
(21r)
=
¢} w
h
2: i (h) h
~ 2:2: i (21r)
h
=~ 2: w 21r
e iwh
2:
w
(s) e-i(A-W)sdw =
s
(h) w (s) e- i AS J7f
-7f
s
(h)i (h) e i Ah
e-iw(s+h)dw
= ') .
h
La ricerca dello stimatore si trasforma percio nel problema della costruzione di una finestra, cioe del valore dei pesi w(h) 0 della funzione W(A), che assicuri la consistenza. A questo fine dovremo fare in modo non solo che la varianza dello stimatore tenda a zero, rna anche che la sua media tenda al valore vera della densita spettrale. II problema si puo sintetizzare nel
modo seguente: determinare M e {wM(h), h == 1,2, ... , M} tali che, posta WM(O) == 1, wM(h) == 0 Ihl > M, WM( -h) == wM(h) (h > 0), e
risulti: lim E
N-+oo
{lw (A)} == f (A),
lim Var
N-+oo
{lw (A)} == 0 .
Molte soluzioni sono state proposte da diversi autori, che portano a diverse forme di stimatori, ne esamineremo solo alcune. II punto chiave di questa metodologia sta nel considerare il valore M (chiamato anche punto di troncamento) come funzione di crescente di N: infatti la media di lW(A) e approssimativamente:
168
9 Inferenza per processi stazionari
e non potra in generale tendere a f(A) se la somma non tiene conto di tutti i ritardi h, cioe se M non tende all'infinito con N; d'altra parte, poiche JW(A) e combinazione lineare di 2M + 1 stime delle autocovarianze, e ciascuna di esse ha varianza dell' ordine 1/N, ci possiamo aspettare che la varianza di (A) sia dell'ordine di MIN, e noi vogliamo che tenda a zero. Percio e necessario che M cresca con N, rna che MIN tenda a zero:
Jw
per N
M
-+ 00,
-+ 00
e M /N
-+
0.
Questo si puo realizzare facilmente prendendo ad esempio M == effi. Quando parleremo di consistenza degli stimatori con finestra, sara sempre inteso che al crescere di N il punto di troncamento M soddisfa la proprieta appena descritta. A) Una delle prime proposte estata avanzata da Bartlett ne11950. Egli suggerisce di suddividere la serie in sottoserie consecutive ciascuna di lunghezza M, di calcolare il periodogramma su ciascuna di esse, e di prendere la media (aritmetica semplice) di questi periodogrammi. Non e difficile dimostrare (si veda ad esempio Priestley, 1981) che questo procedimento porta allo stimatore:
./(A) = che
~ 27r
M
L h=-M
(1 - ~) i (h) M
e
i Ah
e della classe con finestra ponendo:
WM(h)={~-lhl/M Ihl <M
Ihl~M
e la corrispondente finestra spettrale risulta: ( h) } 1 sin (MA/2) == -1 { 1 + 2 ~ Z:: 1 - M cos Ah == -M . 2 2
W (A)
27r
h=l
27r
SIn (A/2)
(il risultato e gia stato ottenuto nel paragrafo 9.2, la finestra W(A) ha la forma di un nucleo di Fejer). Gli andamenti delle finestre sono riportati nella Fig. 9.2. Come si vede la finestra w(h) ha una forma triangolare, mentre quella spettrale ha una forma campanulare simmetrica con massimo in zero, si annulIa in ±27r/ M e in tutti i successivi multipli di 27r/ M. Si deduce quindi considerando la espressione della stimatore nel dominio frequenziale:
9.5 Stima della spettra
169
0.5
o
--fL----------------"-
o
-M
M
-2Jt/M
2Jt!M
(b)
(a)
Fig. 9.2. Finestra di Bartlett: (a) fin. di intervalla; (b) fin. spettrale
..,. ,,, . , .... , .,.. ,, , .. I
I
'\
I
\
\
\
\
..
~
f
. -.
... ...
-......
\
,.. - .......... \
..
'If
"
-2Jt/M
,
.
- -.
2Jt/M
0
Fig. 9.3. Larghezza di banda di una finestra spettrale
che j(A) e una media dei periodogrammi di frequenza attorno a A, che hanno maggior peso i periodogrammi di frequenza meno diversa da A, e che i pesi della media sono molto piccoli per frequenze distanti da A pili di 21r/ M. Percio pili l'area centrale di W(A) e stretta, meno sara distorta j(A). Una misura dell'ampiezza del lobo centrale di W(A) viene detta "larghezza di banda" della finestra. Sono state proposte varie definizioni, noi adottiamo la pili semplice (dovuta a Parzen): la larghezza di banda e pari alla base di un rettangolo che abbia la stessa area di quella sottesa da W(A), e la stessa altezza nell'origine (si veda la Fig. 9.3). Poiche l'area di W(·) e:
j~71" W (A) dA = 21r ~ 7r
1
WM
(h)
t
-71"
e-iAhdA =
WM
(0) = 1
la larghezza di banda risulta pari a l/W(O). Per 10 stimatore di Bartlett, poiche W(O) == M/(21r), la larghezza di banda e 21r/M.
170
9 Inferenza per processi stazionari 10
0.5
M
-M -0.5
-5
(b)
(a)
Fig. 9.4. Finestra del periodogramma troncato: (a) fin. di intervallo; (b) fin. spettrale
B) Una soluzione ancor pili semplice si otterrebbe troncando nel periodogramma la somma delle autocovarianze a un numero M; il periodogramma troncato:
j (>') = ~ 27r
M
i (h) ei>.h
'"
L....J
h=-M
e uno stimatore con finestra wM(h) data cia: Ihl<M Ihl2: M alla Quale corrisponde la finestra spettrale:
W(>.) =
~ {I +2I=COS>.h} = ~ sin(~ + 1/2)>. = 27r
27r
h=l
SIn
>../2
DM (>')
funzione chiamata nucleo di Dirichlet, il cui andamento e illustrato in Fig. 9.4b. Si vede che l'oscillazione avviene su valori positivi e negativi, i punti in cui W(>..) si annulIa sono i multipli di 7r/ (M + ~). L'esistenza di ordinate negative comporta il grave inconveniente che le risultanti stime della densita spettrale per qualche frequenza potrebbero risultare negative. C) Una idea parallela e quella di prendere invece una media a pesi costanti del periodogramma sull'asse delle frequenze. Lo stimatore risultante viene chiamato stimatore di Daniell e fu proposto nel 1946. La finestra spettrale viene assunta costante nell'intervallo (-7r/ M, 7r/ M): poiche l'integrale e pari a uno, si avra W(>..) == M/(27r). L'inconveniente principale in questo caso e che la associata finestra di intervallo risulta: WM
(h) ==
j1f W (>') ei>.hd>. = M . : ei>.hd>. = sin (nh/M) -1r
27r
-1rIM
7rh/M
e quindi non si annulIa per Ihl > M, cosi che questo stimatore non e calcolabile se non approssimativamente. L'andamento e illustrato in Fig. 9.5.
9.5 Stima dello spettro
171
(b)
(a)
Fig. 9.5. Finestra di Daniell: (a) fin. di intervallo; (b) fin. spettrale
D) L'idea originale che porta allo stirnatore di Tukey che adesso introdurrerno e quella che sovrapponendo pili funzioni del tipo di Dirichlet (Fig. 9.4) leggerrnente sfasate si puo ottenere un andarnento pili soddisfacente, e una forma dello stirnatore nel dorninio temporale ancora sernplice. Lo stirnatore di Tukey ha una finestra spettrale: W (A)
1 M ( .\ - -7f ) + -D 1 M == -D 4
M
1 M ( .\ + -7f ) (.\) + -D 24M
dove D M (.\) e il nucleo di Dirichlet, cioe la finestra spettrale del periodograrnrna troncato. La corrispondente finestra di intervallo si ottiene facilrnente:
e ricordando che:
Ihl <M Ihl2: M otteniarno: WM
1 ih1r/M + -1 + -e 1 -ih1r/M -_ (h) -- -e 424
{~ 0
(1 + cos
~) Ihl <M Ihl2: M
Percio i pesi si annullano per h 2: M e hanno un andarnento sinusoidale discendente (si veda la Fig. 9.6) rnentre la finestra spettrale ha un cornportarnento simile al nucleo di Dirichlet (periodograrnrna troncato) anche se con oscillazioni rneno rnarcate. La larghezza di banda risulta pari a 27f/ M. In realta esistono
172
9 Inferenza per processi stazionari
0.5
o
~---------~
M
-M
(b)
(a)
Fig. 9.6. Finestra di Tukey-Hanning: (a) fin. di intervallo; (b) fin. spettrale
0.6
-It/M
6 e . - - - - - - - - - - - - - - - ' '--
It/M
---'
(b)
(a)
Fig. 9.7. Finestra di Bartlett-Priestley: (a) fin. di intervallo; (b) fin. spettrale
diverse versioni dello stimatore di Tukey, che differiscono per il diverso peso dato ai tre termini del nucleo di Dirichlet. La scelta (~, ~, ~) corrisponde allo stimatore detto di Tukey-Hanning, mentre Tukey originariamente suggerl i pesi (0.23,0.54,0.23) (il relativo stimatore e a volte detto Tukey-Hamming). E) Tra lc molte altre proposte, consideriamo solo 10 stimatore di BartlettPriestley la cui forma e stata ottenuta con 10 scopo di minimizzare una espressione approssimata dell' errore quadratico medio. La finestra spettrale ha la forma:
W('\)
3M{I (MA)2} = { 041r - 7f
e come Cl SI puo aspettare essen do troncata corrisponde a una finestra di intervallo che non si annulla: 2
wM
(h/M)} (h) == 3M 2 {sin(1fh/M) hiM cos 1f (1fh) 1f
La forma di queste funzioni
l/W(O) == 41f/(3M).
e illustrata in
.
Fig. 9.7, la larghezza di banda
e
9.5 Stima dello spettro
173
Esaminiamo ora le proprieta degli stimatori. Per quanto riguarda la distorsione possiamo scrivere:
E { j (A) } - f (A)
=
E
{I:
I (w) W (A - w) dw} - f (A) .
Ora poiche tutte le funzioni coinvolte sono periodiche di periodo 1r, possiamo cambiare variabile di integrazione ponendo A-W == v senza alterare gli estremi dell'integrale, e inoltre dato che J W (A) d); == 1 abbiamo:
Poiche E {I (A- v)} ~ f (A- v), adoperando uno sviluppo in serie della densita spettrale arrestato al secondo ordine:
f (A - v)
2
=
f (A) - vi' (A) + ~ 1" (A) + R 3
otteniamo:
Ma la finestra spettrale e simmetrica, percio la distorsione approssimata e:
Jv W (v) dv == o. In conclusione
La distorsione dipende dalla derivata seconda di f(A), ed e meno grave se nell'intorno di A Ia densita spettrale ha minore curvatura; dipende anche dal momento secondo di W(A), che e una misura di ampiezza della finestra. Per tutti i tipi di stimatore considerati essa contiene M 0 M 2 al denominatore, percio la distorsione va a zero se M ~ 00. Per calcolare la varianza dello stimatore j (A) possiamo sfruttare Ia sua proprieta di essere media di periodogrammi, che sono asintoticamente incorrelati per frequenze diverse. Per evitare di dover trattare con integrali consideriamo I'approssimazione:
j(A)=
2 I(w)W(A-w)dwc::';
J
~2
2:
I(wj)W(A-Wj)
j=-N/2
dove Wj == ~ j sono Ic frequenze di Fourier: in realta il membro destro e una somma di Cauchy caIcolata sulla partizione (Wj, Wj+l) di (-1r, 1r) e quindi converge all'integrale quando N ~ 00. Per la varianza otteniamo:
174
9 Inferenza per processi stazionari
Ora, per N grande, poiche W(.) e concentrata sullo zero, e quindi W(.\ - Wj) ha valori trascurabili se Wj i= .\, possiamo sostituire 1(.\) a I(wj) ottenendo:
A } ~ 47r ~ 2 Var { f(>') N2 L..,W(>'-Wj) f(>.) 2 ~ 27r N f(>') 2 2
J
W(w) 2 dio .
J
Alternativamente, poiche W(.\) e wM(h) sono trasformate di Fourier, da: (9.14) otteniamo una espressione della varianza di temporale:
Var
I (.\) A
{
}
1
~ N
j (.\) dal punto di vista del dominio M
2 I (.\)
~
L.., WM (h)
2
.
h=-M
Per tutti gli stimatori che abbiamo considerato, la quantita (9.14) e proporzionale aM, percio la varianza di j (.\) e proporzionale a M / N, e tende a zero se M soddisfa le proprieta che abbiamo imposto. Distorsione e varianza per i diversi stimatori che abbiamo introdotto si possono calcolare particolarizzando le espressioni di W M (h) e W (.\), i risultati sono riportati nella tabella seguente: Stimatore
Distorsione Varianza
Bartlett
-it") < k f(>..)} ~ 1 - a A
A
1
2
II valore assunto da v (detto numero di gradi di Iiberta equivalente, EDF) per i diversi stimatori e 3N/M per il Bartlett, 2N/M per il Daniell, (8/3)N/M per il Tukey-Hanning e 0.25N/ M per il Bartlett-Priestley. Alcuni autori propongono di scegliere il punto di troncamento in modo da raggiungere un assegnato numero di gradi di Iiberta equivalenti giudicato sufficiente, rna nella letteratura si registrano opinioni divergenti su questa proposta. Per concludere, ricordiamo che e necessario stimare il comportamento del10 spettro su tutto l'intervallo di frequenze (0,7f), e quanto detto sinora ha riguardato la stima di una singola frequenza A. II procedimento andra ripetuto: l'uso generalizzato e quello di stimare su frequenze equispaziate del tipo Aj == ~j, j == 0,1, ... , p, e naturalmente di calcolare la densita spettrale in termini reali: 1 fj == f (Aj) == 27f A
A
{M i + L (0)
2
h=l
WM
7f } (h) i (h) cos -jh p
Quanto alla scelta di p, cioe del numero di frequenze diverse su cui articolare la stima, esso puo essere scelto in base alle esigenze di dettaglio: si puo pero notare che j(A), vista come funzione di A, e la trasformata delle (M + 1) quantita {i(O),i(l), ...,i(M)} ed e quindi completamente individuata da M + 1 valori linearmente indipendenti. Per questo solitamente si calcolano le stime sulle (M + 1) frequenze equispaziate Aj == ; j (j == 0,1, ... , M), cioe si pone p == M. Se si hanno fini comparativi, si preferiranno le stime dello spettro normalizzato gj == j(Aj )/i(O). Esempio 9.3 (Analisi spettrale). Gli esempi che presentiamo sono tutti svolti su serie di 200 dati, stimando la densita spettrale su 100 frequenze equispaziate del tipo Aj == 7fj/100 (j == 0,1, ..., 100) e con punti di troncamento pari a 10, 25,55. II primo esempio riguarda una serie simulata di dati indipendenti (rumore bianco). La Fig. 9.8 riporta i risultati usando la finestra di Tukey-Hanning con vari valori di M, ed esemplifica il procedimento di chiusura della finestra: all'aumentare di M aumenta la variabilita e 10 spettro si presenta meno
9.5 Stima dello spettro
177
1-- M=1 0 ..... M=25 - - M=SS] Fig. 9.8. Analisi spettrale, serie simulata rumore bianco, finestra di Tukey
1-- period. trone. - - Bartlett - - - - -Tukey-Hanning I Fig. 9.9. Analisi spettrale, serie simulata rumore bianco, varie finestre, M==25
"liscio". Le differenze tra le varie finestre sono esemplificate nella Fig. 9.9 che riporta per la medesima serie i risultati dell'analisi spettrale con il periodogramma troncato e le finestre di Bartlett e Tukey per M :== 25. Come si vede le ultime due hanno un comportamento abbastanza simile, mentre il periodogramma troncato presenta oscillazioni pili marcate. La Fig. 9.10 riporta l'analisi su una serie simulata secondo un processo autoregressivo del primo ordine con parametro pari a 0.8, e finestra di Bartlett. Lo spettro teorico ha massimo nell'origine e andamento decrescente, caratteristiche che sono rilevate, con differente chiarezza, dalle varie scelte del parametro di troncamento.
178
9 Inferenza per processi stazionari
I-M=10···· ·M=25 -M=55 Fig. 9.10. Analisi spettrale, serie simulata AR(l) con ¢
~
I
0.8, finestra di Bartlett
1--M=10 - - - - - M=25 --M=55I Fig. 9.11. Analisi spettrale della serie della macchie solari, finestra di Tukey
Infine la Fig. 9.11 riporta l'analisi spettrale effettuata su 200 dati delle rilevazioni del numero annuale di macchie solari. Questa serie e una delle pili studiate nella letteratura di serie temporali, poiche presenta un andamento periodico, di ampiezza e periodo irregolari. Tale caratteristica viene individuata con chiarezza per ogni valore di M, poiche la densita spettrale presenta ha un massimo marcato. Anche in questo caso vediamo come al crescere iniziale di M il picco si delinea con sempre maggiore nitidezza, rna un aumento ulteriore di M fa apparire elementi eccessivi di variabilita che si concretizzano in massimi spurii.
9.6 Inferenza per processi bivariati
179
9.6 Inferenza per processi bivariati Gli stimatori delle cross-covarianze e cross-spettri si costruiscono secondo la stessa logica del caso univariato. Per le covarianze incrociate si considera:
1xy (h) =
~
N-h
L
(Xt
X) (Yl+h - Y) .
-
t=l
Seguendo 10 stesso procedimento, e con le stesse ipotesi formulate per Ie autocovarianze, si ottiene E {1'xy (h)} ~ 'Yxy (h) e, per N grande:
C ov {l' xy (h) , l' xy (k)} 1
~ N
~
L bxx (uhyy (u + h - k) + I'xy (u + h hxy (u - k)} . u
Quindi per l'ergodicita e necessaria anche la convergenza della serie dei quadrati delle covarianze incrociate. Per stimare la densita spettrale incrociata, utilizziamo stimatori analoghi ai precedenti: AI,"",
A
fxy(A) == - LJ wM(h)'Yxy(h)e 27r
i)..h
h
e rispettivamente per le parti reale e immaginaria:
C(A)
=
2~ {1x y (0) +
f
WM
(h) [1xy (h) + 1xy (-h)] cosAh}
h=l
s (,X) = ~ ~ WM 27r c: h=l
(h) h xy (h) - 1xy (- h)} sin'xh .
Si possono stimare anche il guadagno e la fase:
,0) == (21ra 2)-lf exp { - 2a12 ~ ~ Ct
dove abbiamo sottolineato la dipendenza degli urti, calcolati secondo la (9.16), dai parametri scrivendo ct (¢, 0). La massimizzazione si ottiene evidentemente in corrispondenza del minimo della somma dei quadrati degli errori: N
S (¢, 0) ==
L c; (¢, 0)
(9.17)
t=l
tuttavia questa minimizzazione non puo avvenire facilmente per via analitica perche S(¢, 0) e una funzione non lineare di (¢, 0) (per rendersene conto basta usare la (9.16) per costruire iterativamente Cl, C2, ... : si vedra che a ogni istante successivo il grado complessivo di ct in (¢, 0) aumenta di uno). Per questo motivo e necessario ricorrere a metodi di ottimizzazione numerica. Questo aspetto ha rappresentato per molti anni un punto debole, rna i progressi pili recenti nelle capacita di calcolo degli elaboratori e nell'analisi numerica permettono di affermare che oggi la minimizzazione della (9.17) non rappresenta pili un problema, anche se in alcuni casi vi possono essere pili minimi locali, e va comunque tenuto presente che i valori dei parametri risultanti devono soddisfare le condizioni di stazionarieta e invertibilita.
9.7 Stima dei parametri per processi ARMA
183
La stima della varianza degli urti puo essere basata su quella osservata dei residui, corrispondente al minimo raggiunto dalla somma (9.17):
che risulta di massima verosimiglianza nel caso gaussiano. Come avviene nella regressione multipla, anche in questo caso 10 stimatore di massima verosimiglianza non e corretto, perche si puo dimostrare che E {S (¢, O)} == (N - p - q)(J2, quindi per ottenere la non distorsione bisogna dividere per N - p - q invece che per N. L'uso del metodo di massima verosimiglianza comporta come sappiamo notevoli proprieta, che assicurano la consistenza degli stimatori e la loro efficienza asintotica. Inoltre la variabilita puo essere valutata approssimativamente attraverso l'informazione di Fisher. Naturalmente il metodo si basa sulla ipotesi di normalita dei dati: tuttavia anche senza questa ipotesi la minimizzazione della somma dei quadrati (9.17) assume il significato dello scegliere i valori dei parametri che rendono minima la somma dei quadrati degli scostamenti tra dato Zt e spiegazione che se ne fornisce: cPl Zt-l +... +cPpZt-p +()l Et-l +...+()qEt-q. Pertanto corrisponde al metodo dei minimi quadrati. La totalita dei software statistici di serie temporali e in grado di applicare questa procedura, e quasi tutti permettono in alternativa di usare anche metodi non condizionali, 0 altre tecniche tra le molte proposte in letteratura: i risultati in genere non sono sostanzialmente differenti, almeno quando il numero di dati non e molto piccolo. E comunque pratica comune assicurarsi la disponibilita di almeno una cinquantina di dati per stimare anche i pili semplici modelli. II problema della stima si semplifica molto nel caso di processi autoregressivi puri: infatti la somma dei quadrati dei residui diventa:
Se ci limitiamo a sommare sugli istanti da p + 1 a v, abbiamo quantita note e lineari nei parametri e la minimizzazione puo avv nire facilmente derivando e uguagliando a zero le derivate. Le equazioni nom.ali risultano:
cPl ( ~ Zt-jZt-l) + cP2 ==
L
ZtZt-j
j
==
(~Zt-jZt-2)
+ ... + cPP ( ~ Zt-jZt- p )
1, ..., p
t
dove le sommatorie per t vanno da p + 1 aN. I coefficienti sono codevianze calcolate su intervalli leggermente variabili: se ignoriamo queste differenze, e dividiamo per N, otteniamo:
184
9 Inferenza per processi stazionari
dove: "(*
(h) =
~
N
1
2::
ZtZt-h
'Yj (h) = N
t=p+l
2:: N
Zt-jZt-j-h
t=p+l
sono due stimatori delle autocovarianze, leggermente diversi tra loro e leggermente diversi da i(·). La (9.18) ha una rassomiglianza immediata con Ie equazioni di Yule-Walker, che sono in realta uguali se scritte per i valori teorici dell'autocovarianza (0 l'autocorrelazione). Cia permette di adoperare le equazioni di Yule e Walker per la stima dei parametri autoregressivi:
dove f e il vettore delle autocorrelazioni stimate, e P la matrice di autocorrelazioni stimate. La differenza con il metodo dei minimi quadrati (e quindi di massima verosimiglianza condizionata gaussiana) risiede solo nell'adoperare le stime correnti: 1 N
i (h) = N
2::
ZtZt-h
t=h+l
invece delle ,*(j) e 1j(h). Come si puo ben comprendere, la stima dei parametri per processi puramente autoregressivi e stata sviluppata prima di quella dei processi ARMA, e la linearita permette di raggiungere risultati pili semplici: un risultato fondamentale dovuto a Mann e Wald (1943) e che per un processo AR(p) se le Et sono indipendenti allora la distribuzione asintotica di:
e normale
con media nulla e matrice di dispersione data da a 2 r;' dove
(rp)ij == ,(i - j) i,j == 1, ... ,p. Percio se indichiamo con il vettore delle stime, per N grande si ha:
¢ == (¢l' ¢2' ..., ¢p)'
Per i modelli puramente a somma mobile, si arriva a un risultato analogo partendo dalle proprieta degli stimatori di massima verosimiglianza e approssimando l'informazione di Fisher: per un processo MA(q), posta B== (B 1 , B2 , ... , Bq)' si ottiene:
E(B) ~ () mentre per i processi misti le espressioni delle varianze e covarianze tra lc stime assumono espressioni pili complicate. Per costruire intervalli (0 anche regioni) di confidenza si ammette l'approssimazione con la distribuzione normale, univariata 0 multipla.
9.7 Stima dei parametri per processi ARMA
185
Gli intervalli di confidenza per i singoli parametri possono essere costruiti usando stime dei loro scarti quadratici medi (calcolate sostituendo ai parametri le loro stime) e ricorrendo ai quantili della distribuzione t di Student con N - p - q gradi di liberta,
Esempio 9.4. Per un processo AR(1) il parametro coincide con l'autocorrelazione al ritardo 1, pertanto ci si puo aspettare che anche le stime coincidano, e in effetti la regola dei minimi quadrati da: N
¢1 ==
L
Zt Zt-l
_t=_~ _ _ ~ f
L
(1)
Z;_1
t=2
percio per N grande:
Risultati analoghi valgono per un processo M A(1) nella stima del parametro (). Questa stima pero non e esprimibile facilmente, in termini compatti, poiche proviene dalla minimizzazione numerica di Ec; (()) dove, come si ottiene facilmente: t
Et (())
==
L j=1
t-l
Zj
+ (J
L
j=1
t-2
Zj
+ (J2
L
Zj
+ ... + e':' ZI
.
j=1
Lo stimatore () soddisfa approssimativamente:
Per i processi misti e di ordine superiore le espressioni si complicano. A titolo di esempio per un processo autoregressivo del secondo ordine si ottiene (Box e Jenkins, 1970, Appendice A.7.5):
con la conclusione, forse inaspettata, che la variabilita degli stimatori dei due parametri e uguale e dipende solo da ¢2, e la covarianza tra i due stimatori ha segno opposto a ¢1.
10 I rnodelli rappresentativi
Questo capitolo e dedicato alla costruzione di modelli rappresentativi. Dopo aver motivato l'utilita dei modelli rappresentativi ai fini della previsione, si illustra la metodologia di costruzione dei modelli della classe ARIMA. Vengono illustrati, in ordine crescente di complessita, modelli per fenomeni stazionari, non stazionari, con stagionalita, e infine modelli dinamici per le relazioni tra due processi.
10.1 Introduzione II termine modello statistico e largamente usato, non solo in statistica rna in una ampia varieta di settori della scienza, per indicare un insieme di ipotesi, generalmente espresse in termini quantitativi, volte a spiegare e riprodurre alcuni aspetti del comportamento del fenomeno studiato. Nell'ambito dell'analisi delle serie temporali, un modello e costituito da una 0 pili equazioni che legano i valori contemporanei 0 ritardati di uno 0 pili processi, alcuni di essi anche non osservabili, con l'obiettivo di descrivere l'andamento nel tempo dei fenomeni considerati. Un esempio di modello e dato dall'equazione: (10.1)
che coinvolge il processo aleatorio che genera la serie rilevata, {Xt } , un processo non osservabile {Et} che si suppone avere una struttura semplice, spesso supposto un rumore bianco, e una funzione i cui argomenti comprendono un certo numero di valori precedenti dei due processi. La struttura di r..p e di {Et} determina il comportamento del processo {X t } in maniera completa, e quindi permette di studiarne l'evoluzione in modo pili dettagliato di quanto sia possibile basandosi soltanto su autocorrelazioni e spettro. II tema dei modelli statistici per serie temporali e estremamente vasto e la letteratura sull'argomento ha un'estensione considerevole, qui verranno svolte
188
10 I modelli rappresentativi
solo alcune considerazioni. E necessario innanzitutto spiegare il termine rappresentativi associato ai modelli: esso viene usato in contrapposizione a interpretativi e contraddistingue l'assenza di ipotesi esplicite sui legami di causalita tra fenomeni, 0 di altri vincoli legati a conoscenze a priori 0 teorie proprie di scienze sostantive. In altre parole, se il modello ha il compito di schematizzare in termini matematico-probabilistici le caratteristiche note (0 supposte tali) del fenomeno che si studia, si parla di modello interpretativo. Esempi rilevanti sono i modelli econometrici che spiegano un aggregato macroeconomico in funzione dei valori contemporanei 0 ritardati di altri aggregati; 0 ancora i modelli classici di decomposizione, in cui la serie e essenzialmente determinata dalla sovrapposizione di componenti deterministiche che riproducono il trend e le variazioni stagionali, da cui i dati effettivi si discostano per cause accidentali e non sistematiche, a cui viene attribuita natura stocastica. Particolare importanza hanno assunto nelI'ambito degli studi economici i cosiddetti modelli strutturali (Harvey, 1990) che rappresentano una evoluzione di questo schema. Un modello rappresentativo e invece costruito a partire dai soli dati, cercando di ridurre al minimo le ipotesi formulate sul comportamento del fenomeno e quindi partendo da una classe sufficientemente flessibile di possibili modelIi, e scegliendo quello che assicura, secondo criteri da precisare, la miglior rappresentazione della serie, nel senso che ne riproduce meglio l'andamento nel tempo. Va detto subito che, come si comprende facilmente, la distinzione tra modelli interpretativi e rappresentativi e solo una semplificazione concettuale, poichc nella costruzione di un modello si incorporano sempre ipotesi a priori, e d'altra parte anche la scelta dello schema interpretativo pili vincolante determina solo una classe di modelli, all'interno della Quale si cerca il pili rappresentativo. Inoltre e ovvio che qualunque modello interpretativo puo essere considerato come un elemento di un insieme di modelli rappresentativi, all'interno dei quali esso viene scelto adottando non un criterio di buon adattamento alla realta, rna di conformita alle ipotesi preliminari 0 alla teoria. Ci occuperemo qui solo di modelli rappresentativi, limitandoci a cons iderare la classe determinata da funzioni cp lineari e processo non osservabile a variabili incorrelate: in questo caso l'equazione (10.1) che definisce il model10 diventa uguale alla relazione soddisfatta da un processo autoregressivo a somma mobile: p
x,
==
L cPjX
t-
j=l
j
+ ct -
q
L
()jCt-j .
(10.2)
j=l
Per questo motivo si parla di modelli ARMA, anche se questo puo generare confusione tra il concetto di modello e quello di processo. Si potrebbe obiettare che e ragionevole attendersi da un modello interpretativo risposte pili precise di un modello rappresentativo, poiche esso sfrutta ipotesi pili precise; si puo peraltro ribattere che proprio questa caratteristica rende il modello interpretativo pili vulnerabile a errori nelle ipotesi iniziali.
10.1 Introduzione
189
E esperienza comune e ormai consolidata, che specie
dal punto di vista della previsione i modelli rappresentativi della classe ARMA forniscono risultati equivalenti e spesso migliori di pili approfonditi modelli interpretativi, poiche sono i dati stessi a trasmettere nel modello, se correttamente costruito, lc loro caratteristiche strutturali e dinamiche. Cia spiega anche il crescente interesse e consenso che la modellistica di tipo ARMA si e progressivamente guadagnata nel corso dell'ultimo quarto di secolo. L'assunzione principale per la costruzione di un modello ARMA consiste nell'ammettere che la serie temporale analizzata rappresenti una realizzazione finita di un processo aleatorio stazionario al secondo ordine, con misura spettrale assolutamente continua. Vedremo poi come la metodologia sia stata ampliata per comprendere anche i casi in cui queste ipotesi possono essere ritenute poco sostenibili, in quanto la serie presenta un trend non trascurabile, o forti variazioni stagionali (si parlera allora di modelli integrati 0 ARIM A, e di modelli stagionali e/ 0 moltiplicativi). I modelli ARMA ammettono anche una interpretazione in termini di distribuzioni condizionate. Se le {e.} sono normali, esse sono anche indipendenti e quindi Et non dipende da X t - 1 , X t - 2 , .... Percio prendendo la media condizionata ai valori assunti dal processo fino al tempo t - 1, dalla (10.2) si ha: E(Xt IXt -
p
1 , X t- 2 , ... )
==
q
L
cPjXt- j -
j=1
L
()jEt-j
j=1
in quanto la media condizionata di Et, data l'indipendenza,e uguale alIa media non condizionata E(ct) == O. Per la varianza condizionata si ha invece:
Var(XtIXt~l, Xt~2,' .. ) = E {[Xt - E(XtIXt- 1 , X t-2, . . .)]2} ==
E
(c;)
==
a2
.
Quindi il processo che segue la (10.2) ha media condizionata espressa dalla combinazione lineare di dati e urti precedenti con parametri cP e (), e varianza condizionata costante pari a (J2 . Nel resto del capitolo sara descritta a grandi linee la metodologia di costruzione dei modelli ARMA (e loro estensioni) secondo l'impostazione messa a punto da Box e Jenkins (1970), che e stata sviluppata e approfondita negli anni successivi da molti altri ricercatori, e si e dimostrata utile ed efficace per l'analisi di fenomeni dinamici in molti campi delle scienze sia umane sia naturali. Nella parte relativa alla previsione puntuale considereremo anche altri tipi di modelli che si basano su assunzioni pili precise 0 restrittive. Costruire un modello rappresentativo, secondo la metodologia di Box e Jenkins, significa scegliere quell'elemento della classe dei processi autoregressivi a somma mobile (10.2) stazionari e invertibili, al Quale i dati meglio si conformano, secondo un criterio di verosimiglianza. La scelta avviene in due fasi: 1. Scelta del valore degli ordini p e q (identijicazione).
190
10 I modelli rappresentativi
2. Scelta del valore dei parametri cP1' ..., cPP' 01, ..., 0q e a 2 (stima dei parametri). La prima fase, come vedremo, presenta i problemi concettuali pili complessi, rna fissati p e q il processo e determinato e la seconda fase puo avvenire con il metodo della massima verosimiglianza illustrato nel paragrafo 9.7. Una volta costruito il modello, con la determinazione di p, q e delle stime ¢1' ..., ¢P' 01,..., Oq, Box e Jenkins consigliano di verificarne l'adattamento calcolando una stima dei residui in funzione dei dati (Xl, X2, ... , XN): P
Et
== Xt
-
L
j=l
q
¢jXt-j
+
L
OjEt-j
t == P + 1, ..., N
j=l
Se il modello fosse corretto e stimato precisamentesenza alcun errore, ovvero nell'ipotesi che i dati provenissero effettivarnente da un processo aleatorio di quel tipo e con quei valori dei parametri, allora le Et sarebbero realizzazioni di un rumore bianco, quindi dovrebbero conformarsi alla ipotesi di avere media nulla, varianza costante e di essere incorrelate tra loro, ipotesi che possono essere verificate attraverso test statistici. Queste operazioni costituiscono la fase chiamata di verifica del modello (diagnostic checking nella terminologia di Box e Jenkins) che si conclude con l'accettazione del modello oppure con il suo rifiuto. In quest'ultimo caso, l'analisi dei residui aiuta a comprendere quali sono lc caratteristiche dei dati che non si riescono a spiegare e potra suggerire modelli alternativi: percio si ripete la fase di identificazione tenendo conto di questi risultati (il che portera spesso, rna non sempre, ad incrementare la scelta di p e q), e poi la stima dei parametri e la verifica. Si viene cost a concretizzare una procedura iterativa di affinamento successivo del modello, fino a determinarne uno statisticamente accettabile.Esamineremo adesso pili approfonditamente ciascuna fase.
10.2 Identificazione del modello Con il termine identificazione si intende, nell'ambito della procedura di costruzione di modelli ARMA secondo l'impostazione di Box e Jenkins, la scelta del valore da attribuire all'ordine autoregressivo p e all'ordine della somma mobile q. Nel corso degli anni si sono andate delineando tra gli analisti di serie storiche due diverse linee di pensiero nei confronti della costruzione dei modelli rappresentativi, e anche se questa distinzione non viene evidenziata frequentemente dai testi pili importanti, essa ha conseguenze sul modo di procedere e sulle tecniche usate per la identificazione: a) Identificazione come "scoperta". Dall'assunzione base che Ia serie sia una realizzazione finita di un preciso processo ARMA deriva che esiste uno e un solo modello esatto, e quindi la modellistica ARMA ha 10 scopo di
10.2 Identificaziane del modello
191
ricostruirlo, e la identificazione ha l'obiettivo di scoprire quali sono gli ordini p e q del processo che ha generato la serie. b) Identificazione come "approssimazione". La costruzione del modello e vista come un problema di scelta, nella classe dei modelli possibili (la classe ARMA a ordine finito), di quell'elemento che assicura la migliore spiegazione della serie osservata. Percio e necessario prima di tutto fissare un criterio attraverso il quale si giudica quanto il modello rappresenta i dati: sulla base di questo criterio si andra a cercare nella classe dei modelli quello che ne fornisce il valore ottimo. In questa ottica la identificazione diventa un problema di massimizzazione (0 minimizzazione) su uno spazio discreto, e il modello prescelto risulta la migliore approssimazione alla serie secondo un criterio esplicito. Si e detto che tra gli analisti non c'c una contrapposizione netta delle due impostazioni, e anche in letteratura questa distinzione non e frequentemente delineata con chiarezza. Agli inizi della modellistica contemporanea, tra le due guerre mondiali, la impostazione prevalente era nettamente quella per approssimazione. Dopo la seconda guerra mondiale, con i risultati di Wold sulla rappresentazione dei processi stazionari, sembra prevalere la impostazione della identificazione come scoperta, che e implicitamente abbracciata da Box e Jenkins. Negli anni successivi e stata via via rivalutata la impostazione per approssimazione, che a oggi e accettata in modo prevalente. La ragione di cia risiede essenzialmente nello sviluppo dell'analisi numerica e dell'informatica, che permette di risolvere in maniera esauriente il problema della scelta passando in rassegna virtualmente tutti i possibili modelli, valutandoli secondo un assegnato criterio quantitativo e scegliendo il migliore. A questo punto anche la impostazione basata sulla "scoperta" diventa un caso particolare di quella per approssimazione, caratterizzata da un criterio binario che assume valore Iogico "falso" su tutti i modelli tranne uno, su cui assume valore "vero". Inoltre la possibilita di scegliere esplicitamente un criterio permette di finalizzare la costruzione del modello agli scopi per cui 10 si vuole utilizzare, poiche non si puo escludere che, ad esempio, il modello che fornisce previsioni migliori sia diverso da quello che permette la migliore ricostruzione di dati mancanti 0 da quello che meglio descrive le variazioni stagionali. Bisogna pero riconoscere che questa possibilita di far dipendere la scelta del modello dagli scopi che ci si prefiggono e ancora poco sviluppata in letteratura. II modo di procedere fondamentale nella identificazione come scoperta consiste nel confronto tra andamento teorico nel modello, e andamento empirico stimato sui dati, di alcune funzioni che caratterizzano la dinamica: prima di tutte le autocorrelazioni e le autocorrelazioni parziali. Si stimano percia Ie autocorrelazioni ordinarie e parziali, e si analizza il correlogramma, comparandolo con le proprieta caratteristiche dei processi ARMA: 1. Un processo M A(q) ha autocorrelazione ordinaria nulla per ritardi superiori a q.
10 I modelli rappresentativi
192
2. Un processo AR(p) ha autocorrelazione parziale nulla per ritardi superiori ap;
3. un processo AR(l) ha autocorrelazione ordinaria di forma esponenziale negativa, un AR(2) pseudo-periodico ha un andamento periodico smorzato dell' au tocorrelazione ordinaria. 4. Un processo ARMA(p, q) ha un comportamento dell'autocorrelazione analogo a quello dell' AR(p) eccettuati i primi q ritardi. 5. L'andamento dell'autocorrelazione di un autoregressivo corrisponde a quello dell'autocorrelazione parziale di una somma mobile dello stesso ordine e viceversa. II correlogramma stimato, ordinario e parziale, deve percio suggerire la scelta di p e q. II problema sorge proprio perche non si conoscono i valori effettivi delle correlazioni, rna solo le loro stime, che forniscono informazioni imprecise, e possibilmente distorte (poiche il numero di dati e finito) e possono rendere assai problematico e incerto associare a ogni correlogramma un andamento tipico proprio di un particolare ordine (p, q). L'incertezza si puo valutare alla luce di misure come gli scarti quadratici medi delle stime i( h) e ir(h), rna anch'essi dipendono dai valori veri delle r(.) e 11"(.), e quindi vanno stimati con il pericolo di sottovalutarli (0 sopravvalutarli) gravemente. Pur prescindendo da questo problema, potremmo costruire intervalli di confidenza per tutte le stime riportate nel correlogramma e valutare Quale andamento teorico si adatta meglio. Questo procedimento risulta abbastanza percorribile nel caso di processi AR e MA puri, poiche in tal caso una delle due funzioni (ordinaria o parziale) si annulIa da un certo punto in poi, e si puo giudicare se un'autocorrelazione stimata e significativamente diversa da zero confrontandola con il valore k a / 2 / ViV. Pertanto al primo esame del grafico si va a verificare qual e il ritardo minimo a partire dal Quale le correlazioni stimate si mantengono all'interno della banda di confidenza tracciata attorno all'asse delle ascisse. Se si considera l'autocorrelazione ordinaria, questo ritardo da un'idea dell'ordine q sufficiente perche un modello MA puro possa riprodurre bene l'andamento, mentre se si guarda il correlogramma parziale, il ritardo minimo oltre il Quale si perde la significativita indica l'ordine p sufficiente per un modello AR puroo Generalmente si sceglie il pili piccolo dei due. Un esame pili approfondito potra suggerire come alternativa modelli misti, di ordine complessivamente inferiore. Esistono molte altre tecniche di identificazione del modello basate sul principio della scoperta, legate a varie funzioni il cui comportamento su processi ARMA e determinato dall'ordine. Le pili usate sono funzione del lag e hanno la particolarita di assumere valore nullo in corrispondenza all'ordine (e quasi sempre anche per ritardi superiori). Percio la tecnica si basa sulla stima di queste funzioni e sulla valutazione della loro significativita. Rientrano in questa logica: l'uso delle autocorrelazioni inverse, l'autocorrelazione estesa, il corner method e altri per i quali si rimanda alla letteratura (per esempio Box, Jenkins e Reinsel, 1994).
10.2 Identificazione del modello
193
Va sempre tenuto presente che l'incertezza legata al fatto che le quantita rilevanti sono solo stimate, non permette una messa a fuoco precisa e univoca dell'ordine (p, q), rna per ogni serie analizzata si arriva in genere a un ventaglio di modelli - cioe di coppie (p, q) - tutti egualmente plausibili alla luce dei dati. Tra di essi si sceglie basandosi sul principio della parsimonia, cioe preferendo il modello che ha il minor numero di parametri, poiche esso presentera minor difficolta nella fase di stima, e in genere si presta a una pili facile interpretazione ed e pili agevole controllarne caratteristiche e andamenti. Cia naturalmente avviene come prima scelta, salvo ritornare ad adottare modelli pili articolati nel caso che la successiva fase di verifica dovesse segnalare una inadeguatezza del modello pili semplice, come vedremo nel seguito. Passiamo adesso a sviluppare l'impostazione che vede la identificazione come una approssimazione. E necessario prima delimitare esattamente l'insieme delle soluzioni possibili - il che viene fatto in genere specificando un ordine massimo plausibile sia per la struttura autoregressiva, P, sia per quella a somma mobile, Q - e un criterio di scelta consistente in una funzione dei dati e dell'ordine: C(p, qIXI,X2, .. " XN), che, secondo l'uso generalizzato in letteratura, assume il significato di perdita, ed andra quindi minimizzato. La identificazione si pone quindi come un problema di minimo:
minC(p,qlxl,X2, ... ,XN) ,(p,q)
E
[O,P] x [O,Q].
(10.3)
Notiamo come questa impostazione e passibile di immediate generalizzazioni dell'insieme delle soluzioni possibili, ad esempio quella in cui si specifica anche che alcuni parametri sono vincolati a zero, per cui il modello e determinato dall'elenco dei ritardi ai quali compare un parametro autoregressivo o a somma mobile: in pratica, invece che da (p, q), il modello e caratterizzato dal vettore (hI, h 2 , ... , h p, k l , k 2 , ... , kq) con 1 hI < h 2 < ... < h p P, 1 < k 1 < k 2 < ... < kq < Q e ha la forma:
( B) (1- B)d, ha grado p + d ed esattamente d radici coincidenti e uguali a uno (le radici di (1 - z)d == 0), mentre le altre hanno modulo maggiore di uno (per questo si parla anche di radici unitarie). La qualificazione di integrati deriva a questi modelli dalla considerazione seguente. Se Yt == (1 - B)xt, la serie si puo esprimere in funzione dei dati stazionari attraverso la espressione formalmente inversa: x, == Yt+Yt-l +Yt-2+· .. che analogamente, per processi in tempo continuo, diventa un integrale (come la differenziazione va a corrispondere a una derivata). Da qualche tempo e invalso l'uso, specie in econometria, di chiamare integrate le serie non stazionarie che si prestano a essere depurate del trend mediante differenziazione, e pili precisamente si indica con la simbologia X, I(d) un processo che, una volta filtrato d volte, risulta stazionario (in senso debole). In realta Box e Jenkins propongono l'uso delle differenze in un insieme pili vasto di situazioni, oltre che quello di serie con trend: infatti essi osservano che i modelli ARIMA sono indipendenti dal livello "locale" della serie, in quanto r-;»
210
10 I modelli rappresentativi
Fig. 10.3. Serie C di Box e Jenkins (1970)
0 implica un comportamento da radici unitarie. La statistica proposta e uno stimatore di esso si ottiene stimando il modello (10.11) e calcolandone i residui stimati tt. Posto:
a;
a;
a;
a;,
214
10 I modelli rappresentativi
la stima di
a; viene data da:
e la sua distribuzione sotto l'ipotesi nulla e stata ricavata dagli autori: e una distribuzione non standard di cui sono stati calcolati i quantili. L'ipotesi di stazionarieta si rifiuta ovviamente (e si conclude per Ie radici unitarie) se la statistica e maggiore del quantile al livello di confidenza scelto.
a;
10.5 Modelli per serie non stazionarie in varianza e ad eteroschedasticita condizionata Infine, si possono incontrare serie le cui oscillazioni tendono a crescere nel tempo, inducendo a sospettare che la varianza sia crescente. Un semplice modello di questa situazione si ha considerando il processo X; == c( t) Zt dove {Zt} e stazionario, e c(t) una funzione non aleatoria crescente del tempo: infatti Var{Xt } == C(t)2,z(O). In questa situazione un rimedio semplice ed efficace consiste nel prendere i logaritmi dei dati. II processo yt == 10g(Xt ) infatti, ha media non costante E(yt) == E{log(Xt ) } == logc(t) + E{log(Zt)} rna varianza costante V ar{yt} == V ar{log( Zt) l Un procedimento pili flessibile che generalizza l'applicazione dellogaritmo e la classe di trasformazioni di potenza detta di Box e Cox (Box e Cox, 1964):
yt(a) ==
{~{Xf - 1} 10g(Xt )
a#O a==O
che al variare di a descrive Ie trasformazioni di potenza, inversa e logaritmica (come limite per a tendente a zero). Naturalmente cio apre il problema di scegliere il valore dell'esponente a. Assumendo la normalita dei dati e la loro indipendenza si puo dimostrare che la log-verosimiglianza rispetto ad a si puo scrivere: N
logL(a) = -2Iogs2(a)
+ (a -
1) LlogXt t
dove 8 ( a) e la varianza stimata dei valori trasformati, percio una stima di massima verosimiglianza di a si potrebbe ottenere massimizzando L(a) attraverso metodi numerici iterativi. Tuttavia generalmente i dati di una serie storica non sono indipendenti e quindi la verosimiglianza scritta e solo una approssimazione. Una procedura pili semplice e prudente consiste invece nel valutare l' andamento della serie e dei correlogrammi per alcuni valori tipici 2
10.5 Modelli per serie eteroschedastiche
215
(ad esempio 0.5, 0, -0.5, -1) e scegliere quello che garantisce il comportamento pili stabilizzato e la varianza pili piccola. E da tenere sempre presente che ogni trasformazione modifica la interpretazione dei dati: questi, in alcuni casi, una volta trasformati possono assumere un significato difficilmente percepibile. II problema e meno rilevante per la trasformazione logaritmica che spesso e facilmente interpretabile: ad esempio agire, come spesso si fa, con il logaritmo e poi le differenze prime, porta alla trasformazione Yt == log(Xt) - 109(Xt-l) == log(Xt/Xt-l), che e spiegabile in termini di rapporto: se poi la variazione Xt - Xt-l e piccola rispetto al livello Xt, sfruttando la approssimazione log(1 + z) ~ z si ha:
Yt == log(Xt/Xt-l) == log (1
+ _Xt_-_Xt_-_l) Xt-l
Xt - Xt-l Xt-l
ovvero Yt rappresenta approssimativamente la variazione relativa rispetto alla osservazione precedente. Quando invece la trasformazione di Box e Cox usa coefficienti diversi da zero, il significato dei dati trasformati puo porre seri problemi interpretativi. D'altra parte e di tutta evidenza come Ie autocorrelazioni dei dati trasformati non abbiano una relazione precisamente esprimibile e controllabile con le autocorrelazioni dei dati originali, e una trasformazione puo distorcere in maniera irrimediabile la struttura di dipendenza dinamica del fenomeno rilevato. Se ne conclude che le trasformazioni di potenza nell'ambito delle serie temporali andrebbero adottate con estrema cautela e possibilmente evitate, cercando sempre di comparare i benefici che ne possono derivare quanto a stabilizzazione della varianza, con le distorsioni incontrollabili introdotte nella struttura autocorrelativa. Negli ultimi venti anni e stata studiata una forma specifica di instabilita in varianza, che si nota in particolare nei fenomeni relativi al mercato finanziario. Se esaminiamo la serie dei rendimenti di un titolo (si chiama serie dei rendimenti la serie delle differenze prime dei logari mi dei valori di un titolo) si osserva spesso un comportamento caratterizzato da media costante rna alternarsi di periodi con varianza moderata e altri cor varianza elevata (si parla di volatility clustering, si veda la Fig. 10.5). In tal caso, anche se il processo puo considerarsi globalmente stazionario, e importaite cercare di costruire un modello che rappresenti questi mutamenti nelle caratteristiche della variabilita, Inoltre spesso i dati di questo tipo presentano distribuzione non normale, poiche sono pili frequenti della normale i dati molto elevati in valore assoluto e i dati molto vicini a zero (distribuzioni leptocurtiche, a volte dette a code pesanti); generalmente queste serie hanno autocorrelazioni vicine a zero, e quindi struttura lineare molto debole, rna cio non implica l'indipendenza dei dati (poiche non hanno distribuzione gaussiana). Sono stati proposti modelli rappresentativi particolarmente studiati per questo tipo di fenomeni, che vengono chiamati a eteroschedasticiia condizionata e sono stati introdotti per primo da Engle nel 1982; essi sono indicati
216
10 I modelli rappresentativi 4 3 2
a -1 -2 -3
Fig. 10.5. Esempio di serie dei rendimenti di un titolo
con la sigla ARCH (autoregressive conditional heteroscedastic) . Tali modelli si applicano a serie con dati non normali e autocorrelazione trascurabile; se invece la serie mostra una struttura dinamica lineare non trascurabile, si puo prima costruire un modello ARMA e poi adattare sui residui un modello ARCH. L'idea fondamentale del modello ARCH e che la varianza a un certo istante t sia influenzata dai dati relativi agli istanti precedenti, e quindi si puo rappresentare l'andamento della varianza a un certo istante condizionatamente ai valori assunti dal processo ai tempi precedenti. Quindi, contrariamente ai modelli ARMA che hanno varianza condizionata costante e pari a (J2, qui assumiamo che la varianza condizionata possa cambiare, e cerchiamo di rappresentarne l'andamento in funzione dei dati precedenti. Consideriamo, dunque, un processo aleatorio {Yi} a media nulla: E(Yi) == 0 e varianza E(~2) == ,(0), e indichiamo con
ht
==
E{Y?lrt-l, rt-2' ... }
la sua varianza condizionata alla storia precedente del processo. La forma pili semplice per rappresentare la dipendenza di ht dai dati precedenti e quella lineare. Nel modello ARCH si assume che la varianza condizionata dipenda linearmente dai quadrati delle osservazioni precedenti (considerati come misura, in prima approssimazione, della variabilita mostrata dal processo): (10.12) Possiamo riferirci direttamente alla distribuzione condizionata di Yi dati Yi-l, Yi-2, .... La (10.12) ne rappresenta la varianza, ed e naturale assumere anche la media nulla: E{YiIYi-l, rt-2' ... } == o. Nel modello ARCH si assume in aggiunta che questa distribuzione condizionata sia gaussiana per cui
10.5 Modelli per serie eteroschedastiche
217
possiamo scrivere, se {ct} indica un processo formato da variabili normali standardizzate indipendenti: (10.13) Le equazioni (10.12) e (10.13) definiscono il modello ARCH(p) , di ordine p. II processo {It} descritto da questo modello ha media nulla, e la sua varianza (non condizionata) ,(0) si puo ricavare prendendo la media rispetto a It-1, It-2, ... di ambo i membri della (10.12):
+ olE(~~l) + ... + opE(~~p) == 00 + 01,(0) + ... + Op,(O)
,(0) == E{~2} == E{h t } == da cui
,(0) ==
1-
00
00 01 -
02 -
... -
op
.
Sui valori dei parametri si pongono le condizioni 0i > 0 (i == 0,1, ... ,p) per assicurare la positivita delle varianze condizionate, e 01 + ... + Op < 1 per la positivita della varianza non condizionata. Si verifica inoltre che la distribuzione di probabilita di It presenta caratteristiche leptocurtiche, poiche la sua curtosi e maggiore di 3. Lo possiamo controllare facilmente almeno nel caso del pili semplice modello di ordine p == 1: ht == 00 + 01 ~~ 1. Intanto per il momento quarto si ha:
poiche ht e indipendente da et (dipende solo da E t -1 , et - 2, ... ) e inoltre dato che le ct sono normali standardizzate, E(ci) == 3E(c;) == 3. Inoltre
E(~4) == 3E(h;) == 3E (00 + 01~~1)2
== 3 {06 + 20001E(~~1) + oi E(~~l)}
e data la stazionarieta E(~4) == E(~~l)' da cui
Ricordando che ,(0) == 00/(1 - 01) e sostituendo si ottiene:
Ne consegue che questo modello si presta effettivamente a rappresentare serie che presentano caratteristiche di non norrnalita a code pesanti. Naturalmente si pone il problema di identificare il modello ARCH(p) (scelta di p) e di stimare i parametri OJ, per questo scopo la via pili semplice e
218
10 I modelli rappresentativi
di considerare i dati al quadrato {y;} e di usare la metodologia che abbiamo visto prima, per costruire su quei dati un modello autoregressivo. Infatti, se poniamo ~2 == ht + Ut la (10.12) si puo scrivere: P
~2 == ao
+ Laj~~j +Ut j=1
ne consegue che le {~2} seguono un modello autoregressivo di ordine p. Una importante estensione di questi modelli (proposta da Bollerslev nel 1986) e costituita dalla introduzione nell'equazione che definisce la varianza condizionata (10.12) di ulteriori termini autoregressivi: p
i; == Laj~~j j=1
q
+ L(3jht - j
.
j=1
I relativi modelli sono chiamati GARCH(p, q) (ARCH generalizzati) e permettono una maggiore parsimonia. Si puo dimostrare che essi implicano che i quadrati dei dati seguano un modello ARMA(p,q). Anche i modelli ARCH e GARCH vengono impiegati a fini previsivi, sfruttando la metodologia per lc previsioni locali dei modelli ARMA che verra illustrata nel prossimo capitolo. Va tenuto presente pero che lc previsioni non riguarderanno i valori futuri della serie, rna la loro variabilita, la cui previsione e di speciale interesse nello studio dei mercati finanziari (e che in questo ambito e definita pili frequentemente con il termine volatilita).
10.6 Modelli per serie stagionali Passiamo ora ad esaminare il tema della stagionalita, Le variazioni stagionali costituiscono un problema nella modellistica e nell'analisi delle serie temporali in generale poiche la loro rilevanza nel determinare l'andamento della serie e in genere preponderante, il che porta a ritenere che le ciclicita di natura stagionale apportino un contributo non infinitesimo alla varianza, facendo cadere l'ipotesi di misura spettrale assolutamente continua, sulla quale e basata la maggior parte della metodologia relativa all'inferenza. Abbiamo pero il grosso vantaggio di poter delimitare esattamente le frequenze interessate, ovvero quella corrispondente al periodo pari un anna e le sue armoniche. Gli effetti prodotti su una serie dai fattori stagionali possono rivestire interesse di per se stessi, oppure ci si puo prefiggere 10 scopo di depurare la serie dalla loro influenza (serie destagionalizzate). Anche nello studio della stagionalita convivono due impostazioni: • •
Stima dei fattori stagionali mediante una funzione deterministica del tempo. Filtraggio della serie per eliminare Ie variazioni stagionali.
10.6 Modelli per serie stagionali
219
Poiche il periodo stagionale espresso in unita del parametro temporale e diverso a seconda della cadenza di rilevazione dei dati, e necessario specificare quest'ultima prima di poter procedere negli sviluppi. Supporremo di avere a disposizione dati mensili, quindi il periodo fondamentale e dato da 12 unita di tempo. Le modifiche da introdurre in quanto segue per adattarlo a cadenze di rilevazione diverse sono in genere ovvie. Se si vuole adattare una funzione deterministica del tempo alle variazioni stagionali, la scelta pili ovvia cade sul polinomio trigonometrico
che permette, come sappiamo dall'analisi di Fourier (Appendice A), di riprodurre qualunque andamento periodico di periodo 12. I coefficienti aj e bj vengono stimati sulla serie mediante il metodo dei minimi quadrati, che anche in questo caso sotto alcune condizioni fornisce stimatori sostanzialmente efficienti (Hannan, 1960). Se la lunghezza N della serie e multipla di 12 e N == 12a, scrivendo t == 12i + j (al variare di i tra 0 e a - 1 e di j tra 1 e 12 l'indice t assume tutti i valori tra 1 e N) e usando le formule di ortogonalita riportate in Appendice si ottiene facilmente
aj =
2 2 a-I 12 N I:XtCOS(Ajt) = N I:I:X12i+kCOs[ij(12i+k)] t
1
1,=0 k=1
12
7r
="6 I:SkCOS(6jk) k=1
1
12
bj ="6 LSkSin(ijk) k=1
dove
1 a-I Sk
== -a I: Xl2i+k i=O
e la
media dei dati relativi al mese k-mo (k == 1,2, ... ,12). Sostituendo si ottiene: 12
St
6
= ~ ~ Sk ~ {COs( ~ jk) COs( ~jt) + sin( ~ jk) sin( ~ jt)} 6L..." k=1
L..." j=1
6
6
6
6
e ponendo ancora t == 12i + j si ha infine (ricordando I'ortogonalita): a-I
A
Sl2i+j
==
_
Sj
== -a1 '"""" Z:: Xl2i+j i=O
220
10 I modelli rappresentativi
Pcrcio concludiamo che con questo metoda la componente stagionale di ciascun mese e pari alIa media dei dati relativi al medesimo mese nei vari anni: procedimento che a prima vista sarebbe sembrato naturale, rna ingenuo e semplicistico. In realta questo metodo presuppone implicitamente che gli effetti stagionali rimangano costanti negli anni, caratteristica che risulta raramente confermata dall'esperienza empirica. Sono stati proposti innumerevoli altri metodi per la determinazione dei fattori stagionali, basati su funzioni pili complicate. Negli ultimi anni, poi, e stata sviluppata una nuova impostazione che considera Ie variazioni stagionali stesse come un processo aleatorio, che va a sommarsi a queIlo generatore dei dati: poiche si rileva solo la risultante della somma, ci si pone il problema, meritevole di un'approfondita analisi dal punto di vista probabilistico e statistico, di distinguere tra le due componenti, identificando per ciascuna di esse un appropriato modello della classe ARIMA. Questo metoda verra illustrato brevemente alla fine del presente paragrafo. L'altra possibilita (peraltro non e in rcalta una impostazione totalmente alternativa) e ricorrere a filtri che depurino la serie dalle componenti stagionali: le classi dei filtri pili frequentemente adoperati sono quell a dei filtri alle differenze e queIla delle medie mobili. Nel primo caso si sottrae a ciascun dato queIlo che si trova nella stessa posizione stagionale dell'anno precedente, nel secondo caso si sostituisce a ciascun dato una media locale (cioe di valori contigui nel tempo e centrati suI dato) di ampiezza un anno; in entrambe le situazioni il risultato (incremento tra mesi omologhi, oppure media annuale) non dovrebbe pili risentire dei fattori stagionali. Continuando a occuparci di dati mensili, il filtro aIle differenze che si usa e quello alle differenze dodicesime che abbiamo visto nel paragrafo 5.7: esso puo essere incorporato senza problemi in un modello autoregressivo a somma mobile, aggiungendo un fattore moltiplicativo del tipo (1 - B 12 ) nel polinomio autoregressivo, che anche in questo caso viene ad avere radici sul cerchio unitario: infatti Ie radici di (1- Z12) sono uguali a cos(1rk/6) +i sin(1rk/6), k == 1, ... ,12, quindi +1, -1 e Ie altre complesse (per approfondimenti si rimanda a Abraham e Box, 1978). Box e Jenkins hanno proposto una metodologia pili articolata che porta ai cosiddetti modelli stagionali moltiplicativi. La logica da cui essi partono e queIla di considerare le serie costituite dai dati relativi allo stesso mese di anni successivi e di costruire per queste modelli rappresentativi. Per esempio supponiamo che la prima osservazione si riferisca a gennaio e consideriamo la serie Yt == X12t+l che al variare di t descrive i dati di gennaio dei vari anni. Su di essa possiamo costruire un modello ARIMA:
Ritornando ai dati originali e ponendo Ut == V12t+ 1, e indicando s == 12t + 1, ogni operatore B sulla Y ha l'effetto di ritardare di 12 istanti la X e la v; percio si ottiene:
10.6 Modelli per serie stagionali
221
ovvero, in forma compatta, indicando con c1J* e 8* i polinomi relativi ai parametri c1Jj e 8 j rispettivamente:
Si puo ragionevolmente pensare che questo stesso modello sia valido anche per le serie dei dati di febbraio, di marzo e di tutti gli altri mesi, per cui si assume valido il modello per ogni S, cioe per ogni mese. Tuttavia la serie {vs} ha il ruolo di rumore bianco se ne consideriamo le osservazioni a distanza 12 e multipla, rna puo essere correlata per ritardi inferiori, poiche in tal caso risente dei legami infra-annuali. Percio si puo pensare di costruire per la serie {v s } un modello ARIMA usuale:
(1 - cPIB - ... - cP pBP)(1 - B)d vs == (1 - (jIB - ... - (jqBq)E s dove adesso {E s} e realizzazione di un processo a elementi completamente incorrelati: scriviamo anche:
Le due strutture possono essere combinate moltiplicando ambo i membri della prima per c1J(B)(1 - B)d:
c1J(B)(1 - B)dc1J*(B I2)(1 - B 12)DX s == c1J(B)(1 - B)d8*(B 12)vs == 8* (B 12)1J(B)(1 - B)d vs
== 8* (B 12)8(B)E s
.
Si ottiene cOSI ancora un modello della classe ARIMA, che e costruito moltiplicando tra loro due strutture, l'una di ordine (p, d, q) che agisce sui dati ritardati in maniera ordinaria, e l'altra di ordine (P, D, Q) che agisce sui dati mediante ritardi annuali:
II modello e detto moltiplicativo stagionale ed e anche spesso indicato con la sigla ARIMA(p, d, q) x (P, D, Q)12. E evidente che la struttura generale dei modelli moltiplicativi e molto articolata, e in realta ci si limita a considerare modelli con gli ordini pili piccoli, e specie per P, D, Q raramente si accettano valori diversi da 0 e 1. La identificazione e difficile, e in genere si comincia prima a decidere I'ordine D valutando nei vari casi l'andamento della serie, la sua varianza, Ie sue autocorrelazioni. E buona norma, comunemente seguita nelle applicazioni, valutare simultaneamente gli effetti delle differenziazioni stagionale e non stagionale, esaminando le caratteristiche delle serie che si ottengono dalla differenziazione (1 - B)d(1 - B 12)D per un ventaglio di coppie (d, D), e scegliendo quella che presenta la varianza pili piccola e il correlogramma con valori complessivamente meno distanti dallo zero. Empiricamente si e trovato che spesso la
222
10 I modelli rappresentativi
differenziazione dodicesima puo rendere non necessarie le differenze prime, e che molto raramente e opportuno scegliere un D maggiore di uno. Per quanto riguarda invece P e Q, un caso molto frequente e che sia necessario solo un termine nella somma mobile (P == 0, Q == 1): il fattore (1- 8B 12 ) bilancia una eventuale eccessiva energia del filtraggio alle differenze dodicesime che, come osservato precedentemente, puo indurre stime di r(12) negative nell'output. Se si adotta la logica di identificazione come approssimazione, si devono applicare i criteri automatici e quindi calcolare una misura per ogni possibile combinazione di (p, d, q, P, D, Q). Inoltre, poiche il numero di parametri cresce, e plausibile che non tutti contribuiscano in modo decisivo alla spiegazione della dinamica, percio potrebbe essere consigliabile esaminare anche modelli subset nei quali i parametri relativi a qualche ritardo sono vincolati a zero. La scelta dei ritardi da scartare potrebbe essere inserita nella identificazione del modello, che comprenderebbe la specificazione, oltre che degli ordini (p, d, q, P, D, Q), anche dei lags ai quali nel modello compaiono parametri. Si capisce come, specie in questo ultimo caso, 10 spazio delle possibili soluzioni per la identificazione diventa rapidamente molto grande, e per ogni modello da valutare e necessario stimare i parametri e la varianza residua. D'altra parte i metodi di ottimizzazione analitica non sono applicabili (non ci sono derivate da annullare perche il dominio e discreto) e l'unico metodo per arrivare all'ottimo sembra quello di verificare tutte le possibilita, il che puo comportare un dispendio computazionale troppo elevato. Per questo motivo negli anni pili recenti e stato proposto l'uso di metodi meta-euristici, che sono particolari algoritmi (in genere ispirati da analogie con la natura) specificamente studiati per risolvere problemi complicati (0 pili precisamente quelli in cui, per determinare l'ottimo, non si conosce alcun metodo oltre che verificare sequenzialmente tutte Ie possibilita). II problema della identificazione e stato affrontato con algoritmi genetici e simulated annealing (si veda ad esempio Gaetan, 2000, e Baragona e Battaglia, 2000). I risultati sembrano promettenti rna l'uso di questi metodi necessita di una attenta fase di taratura degli algoritmi che altrimenti rimangono frequentemente "intrappolati" in ottimi relativi. Esempio 10.4 (Modello airline). Un semplice modello, adoperato da Box e Jenkins per rappresentare il numero di passeggeri delle linee aeree internazionali (e per questo sovente detto modello airline) comprende Ie differenze prime e dodicesime applicate una volta sola, e fattori del tipo a somma mobile del primo ordine e si indica percio con ARIMA(O, 1, 1) x (0,1,1)12:
(1 - B)(l - B 12)Xt == (1 - BB)(l - 8B 12 ) Ct
.
Scritto in forma esplicita il modello e:
X t == X t -
1 -
Xt-
12
+ X t - 13 + e, -
ect-1 -
8ct-12
+ eect-13
e quindi la parte a somma mobile ha ordine complessivo 13. Se consideriamo i dati differenziati Z, == (1 - B)(l - B 12)Xt , la struttura autocorrelativa e
10.6 Modelli per serie stagionali
223
molto semplice perche si ottiene facilmente: IZ (0) ==
(1 + ( 2 )(1 + (2)a 2
IZ (1) ==
-0(1 + (2)a 2
Iz(11) == 08a 2
== -8(1 + (2)a 2 Iz(13) == 08a 2 .
IZ (12)
Sono diverse da zero solo lc autocorrelazioni ai ritardi 1, 11, 12 e 13. L'autocorrelazione al ritardo uno: T z (1) == -0/(1 + ( 2 ) ha 10 stesso valore di quella di un modello non stagionale, e cosi pure quella al ritardo 12 dipende nello stesso modo dal parametro stagionale 8: T z (12) == -8/(1 + (2). Le altre autocorrelazioni T z (11) e T z (13) sono uguali tra loro e uguali al prodotto tra T z (1) e T z (12).
II modello e invertibile se 101 < 1 e 181 < 1. Spesso questo modello e adeguato per rappresentare fenomeni che hanno un trend pronunciato e una st.agionalita rilevante, rna ambedue con caratteristiche non nette ne precise nc costanti nel tempo. Cio comporta in genere che una volta effettuata la differenziazione, le autocorrelazioni ai ritardi 1 e 12, molto elevate se stimate sui dati originali, presentano sui dati differenziati stime negative. Di conseguenza le strutture a somma mobile tendono a spiegare questo andamento, e i valori stimati per i parametri 0 e 8 sono generalmente positivi. Un differente tipo di filtri utile per la rimozione delle stagionalita e quello delle medie mobili, con il Quale a ogni dato si sostituisce la media su un intervallo circostante: 1 k Yt = 2k + 1 Xt-j .
L
j=-k
Se la lunghezza dell'intervallo e pari alla durata del cicIo stagionale, si puo ragionevolmente supporre che, poiche nella serie output tutti i dati sono medie che risentono in egual misura dei fattori stagionali, questi non abbiano pili effetti differenziali, e quindi non introducano pili variazioni nella serie. Nel caso di serie mensili, la periodicita della stagionalita e 12, numero pari che non permette di applicare direttamente la formula precedente, che e valida solo per un intervallo di lunghezza dispari 2k + 1. II problema viene generalmente risolto calcolando Ie medie mobili di ampiezza 12 in cui il centro dell'intervallo cade immediatamente prima 0 immediatamente dopo il dato considerato, e prendendone la semisomma: (_)
Yt
1(
== 12
Xt-6
+ Xt-5 + ... + Xt+5 )
(+) _ Yt -
1 12 (Xt-5
+ Xt-4 + ... + Xt+6)
224
10 I modelli rappresentativi
_ 1 ((_)
Yt -
2"
Yt
(+)) _ 1
+ Yt
-
24 Xt-6
~
1
+ 12
~ Xt-j
1
+ 24 Xt+6
.
j=-5
II filtro risultante viene detto a media mobile centrato ed e in realta un filtro simmetrico che coinvolge 13 termini: notiamo pero che Xt-6 e Xt+6 si riferiscono al medesimo mese (di due anni consecutivi) e cosl nel risultato ogni mese conta per un dodicesimo. Esaminiamo la funzione di trasferimento:
H(>..)
=
~
Cu
exp(-iu>")
= 11 { 1 + cos(6)..)
2
= 11
2
{ 1+2
t,
+2
t,
cosU>") }
cos(j>..) - COS(6)..)} .
Ricordando (si veda I' Appendice A) che
~ (.) 1 + 2 ~ cos J A j=l
==
sin (6 + ~) A
.
1
sin] 2 A)
==
[sin (6 A) cos ( ~ A)
_ sin( 6A) cos( ~ A)
si ottiene:
. (1)
SIn
2A
.
+ cos (6 A) sin ( ~ A) ] 1
sin] 2 A)
()
+ cos 6A
H(>..) = ~ sin(6'x) cos(A/2) . 12
sin(A/2)
La funzione di trasferimento (reale perche il filtro e simmetrico) ha un andamento sinusoidale (determinato da sin 6A) smorzato dal termine cotang(A/2) che decresce al crescere di A, rappresentato nella Fig. 10.6. II guadagno si annulIa in corrispondenza delle frequenze stagionali del tipo 1rj/6 (j == 1,2, ... ,6) rna assume valori apprezzabili solo in corrispondenza aIle frequenze piccole (quindi ciclicita di periodo maggiore di un anno). Di conseguenza la serie filtrata risentira delle ciclicita ad andamento pluriennale, rna sara poco influenzata dalle oscillazioni di frequenza inferiore: cia corrisponde alIa considerazione empirica che l'applicazione delle medie mobili ha l'effetto di "lisciare" la serie. Questa caratteristica costituisce da un certo punto di vista un vantaggio desiderabile, se si vogliono mettere pili in luce gli andamenti di fondo alleggerendo simultaneamente sia Ie stagionalita sia tutte lc componenti di periodo infra-annuale, rna rende d'altra parte lc medie mobili uno strumento di destagionalizzazione molto particolare, poiche l'effetto sui dati va ben oltre quello di agire sulla componente stagionale. Le medie mobili hanno pero l'indubbio vantaggio della fase nulla (contrariamente aIle differenze dodicesime) e pertanto non alterano i punti di svolta di eventuali cicli importanti non stagionali presenti nella serie.
10.6 Modelli per serie stagionali
225
Fig. 10.6. Funzione di trasferimento del filtro a media mobile a 12 termini centrata
II metoda delle medie mobili non e omogeneo alla impostazione ARIMA e non viene usato nella costruzione di modelli rappresentativi di tale classe. L' applicazione delle medie mobili ha tuttavia costituito (come accennato nel Cap. 2) la base di complessi metodi di depurazione delle stagionalita studiati inizialmente dal Bureau of Census degli Stati Uniti e che percio hanno preso il nome di metodi Census. Anch'essi possono essere interpretati come modellistica, poiche forniscono una decomposizione della serie in componenti contemporanee: serie == (cicIo-trend) + stagionalita + accidentalita, nella stesso modo di un modello statico (classico) di decomposizione. La prima versione di questo metoda venne sviluppata al Bureau of Census nel 1955, la seconda (Census II) nel 1957. Varie versioni con modifiche, ampliamenti, correzioni si sono succedute nel corso degli anni, e nelle varie versioni successive (fino alla cosiddetta variante X-II del Census II) sono stati adottati da molti organismi statistici nazionali. Un metoda molto diffuso, connesso con i precedenti rna legato anche alla moderna impostazione Arima, e stato sviluppato negli anni '80 cia Statistics Canada, ed e denominato X-ll-ARIMA: esso permette, attraverso applicazioni ripetute di medie mobili, e adottando modelli ARIMA per prevedere alcuni dati oltre l'ultimo rilevato, di stimare l'effetto della stagionalita e anche di fornire una valutazione del trend e di componenti cicliche pluriennali (particolarmente rilevanti nell'analisi congiunturale dell'economia). Una esposizione autorevole in italiano e contenuta in Bee Dagum (2002), alla Quale si rimanda per maggiori approfondimenti. Nel199S Findley et al. hanno introdotto alcuni cambiamenti, specie per quanto riguarda il trattamento dei dati anomali, e hanna chiamato illoro software X-12-ARIMA. Recentemente, come accennato prima, sono stati sviluppati modelli che possono considerarsi una evoluzione di quello classico di decomposizione, in
226
10 I modelli rappresentativi
cui si suppone che lc componenti trend, ciclo, stagionalita e irregolarita siano esse stesse generate da separati modelli ARIMA: si parla in tal caso di metodi ARIMA model-based (ad esempio Cleveland e Tiao, 1976, Bell e Hillmer, 1984). Fissiamo l'attenzione sulla sola stagionalita, supponendo che il processo {yt} sia formato additivamente da una parte stagionale {St} e una non stagionale {Nt}, e che queste obbediscano ai modelli ARIMA:
dove {at} ed {Ut} sono rumori bianchi indipendenti tra di loro (questa assunzione e essenziale). Segue immediatamente da yt == St + N, che il processo osservabile {yt} soddisfa l'equazione:
cPS(B)cPN(B)yt
==
cPN(B)8s(B)at + cPs(B)8N(B)Ut
e si puo dimostrare (data l'indipendenza tra i processi {at} ed {Ut}) che anch'esso obbedisce a un modello ARIMA: cP(B)yt == 8(B)ct in cui i polinomi cP(B) e 8(B) possono essere espressi in funzione dei polinomi cPs(B), cPN(B),
8s(B), 8 N(B).
Ora, i coefficienti di cP(B) e di 8(B) possono essere stimati a partire dalla serie storica osservata, e si pone il problema di risalire alle stime dei parametri della componente stagionale, cPs (B) e 8 s(B), e a quelli della componente non stagionale cPN(B) e 8 N(B). A questo scopo, ci si puo basare sia sul raggruppamento delle radici, a seconda del loro valore, sia nel dominio frequenziale decomponendo la densita spettrale in termini additivi, ciascuno dei quali responsabile di determinate bande (frequenze basse: trend; frequenze stagionali: stagionalita) e associando ciascuno di questi termini a un polinomio nel ritardo B che caratterizza la specifica componente. Si basa su una procedura di questo tipo il metodo SEATS di Gomez e Maravall (1996). Esso e implementato dal software TRAMO-SEATS (TRAMO e una fase propedeutica volta ad analisi preliminari, rimozione di dati anomali e ricostruzione di dati mancanti) che e stato recentemente adottato come metodo di destagionalizzazione tipico da diversi organismi ufficiali di statistica (anche dall'Istat). Per concludere, un'osservazione finale. Anche per i modelli ARIMA e stagionali il problema della molteplicita e rilevante: e possibile cioe in generale costruire sulla stessa serie pili modelli, anche con ordini diversi, che forniscono sostanzialmente le stesse misure di adattamento complessivo; tra l'altro accade a volte che tra modelli equivalenti alcuni prevedano la differenziazione, altri no. Se il metro di giudizio e l'accostamento ai dati, la distinzione tra l'uso di modelli ARMA e ARIMA, anche se concettualmente netta, nella pratica non e cost precisa. :E opinione comune di molti analisti (anche se non di tutti) di preferire modelli stazionari a modelli integrati se lc prestazioni sono pressappoco equivalenti. E infine il caso di osservare, per quanto concerne la molteplicita, che eventuali fattori comuni dei polinomi autoregressivi e a somma mobile, che avessero
10.7 Modelli lineari per Ie relazioni tra due processi
227
radici unitarie, non possono formalmente essere "semplificati" come si fa nel caso stazionario: ovvero, il modello
A(B)cI>(B)Xt == A(B)8(B)ft non
e equivalente a
cI>(B)Xt == 8(B)ft
se A(B) ha radici unitarie, poiche in tal caso non esiste il polinomio inverso di A(B) e quindi non e lecita la divisione per A(B). Tuttavia quasi sempre questa situazione si verifica quando si e operata sui dati una differenziazione non necessaria (sovradijJerenziazione) che spinge nella stima dei parametri a somma mobile verso strutture non invertibili, cia che suggerisce di costruire il modello sui dati non (0 meno ) differenziati.
10.7 ModeIIi Iineari per Ie relazioni tra due processi II presente volume non si occupa diffusamente di modelli rappresentativi per serie multivariate, un argomento che e stato molto sviluppato e approfondito in questi ultimi anni (si veda ad esempio Reinsel, 1997, e Liitkepohl, 1993). Accenneremo pero a un'estensione dei modelli ARIMA che permette di tenere conto dell'influenza di un'altra serie temporale su quell a che viene rappresentata, e che viene generalmente riferita alla denominazione di modelli a funzione di trasferimento. Si noti che il termine funzione di trasferimento non si riferisce qui al dominio frequenziale, rna ai coefficienti Vj che "trasferiscono" l'effetto di una serie sull'altra. Supponiamo di voler costruire un modello rappresentativo per il processo {yt} e che esso sia legato linearmente al processo {Xt} che puo essere osservato conternporanearnente a {yt}. Possiarno ipotizzare che il legarne lineare tra i due processi sia ben descrivibile attraverso un filtro lineare (fisicamente realizzabile) : yt ~
L hsX
t-
s == .l-I(B)Xt
s=O
che, come per i modelli precedenti, puo esser approssimato dal rapporto tra due polinomi finiti nel ritardo B di ordine rispettivamente r al numeratore e s al denominatore: H(B) ~ w(B)/J(B). Indicando poi con {Nt} il processo generato dalla parte di yt non spiegata linearmente da {Xt } , otteniamo il modello a funzione di trasferimento: 00
==
L
VjX t - j
+ s.
j=O
(si faccia attenzione che qui, contrariamente al solito, non e necessariamente == 1). Si supporra che {Nt}, detto rumore, sia completamente incorrelato
Vo
228
10 I modelli rappresentativi
con tutte le {Xt } , e che i processi {yt} e {Xt } siano stazionari (sottoponendo quindi, se necessario, le serie a una adeguata differenziazione, prima di costruire la funzione di trasferimento). II problema e naturalmente quello di identificare gli ordini res e di stimare i parametri Vi Questi sono legati aIle correlazioni incrociate tra {Xt } e {yt}. Anzi, se {Xt } fosse un rumore bianco, moltiplicando ambo i membri del modello per X t - h e prendendo la media otterremmo:
e quindi l'andamento dei parametri Vh sarebbe determinato da quello delle cross-covarianze (0 cross-correlazioni). Per sfruttare questa proprieta anche nel caso pili generale, possiamo costruire per {Xt } un modello ARMA:
Ora, ponendo
dal modello a funzione di trasferimento, premoltiplicando per to - t n} Xn)eA(to-t n) == Ane- Ato . Ane-A(Xl +X2+ ...+
Pr{X1
==
X1,X2
La stima di massima verosimiglianza si ottiene massimizzando rispetto a A, il che comporta A == nita. Pertanto 10 stimatore di massima verosimiglianza risulta: ,\ == N (0, to) . to
Ma N(O, to) ha una distribuzione di Poisson di parametro Ato, quindi:
A
Var(A) == - . A
to
Si puo verificare che la statistica "numero di eventi" e sufficiente e completa per A, ne segue che ,\ e 10 stimatore non distorto a varianza minima (MVUE). Supponiamo che invece di osservare il processo per un tempo fissato to, 10 osserviamo fino a raggiungere un certo numero di eventi fissato no, e che essi si verifichino negli istanti t 1, t 2, ... , t na. Ponendo come prima Xl == t1, Xj == tj - tj-1 (j == 2, ..., no) e supponendo un evento iniziale in t == 0, la verosimiglianza risulta:
12.2 Inferenza per processi di Poisson
247
quindi la stima di massima verosimiglianza si ottiene ponendo A == nO/tna e 10 stimatore di massima verosimiglianza risulta percio:
no
A
A==-T (no) dove T(no) e l'istante in cui si verifica l'no-esimo evento, la cui distribuzione come sappiamo e gamma di parametri no e A, e la cui media armonica si ottiene facilmente uguale a AI (no - 1). Percio:
{I} == -nono-- A .
E(A) == noE - (-) T no A
1
La distorsione si puo correggere facilmente ottenendo 10 stimatore non distorto: A* == no - 1
T (no)
che ha:
E(A*) == A
A2
Var(A*) == - - . no - 2
Poiche anche in questo caso T(no) e sufficiente e completa per A, 10 stimatore A* risulta quello non distorto a varianza minima. Un problema di inferenza che si pone spesso nei processi di punti e la verifica dell'ipotesi che i dati provengano da un processo di Poisson omogeneo, cioe con intensita A costante, contro l'ipotesi che I'intensita vari con il tempo, e cioe che la probabilita che avvengano eventi non sia costante. In questo caso si suppone che i dati provengano da un processo di Poisson non omogeneo con intensita A(t) variabile nel tempo e si procede sostanzialmente a verificare la stazionarieta in media e varianza, problema che si puo trattare secondo la teoria classica di Neyman e Pearson. Per i processi non omogenei ricordiamo (paragrafo 7.2) che la distribuzione del numero di e renti in un intervallo (s, t) ha una forma di Poisson con parametro pari a:
i(s,t)=
I
t
).. (U) dU
mentre per i tempi ai quali si verificano gli eventi si ha Pr( u < Ti. < U U du ITk - 1 == t) == A(u) exp (- ft A(y) dy) du, e la verosimiglianza si scrive:
+
Per effettuare il testdi omogeneita si assume come ipotesi nulla Ho : A(t) == A Vt e si considera il rapporto delle verosimiglianze, che puo risultare di facile o difficile risoluzione a seconda della forma funzionale di A( t) definita dalla ipotesi alternativa. Una scelta semplice e del tipo A(t) == A exp{ -Bt}, poiche in tal caso la verosimiglianza sotto l'ipotesi alternativa e:
248
12 Inferenza per catene di Markov e processi di punti
mentre quella sotto l'ipotesi nulla:
e quindi il rapporto di verosimiglianza dipende dalla statistica test:
Ora sotto Hi, e dato che N(O, to) == n, ciascun T, ha distribuzione uniforme tra 0 e to. Infatti:
e:
, T';
Pr (TI == tl, T2 == t2,
==
tn, N (0, to) == n)
==
Ae-A(tn-tn-l)e-A(to-tn) == Ane- At o In!
== Ae- At 1 Ae- A(t 2 - t d
da cui:
n!
Pr (TI == t i- T2 == t2, ...,Tn == t n IN (0, to) == n) == t n . a La densita e uniforme nell'insieme 0 < t l < t2 < ... < t.; < to, ed uguale alla densita congiunta di un campione casuale ordinato di n unita da una variabile distribuita in modo uniforme tra 0 e to (si veda ad es. Azzalini, 2001, p. 324). D'altra parte le somma (TI + T2 + ... + Tn) non dipende dall'ordine degli addendi. Se ne puo concludere (si veda ad es. Cox e Lewis, 1966) che la variabile S == T I + T 2 + ... + T'; ha la stessa distribuzione della somma di n variabili indipendenti e somiglianti con distribuzione uniforme tra 0 e to. La uniforme ha densita lito, media to/2 e varianza t5/12; allora per il teorema centrale di convergenza S e approssimativamente normale per n grande, con: E (5) = nto 2
Var (5) = ntB 12
e cio permette di ricavare regioni di rifiuto. Se l'alternativa e unilaterale: HI : A(t) == Aexp( -Ot), 0 > 0 e quindi A(t) < A e decrescente, dovremo scartare i valori piccoli e la regione di rifiuto e del tipo: S
< -nto -z to ~ 2 a 12
Se invece l'alternativa e HI : A(t) == A exp( -Ot), 0 < 0, e dunque A(t) crescente e maggiore di A, allora rifiuteremo per valori grandi di S:
S> -nto +za to ~ . 2 12
e
12.2 Inferenza per processi di Poisson
249
Esempio 12.2. Consideriamo i dati seguenti che riportano il numero mensile di interruzioni in una rete di comunicazione per un periodo di quindici mesi:
mese
1 2
3
4
5
6
7
8
eventi 10 14 8 5 7 11 9 15 cumulati 10 24 32 37 44 55 64 79 stima intensita 10 12 10.6 9.25 8.8 9.16 9.88 11.3 mese
9
10 11 12 13
14
15
eventi 10 24 8 4 5 12 12 cumulati 89 113 121 125 130 142 154 stima intensita 9.14 9.87 11 10.4 10 10.14 10.26 La terza riga da il rapporto tra eventi cumulati e lunghezza del periodo complessivo, quindi costituisce 10 stimatore dell'intcnsita come 10 si puo calcolare alla fine di ciascun mese, basato su tutti i dati precedenti. Come si nota, all'aumentare delle informazioni disponibili la stima diventa sempre pili stabile. Esaminiamo pili da vicino gli ultimi quattro mesi domandandoci se si puo accettare l'ipotesi di una intensita costante (dai dati sembrerebbe crescente). Sono necessari i tempi nei quali si sono verificati gli eventi, che verranno espressi in giorni fissando l'origine dei tempi all'inizio del mese e considerando mesi di 30 giorni, di modo che l'intero periodo e di durata 120: Mese 12: eventi a 2.5,9.1,24,27.2 Mese 13: eventi a 8.4,10.1,19,26.9,27.5 Mese 14: eventi a 2.1,3.1,7.5,10,11.4,11.8,20.5,21.1,26,27.3,28,28.7 Mese 15: eventi a 0.3,1.1,1.9,4.5,5.3,5.7,13.5,15,20,20.9,25.6,28.1 La statistica test e la somma dei tempi di accadimento, che risulta pari a 2452.2 (si ricordi che ogni istante va misurato a partire dal tempo zero cioe dall'inizio del mese 12). Gli eventi totali sono n == 33 e il tempo totale di osservazione e di 120 giorni: quindi sotto l'ipotesi nulla di intensita costante la media e nto/2 == 1980 e la varianza nt5/12 == 39600, quindi 10 scarto quadratico medio e circa 199. Pertanto il valore standardizzato della statistica epari a circa 2.37 che comporta il rifiuto allo 0.01 dell'ipotesi nulla di costanza contro la unilaterale A( t) crescente.
Parte IV
Metodi di previsione puntuale
13 Previsioni per processi stazionari
Vengono introdotti alcuni metodi di previsione puntuale delle serie temporali. Dopo una breve esposizione della teoria della previsione dei processi aleatori stazionari, si espongono i metodi di previsione basati sui modelli della classe ARIMA, e si discutono brevemente anche metodi basati su altre impostazioni.
13.1 Teoria della previsione II problema della previsione puo essere formalizzato nell'ambito della teoria dei processi stocastici studiando le relazioni di un insieme di variabili che si riferiscono al passato e presente con una variabile del processo che si riferisce al futuro. Se supponiamo di trovarci all'istante t, e quindi di poter virtualmente conoscere le determinazioni assunte dalle variabili {X s, S ~ t}, rna ci interessa invece la variabile X t +£ che genera il valore che il processo assumcra tra Ristanti, e naturale riferirsi alla distribuzione condizionata di X t +£ dati {X s, S ~ t}, e se vogliamo sintetizzarla l'indice pili comune e la media E{Xt+£IXt,Xt - 1 , .. . }. Essa ha una ulteriore proprieta di ottimalita, come abbiamo gia accennato nel primo capitolo: supponiamo che si voglia attribuire un valore puntuale ana realizzazione futura (e quindi incognita) di X t +£: questo valore sara ovviamente funzione dei dati gia noti, percio questa operazione di prevedere il futuro descrive una statistica:
Si dice che tel' origine del previsore, e f e l' orizzonte di previsione. Quale funzione scegliere? Scegliamo come condizione la pili comunemente usata: l'errore che commettiamo
dovra avere media zero e media quadratica pili piccola possibile. Ne segue che 0 0 P > 0) sia nulla (in caso contrario bisogna sostituire ai dati gli scarti). II legame tra X t +R e il suo passato puo essere espresso in tre forme diverse: 1. L'equazione aIle differenze corrispondente alIa forma ARIMA:
2. La forma in funzione completa degli urti -
detta a volte forma integrata
o forma MA( ex) ):
che in genere avra lunghezza infinita, a meno che il modello non sia un MA puro; i pesi 1fj corrispondono al polinomio P(B) == 1 + 1fIB + ... == tP(B)-18(B) e quindi se la serie e integrata, ovvero d =I 0 e/o D =I 0, non formano una serie convergente. 3. La forma invertita, a volte detta AR( ex) ):
dove i pesi 7T"j sono dati dal polinomio II(B) == 1 - 1rIB - 1r2B2 - ... == tP(B)8(B)-1 e sono sempre convergenti se il modello e invertibile, rna sono in numero infinito a meno che esso non sia autoregressivo puro. Se adesso applichiamo I'operatore media condizionata E{.IX t } alle equazioni, ci troveremo a dovere calcolare le medie condizionate di osservazioni e di urti relativi sia al futuro che al passato, che possiamo risolvere nel modo seguente:
13.2 Previsioni can modelli ARIMA
E { Xt+h IX,
==
259
Xt(h) , h > 0 Xt ,Xt- l == Xt-l,··· } == { h 0 Xt-l, ... } == { h 0) ana media non condizionata (pari a zero). Se la media e diversa da zero e uguale a u, il previsore diventa £ == 1,2, ...
Modello AR (p). Se indichiamo con X, (£) anche i valori gia realizzati estendendo la definizione per £ negativo: Xt(f) == Xt+£, f ~ 0, allora l'equazione (13.5) si puo scrivere: (13.9) e il previsore X, (£), considerato come funzione di £, soddisfa la stessa equazione alle differenze soddisfatta dalle autocorre1azioni, e presenta percio 10
262
13 Previsioni per processi stazionari
stesso andamento (per esempio per p == 2 e ¢2 < 0 puo seguire un andamento sinusoidale smorzato). Le condizioni iniziali che determinano la soluzione particolare dell'equazione alle differenze sono fornite dal fatto che i valori di Xt(R) per Rnegativo sono noti e dati dalle osservazioni e quindi Xt(l!) == Xt-I£I' R==-1,-2, ... ,-p. Modelli autoregressivi integrati ARIMA [p.d, 0). Per questi modelli Ie differenze d-me Z; == (1 - B)d X, seguono 10 schema autoregressivo e quindi i previsori di Zt+£ tendono esponenzialmente a ritornare sullo zero, conseguentemente il previsore di X t+£ tende ad assumere la forma (1 - B)d Xt(R) == 0 dove l'operatore B agisce sull'orizzonte I!; ricordando che
si ottiene, al crescere dell'orizzonte:
e quindi Xt(R) si disporra secondo un polinomio di grado d - 1 il cui andamento e determinato dai valori iniziali Xt-k, k == 1, ... ,d. Ad esempio, per un ARIMA(l, 1,0) con un trend, rappresentato da:
(1 - ¢B) (1 - B) X, ==
C
+ Ct
posta JL == c] (1 - ¢), il modello si puo scrivere:
I pesi
1f
sono:
1fo
== 1, 1fl == 1 + ¢,
1f2
== -¢ e quindi:
da cui, per le differenze tra previsori, si ha:
tenendo conto che Xt(O) == Xt, X t (- l ) == Xt-l. Ora, se scriviamo la precedente equazione per I! == 1,2, ... ,k e sommiamo si ottiene: k
Xt(k) - Xt - kJL == (Xt - Xt-l - JL)
L ¢£ £=1
da cui
13.2 Previsioni can modelli ARIMA
263
che al crescere di k si dispone secondo una retta di coefficiente angolare pari a u: Modelli a somma mobile MA(q). In questo caso i pesi ~j sono dati direttamente dai -()j, e quindi si annullano per j > q. Pertanto Xt(R) == 0 per R > q, cioe il condizionamento ai dati passati non ha effetto se l'orizzonte supera l'ordine q. Per esempio per un MA(l) otteniamo X t (l ) == -()Et, X t (2) == 0 e cosl via, ed in genere conveniente calcolare le previsioni basandosi sulle stime degli urti. Modelli a somma mobile integrati A RIMA (O,d,q). Poiche Ie differenze (1B)d X, seguono un modello a somma mobile di ordine q, per orizzonti maggiori di q avremo (1 - B)d Xt(f) == 0, quindi la forma polinomiale di grado d - 1, che si raggiungeva asintoticamente nel caso autoregressivo, qui si raggiunge esattamente per R > q. Un caso particolarmente rilevante si ha per il modello
e
ARIMA(O, 1, 1):
Xt
-
X t - 1 ==
ct - ()ct-1 .
Scrivendolo per l'istante t + R e prendendo le medie condizionate, ricordando che E(Ct+flxt) == 0 se f > 0, avremo:
Pertanto le previsioni per tutti gli orizzonti sono costanti. Questo modello si comporta in modo particolare nell'aggiornamento delle previsioni. Poiche X t- 1(f) == Xt-1 - ()Et-1 e Xt(f) == Xt - ()Et, tenendo conto anche che Xt == Xt-1 + Et - ()Et-1 si ha:
quindi l'aggiornamento nel passare dalla origine t - 1 alla origine t avviene sommando una quota (1 - B) dell'errore di previsione osservato. Be vogliamo esprimere il previsore in funzione dei dati possiamo calcolare i pesi 7fj del polinomio II(B) == q>(B)8(B)-1, scrivendo q>(B) == 8(B)II(B) ed eguagliando i coefficienti di pari grado in B: poiche in questo caso q>(B) == 1 - B e 8(B) == 1 - BB si ha:
1 - B == (1 - ()B) (1 - 7f1B - 7f2B2 - ...) da cui
-1 == -B
o == ()7fj-1 Ne segue che
7f1
termini di grado 1 in B
-7f1
== 1 - (),
7fj 7fj
> 1 in B .
termini di grado j
== ()7fj-1 == ... == (1 -
())()j-1
Xt(R) == X t (l ) == (1 - ())Xt + (1 - ())()Xt-1 + (1 -
e dalla (13.7):
())()2 Xt_2
+ ...
II previsore e una media con pesi esponenziali (la somma dei pesi e pari a uno) delle osservazioni precedenti. Questa forma corrisponde al modello detto
264
13 Previsioni per processi stazionari
di livellamento esponenziale (exponential smoothing, 0 anche EWMA) che riprenderemo anche nel seguito. Modelli misti ARIMA(p, d, q). II comportamento del previsore e essenzialmente determinato, al crescere dell'orizzonte, dalla struttura autoregressiva, con l'eccezione dei previsori per i primi q orizzonti, sui quali incide anche la parte a somma mobile. Ad esempio per un ARMA(I, 1) il previsore a orizzonte uno e mentre per gli orizzonti da due in poi si riprende l'andamento esponenziale tipico dell'AR( 1): Se il processo eintegrato si avra anche in questo caso la convergenza all'andamento di fondo a seconda del grado di differenziazione. Segnaliamo la proprieta che per i modelli integrati (d > 0) la espressione (13.7) che descrive il previsore come combinazione lineare dei dati precedenti (e previsori per orizzonti inferiori) e sempre una media esatta, poiche la somma dei pesi 7rj e pari a uno. Infatti II(B) == q>(B)8(B)-1 e se q>(B) contiene un fattore (1 - B)d ha radici unitarie, percio q>(I) == O. Ne segue:
L7rj == 00
II(I) ==
1-7r1-7r2 -
...
== 0
=?
1.
j=1
Serie trasformate. Se la serie viene sottoposta alla trasformazione di potenza di Box e Cox (paragrafo 10.5): Yt =
~(x~ a
1)
allora il modello ARMA sara costruito sui dati trasformati {Yt} e anche la previsione si riferira alla stessa serie, ovvero, con i metodi qui illustrati si otterranno i valori Yt (£). Per ritornare alle previsioni espresse in funzione delle osservazioni originali si puo applicare aIle previsioni la trasformazione inversa:
Anche se questo e il metodo pili naturale, e stato dimostrato (Guerrero, 1993) che si ottiene cosi un previsore distorto, come e facilmente comprensibile perche se f(x) non e lineare allora E{f(X)} i- f{E(X)}. E stata anche proposta la forma corretta seguente:
dove f3
Yt(£).
== a£1{II a+Yt(£)} e a£ e10 scostamento quadratico medio del previsore
13.2 Previsioni can modelli ARIMA
265
L Fig. 13.1. Previsioni per la serie D di Box e Jenkins can un modello AR(l)
Esempio 13.1. 0 ltre a calcolare il valore numerico delle previsioni, risulta spesso chiarificatore disegnare un grafico in cui, assieme agli ultimi valori noti della serie, vengono riportate le previsioni con l'origine posta nell'ultimo dato conosciuto, e orizzonte crescente. Assieme al valore del previsore viene riportato l'intervallo di confidenza a livello 0.95 (a volte a livelli inferiori), ottenuto sommando e sottraendo alla previsione k O.025 volte il suo scarto quadratico medio, il che permette di valutare graficamente l'incertezza delle previsioni. Nella Fig. 13.1 sono riportate le previsioni effettuate con un modello AR(l) sulla serie D di Box e Jenkins (1970), relativa alla viscosita in un processo chimico. Come si vede, il previsore tende rapidamente alla media della serie. Notiamo la considerevole ampiezza dell'intervallo di confidenza, determinato dalla capacita esplicativa relativamente modesta del modello (R2 pari a circa 0.7). Nella Fig. seguente 13.2 sono riportate le previsioni per i consumi di acqua registrati a New York, anni 1898-1968. Ana serie e adattato un modello ARIMA(O, 1,3) incompleto:
(1 - B)Xt == 2.23 + Et
- 0.36Et-3
e si vede che dopo i primi tre orizzonti le previsioni si dispongono secondo una retta di coefficiente angolare pari a 2.23. I grafici delle figure 13.3a e 13.3b riportano le previsioni effettuate sulla serie C di Box e Jenkins (1970) effettuate con i due modelli alternativi identificati da questi autori, un ARIMA(l, 1,0) e un ARIMA(O, 2, 2) come si vede i risultati sono molto simili. Nella Fig. 13.4 compaiono le previsioni per la serie delle macchie solari, che presenta una pseudo-periodicita con un ciclo di 10-11 anni. Si e adattato un AR(2) e le previsioni mostrano l'andamento sinusoidale smorzato. Infine nella Fig. 13.5 e riportata la serie, anch'essa presa spesso come riferimento, dei passeggeri su
266
13 Previsioni per processi stazionari
/ Fig. 13.2. Previsioni per la serie del consumo idrico a New York con un modelIo J\ftI11J\(O,1,3)
(a)
(b)
Fig. 13.3. Previsioni per la serie C di Box e Jenkins. (a) modelIo AftI11A(l,l,O) (b) modelIo AftIMA(O,2,2)
linee aeree internazionali rilevati mensilmente dal 1949 al 1960 (serie G di Box e Jenkins, 1970), che presenta forte trend e stagionalita, ed eben adattata da un modello ARIMA(O, 1, 1) x (0,1,1)12:
(1 - B)(l - B 12)Xt == (1 - 0.4B)(1 - 0.61B 12 ) Et
.
Le previsioni seguono sia I'andamento crescente sia le caratteristiche stagionali della serie.
13.3 Previsioni con metodi adattivi La previsione con modelli della classe ARIMA e attualmente la procedura avanzata pili diffusa per la previsione di serie temporali univariate nelle situazioni in cui si disponga di una sufficiente capacita di analisi statistica e
13.3 Previsioni can metodi adattivi
toO tot t04 to6 to3 tlO tlt t14
us
tl3 ttO
ttt tt4
ns m
t30 tU tH t36
m
t40 t4t t44 t46 t43
m m
ts4
rss m
HO t6t H4
267
tss H3 m
Fig. 13.4. Previsioni per la serie delle macchie solari can un modello AR(2)
Fig. 13.5. Previsioni per la serie dei passeggeri delle linee aeree can un modello ARIMA(O, 1, 1) x (0,1,1)12
computazionale, e non siano disponibili conoscenze a priori 0 teorie sul fenomeno esaminato, che guidino la scelta verso modelli con maggior contenuto interpretativo. Nel caso che non si verifichino queste due condizioni, sono ovviamente disponibili altri metodi di previsione statistica, tra i quali vedremo alcuni esempi particolarmente rilevanti: esamineremo in particolare alcuni metodi detti adattivi (exponential smoothing, Holt-Winters) che sono caratterizzati da scmplicita e immediatezza di uso e sono suscettibili di applicazione automatica e routinaria, anche se la loro precisione non e in genere comparabile con gli ARIMA. Parleremo anche dei modelli cosiddetti strutturali (Harvey,
268
13 Previsioni per processi stazionari
1990), che possono essere considerati come una sintesi risultante dall'applicazione della teoria economica e degli sviluppi dei processi aleatori. Vedremo anche come in realta questi modelli possano essere considerati sostanzialmente come particolarizzazioni degli ARIMA. I metodi di tipo adattivo (0 perequativo) sono adeguati quando sia necessaria una previsione per la Quale la rapidita e facilita di calcolo sono elemento pili importante dell'accuratezza. Un esempio e la gestione di un magazzino di parti di ricambio in cui si debbano prevedere i livelli di centinaia 0 migliaia di articoli, a orizzonte breve e frequentemente (Granger, 1980). La logica che viene seguita in questi metodi e che esiste un livello medio da prevedere, che esso puo essere occasionalmente rna lentamente variabile, e che per seguirne I'evoluzione si utilizzano le informazioni pili recenti combinandole linearmente con i dati storici. In altri termini, cia che si prevede e un livello stabile e costante per la serie (che quindi e valido per ogni orizzonte) e all'arrivo di ogni nuovo dato l'informazione viene compenetrata con le precedenti, che sono sintetizzate dalla previsione stessa. Siano (Xl, X2, ... , XN) i dati, e P N la previsione effettuata usando i dati fino all' N -mo, e che e valida per tutti gli istanti successivi, quindi per ogni orizzonte k la previsione risulta X N (k) == PN , k == 1,2, .... Nel momento in cui si viene a conoscere il dato XN+I, la previsione viene modificata combinando linearmente la previsione precedente PN con il nuovo dato XN+I: PN+I
==
aXN+I
+ (1 -
(13.10)
a)PN
dove a e un coefficiente compreso tra 0 e 1 il cui valore bilancia l'importanza dell'andamento storico con quello della informazione pili recente. Questo metodo viene chiamato livellamento esponenziale (exponential smoothing) e permette l'aggiornamento iterativo della previsione, adattandola alla evoluzione della serie man mana che essa viene rilevata. Sostituendo nella (13.10) successivamente PN == aXN + (1 - a)PN-I, PN-I == aXN-I + (1 - a)PN-2 e cost via, si ottiene: PN+I
==
aXN+I
+ a(l
- a)xN
+ a(l - a)2 x N_ I + ... + a(l - a)kxN+I_k + (1 -
a)k+lpN_k .
Al crescere di k, il termine (1 - a )k+l tende a zero e possiamo quindi scrivere (sostituendo taN + 1 per omogeneita rispetto ai paragrafi precedenti)
L (1 00
Pt
==
aXt
+ a(l -
a)Xt-1
+ ... + a(l -
a)kxt_k
+ ... == a
a)kxt_k .
k=O
La formula precedente esprime la previsione come media aritmetica ponderata dei dati fino all'origine con pesi pari alle potenze successive di (I-a) (il fattore a enecessario perche ela somma dei pesi sia uno). Per questo motivo il metoda viene chiamato anche EWMA (media mobile ponderata esponenzialmente).
13.3 Previsioni con metodi adattivi
269
Se consideriamo un orizzonte unitario, l'errore di previsione si scrive et == e la previsione (13.10) puo essere scritta in funzione dell'errore di previsione ponendo Xt+1 == et + Pt: Xt+1 - Pt
Pt+l
== Pt + aet
che mostra come la previsione evolva aggiustandosi con una proporzione a dell'errore di previsione appena questo e rilevato. La procedura dipende dalla scelta del parametro di livellamento a: un valore di a vicino a zero indica che i dati pili recenti hanno una influenza limitata rispetto al com plesso delle informazioni storiche, e quindi la previsione si adatta lentamente ad eventuali cambiamenti nel comportamento della serie. Valori di a pili vicini a uno indicano invece una minore inerzia e una maggiore velocita nell'incorporare in Pt le informazioni pili recenti, poiche i pesi a(1 a)k decrescono pili rapidamente. La scelta del valore di a puo essere effettuata con metodi statistici, ad esempio scegliendolo in modo da rendere minimo l'errore quadratico medio di previsione osservato su un tratto iniziale della serie. Tuttavia spesso, e in coerenza con Ie caratteristiche di semplicita e immediatezza di questo metodo di previsione, a viene scelto empiricamente sulla base di considerazioni a priori sulla rapidita di evoluzione della serie. La gamma di valori pili usati va da 0.3 a 0.7. E necessario anche scegliere un valore iniziale per innescare la procedura iterativa, si pone di solito PI == Xl, e l'effetto del valore iniziale tende a scomparire al crescere di t. Come abbiamo visto al paragrafo precedente, la previsione effettuata con il metodo dell'exponential smoothing coincide con il previsore di un modello a somma mobile del primo ordine integrato ARIMA(O, 1, 1) con parametro () == (1 - a). Ne possiamo dedurre che questo metodo ha la proprieta di previsore lineare ottimo se applicato a un processo ARIMA(O, 1, 1), e in tal caso il valore da attribuire al coefficiente di livellamento e determinato dalla stima del parametro a somma mobile. Se la serie proviene invece da processi di struttura diversa, questo metodo non fornisce le previsioni lineari a errore quadratico medio minimo. La impostazione adattiva estata estesa anche per trattare serie che presentano trend e/o stagionalita, portando a un metodo di previsione pili articolato, riferito generalmente ai nomi di Holt e Winters. Nel caso si vogliano prevedere serie con trend rna senza stagionalita la previsione e effettuata secondo una retta che origina al livello medio, iii, previsto sostanzialmente come prima, e cresce secondo un coefficiente angolare c il cui valore eanch'esso costantemente aggiornato: (13.11)
e
Per calcolare il livello medio iii, si usa una equazione analoga al caso precedente: se si conoscono i dati fino al tempo t - 1, la previsione per l'istante t sara mt-l + Ct-l, come dalla (13.11). Questo valore viene ponderato con il dato Xt quando questo viene rilevato, e la combinazione lineare fornisce la nuova previsione del livello medio:
270
13 Previsioni per processi stazionari mt == aXt
+ (1 -
a)(mt-l
+ Ct-l)
.
(13.12a)
A sua volta, anche la stima (0 previsione) della pendenza c; viene adeguata ai valori osservati man mana che se ne viene a conoscenza: all'arrivo del dato t-mo il coefficiente angolare puo essere aggiornato, usando come valutazione corrente la differenza tra i due livelli medi attuale e precedente: iii, - iiu..« (che e l'inclinazione del segmento congiungente iii; a mt-l poiche la loro distanza in termini temporali e pari a uno): (13.12b) Le (13.12a) e (13.12b) permettono l'aggiornamento congiunto dei parametri della retta (13.11) che costituisce la previsione con il metodo di Holt e Winters. Qui i coefficienti di livellamento da scegliere sono due: a e (3, che riguardano separatamente il livello e la pendenza, e per la scelta dei quali si possono ripetere considerazioni analoghe al caso precedente. La effettiva costruzione delle previsioni avviene in modo iterativo, basandosi su valori iniziali di m2 e C2 che potrebbero essere posti semplicemente uguali ai primi dati: m2 == X2, C2 == X2 - Xl, oppure stimati adattando una retta a un sottoinsieme di dati iniziali. E stato dimostrato che il previsore generato dalla (13.11) risulta ottimo nel senso dell'errore quadratico medio di previsione se la serie proviene da un modello ARIMA(O, 2, 2). Una ulteriore estensione permette di tener conto della stagionalita, considerando una previsione che segue una retta con termini correttivi additivi (0 anche moltiplicativi) di natura stagionale. Supponiamo per fissare le idee che la serie sia rilevata mensilmente: allora oltre al livello medio iii; e al coefficiente angolare Ct, costantemente aggiornati, si calcolano anche dodici pesi stagionali Sj (uno per ogni mese) e ciascuno di essi viene aggiornato quando si osserva un dato del relativo mese. La previsione basata sui dati fino al tempo t si scrive: Xt(f)
==
mt
+ Ct f + St(f)
dove St(f) e l'ultimo peso stagionale calcolato relativo al mese analogo a t + f: quindi St(f) == St+£-l2 se 1 :::; f :::; 12, St(f) == St+£-24 se 13 :::; f :::; 24 e cosi via. Vediamo adesso gli aggiornamenti: le equazioni per il livello e la pendenza rimangono sostanzialmente analoghe, anche se nel calcolare il livello si deve eliminare I'effetto della variazione stagionale, e quindi come informazione corrente si usera il dato Xt dopo avergli sottratto la pili recente stima del peso stagionale, cioe St-l2:
+ (1 - a)(mt-l + Ct-l) Ct == (3(mt - mt-l) + (1 - (3)Ct-l .
iii; == a(Xt -
St-l2)
E necessario anche aggiornare i pesi
stagionali, attraverso una combinazione line are del valore precedente St-l2 con la valutazione derivante dalla osservazione al tempo t: essa puo essere assunta pari alla differenza tra il dato effettivo x, e illivello medio tru:
13.4 Previsioni con modelli strutturali
271
Fig. 13.6. Serie rappresentata da un modello ARIMA(l,l,O). Confronto tra previsioni Holt- Winters (linea continua) e previsioni ARIMA (linea tratteggiata)
Le tre equazioni permettono il calcolo iterativo delle previsioni evolvendo le valutazioni del livello medio, della pendenza e delle variazioni stagionali. In questo caso devono essere scelte tre costanti di livellamento, a, (3, r, e per avviare la ricorsione e necessario inizializzare sia iii; sia c-, sia avere dodici pesi iniziali 81, ... ,812 che possono essere stimati su un tratto iniziale della serie.
Esempio 13.2. Consideriamo una serie con trend crescente, ben rappresentata da un modello ARIMA(l, 1,0): (1 - 0.8B)(1 - B)Xt
== 0.03 + ct
e costruiamo le previsioni (ad orizzonte crescente fino a 20) sia con il modello ARIMA (linea tratteggiata) sia con il metodo di Holt e Winters dato dalla (13.11) (linea continua). Come si vede nella Fig. 13.6, il metodo adattivo ha estrapolato una retta con pendenza sostanzialmente determinata dagli ultimi dati, mentre Ie previsioni ARIMA si dispongono rapidamente su una retta il cui coefficiente angolare edeterminato dai parametri del modello (e 0.03/(10.8) == 3/20) che risentono del comportamento dell'intero insieme dei dati.
13.4 Previsioni con modelli strutturali Presentiamo qui una esposizione sommaria della problematica dei modelli strutturali che trovano largo uso negli studi economici, il cui sviluppo sta-
272
13 Previsioni per processi stazionari
tistico e dovuto principalmente ad Harvey, ai cui contributi si rimanda per approfondimenti (Harvey, 1990). La genesi di tali modelli e da farsi risalire alla controversia, che per molti anni ha acceso un appassionato dibattito in campo economico ed econometrico, tra previsioni basate solo sui dati, e quindi costruite secondo procedimenti statistico-probabilistici poggiati su un insieme minimo di ipotesi (come la impostazione ARMA), e procedimenti che fanno invece affidamento su assunzioni pili precise relative all'andamento dei fenomeni, originate dalla teoria economica. I modelli strutturali rappresentano un tentativo di sintesi, poiche si fondano su assunzioni precise relative aIle determinanti del fenomeno, rna incorporano anche componenti aleatorie definite in modo formale e probabilisticamente corretto, che permettono un trattamento inquadrabile nel solco della metodologia che abbiamo fin qui tracciato. Si vedra ben presto, peraltro, che i modelli strutturali si rivelano sostanzialmente particolari modelli ARIMA, e quindi la impostazione strutturale puo esser riguardata come una particolare forma di identificazione del model10 ARIMA, basata su una teoria a priori piuttosto che sulle proprieta stimate della serie analizzata. A seconda della natura e dell'andamento delle determinanti ipotizzate per il fenomeno {Xt } , si distinguono vari tipi di modelli strutturali, tra i quali accenniamo ai pili semplici. Madella a livello locale. II fenomeno tende a disporsi secondo un livello costante, rna soggetto a variazioni casuali, e i valori rilevati risentono anche di ulteriori componenti accidentali. Possiamo scrivere:
J-Lt ==
J-Lt-l
+ TIt
dove {Et} ed {TIt} sono due processi rumore bianco, indipendenti e con varianza rispettivamente e a~, illoro rapporto a~ (detto rapporto segnale-errore) indica in un certo senso la persistenza dellivello locale, poiche se esso e piccolo allora i valori degli TIt sono trascurabili, J-Lt ~ J-Lt-l e il processo oscilla attorno a un livello costante, mentre se e molto grande allora gli Et sono trascurabili, X; ~ J-Lt e il processo tende a comportarsi come una passeggiata aleatoria. Se consideriamo le differenze prime Zt == X; - X t - 1 otteniamo:
a;
Zt
/a;
== (1 - B)Xt == (1 - B)J-Lt + (1 - B)Et == TIt + Et -
Et-l .
Data l'indipendenza tra {TIt} ed {Et} si ottiene facilmente:
Pertanto l'autocorrelazione si annulIa oltre il ritardo 1, e il processo ha la struttura di una ARIMA(O, 1, 1). Pili precisamente, possiamo dire che, dato un processo che segue un modello strutturale a livello locale, esiste un processo ARIMA(O, 1, 1) che ha le medesime autocorrelazioni (e quindi i medesimi
13.4 Previsioni con modelli strutturali
273
previsori lineari). Notiamo pero che non tutti i processi ARIMA(O, 1, 1) sono interpretabili come modelli strutturali a livello locale, poiche, qualunque siano a; e a~, si avra sempre
che corrisponde a valori del parametro () della somma mobile compresi tra zero e uno, rna non negativi. Percio la classe dei modelli strutturali a livello locale corrisponde a una sottoclasse degli ARIMA (0, 1,1). Madella a trend lineare locale. In questo caso supponiamo che il livello medio abbia una tendenza misurata da una inclinazione che subisce anch'essa variazioni aleatorie. Quindi sempre X, == ILt + e, rna il livello ILt subisce un incremento: ILt == ILt-1 + Ct + T/t
e l'incremento stesso
e guidato da un Ct
==
processo markoviano:
Ct -1
+ (t
.
Si assume che {ft}, {T/t} e {(t} siano processi rumore bianco indipendenti tra loro. Anche in questo caso si puo pervenire a un'espressione complessiva per {Xt}, detta forma ridotta, considerando le differenze seconde: W t == (1 B)2 Infatti:
x..
Wt == (1 - B)2 X t == (1 - B)2 ILt
+ (1 -
B)2 f t ==
== (1 - B)Ct + (1 - B)T/t + (1 - B)2 f t == == (t + (1 - B)T/t + (1 - B)2 ct . Si verifica facilmente che il processo {Wt } ha autocorrelazioni nulle per ritardi maggiori di due, pertanto {X t } ha la struttura correlativa di un processo ARIMA(O, 2, 2). Anche in questo caso i processi ARIMA(O, 2, 2) che corrispondono a modelli con trend locale sono un sottoinsieme di tutti quelli invertibili, poiche per qualunque scelta di a;, a~, a~ si puo dimostrare che valgono sempre Ie condizioni -2/3 < r(1) < 0 e 0 < r(2) < 1/6. Madella strutturale di base (BSM). Oltre alle componenti precedenti, si prende in considerazione anche la stagionalita. Essa viene descritta attraverso pesi stagionali che vengono sommati a ciascun dato, come nel modello classico di decomposizione, rna supponiamo che anche la stagionalita risenta di perturbazioni aleatorie, percio se sommiamo i pesi relativi a un intero anna non si ottiene zero, rna un elemento di un processo rumore bianco: se anche qui supponiamo la rilevazione mensile, il processo e descritto da:
X t ==
/-Lt
+ St + ft
274
13 Previsioni per processi stazionari
dove, come prima, ttt
== ttt-l + Ct + T)t
Ct
==
Ct-l
+ (t
e per le stagionalita: St
dove
+ St-l + ... + St-ll == Vt
eun
rumore bianco indipendente da {Et}, {T)t} e {(t}. Notiamo che 12)St; B)Vt == (1 - B si giunge alla forma ridotta applicando simultaneamente Ie differenze prime e dodicesime. Posto {Vt}
Vt - Vt-l
== s, - St-12, ovvero (1 -
Wt == (1 - B)(l - B 12 )X t == X t
-
X t-
1-
X t-
12
+ X t - 13
otteniamo: Wt == (1 -
B 12)Xt ==
B)(l -
== (1 - B)(1 - B 12 )JLt + (1 - B)(1 - B 12 ) St + (1 - B)(1 - B 12 )Et == == (1 - B 12 ) (Ct + T)t) + (1 - B)2 Vt + (1 - B)(l - B 12 )Et . Tenendo conto che
ct
(1 - B
12
== Ct-l )Ct
+ (t
== Ct -
segue
Ct-12 == (t
+ (t-l + ... + (t-ll
.
Si deduceche W t e espresso come combinazione lineare di rumori bianchi con ritardo massimo 13, pertanto la sua autocorrelazione sara nulla per ritardi maggiori di 13. In conclusione Wt == (1- B)(l- B 12)Xt ha la struttura correlativa di un MA(13). Anche qui, non tutti i MA(13) invertibili corrispondono a modelli BSM, poiche per questi ultimi, quali che siano le varianze degli urti, valgono Ie condizioni r(h) > 0, h == 2,3, ... ,11, r(12) < 0, r(13) > 0, proprieta che comportano una restrizione sui valori dei parametri e. II modello implicato non e quindi moltiplicativo, tuttavia si puo argomentare (Harvey, 1990, p. 73) che non e molto diverso da un modello "airline" (0,1,1) x (0,1,1)12 almeno quando a~ e a~ sono piccole. Una ulteriore estensione dei modelli strutturali e la possibile introduzione di una componente ciclica; inoltre e possibile aggiungere facilmente l'effetto di altre variabili se si ritiene che possano influenzare il fenomeno, in una logica analoga a quella dei modelli a funzione di trasferimento. Osserviamo infine che nella forma strutturale Ie equazioni descrivono generalmente le componenti come processi markoviani, e cio rende questi modelli particolarmente adatti al trattamento nello spazio degli stati, che introdurremo nel prossimo paragrafo.
13.5 La previsione nello spazio degli stati e il filtro di Kalman Abbiamo visto in precedenza come un processo discreto in tempo discreto, rna non markoviano, puo essere rappresentato come una catena di Markov
13.5 Spazio degli stati e filtro di Kalman
275
ampliando il concetto di stato della catena, fino a indicare non solo il valore corrente, rna anche valori passati del processo. La stessa logica puo essere estesa a processi con valori continui, cercando di individuare un vettore di informazioni che sintetizzi, a ogni istante t, tutte le caratteristiche correnti del processo, di modo che il suo valore all'istante t + 1 dipenda solo da esse e da fattori da esse indipendenti. L'idea quindi e di pass are dal processo univariato {Xt } a un processo multivariato {at} che ingloba in se tutte Ie caratteristiche di {Xt}, e gode della propreta markoviana, di modo che at+1 e dato dalla combinazione lineare di at e di un termine aleatorio indipendente da at. Non possiamo pero ipotizzare di poter rilevare completamente il vettore di stato a a ogni istante, rna dobbiamo contentarci di pensare che quanto possiamo osservare, cioe Xi . sia solo una parte dell'intero stato at, e che possano eventualmente intervenire anche perturbazioni aleatorie nella osservazione. Percio ipotizziamo che il dato rilevato sia ottenuto da una combinazione lineare degli elementi del vettore di stato at, a cui si somma un disturbo aleatorio anch'esso indipendente da at e dalle precedenti osservazioni. Con queste assunzioni semplificatrici, rna che hanno il pregio della linearita, si formula 10 schema generale del modello nello spazio degli statio Sia at == (a1t,a2t, ... ,amt)' un vettore aleatorio am dimensioni, {''It} == {("l1 t, ... , "lkt)'} un rumore bianco vettoriale a k dimensioni con matrice di dispersione ETJ - il cui elemento alla riga i e colonna j e Cov{ "lit,"ljt} -, sia {Et} un rumore bianco (univariato) indipendente da {''It} e siano infine Tuna matrice m x m, R una matrice m x k, H un vettore 1 x m, tutti costanti. II modello nello spazio degli stati consta di una equazione di transizione che descrive 10 stato al tempo t in funzione lineare del suo valore precedente e del rumore bianco {''It}: (13.13) e una equazione di misura che specifica la relazione tra l'osservazione e 10 stato: (13.14) X t == H at + Et . Si verifica facilmente che il processo degli stati {at} e markoviano, e questo comporta una serie di conseguenze notevoli per Ie sue caratteristiche. Se aggiungiamo le ipotesi di distribuzione normale, diventa relativamente facile calcolare i previsori come media condizionata. In realta, sulla base di una serie storica osservata, non e possibile calcolare Ie previsioni della serie, senza effettuare previsioni (ovvero stime) anche dello stato, perche questo, come gia detto, non e osservabile. Kalman (1960) ha sviluppato una procedura iterativa per calcolare le previsioni (della serie e dello stato) in modo che ricorsivamente, man mana che si rilevano nuovi dati, esse possano esser facilmente aggiustate; con una procedura di questo tipo e anche possibile stimare i parametri del modello (matrici T, H, E TJ, e a;) e anche ricostruire dati mancanti all'interno della serie, come verra accennato alla fine di questo paragrafo. II complesso di queste procedure va sotto il nome di jiltro di Kalman, e adesso ne esporremo sommariamente
276
13 Previsioni per processi stazionari
alcuni elementi. Una esposizione pili completa e articolata si puo trovare ad esempio in Harvey (1990). L' assunzione di partenza e la norrnalita dei dati, che implica la linearita delle medie condizionate, e quindi la possibilita di applicare il risultato fondamentale della teoria della previsione (il previsore ottimo e dato dalla media condizionata della variabile da prevedere dato l'insieme di informazioni a disposizione) anche alle equazioni di transizione e di misura. Ovviamente, se applicati a processi non gaussiani, i risultati avranno ottimalita limitata solo alla classe delle procedure basate su combinazioni lineari. Avvertiamo che la teoria dei modelli nello spazio degli stati e del filtro di Kalman e sviluppabile in un contesto di pili ampia dimensione, in cui 10 stesso processo osservabile {Xt } puo essere multivariato, mentre qui verra trattato i1 caso pili semplice in cui la equazione di misura e scalare. Un'altra possibile estensione prevede che le matrici di costanti T, H, R varino anch'esse con il tempo t. Nell'andare a considerare le medie condizionate, si deve sempre ricordare che anche 10 stato at e una variabile non osservata, e quindi la sua media condizionata non degenera rna rimane una variabile aleatoria con dispersione strettamente positiva anche data l'osservazione al tempo t. Useremo la notazione comune nell'ambito del filtro di Kalman che e pero lievemente diversa da quella usata finora. In cio che segue va sempre ricordato che at e un vettore. Se supponiamo di prendere come origine l'istante t, e indichiamo sempre con x' == (Xt , X t - 1 , X t - 2 , ... ) l'insieme delle variabili gia realizzate e osservate, per effettuare previsioni sara necessario considerare 10 stato at+l e la sua distribuzione condizionata a x', che data la normalita sara una combinazione lineare delle X t - j , j == 0,1, ... e quindi normale (multivariata) anch'essa: indicheremo con at+llt la sua media: t} at+llt == E{ at+lIX . L'errore quadratico medio di previsione dello stato sara dato dalla matrice di dispersione del vettore degli errori at+ 1 - at+11t che e uguale alla dispersione della distribuzione condizionata di at+l dato x', e viene indicata con Pt+llt:
Pt+1l t == V ar{ at+lIXt} . La previsione del dato X t + 1 puo essere ricavata subito prendendo la media condizionata nella (13.14):
X t(1) == H at+llt .
e
L'errore di previsione dunque et+l == X t+ 1 - X, (1) == X t+ 1 - H at+llt, la sua media e nulla e la sua varianza si puo scrivere (ricordando l'indipendenza tra le X e Ie E):
St+l == E{(Xt+1
-
Hat+ljt)2Ixt} ==
== E{[Et+l + H(at+l - at+llt)]2Ix t} == == H Pt+11tH' + 0'2
13.5 Spazio degli stati e filtro di Kalman
dove
== 0-2
0-
2
e la
277
varianza del disturbo casuale nella equazione di misura: E(E;)
(2).
II valore della stato al tempo t + 1 e determinato dal disturbo 7]t+l, che e imprevedibile poiche non dipende da x-, e dallo stato precedente at, che non e "osservato" rna possiamo prevedere (0, se si vuole, stimare) condizionandolo ai dati a disposizione: in questo modo, passando dalla tappa intermedia della stima della stato corrente, possiamo sperare di semplificare la procedura previsiva: in realta questa si rivela I'idea chiave del filtro di Kalman. La distribuzione di at condizionata a x' e anch'essa normale, ne indichiamo la media con a(t) e la matrice di varianze e covarianze con P(t). II legame tra queste quantita e le precedenti si ricava facilmente prendendo la media condizionata su ambo i membri di at+1 == Tat + RT/t+l:
Pt+l/t == TP(t)T' + RETJR' .
at+Ilt == Ta(t)
(13.15)
Cercheremo ora di costruire una procedura ricorsiva per la previsione del10 stato, esprimendo il previsore at+Ilt in funzione del previsore al tempo precedente atlt-I' Cia e possibile perche atlt-I == E{ at IX t - l } si puo legare linearmente ad a(t) == E{atIXt} attraverso il condizionamento ulteriore al dato Xt. Infatti, poiche X t == (X t - I , Xt) possiamo scrivere:
Ricaveremo ora questa media partendo dal considerare la distribuzione congiunta di at e X, condizionata a xt-I. Per far questo scriviamo:
at == atlt-I
+ (at
X t == Hatlt-I
- atlt-I)
+ H(at
- atlt-I)
+ Et
dove at e X, sono espresse come combinazione lineare delle due variabili at/t-I e (at - atlt-I)' Ora, condizionando a Xt-I, la atlt-I e una costante, mentre at - atlt-I e normale con media zero e matrice di dispersione Ptlt- I . Ne segue che la distribuzione condizionata di (at, X t ) e normale multipla con medie atlt-I e H atlt-I, e varianze e covarianze date da:
Var(atl x t- I) == Pt1t- 1 Var(XtIX t- l ) == Vori Hcx; Cov( at, X, \X t -
I
)
+ Etl x
t- I )
==
HPtlt-IH'
== E{ (at - atlt-I) [(at - atlt-I)' H' == Pt1t-IH' .
+ 0-2
+ Et] Ixt - I }
Ora, ricordiamo la regola delle variabili gaussiane condizionate: la distribuzione di (AlB == b) e normale con media e varianza date da: 2
Si faccia attenzione che nel nostro caso Ie St, pur essendo espresse con la Iettera maiuscola (per uniformita con Ia notazione pili diffusa) sono scalari e non matrici.
278
13 Previsioni per processi stazionari
E(AIB == b) == E(A)
+ Cov(A, B)Var(B)-l{b -
E(B)}
Var(AIB == b) == Var(A) - Cov(A, B)Var(B)-lCov(B, A) . Identificando A con atlXt-l e B con XtlXt-lsi ottiene:
E(atl x t) == E(atI X t- l )+
+ Cov(at, XtlX t- l )Var(Xt IX t- l )-l{Xt -
E(Xt IX t- l)}
Var(atI X t) == Var(atI X t- l)- Cov(at, XtlX t- l )Var(Xt IX t- l )-lCov(Xt, atI X t- l) da cui:
+ Ptlt-lH'(HPtlt-lH' + a 2)-1(Xt - Hatlt-l) == Pt1t- l - Ptlt-lH'(HPtlt-lH' + a 2)- 1HPt1t- l .
a(t) == atlt-l P(t)
Usando la definizione dell'errore di previsione che abbiamo introdotto:
si puo anche scrivere:
a(t) == atlt-l
+ Ptlt-lH' S;let
P(t) == Ptlt-l - Ptlt-lH' s;' H Pt1t- l
(13.16)
e infine, utilizzando lc (13.15) che forniscono at+llt in funzione di a(t), si ottengono Ie formule ricorsive del filtro di Kalman:
at+llt == Tatlt-l
+ T Ptlt-lH' S;let
Pt+ll t == T(Pt1t- l - Ptlt-lH' s;' H Pt1t-l)T' + RErJR' . La ricorsione viene generalmente scritta in funzione della matrice K, detta guadagno di Kalman: diventando:
at+llt == Tatlt-l + Kie, Pt+l 1t == T Ptlt-lT' - KtStK~ + RErJR'
(13.17)
che illustra come Ia previsione per 10 stato si modifica in funzione lineare dell'errore di previsione della serie et. Possiamo calcolare facilmente anche le previsioni per orizzonte f > 1 a partire dall'origine t. Infatti scrivendo la equazione di transizione (13.13) per l'istante t + f e condizionando a X t otteniamo: (13.18)
13.5 Spazio degli stati e filtro di Kalman
279
che comporta un errore di previsione at+£ - at+£lt == T(at+£-l - at+£-llt) RrJt+£, da cui per la varianza di previsione:
+
(13.19) Applicando ripetutamente queste relazioni si ottengono Ie quantita espresse in funzione dei previsori a orizzonte unitario: £-1
at+£lt == T £- l at+llt ,
n
Ft+£lt
n (T')£-l == T£-l Ft+1lt
+ '""'" ~ TjR" LiTJ R'(T')j j=O
con TO == I. Le corrispondenti previsioni per i dati si calcolano di conseguenza applicando la media condizionata alla equazione di misura (13.14):
Xt(R) == Hat+£lt == HT£-lat+llt V ar{ x, (R)} == H Pt+£ltH' £-1
== HT£-l Pt+l1t(T')£-1 H'
+L
HTj RETJR'(T')j H'.
(13.20)
j=O
In conclusione con un modello nello spazio degIi stati la previsione puo avvenire ricorsivamente, con aggiornamento ogni volta che si viene a conoscere un nuovo dato: sono pero necessari valori iniziali alia e PliO, oppure quelli non condizionati a(O) e P(O), rna se il processo e stazionario la loro influenza diminuisce progressivamente allo scorrere del tempo. Passiamo ora a discutere il problema di come utilizzare la impostazione nello spazio degli stati per costruire Ie previsioni relative ai modelli che abbiamo introdotto, si tratta cioe di esprimerli nello spazio degli statio Per i modelli strutturali questa operazione non presenta in genere grandi difficolta, dato che la loro forma e gia di tipo markoviano. In particolare, il modello a livello locale:
J-Lt == J-Lt -1
- .
rJt
e gia direttamente nella forma richiesta identifica__ido 10 stato ponendo T == 1, R == 1 e H == 1. II modello con trend lineare locale:
X t == J-Lt
+ Et
;
J-Lt == J-Lt -1
+ Ct + rJt
;
Ct
e caratterizzato
==
Ct-1
at
con J-Lt e
+ (t
a ogni istante, oItre che daI Iivello medio J.Lt, anche dalla pendenza, percio il suo stato li comprende entrambi: at == (J-Lt, Ct)'. Inoltre il vettore dei disturbi dello stato dovra contenere sia gli rJt sia gli (t: rJt == (rJt, (t)'. Percio l' equazione di transizione si puo scrivere:
[1 1] [J-Lt - 1] + [rJt](t
== [ J-Lt] Ct 01
Ct-l
280
13 Previsioni per processi stazionari
mentre l'equazione di misura risulta:
Percio i parametri risultano: H==[10]
[~n
R=I=
.
Infine, il modello strutturale di base (BSM) contiene le stagionalita, quindi 10 stato deve comprendere, oltre a !-Lt e a Ct, anche il coefficiente stagionale St. Ma questo dipende dai coefficienti precedenti, poiche, sempre considerando rilevazioni mensili, si assume che
+ St-I + St-2 + ... + St-II == Vt
St
.
Dunque s, dipende dagli undici coefficienti precedenti St-I, ... ,St-II, non solo dall'immediato precedente come avviene per !-Lt e per Ct. Ne deduciamo che 10 stato deve comprendere (almeno) undici coefficienti stagionali consecutivi. Se poniamo possiamo scrivere le equazioni strutturali nel modo seguente: 1 1 0 0 0 ... 0 1 0 0 0 ... 0 0 -1-1-1 ... 0 0 1 0 0 0 0 0 1 0 ...
!-Lt
Ct St St-I
000
St-IO
0
0
1
0 0 -1 0 0
!-Lt-I
(t
St-I
Vt
+
St-2
0
r]t
Ct-I
St-II
che rappresenta l'equazione di transizione ponendo
Inoltre, poiche X t ==
!-Lt
+ St + ct,
l'equazione di misura risulta: !-Lt
Ct St
X, == [1 0 1 0
0]
St-I
St-IO
Pertanto i parametri sono R == I e
+ ct
.
0
o
13.5 Spazio degli stati e filtro di Kalman
H==[1010
0];T==
11000 01000 o 0 -1 -1 -1 00100 0 0 0 1 0 ... 000
0
0
1
281
0 0 -1 0 0 0
Pili complicato e meno intuitivo e porre un modello ARIMA nella forma dello spazio degli stati: si possono proporre svariati metodi di procedere, che portano a rappresentazioni diverse. Per un modello puramente autoregressivo AR(p) e abbastanza naturale pensare che 10 stato comprenda p osservazioni consecutive: at ==
(Xt,Xt-l, ... ,Xt-p+l)'
e tenendo conto che X, == cPIXt-l + cP2Xt-2 + ... + cPpXt- p + ct si puo scrivere
cPl cP2 ...... cPP 1 0 0 0 0 1 0 ... 0
Xt X t- 1 X t- 2 X t- p+ 1
0 0 0
e l'equazione di misura
X t- 1 X t- 2 X t- 3
x.;
1 0
+
ct 0 0 0
e senza errore:
x,
Xt X t- 1 ==
[1 0 0 ... 0]
Xt-
2
Ma per i modelli misti 0 a somma mobile la costruzione non e cosl semplice, e si pone il problema, tra le molte possibilita, di scegliere la pili conveniente, che e ritenuta quella che ha 10 stato di dimensione minima. La questione e piuttosto complessa e legata alla estensione della "memoria" del processo. Un risultato importante (dovuto ad Akaike, 1974) che descriveremo pili in dettaglio e il seguente: un processo ARMA(p, q) puo essere rappresentato nello spazio degli stati con uno stato di dimensione max(p, q + 1) le cui componenti sono l' osservazione e i previsori a orizzonte crescente. In sostanza significa che i previsori di orizzonte da uno fino a max(p, q + 1)-1, insieme col dato corrente, racchiudono in se l'intero insieme di informazioni del passato che concorre a determinare le caratteristiche del processo a un certo istante. Supponiamo per semplicita che sia p 2: q + 1, in caso contrario ampliamo l'ordine autoregressivo aggiungendo parametri cPj uguali a zero, fino ad avere p == q + 1, e consideriamo il processo depurato dalla media Zt == X, - f-L e la sua rappresentazione di Wold:
282
13 Previsioni per processi stazionari 00
z, ==
L hkct-k k=O
II previsore a orizzonte f si puo scrivere come nella (13.1): Zt(f) == E {Zt+RIZ
t}
00
== L hR+uct-u u=O
Inoltre abbiamo gia visto la relazione tra i previsori dello stesso dato basati su origini successive:
Zt+l (f - 1) == E {Zt+RIZ
t+1}
00
00
== L hR+u- 1ct+l-u == hR-1ct+l + L hR+kct-k u=O
dove si
k=O
e cambiato l'indice di sommatoria ponendo k == u -
1. Ne segue (13.21 )
formula valida per ogni f > 1, e anche per f == 1 se poniamo Zt+ 1 (0) == Zt+ 1. Questa relazione puo essere utilizzata per la transizione da uno stato al successivo, rna ogni previsore e espresso in funzione di quello precedente con orizzonte superiore; per il previsore del pili grande orizzonte considerato e invece necessaria una formula che 10 esprima in funzione degli orizzonti inferiori. A questo fine viene in aiuto l'ipotesi che sia P > q, e quindi il previsore a orizzonte P segue, come sappiamo dalla (13.9), 10 schema autoregressivo: p
Zt(p) == LcPjZt(p-j). j=1 Sostituendo nella (13.21) scritta per f == p si ottiene: p
Zt+l(P - 1) == Zt(p)
+ hp- 1ct+l == L
j=1
cPjZt(p - j)+hp- 1ct+l .
In conclusione possiamo considerare 10 stato
e scrivere l'equazione di transizione:
Zt+l Zt+l (1) Zt+l (2) Zt+l(P - 2) Zt+l(P - 1)
0 0 0
1
0
0 0
1
0 0
0
1
0 0 0
0 0 0 o ... 1 cPP cPp-l cPp-2 ...... cPl
x
13.5 Spazio degli stati e filtro di Kalman
x
1
Zt Zt(l) Zt(2)
hI h2
+
Zt(p - 2) Zt(p - 1) Ovviamente l'equazione di misura
283
Et+l .
hp - 2 hp - l
e immediata, e senza errore:
Zt == (1,0,0, ... ,O)at . Pertanto i parametri di questa rappresentazione risultano: H == [1 0 . . . 0] R == [ 1 hI h2
T==
o o o
0 0
o
0
1
o
0
1
0
o 0
cPP cPp-l cPp-2
1
0
. . .
hp -
l ]'
o o o 1
cPl
e l'errore della stato e 'T/t = Et di dimensione uno. Abbiamo accennato come il filtro di Kalman possa essere di aiuto anche nella stima dei parametri: esso in particolare permette di calcolare, sotto l'ipotesi di normalita, la verosimiglianza dei dati, e quindi di applicare algoritmi di ottimizzazione per massimizzarla rispetto ai parametri. Se indichiamo genericamente con () l'insieme dei parametri, la verosimiglianza degli N dati (Xl, X2, ... , XN) si pUO scrivere:
L(Xl, X2,···, xNI()) == L(Xll())L(X21(), xl)L(X31(), Xl, X2) ... x x L(Xt+ll(), xt) ... L(XN I(), x N-1) dove come sempre x' == (Xl,X2, ... ,Xt). Ora, sotto l'ipotesi di norrnalita, L(xt+ll(), xt) e la densita di una gaussiana con media E(Xt+lIX t) == H at+llt e varianza St+l == H Pt+l1tH' + a 2 e quindi e uguale a:
Ne segue che la log-verosimiglianza dei dati si puo scrivere:
I parametri () sono naturalmente contenuti nelle quantita et e St, che possono essere calcolate rapidamente in modo ricorsivo con il filtro di Kalman; gli stimatori che si ottengono rendendo massima (con metodi numerici) la logverosimiglianza rispetto a () godono delle proprieta degli stimatori di massima
284
13 Previsioni per processi stazionari
verosimiglianza, inoltre questa impostazione si rivela particolarmente utile nell' ottica bayesiana. La logica del filtro di Kalman permette di calcolare abbastanza facilmente la distribuzione dello stato at condizionata non solo alle informazioni fino al tempo t - 1 oppure t, rna anche all'intero insieme di informazioni x N . Questa procedura (chiamata smoothing) puo essere utilizzata per ricostruire dati mancanti, 0 anche nella identificazione di dati anomali. In conclusione, possiamo dire che la rappresentazione nella spazio degli stati e l'utilizzo del filtro di Kalman costituiscono una impostazione alternativa alla modellistica tradizionale che trae la ragion d'essere dall'esigenza di previsioni "on line" 0 "in tempo reale" , rna puo fornire vantaggi anche in termini di stima 0 di ricostruzione di dati mancanti, a prezzo di una maggiore complicazione computazionale e a volte di una minore immediatezza interpretativa; i pregi di questa impostazione si apprezzano soprattutto quando si affronta 10 studio di processi multivariati.
13.6 La combinazione delle previsioni Abbiamo visto come sia possibile seguire diverse strade per costruire le previsioni, adattando modelli diversi. Tutti i metodi che abbiamo preso in considerazione assicurano la non distorsione delle previsioni, nel senso che sotto le adeguate ipotesi la media dell'errore di previsione e nulla. Per misurarne le prestazioni, e anche come criterio guida nella costruzione stessa dei previsori, abbiamo adottato l'errore quadratico medio che e largamente accettato come il criterio pili adeguato (anche se in alcuni casi, sempre pili rari, si fa ricorso all'errore medio assoluto). Pertanto i vari metodi di previsione possono essere confrontati in base al lora errore quadratico medio, e sembrerebbe naturale scegliere il metoda di previsione che assicura l'errore quadratico medio pili piccolo. A questo proposito sono pero rilevanti due osservazioni: prima di tutto, l'errore quadratico medio di un metodo non puo che venire stimato, e in genere questa stima e proprio un risultato del metoda stesso, percio la sua affidabilita (e quindi la distorsione, che potrebbe anche risultare verso il basso invece che verso l'alto) e legata alla bonta del metodo, che e proprio cia che si vuole misurare. Inoltre l'errore quadratico medio e una misura globale di efficacia del metodo, rna non edetto che nella concreta applicazione per costruire lc previsioni a un'origine fissata t, un metoda anche non ottimale non possa fornire una prestazione migliore di un altro che in teoria e migliore. Va segnalato infine che la nostra valutazione e affidata solo all'errore di previsione a orizzonte uno (previsione del dato immediatamente successivo all' origine della previsione), e l' ordinamento che essa induce sui metodi di previsione non e detto si mantenga uguale se dovessimo andare a considerare le previsioni a orizzonti pili am pi.
13.6 La combinazione delle previsioni
285
Per tutti questi motivi, molti autori (si veda ad esempio Granger, 1980) prendono in considerazione la possibilita di eseguire previsioni combinate, utilizzando pili metodi simultaneamente. Questa idea puo essere sviluppata in modo semplice, considerando la combinazione lineare dei previsori. Supponiamo di porci all'origine t e di dover prevedere il dato successivo X t + 1 , e di disporre di due previsori diversi, costruiti secondo metodi differenti, che indicheremo con F; e G t , non distorti. Se poniamo ep(t) == X t + 1 - Fi ed ec(t) == X t + 1 - G t , si ha E{ep(t)} == E{ec(t)} == O. Indichiamo con (J} == E{ ep(t)2} e (J~ == E{ ec(t)2} gli errori quadratici medi di previsione. Consideriamo la combinazione lineare convessa di F; e C, con coefficiente p: Ct == pFt + (1 - p)G t . Ovviamente C, e un previsore non distorto poiche E {ec (t)} == E {pep(t) (1 - p)ec (t)} == 0 e il suo errore quadratico medio di previsione e: (J~ ==
E{ec(t)2}
==
+
p2(J} + (1- p)2(J~ + 2p(1- p)E{ep(t)ec(t)} .
II valore ottimale di p e quello che rende minima questa quantita, e si ottiene facilmente derivando rispetto aped eguagliando a zero:
p*
== {(J~
- ,}/{(J} + (J~ - 2,}
dove si e indicata la covarianza con, == E{ ep(t)ec(t)}. Si noti che se la covarianza tra F; e G, e positiva, il valore ottimo p* puo risultare minore di zero, poiche puo accadere che E{ep(t)ec(t)} > (J~, mentre il denominatore di p* e sempre positivo essendo pari alla varianza di (Ft - G t ) . Analogamente, p* puo essere maggiore di uno. Sostituendo il valore ottimo di p* nel previsore combinato si ottiene la combinazione ottimale C;: il suo errore quadratico medio e:
E { ec* (t )
2} _ a}(ab - ,)2 -
,2
+ ab(a} - ,)2 + 2,(a} ((J~ + (Jb - 2,)2
,)(ab - r) _ -
(J~(Jb (J} + (J~ - 2, .
Si puo dimostrare che pertanto la varianza dell'errore del previsore combinato non e superiore alla pili piccola delle varianze dei previsori di partenza (3), quindi l'operazione di combinazione sarebbe sempre conveniente. Tuttavia va osservato che il coefficiente p* non puo essere determinato con precisione, poiche dipende dagli 3
Infatti ad esempio
E{eF(t)2} - E{ec* (t)2} == a} - (a}a~ - ,2)j(a} + a~ - 2,)
== (a} - ,)2 j(a} + a~ - 2,) ~ 0 e analogamente E{ ec(t)2} ~ E{ e~* (t)}.
286
13 Previsioni per processi stazionari
,
'I
,
,1
1
..', 'I
............ ............
;1
.:,
.'
; .'
.'
-,
,,
I
I
I ,,
I
I
.;
,I
,I
..."
'/,
"
,,'
'I
I--dati ----- previs. Arima ...._... previs. Holt-Winters - - previs. combinato I
Fig. 13.7. Combinazione delle previsioni ottenute con un modello ARMA e con il metodo di Holt-Winters
errori quadratici medi di previsione che sono incogniti, percio possiamo solo stimare il valore di p*, e non e assicurato, ne si puo affermare sulla base dei soli dati, che il risultante previsore combinato sia effettivamente migliore. Pertanto l'uso dei previsori combinati deve essere valutato in dipendenza della qualita delle stime degli errori quadratici medi.
Esempio 13.3. Abbiamo simulato una serie generata dal modena
(1 - 0.6B)(1 - B)Xt ==
Et .
Abbiamo calcolato previsioni a orizzonte uno e per origme crescente sia con il previsore ARIMA correttamente identificato e stimato sia col metodo Holt-Winters. La Fig. 13.7 riporta i risultati: la serie, Ie previsioni ARIMA e quelle del livellamento esponenziale di Holt-Winters. L'errore quadratico medio stimato su 20 previsioni e a} == 0.94 per l'ARIMA, ab == 1.20 per 10 Holt-Winters, mentre la covarianza osservata tra i previsori e 0.437. Pertanto possiamo stimare il coefficiente della combinazione p* == 0.603 e costruire il previsore combinato, ottenuto sommando a 0.603 volte il previsore ARIMA 0.397 volte il previsore Holt-Winters. Anche i risultati di questo previsore sono riportati nella Fig. 13.7, e si vede che presentano una prestazione leggermente migliore delle componenti, confermata anche dall'errore quadratico medio osservato che e 0.74.
14 Previsioni per catene di Markov e processi di punti
Si prende in considerazione la problematica della previsione puntuale per le catene di Markov, basata sulle distribuzioni di probabilita degli stati futuri, e poi il caso dei processi di punti, per i quali il problema previsivo si presenta con caratteristiche peculiari.
14.1 Previsioni nelle catene di Markov La particolare struttura delle catene di Markov, dovuta alla proprieta markoviana e allo spazio degli stati discreto, rende particolarmente agevole il compito della previsione, permettendo di valutare la distribuzione di probabilita delle variabili che generano i valori futuri della catena. Consideriamo una catena finita con m stati numerati da 1 a m, e supponiamo come sempre di aver osservato il processo negli istanti da t ~ 1 a t ~ N, e siano (Xl, X2, ... , X N) i valori rilevati: inoltre indichiamo per brevita con XN ~ k 10 stato in cui la catena si trova all'ultimo istante nota N. II valore che il processo assumera nell'istante immediatamente successivo, X N + I , ha una distribuzione di probabilita che dipende solo dal valore assunto per t ~ N, cioe XN ~ k, e si scrive
La distribuzione di probabilita (Plk' P2k, ... ,Pmk) (detta distribuzione predittiva) determina percio completamente le proprieta del valore futuro X N + I ed essa puo essere sintetizzata dagli usuali indici statistici (ad esempio la moda, oppure si puo calcolare 10 stato "medio" se la numerazione data agli stati e significativa; se ne possono calcolare anche misure di variabilita 0 mutabilita). E facile anche calcolare la distribuzione di probabilita dei valori successivi, usando le equazioni di Chapman e Kolmogorov:
288
14 Previsioni per catene di Markov e processi di punti
m
m
== L Pr {X N +2 == i IXN + 1 == j} Pr {X N + 1 == j IXN == k} == LPijPjk j=1
j=1
che sono gli elementi della matrice t». Analogamente, la distribuzione di probabilita del processo dopo s istanti dall'ultimo noto e data dalla colonna relativa allo stato k della matrice P", Al crescere dell'orizzonte s, come sappiamo, le colonne di P" convergono al vettore delle probabilita di equilibrio 1r e quindi la distribuzione predittiva converge alla distribuzione ergodica: lim Pr{XN +s == i
s---+oo
IXN == k} == Pr{X == i} == 1ri
.
Dal punto di vista della applicazione pratica, le quantita Pij e 1ri devono essere stimate usando i risultati del paragrafo 12.1 e quindi basandosi sulle stime
== nij/nj,
Pij
irj == nj/N
dove nij e il numero delle volte che si osserva un passaggio dallo stato j allo stato i nella serie osservata. Nel valutare i risultati si terra conto della variabilita di questi stimatori, la cui varianza e covarianza possono essere stimate come segue:
Una misura sintetica dell'errore di previsione puo essere calcolata usando un indice di dissomiglianza tra la distribuzione prevista e quella effettiva:
o,
== L. E (Pik - Pik)2 == L. Var (Pik) 1,
=
1,
L i Pik(l - Pik)/( N 1fk) = = N~k (1- L i P7k) .
Questa misura dipende dallo stato di origine k, un indice complessivo si ottiene se ne prendiamo la media con lc probabilita di equilibrio 1rk:
Naturalmente anche questa misura dipende dalle probabilita vere, e puo essere stimata usando Ie probabilita stimate
pOij.
Come si vede, queste mi-
sure coincidono con gli indici di eterogeneita delle distribuzioni condizionate Pr(X N + 1/XN ) . Percio maggiore e la incertezza nella transizione della catena, minore anche la precisione delle stime e la qualita complessiva della previsione.
e
14.2 Previsione per processi di punti
289
Esempio 14.1. Ritorniamo allo studio della piovosita a Tel Aviv, per il quale abbiamo gia stimato la matrice di transizione:
p
== [0.75 0.338] 0.25 0.662
dove il primo stato si riferisce al tempo asciutto, e il secondo alla pioggia. La stima delle probabilita di equilibrio e data dall'autovettore di P associato alla radice caratteristica 1, cioe, come abbiamo gia visto, (0.575,0.425). Se conosciamo il tempo fino a oggi, e oggi e asciutto, la distribuzione del tempo per domani si stima con Pr(asciutto)== 0.75, Pr(pioggia)== 0.25. Se invece oggi piove, la previsione per domani sara Pr(asciutto)== 0.338, Pr(pioggia)== 0.662. L'entropia relativa delle due distribuzioni ( - EPi log Pi diviso il suo massimo, quindi -(P1logPl + P210gp2)/ log 2) e circa 0.81 per la prima e 0.92 per la seconda. Se consideriamo l'orizzonte due (cioe il tempo di dopodomani) Ie distribuzioni di probabilita (colonne di p 2) diventano (0.647,0.353) in caso di oggi asciutto, e (0.478,0.522) in caso di oggi pioggia. L'entropia aumenta rispettivamente a 0.90 e 0.96. Per le previsioni del terzo giorno successivo (colonne di p 3 ) le distribuzioni diventano rispettivamente (0.605,0.395) e (0.535,0.465). Come sappiamo queste distribuzioni tendono a divenire somiglianti e uguali a quella di equilibrio, e gia a orizzonte 6 la differenza si avverte solo alla terza cifra decimale: cia significa che la conoscenza del tempo fino a 506 giorni prima non ha praticamente influenza (secondo il nostro modello) nel determinare la tendenza alla pioggia. Naturalmente in modo analogo e con ovvie modificazioni si possono calcolare le probabilita che si verifichino specifici eventi di interesse, come la probabilita che non piova per k giorni, 0 l'attesa media per un giorno di pioggia. Eventi di questo tipo hanno speciale interesse quando tra gli stati ve ne sono di riflettenti (0 assorbenti) che rivestono un particolare significato, come nel caso delle dighe.
14.2 Previsione per processi di punti II tema della previsione per i processi di punti presenta aspetti pili delicati e problematici rispetto alle serie temporali, determinati essenzialmente dalla diversa risposta che in questo campo si richiede a una previsione: non solo e non tanto infer ire I'intensita con cui un fenomeno si manifestcra, rna anche fare affermazioni sul se e quando quel fenomeno si vcrifichera, Con questa premessa, osserviamo che l'oggetto della previsione da un lato puo riferirsi al numero di eventi, e dall'altro riguardare i tempi di attesa tra un evento e il successivo. La scelta tra questi due sviluppi viene fatta generalmente dipendere dalla frequenza media degli eventi in rapporto alla scala temporale sulla quale avviene la previsione. Se l'orizzonte di previsione e grande rispetto alla intensit.a, di modo che il numero atteso di eventi neH'orizzonte
290
14 Previsioni per catene di Markov e processi di punti
e elevato, si preferisce spesso considerare come grandezza da prevedere il numero di eventi. Se invece il rapporto e opposto, di modo che per intervalli di lunghezza commensurabile con l'orizzonte ci si puo attendere che non si realizzino eventi, 0 al pili sono uno 0 due, allora e pili opportuno prendere in considerazione le previsioni relative alIa variabile "tempo fino al prossimo evento". Per chiarire con un esempio, se si parla di incidenti automobilistici in una determinata zona 0 arteria, e vogliamo costruire previsioni pluriennali, si considerera il numero annuale di incidenti. Se il nostro orizzonte e invece pili ravvicinato, dell'ordine ad esempio di giorni, si preferira impostare il problema con riferimento alIa domanda "quando avverra il prossimo incidente?" . Le due impostazioni portano a percorsi metodologici completamente diversi. Infatti nel primo caso, se seguiamo il numero di eventi su un intervallo di tempo sufficientemente ampio, si viene a determinare una successione di variabili che puo essere assimilata a un processo a parametro discreto, al quaIe si puo applicare, con Ie dovute cautele, la teoria della previsione lineare. Pili precisamente, consideriamo il numero di eventi che si verificano in intervalli di tempo di lunghezza m, indicando come prima con N(s, t) il numero di eventi occorsi tra set, e partendo dal tempo zero poniamo Zl == N(O, m), Z2 == N(m, 2m), Z3 == N(2m, 3m) e cost via. Ad esempio nel caso di un processo di Poisson omogeneo Ie Zj hanno una distribuzione di Poisson di parametro Am, e sono indipendenti, in situazioni pili articolate invece potranno essere autocorrelate; inoltre se Am non e troppo piccolo, si puo assumere che abbiano una distribuzione non troppo dissimile dalla gaussiana, e possiamo allora applicare la teoria della previsione lineare direttamente al processo {Zt, t == 0,1, ...}, sviluppando modelli del tipo di quelli esposti nel capitolo precedente. Tuttavia questa impostazione fornisce risposta solo a una parte delle esigenze previsive che possono sorgere di fronte a un processo di punti, soprattutto a que llc relative alIa conoscenza di tipo strutturale, alle tendenze di lungo periodo. E spesso necessario, in aggiunta, esaminare andamenti di pili breve periodo, e, ponendosi su un orizzonte rispetto al Quale gli eventi sono rari, esercitare una attivita di natura previsiva anche sulla localizzazione nel futuro dell'istante a cui si verifichera il prossimo evento. E generalmente questa l'ottica pili rilevante quando i processi di punti vengono adoperati per schematizzare situazioni eccezionali, come piene, uragani, e terremoti. Quest'ultimo argomento, la previsione dei terremoti, costituisce un tema molto importante e trattato approfonditamente nella letteratura probabilistica e statistica, una interessante e autorevole introduzione si trova in VereJones (1995). In tutti questi casi, per motivi comprensibili, I'intensita viene anche chiamata rischio. II problema pili ovvio e naturale in quest'ottica si puo schematizzare come segue: fissato un istante t come origine della previsione, e supposto di conoscere tutti gli istanti ai quali si sono verificati eventi prima di t, vogliamo fare affermazioni sul prossimo evento. E abbastanza evidente che dovremo abbandonare il quadro di riferimento della stima puntuale, poiche qualunque
14.2 Previsione per processi di punti
291
inferenza del tipo "il prossimo evento si verifica all'istante s" ha generalmente probabilita nulla. II problema viene a volte affrontato ricorrendo alla ricerca di indicatori anticipatori (leading indicators), cioe fenomeni diversi che hanno la caratteristica di verificarsi in anticipo rispetto a quello studiato. Questa tecnica ha trovato un largo impiego in economia (per maggiori informazioni, si veda ad esempio Granger, 1980) per prevedere le crisi congiunturali, rna in molti campi indicatori anticipatori non esistono 0 sono poco affidabili (per esempio nel caso dei terremoti). Quello che si puo tentare e invece una valutazione della distribuzione di probabilita della variabile aleatoria "tempo di attesa tra t e il prossimo evento", basata sull'insieme delle conoscenze disponibili fino al tempo t. A questo fine ci basiamo sul concetto di iniensiti: condizionata 0 rischio condizionato r(t) definito da: r(t)dt == Pr{Evento in(t, t + dt)IIt } dove, come sempre, It
e l'insieme delle informazioni disponibili fino al tempo
t. Se indichiamo con T* la variabile "tempo di attesa tra t e il primo evento dopo t" , la sua distribuzione condizionata si ottiene facilmente: Pr {T*
> ulld = Pr {N(t, t + u) = OIId = exp {
-l
u
r;(x)dx }
dove r;(x)dx == Pr{Evento in (t + x, t + x + dx)IIt , N(t, t + x) == O} e la valutazione di r; (x) puo porre qualche difficolta, tuttavia nel caso in cui sia stata assunta una forma analitica per il rischio condizionato, essa puo essere usata anche per approssimare r;(x) ponendo r;(x) ~ r(t + x). Nel caso del processo di Poisson omogeneo evidentemente il rischio e costante ed uguale a A, percio la variabile T* ha distribuzione esponenziale di parametro A qualunque sia l'origine: l'equivalenza tra il processo di Poisson e il rumore bianco si conferma anche in questo caso, portando a previsioni condizionate uguali a que llc incondizionate. Nei casi di maggior interesse applicativo si cerca invece di stimare il rischio in funzione del tempo e condizionatamente alla storia passata del processo. Un modo di procedere semplificato e quello di supporre che l'intensita sia variabile lentamente nel tempo, e quindi r(t) viene stimato con l'intensita media relativa al passato pili recente, del tipo
f(t) == N(t - s, t)j s scegliendo s sufficientemente grande in funzione della stabilita della stima. Se si dispone di rilevazioni contemporanee di pili fenomeni connessi, il rischio puo essere anche stimato in funzione di questi attraverso un modello di regressione (eventualmente generalizzato). C'e poi da considerare l'aspetto del condizionamento, cioe l'effetto della storia passata sulla intensita, Da questo punto di vista sono stati proposti
292
14 Previsioni per catene di Markov e processi di punti
Fig. 14.1. Numero annuale di terremoti di magnitudo superiore a 7, dal 1900 al 1998
diversi andamenti teorici che in genere vengono motivati dalla natura del fenomeno considerato. Ad esempio, a volte e adeguato ipotizzare che l'intcnsita cresca al crescere del tempo trascorso dall'ultimo evento. In alternativa, nella studio dei terremoti e usato il modello di Hawkes in cui si suppone invece che ogni evento produca un effetto di incremento dell'intensita media nel periodo successivo. Questo sembrerebbe in contraddizione con l'ipotesi precedente, rna non 10 perche bisogna considerare che spes so una scossa principa1e seguita da un certo numero di scosse secondarie. Be indichiamo con tl, t2, ... , t-. gli eventi verificatisi tra 0 e t, i due schemi portano alla seguente forma per i rischi:
e
e
r(t) r(t)
==
a + u} == exp{ -au - bu2/2} .
14.2 Previsione per processi di punti
295
Supponiamo che b sia stimato in modo che ogni giorno che passa senza eventi accresce I'intensita media di un incremento pari a 0.00027 (che corrisponde a un aumento del ritmo di circa un evento ogni dieci anni). Per mantenere la media approssimativamente uguale a quella osservata nel 1999 (un evento ogni 61 giorni) si stima a == 0.005. Di conseguenza la distribuzione stimata per l'attesa fino al prossimo evento e data da:
Pr{T*
> u} == exp{ -0.005u - 0.00027u 2/2} .
Di questa distribuzione il quantile al Iivello 95 per cento e circa 131 giorni, quello al livello 99 per cento e pari a 167, assai inferiori a quelli relativi al processo di Poisson, che spesso corrisponde a una valutazione minima del rischio. Per concludere, dobbiamo infine ricordare che naturalmente ogni possibile modello deve essere attentamente valutato non solo alla luce delle ragioni teoriche che giustificano l'andarnento del rischio, rna anche in base all'adattarnento effettivo ai dati reali, procedimento che puo comportare diverse difficolta,
Parte V
Appendici
A Fondarnenti di Analisi di Fourier
A.I Richiami di trigonometria e analisi complessa L' analisi di Fourier si basa sulle funzioni trigonometriche sin (x) e cos(x), usando preferenzialmente una forma generalizzata del tipo
j (x; a, A, 0) == a cos( Ax + 0) chiamata sinusoide, che descrive una funzione ad andamento sinusoidale, con valori oscillanti tra -a ed a, periodo 21T/ A e con massimo corrispondente all'ascissa -O/A. L'andamento del sinusoide e esemplificato nella Fig. A.1. II valore a viene detto ampiezza, il valore A jrequenza, e 0 viene detta fase. Per a == 1, A == 1,0 == 0 si ottiene cos x, per a == 1, A == 1,0 == -1T /2 si ha sin x. Scegliendo opportunamente il valore della frequenza A si puo decidere la periodicita, poiche il periodo e pari a 21T/ A; scegliendo il valore di () si trasla la funzione sull'asse delle ascisse, e il suo massimo coincide con il punto di ascissa - ()/ A. Infine ovviamente modificando a > 0 si controlla l' oscillazione dei valori della funzione, il massimo e pari ad a e il minimo e -a. Operando con le funzioni trigonometriche useremo spesso alcune lora proprieta, tra le quali ricordiamo Ie seguenti: sin( a ± (3) == sin a cos (3 ± cos a sin (3 cos( a ± (3) == cos a cos (3 =f sin a sin (3 dalle quali si ottiene anche sin 2a == 2 sin a cos a; cos 2a == 2 cos 2 a-I == 1 - 2 sin 2 a . Nell'analisi di Fourier, inoltre, si ricorre spesso a sviluppi nel campo dei numeri complessi, anche se il risultato e reale: cio porta notevoli vantaggi nei calcoli, come apparira evidente nel seguito. Ricordiamo che un numero complesso e rappresentabile come un punto nel piano complesso, in cui l'ascissa e il luogo dei numeri reali, l'ordinata illuogo dei numeri puramente immaginari,
300
A Fondamenti di Analisi di Fourier
1'-
2Jt/A
Fig. A.I. Sinusoide f(x; a, A,B) == a COS(AX + B)
multipli dell'unita immaginaria denotata dal simbolo i (radice quadrata di -1). Ogni numero complesso z puo essere denotato in forma algebrica z == a + ib attraverso le sue coordinate (a, b), oppure utilizzando le coordinate polari modulo p == Izl(2:: 0) e argomento () == arg(z), legate alle altre dalle relazioni: p == Va 2 + b2 a == p cos () () == arctan(b/ a) {:} b == p sin () . Sostituendo l'espressione in coordinate polari nella forma algebrica si ottiene:
a + ib == p cos ()
+ ip sin () == p(cos () + i sin ())
== pei8
.
Questa ultima notazione e quella che useremo pili spesso perche unisce al vantaggio di poterla manipolare algebricamente, l'espressione esplicita del modulo e dell'argomento. Essa si basa sulla definizione della esponenziale complessa e sulle formule di Eulero, che utilizzeremo frequentemente: e e-
== cosy + i siny iy == cos Y - i sin y
iy
cos a == - - - -
2
ei a
_
e- i a
sina== - - - 2i
Esse sono la chiave per ridurre calcoli tra funzioni trigonometriche a calcoli tra potenze, in quanto per le esponenziali complesse valgono lc regole algebriche usuali di calcolo tra potenze, se si tratta (e i ) come la base. Infatti dalla definizione e dalle proprieta delle funzioni trigonometriche si ottiene subito che e i 8 #- 0 per ogni (), che e i 8 == 1 se e solo se () e zero oppure multiplo di 21r, e inoltre eixe i y == ei(x+y) qualunque sia x e y, poiche
A.l Richiami di trigonometria e analisi complessa
301
== (cos x + i sin x )(cos y + i sin y) == cos x cos y - sin x sin y + i (sin x cos y + cos x sin y ) == cos(x + y) + i sin(x + y) == ei(x+y) . Notiamo in particolare che e- i B == 1/ ei B, infatti: 1 cos () - i sin () cos () + i sin () cos () - i sin ()
1
cos () - i sin () cos? () + sin ()
(). . ()
- - - - 2- == cos - Z SIn .
Un esempio della potenzialita di questo modo di procedere edato dalle formule di ortogonalita tra seni e coseni. Conosciamo gia dalla teoria dell'integrazione alcune espressioni di ortogonalita tra seni e coseni integrati sull'intervallo (-7r,7r):
I:
I
1r 1r
I:
sin(ax) cos(bx)dx = 0, 'Va, b
cos (ax) cos(bx)dx
=
sin(ax) sin(bx)dx
= 0,
a -=I- b .
Formule analoghe valgono se si somma su punti equidistanziati, invece di integrare su intervalli, e sono quelle che pili ci saranno utili quando ci riferiamo a processi a parametro discreto. Pili precisamente considereremo N punti equidistanziati tra 0 e 27r, la cui ascissa e del tipo 27rj/ N, j == 1, ... , N. I risultati per i seni e i coseni si ricavano direttamente da una formula analoga relativa alle esponenziali complesse:
Teorema A.I. Sia N un intero maggiore di 1, e posto A == 27r/ N, e k un intero can Ik I < N, allora risulta: N
"" {" 'k} = {N, 0 ~ exp z/\] 0, kk == -=I- 0 .
(A.l)
Dimostrazione. La formula e ovvia per k == 0 poiche eO == 1. Per k =I 0, ricordando che la somma di una progressione geometrica di N termini con primo termine a I e ragione q e data da a1 (1 - qN) / (1 - q) e tenendo presente che la (A.l) e proprio una progressione geometrica formata da N termini con primo elemento e ragione pari a exp( iAk) si ha: N
L exp {iAjk} ==
e
i Ak
(1 -
e
i AN k
)/
(1 -
e
i Ak
)
== 0
j=1
perche exp( iANk) == exp( i27rk) == 1 in quanto exp( i27r) == cos(27r)+ i sin(27r)
==
1.
0
302
A Fondamenti di Analisi di Fourier
Teorema A.2. Sia N intero maggiore di 1, e posta A == 21r/ N, per ogni coppia di interi non negativi a e b minori di N si ha:
L cos('\ja) cos('\jb) {O' N/2, N
=
N,
J=l
°.
a#b a:. b:' a - b- 0
(A.2)
Dimostrazione. La formula e ovvia per a == b == 0 poiche cos(O) == 1. Negli altri casi possiamo ricorrere alle formule di Eulero: cos(a) == (e i a + e- i a)/2 e scrivere: N
N
L cos('\ja) cos(,\jb) = ~ L j=l
(e
i Aj a
+ e- i Aj a) (e i Aj b + e- i Aj b)
=
j=l
=~
L{ N
eiAj(a+b)
+ eiAj(a-b) + e-iAj(a-b) + e-iAj(a+b)}
.
j=l
In base al teorema AI, la prima e la quarta progressione sono sempre nulle perche a + b > o. Be a # b sono nulle anche la seconda e la terza progressione, e quindi l'intera espressione si annulla. Be invece a == b, la seconda e la terza progressione valgono N e quindi il secondo membro vale (1/4)(N +N) == N/2. D
Teorema A.3. Sia N intero maggiore di 1, e posto A == 21r/ N, per ogni coppia di interi non negativi a e b minori di N si ha: N
?=sin(,\ja)sin(,\jb)=
{O' ai=b N/2,a:.b:'O. 0,
J=l
a - b- 0
Dimostrazione. II caso a == b == 0 e ovvio poiche sin(O) == o. Per gli altri la dimostrazione e analoga al teorema A2 usando la formula sino == (ei a e- i a ) / (2i). D
Teorema A.4. Sia N intero maggiore di 1, e a, b interi non negativi minori di N. Posto A == 21r/N si ha: N
Lsin(Aja)cos(Ajb) ==
o.
j=l
Dimostrazione. Be a == 0 il teorema formule di Eulero si ha: N
:i
e ovvio. Per a diverso da
N
L sin('\ja) cos('\jb) = L j=l
=
:i L { N
eiAj(a+b)
j=l
(e
i Aj a
- e-iAja)(eiAjb
zero, usando le
+ e- i Aj b ) =
j=l
+ eiAj(a-b)
- e-iAj(a-b) - e-iAj(a+b)} .
A.I Richiami di trigonometria e analisi complessa
303
La prima e la quarta progressione sono nulle per il teorema AI, e cosi pure la seconda e la terza se a =I b; viceversa se a == b il secondo e il terzo termine sono uguali e avendo segno opposto si elidono. 0 Corollario A.5. Nelle stesse ipotesi precedenti si ha: N
N
L sin(Aja) ==0 .
L cos(Aja) == {~' ~ ~ ~ j=l
j=l
'
Dimostrazione. Conseguenza immediata ponendo b == 0 dei teoremi A2 e A4.
o
I teoremi sono stati esposti per a e b maggiori 0 uguali a zero, rna l'estensione a numeri negativi e immediata ricordando che cos a == cos( -a) e sin a == - sin( -a); inoltre abbiamo assunto che a e b fossero minori di N, rna valgono teoremi analoghi per valori qualunque A e B: basta tener presente che se a == Amod(N), cioe se a e il resto della divisione di A per N, e b == Bmod(N), allora sin(AA) == sin(Aa), cos(AA) == cos(Aa) e analogamente per B. Quindi ad esempio il teorema A.2 diventa:
L cos(AjA) cos(AjB) == N
0, Amod(N) =1= Bmod(N) N12, Amod(N) == Bmod(N) =I 0 . 0, Amod(N) == Bmod(N) == 0
{
j=l
Infine, vediamo alcune formule che ci serviranno nella trattazione. La prima e:
2~
I:
exp(-iaA)dA
Infatti dalle formule di Eulero:
-1 J1r exp(-iaA)dA == -1 21r
Se a
=1=
1r
-1r
0
.!. 1r
r
io
a
cos(aA)dA =
l
1r
e-
= {~ a
ia A
+e
ia A
2
0
/o~n~ero dA == -1 1r
.!. [sin(aA)] =.!. sin(mr) 7r
a
1r
0
a
1r
.
l
1r
0
cos(aA)dA.
sin(O)
Jo1r
=0 .
Se invece == 0 ovviamente ~ dA == 1. NeIl'ambito della statistica dei processi aleatori e frequente manipolare funzioni trigonometriche anche non relative aIle frequenze di Fourier del tipo 21rjIT: adesso ricaveremo alcune formule per le somme di seni e coseni relative aIle armoniche di una frequenza qualunque A. A tal fine avremo bisogno delle relazioni trigonometriche sin u - sin v = 2 cos! (u
2
+ v) sin! (u 2
- v)
304
A Fondamenti di Analisi di Fourier
cos u - cos v == - 2 sin
1
1
"2 (u + v) sin "2 (u - v)
che si ottengono facilmente dalle formule di addizione e sottrazione ponendo u == a - (3 e v == a + (3. Dimostreremo che n
cos~(n+1)Asin~nA -1 == . L cos At == -2l{sinA(n+~)} SIn "2 SIn "2
--=---------=-. A
A
t=l
~. _ L...J SIn At t= 1
~
{COS ~ - cos(n +
.
2
A
~)A} _ -
SIn "2
sin
~(n +
.
l)Asin ~nA A
SIn "2
.
Dimostrazione. Poiche la dimostrazione e analoga svolgeremo solo la prima lasciando l'altra come esercizio. Ritornando alla espressione in funzione delle esponenziali complesse: 2 cos a == eia+e- ia, e usando la regola della somma di una progressione geometrica, otteniamo: 1{ · L· L cos At == -2 L + n
n
t=l
t=l
(e i A _
n
e1,At
1)(1 -
e-1,At
t=l e i An)
2(1 -
e
o; 1 -e iAn 1 -iAn e -iA == -e . + - -e .
2 1-
(e- i A -
+ iA
}
)(l -
e-
1)(1 _
2
e1,A
1-
e-1,A
e- i An)
i A)
COSA - 1 + cosnA - cos(n + l)A 2(1 - cos A) Ora, ponendo u == ii): v == (n + 1)>'" otteniamo cos(n>...) - cos(n + 1)>'" == -2 sin(n + 1/2)A sin( -A/2)
== 2 sin(n + 1/2)>... sin(A/2) e ricordando anche che 1 - cos X == 2 sin 2 (>.../2):
1{
n ~cas>'t=2
1/
-1+sin(n+ )>. 2
sin
A}
2
.
Per la seconda eguaglianza, portando sin(A/2) a denominatore comune, il numeratore diventa sin(n + 1/2)A - sin(A/2) per il Quale si usa la formula che scompone sin u - sin v ponendo u == (n + 1/2)A, v == A/2. La formula analoga per la somma estesa anche a indici negativi e immediata: n
L t=-n
D
sinAi
==
0
n
t~n cas At =
1
n
1
/
>..
+2~casAt = sin(n+ 2)A sin 2 .
A.2 Sviluppo di Fourier per funzioni periodiche
305
Con questi risultati possiamo valutare le stesse somme considerate all'inizio dell' Appendice, rna prese su frequenze non di Fourier, usando le formule gia ricordate del tipo cos u - cos v == - 2 sin ~ (u - v) sin ~ (u + v). Ad esempio:
1
1
L sin(Aaj) sin(Abj) = -2 L cos A(a + b)j + 2 L cosA(a - b)j n
j=l
n
j=l
n
j=l
che si ottiene ponendo Aaj == ~(u - v) e Abj == ~(u + v), da cui u == Aj(b + a) e v == Aj(b - a). Inoltre con questi risultati possiamo calcolare facilmente la somma che porta al nucleo di Fejer (paragrafo 9.2) KN(A). Innanzitutto notiamo che n-1
n-1
L
t
L L e-
(n -lhl)e- i Ah ==
h=-n+1
i AS
==
t=O s=-t
==
L
n-1 (
1+2
t=O
L cos AS t
)
==
s=l
L sin(tsIn(-) . + 1.)A
n-1
A2
t=O
.
2
Tenendo conto che sin(t - ~)A == sin(At) cos(A/2)-cOS(At) sin(A/2) abbiamo: 1
n-1
~ sin(t + 2)A
=
8 n
1
sin (t - 2)A = cos
(A) (A) 2 8 sin At - sin 2 8 cos At n
n
. (A) cos ~(n + l)Asin ~nA == cos ( -A) sin ~(n + l)Asin ~nA - SIn sin ~
2
=
si~sin!~A "2
[cos
sin ~
2
(~) sin !(n + nx - sin (~) cos !(n + l)A] 2 2 2 2 =
sin2(~A) /sin (~) .
In conclusione: 1
KN(A) == 2 n
L
n-1 h=-n+1
1
n
n-1
A
2'
t=O
1 sin
n
1
L sin(t + -),,\ == sIn("2) 2
.
(n - Ihl)e- 2Ah ==
2
2
sin
(
2
~A) (
~)
.
A.2 Sviluppo di Fourier per funzioni periodiche
E un
argomento classico dell'analisi matematica 10 sviluppo in serie di Fourier, nel Quale si esprimono funzioni periodiche di variabile reale generalmente
306
A Fondarnenti di Analisi di Fourier
continue come serie di funzioni trigonometriche. Noi considereremo sviluppi analoghi, rna, avendo come riferimento applicativo lc serie storiche a parametro discreto, studieremo funzioni di variabile discreta, indicando l'argomento anche qui, per semplicita, con i numeri interi. Consideriamo percio una funzione di variabile intera Xt , periodica di periodo T (intero), il che significa che i valori si ripetono ogni T istanti: Xt == Xt+kT per ogni k intero. II suo comportamento e completamente descritto dai valori assunti in T punti consecutivi, ad esempio Xl, X2, ... , XT, quindi un vettore nello spazio R T . L'idea fondamentale dell'analisi di Fourier e di spiegare l'andamento della funzione mediante una sovrapposizione di sinusoidi di periodo esattamente pari a T oppure un suo sottomultiplo. La logica del procedimento puo essere illustrata come segue. Dati i valori assunti X j (j == 1, ... , T), cerchiamo di adattarvi una sinusoide del tipo a cos( Aj + B) di periodo T e quindi con A == 27f /T (detta frequenza fondamentale). L'adattamento non sara perfetto e quindi ci saranno delle differenze in pili 0 in meno, che possiamo cercare di descrivere con una sinusoide di periodo T /2, cioe di frequenza 2A == 47f /T (chiamata seconda armonica). Se ancora non si ottiene una uguaglianza, la rimanente differenza si puo cercare di descrivere con una sinusoide di periodo ancora pili piccolo pari a T /3 e quindi frequenza 3A == 67f IT (detta terza armonica) e cosi via, andando ad adattare sinusoidi con oscillazioni sempre pili veloci fino alla pili rapida che e l'armonica di ordine T /2, che ha frequenza AT /2 == 7f (1) e il cui periodo e pari a 2 (la periodicita pili piccola riscontrabile in funzioni ad argomento intero). La teoria dimostra (10 faremo subito) che questo procedimento ricostruisce esattamente la funzione Xt, e quindi si ottiene, posta p == T /2, Xt
=
t,
ao + {a
j
cos
(~ jt) + b, sin (~ jt)}
,t
= 1,2, ... , T
(A.3)
con bp == O. Tra le diverse dimostrazioni ne forniamo una di natura geometrica che ha il pregio, oltre alla semplicita, di suggerire una diversa interpretazione dello sviluppo di Fourier. Si tratta sernplicernente di considerare il vettore T X == (Xl, X2, ... , XT)' nello spazio R e di esprirnere le coordinate in una nuova base ortogonale di R T . La base che scegliamo e format a dai vettori costituiti dai valori assunti dalle sinusoidi della frequenza fondamentale e delle armoniche, pili un vettore unitario costante. Pili precisamente, consideriamo ,Z2p-l definiti come segue: Zo ha elementi coi vettori Zo, Zl, ... ,zp, Zp+l, stanti uguali a 1, Zk (k == 1,2, ,p) ha come elementi i valori della sinusoide cos(27fkt/T) per t == 1,2, ... , T, e zp+j(j == 1,2, ... ,p - 1) ha come elementi i valori di sin(27fjt/T) per t == 1,2, ... ,T (cio spiega perche non si considera j == p, dato che sin(27fpt/T) == sin( 7ft) == 0). Scriviamo la base ponendo come prima ,\ == 21f/T : 1
Abbiamo implicitamente supposto che il periodo T sia pari. Se T e dispari si ottengono risultati analoghi, rna con cornplicazioni leggerrnente superiori nella dirnostrazione.
A.2 Sviluppo di Fourier per funzioni periodiche
cosp"\ sin X sin2"\ cos 2p"\ sin 2,,\ sin 4,,\
cos X cos2"\ 1 cos 2,,\ cos 4,,\
1
307
sin(p - 1),,\ sin 2(p - 1)"\
1 coe'I'); cos2T"\ ... cosTp"\ sinT"\ sin2T"\ ... sinT(p -1)"\ Usando Ie formule di ortogonalita del paragrafo precedente possiamo verificare che la matrice B e ortogonale, mentre le norme dei vettori della base risultano: 2
II Z k 11
T
== l: (cos 2; k j ) 2 == P , k == 1, ... p - 1 j=l
II
zp+ k
T
== l: (sin '2;; k j) 2 == P , k == 1, ... p - 1 .
2 11
j=l
II vettore zp ha un valore diverso perche i suoi elementi sono pari a cos(21rpt/T) == cos(1rt) == (- 1)t . Avendo appurato che B e una base ortogonale possiamo esprimere il vettore dei dati x in funzione lineare della nuova base con coefficienti ao, al, . . . , ap , b1 , b2 , . . . , bp - 1 :
che dimostra 10 sviluppo di Fourier (A.3). Come immediata conseguenza possiamo ottenere lc espressioni dei coefficienti aj e bj : poiche essi sono le coordinate nella nuova base, sappiamo che sono uguali aIle z~x/llzkI12. Particolarizzando otteniamo:
1
(21r .)
T
aj=pLXtCOS rJt
, j=1, ... ,p-1
t=l
bj
=
1pL Xt sin (21r) r jt T
, j
= 1, ... , p - 1
(A.4)
t=l
ao =
1
T
TL
x, ; ap =
1
T
TL
t=l
t
x; ( ~ 1) .
t=l
La formula (A.3) ha 10 svantaggio di contenere coseno e seno della stessa frequenza, mentre possiamo unificare la struttura usando la forma sinusoidale completa di frequenza e fase, basandosi solo sul coseno (ad esempio). Per fare questo, sostituiamo alle aj e bj le loro espressioni polari aj
== dj cos ()j
;
bj == dj sin ()j
,
j
== 1, . . . ,p - 1
= Ja; + b; e OJ = arctan(bjfaj), ponendo inoltre do = ao, dp = ap , ()o == ()p == O. La (A.3) diviene
dove dj
308
A Fondamenti di Analisi di Fourier
Xt
=
td j
cos
)=0
(~ jt - OJ) .
Questa formula consente una pili immediata interpretazione: la funzione Xt la somma di sinusoidi relative alla frequenza fondamentale ,,\ == 21T /T corrispondente al periodo T, e alle sue frequenze armoniche 2"\,3"\, ... ,p"\ corrispondenti a onde di periodo sottomultiplo di T: T /2, T /3, T /4, fino a T / (T /2) == 2. Ciascuna sinusoide ha una propria ampiezza dj e una propria fase ()j . Una ulteriore interpretazione che fornisce la base per considerazioni che si riveleranno essenziali nel seguito, nasce dal considerare x == (Xl, X2, ... , XT ) come una popolazione statistica di T unita. La variabile statistica rilevata e la combinazione lineare con pesi aj e bj dei caratteri sintetizzati dai vettori popolazione Zj (corrispondenti ai valori assunti dalle diverse armoniche) che sono tra loro incorrelati come appena visto. La sua media, dalla (A.4), e pari a ao == do· La sua varianza si puo ottenere facilmente calcolando prima la norma di x, che si ricava subito dalla espressione in funzione della base ortogonale
e descritta come
B:
IIxII 2== a6 111112 + ai I zll1 2+ ... + a; I zpI1 2+ bi Ilzp+1112 ... + b;_11Iz2P_ll/2 == p ( 2a6 + ai + ... + 2a; + bi + ... b;-l) == p (2d6 + di + ... + d;-l + 2d;) . Ne segue (si ricordi che p == T /2) che
quindi lo ampiezze dj al quadrato decompongono la varianza nel contributo di ciascuna Zj, cioe di ciascuna componente sinusoidale di frequenza ,,\j e periodo T'[], L'insieme (dr,d§, ... ,d;) indica qual e il peso relativo, in termini di momento secondo, delle varie componenti cicliche che concorrono a costituire i valori Xt, e viene chiamato spettro di Fourier.
Esempio A.6. Consideriamo una funzione periodica di periodo 8, di cui riportiamo due cicli nella Fig. A.2 in cui e segnata anche la media, corrispondente all'armonica zero, ao in (A.3). Dopo aver calcolato i coefficienti aj e bj secondo le (A.4) abbiamo costruito le componenti cicliche relative alla frequenza fondamentale 21T /T == 1T/ 4 e alle prime tre armoniche 21T/ 4 == 1T /2, 31T/ 4 e 41T/ 4 == 1T, il cui andamento (in realta solo i punti relativi ad ascissa intera, uniti da segmenti) e riportato nella Fig. A.3, ed e contraddistinto da periodi rispettivamente di 8, 4, 8/3 e 2 istanti. Sommando termine a termine i valori della componente fondamentale, delle tre armoniche e della media ao si ottengono esattamente i valori della funzione. Lo spettro e il seguente: d5 == a5 == 13.14, == 4.57, d§ == 3.06, d~ == 2.8, d~ == 1.26.
dr
A.2 Sviluppo di Fourier per funzioni periodiche
309
10
11
6
16
Fig. A.2. Serie periodica di periodo 8 fondamentale
armonica2
-1
-1
-2
-2
-3
--J
--Iw--..-
armonica3
armonica4
1.5,....------------.,
0.5
o -1 -2
+---\--+----+----1~_+____+_+__+_____+_____lr__+__+___f__+---1
-0.5 -1 ...1.--
----1
-1.5
-I..-
.....J
Fig. A.3. Componente fondamentale e prime tre armoniche
Una ulteriore forma di sviluppo di Fourier si ottiene esprimendo le funzioni trigonometriche attraverso le esponenziali complesse: in questo modo la x, viene rappresentata attraverso una somma finita di potenze. Per arrivare a questo risultato partiamo dalla (A.3) sostituendo a seno e coseno Ie espressioni di Eulero, sempre indicando A == 27r IT:
310
A Fondamenti di Analisi di Fourier _
Xt -
ao
+
L p
ei>..jt
{
+ e-i>..jt 2
aj
+ bj
ei>..jt _ e-i>..jt }
2i
.
j=l
Raccogliendo le diverse potenze di ei >.. e indicando con Z_j == Zj == (aj +ib j)/2, j == 1, ... ,p, Zo == ao, si ottiene:
L
Zj
==
(aj -
ibj ) /2,
p
x, ==
Zjei>..jt
(A.5)
j=-p
e dalle (A.4) si ricavano le
Zj:
(A.6) che vengono chiamate trasformate di Fourier della Xt. Anche la (A.5) esprime, equivalentemente alle precedenti, la decomposizione di Xt in somma di componenti sinusoidali, e pur comparendovi l'unita immaginaria, i valori delle Xt rimangono reali (mentre la trasformata di Fourier Zj ha valori complessi): cia si riconosce dal fatto che nella (A.5) ogni esponenziale complessa ei a trova anche il suo reciproco e -ia, e i loro coefficienti sono 1'uno il coniugato dell'altro, percio la loro somma cei a + ce- i a da luogo alla sinusoide 2 Re( c) cos 0: + 2 Im( c) sin 0: (2). La componente sinusoidale di frequenza pari a k); e periodo T/k ha quindi ampiezza dk == 21zkl e fase Ok arctan{ - Im(zk) / Re(Zk)}.
A.3 Analisi di Fourier per funzioni non periodiche, integrale di Fourier II procedimento che abbiamo svolto si puo applicare a funzioni di variabile intera periodiche di periodo T, che possono essere definite per ogni valore intero rna ripetono ciclicamente i valori assunti: Xt == Xt+T, Vt. E evidente che facendo crescere il periodo T la funzione ha possibilita di andamento sempre pili ricco, e poiche in genere noi ci interesseremo dei valori di una serie storica per un intervallo di tempo finito, per esempio per t da 1 aN, potremmo anche considerare funzioni periodiche purche di periodo sufficientemente grande (e qualche volta 10 faremo). Tuttavia, non e difficile arrivare a formule analoghe agli sviluppi di Fourier, valide per funzioni, sempre ad argomento intero, non periodiche. Cia si ottiene prendendo il limite per T - t 00 nelle formule precedenti, e sotto condizioni di regolarita che assicurino l'esistenza 2
Dato un numero complesso c == a - ib si indica con a == Re( c) il suo coefficiente reale e con b == Im(c) il coefficiente immaginario. Inoltre c == a + ib, c + i: == 2a, c- i: == -2ib, Icl == va 2 + b2 e arg{c} == arctan ( -b/a).
A.3 Analisi di Fourier per funzioni non periodiche
311
dei limiti che considereremo. Rimane valida l'interpretazione come sovrapposizione di componenti sinusoidali, rna le frequenze possibili non saranno pili un numero finito 21rj IT, j == 1, ... , T 12, poiche T va a infinito, rna diventano possibili sinusoidi di frequenza A qualsiasi, variabile con continuita tra 0 e it . II contributo in ampiezza di una singola sinusoide, prima indicato con Zj, diventa quindi adesso una funzione ((A). Sempre assumendo p == T12, definiamo ((1rjlp) == Zj/(1r/p), per cui la (A.5) diventa: Xt
=
,f ((~j)
J==-P
P
exp
{i~jt}~ p
P
che puo essere interpretata come una somma di Cauchy relativa alla funzione ( (x ) exp {i tx} sull'intervallo (-1r, 1r), descritta dalla decomposizione [~j, ~ (j + P P 1)), j == -p, ... , p - 1. Al crescere di T, tende a zero la lunghezza degli intervallini (pari a 1r I p == 21r IT) e quindi il limite definisce un integrale (di cui assumiamo l' esistenza) :
che viene detto integrale di Fourier. L'analoga della (A.6), cioe la trasformata di Fourier della funzione non periodica Xt, si ottiene anche qui prendendo illimite per T - t 00, rna facendo crescere anche j in modo che 21rj IT tenda a un valore fisso A:
(anche qui sara necessario imporre condizioni alla Xt perche questo limite esista). Nell'interpretare la decomposizione (chiamata decomposizione spettrale) di Xt si deve tener conto del fatto che ora sono una infinita continua di componenti di frequenza diversa a concorrere a formare Xt: le periodicita possibili sono comprese tra 2 (corrispondente alla frequenza 1r) e infinito (corrispondente alla frequenza 0). Lo spettro di Fourier diventa ora una funzione 1((A)1 2 di variabile reale A, definito tra 0 e n , rna il contributo di ogni singola componente di fissata frequenza alla varianza (0, se si vuole, alla norma al quadrato) e infinitesimo, mentre si puo dire (con terminologia analoga a quella della probabilita delle variabili assolutamente continue) che il contributo delle componenti di frequenza compresa tra A e A+ d); e pari a 1((A)1 2dA. L'integrale di Fourier puo essere espresso anche in termini completamente reali, Se poniamo U(A) == Re{ ((A)}, V(A) == Im{ ((A)}, ricordando che Zj == Z_j abbiamo ((A) == (( -A) e quindi U(A) e V(A) sono funzioni pari e inoltre ((A) == U(A) - iV(A), (( -A) == U(A) + iV(A). Pertanto, spezzando l'integrale nei due sotto-intervalli (-1r, 0) e (0, 1r) si ha:
312
A Fondamenti di Analisi di Fourier
Xt = =
l"
1''
[U(A) - iV(A)]eiAtdA + cos(At)2u(A)dA +
l
l"
[U(A)
+ iV(A)]e-iAtdA =
1r
sin(At)2v(A)dA
che fornisce la rappresentazione in termini reali dell'integrale di Fourier, in cui naturalmente 1
U(A) = 21f
L Xt COS(At) 00
t=l
V(A)
1
L 27r 00
== -
t=l
Xt
sin(At) .
B Software per l'analisi delle serie ternporali e la .. previsionc
Abbiamo gia osservato come la complessita delle elaborazioni necessarie per l'analisi nel dominio temporale e frequenziale e per la previsione imponga l'uso di un software specialistico anche nelle applicazioni pili semplici. Per questo motivo l'analisi delle serie temporali e la previsione statistica hanno attratto un'attenzione e un impegno sempre crescenti delle maggiori case di software, e oggi gran parte dei pili diffusi software di analisi quantitativa permette di applicare la metodologia esposta in questo volume. Senza pretendere ovviamente di presentare una rassegna esaustiva, citeremo solo alcuni pacchetti tra i pili usati, riferendoci all'ambiente Microsoft Windows, anche se la maggior parte di essi e disponibile anche per ambiente Macintosh, Unix e Linux. Va sottolineato che l'offerta di software e in rapida evoluzione, appaiono continuamente nuovi pacchetti e quelli esistenti vengono modificati, pertanto le informazioni riportate in questa appendice vanno considerate soltanto indicative. I sistemi Sas (www.sas.com) e Spss (www.spss.it) prevedono entrambi moduli di serie temporali (rispettivamente Sas-Ets e Spss-Trends) che svolgono analisi nel dominio temporale e frequenziale, costruzione di modelli ARIMA complete di previsioni, destagionalizzazione. Analoghe possibilita vengono offerte da pacchetti di orientamento econometrico come E-Views (www.eviews.com) e Rats (www.estima.com), e da software specificamente statistici come S-Plus (www.insightful.com) oppure Statistica (www.statsoftinc.com). Esistono poi pacchetti esplicitamente dedicati alla previsione, ad esempio Forecast-Pro (www.forecastpro.com) e anche alcuni software che hanno per oggetto principale le serie temporali: tra questi citiamo Autobox (www.autobox.com) per la ricchezza del supporto in linea e la continua evoluzione, e Sea (www.scausa.com) per l'autorevolezza degli autori e la disponibilita delle metodologie pili avanzate. Anche alcuni software che si configurano pili come linguaggi evoluti, quali Mathematica (www.wolfram.com), Matlab (www.mathworks.com) e Gauss
314
B Software per la previsione
(www.aptech.com) permettono facilmente 10 sviluppo di analisi attraverso moduli 0 librerie supplementari, prodotti dalle Case 0 di pubblico dominio. Naturalmente non tutti i software prevedono tutti i metodi esposti nel presente volume, e molti dispongono invece di una raccolta di metodi pili ricca e articolata di quelli che sono presentati qui. Ad esempio, non tutti realizzano il metodo Census-X11-Arima, e pochi il Tramo-Seats (notiamo pero che il software per questo metodo di destagionalizzazione e disponibile liberamente sul sito della Banca di Spagna www.bde.esjserviciojsoftware/econome.htm e su quello dell'Istat al link www.istat.itjstrumenti/metodijdestagj). La situazione e in continua evoluzione e frequentemente vengono rilasciate nuove versioni che prevedono capacita pili articolate. I prodotti citati finora prevedono l'acquisto 0 l'uso sotto licenza. Tra i software liberi, il pili rilevante ai nostri fini e R della Free Software Foundation (www.gnu.org/softwarejr) che ha una struttura simile as-Plus e permette abbastanza facilmente la realizzazione di analisi sia nel dominio temporale sia frequenziale, sia la costruzione di modelli rappresentativi e di previsioni. Un interessante e utile pacchetto econometrico basato su R e Gretl, di cui esiste anche una versione in italiano (http: / j gretl.sourceforge. net ). Infine e stato messo a punto recentemente il software JMulTi (http:/ jsourceforge.netj projects/jmulti) che ha come riferimento ideale Liitkepohl (1993) e permette anche analisi econometriche avanzate e multivariate. Esistono inoltre, e sono molto utili, alcuni pacchetti software collegati a testi di serie temporali, che a seconda dei casi sono liberi, 0 vengono dati in licenza gratuita con l'acquisto del volume. Tra di essi citiamo Itsm 2000, ultima versione del software collegato ai testi di Brockwell e Davis (su un CD allegato al libro). Per concludere, osserviamo che nel web esistono molte possibilita di trovare e scaricare i dati relativi alle serie temporali pili importanti e studiate, come riferimento esemplificativo si suggeriscono i siti lib.stat.cmu.edu e il wwwpersonal.buseco.monash.edu.auj hyndman/TSDL. r-;»
Bibliografia
Abraham, B. and G. E. P. Box (1978). Deterministic and forecast-adaptive time dependent models. Appl. Statist. 27, 120-130. Akaike, H. (1969). Fitting autoregressive models for prediction. Ann. Inst. Statist. Math. 21, 243-247. Akaike, H. (1974). A new look at the statistical model identification. IEEE Trans. Automatic Control 19, 716-722. Akaike, H. (1979). A Bayesian extension of the minimum AIC procedure of autoregressive model fitting. Biometrika 66, 237-242. Anderson, T. W. (1971). The Statistical Analysis of Time Series. New York: Wiley. Azzalini, A. (2001). Inferenza Statistica (2 ed.). Milano: Springer-Verlag Italia. Baragona, R. and F. Battaglia (1992). Linear interpolators and the outlier problem in time series. Metron 50, 79-97. Baragona, R. and F. Battaglia (2000a). Partial and inverse autocorrelations in portmanteau- type tests for time series. Commun. Statist. Simula. Compo 29, 971-986. Baragona, R. and F. Battaglia (2000b). Some applications of genetic algorithms to statistical inference. In Atti della XL Riunione Scientifica della Soc. Ital. di Statistica, Firenze, pp. 329-340. Baragona, R., F. Battaglia, and C. Calzini (2001). Genetic algorithms for the identification of additive and innovational outliers in time series. Compo Statist. Data Anal. 37, 1-12. Barbieri, M. M. (1998). Additive and innovational outliers in autoregressive time series: a unified approach. Statistica 58, 395-409. Bartlett, M. S. (1990). Chance or chaos? J. Roy. Statist. Soc. Ser. A 153, 321-347. Basawa, I. V. and B. L. S. Prakasa Rao (1980). Statistical Inference for Stochastic Processes. London: Academic Press. Bee Dagum, E. (2002). Analisi delle Serie Storiche. Modellistica, Previsione e Scomposizione. Milano: Springer-Verlag Italia. Bell, W. and S. C. Hillmer (1984). Issues involved with the seasonal adjustment of economic time series. J. Bus. Econom. Statist. 2, 291-330. Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. J. Econometrics 31, 307-327.
316
Bibliografia
Box, G. E. P. and D. R. Cox (1964). An analysis of transformations. J. Roy. Statist. Soc. Ser B 26, 211-252. Box, G. E. P. and G. M. Jenkins (1970). Time Series Analysis Forecasting and Control. S. Francisco: Holden-Day. Box, G. E. P., G. M. Jenkins, and G. C. Reinsel (1994). Time Series Analysis Forecasting and Control (new ed.). Englewood Cliffs: Prentice- Hall. Box, G. E. P. and D. A. Pierce (1970). Distribution of residual autocorrelations in autoregressive integrated moving average time series models. J. Amer. Statist. Ass. 65, 1509-1526. Box, G. E. P. and G. C. Tiao (1975). Intervention analysis with applications to economic and environmental problems. J. Amer. Statist. Ass. 70, 70-79. Brillinger, D. R. (1981). Time Series Data Analysis and Theory (expanded ed.). S. Francisco: Holden-Day. Brockwell, P. J. and R. A. Davis (1987). Time Series, Theory and Methods. New York: Springer-Verlag. Casdagli, M. (1992). Chaos and deterministic versus stochastic non linear modelling. J. Roy. Statist. Soc. Ser. B 54, 303-328. Chatfield, C. (1993). Neural networks: forecasting breakthrough or passing fad? Int. J. Forecast. 9, 1-3. Chen, C. and L. M. Liu (1993). Joint estimation of model parameters and outlier effects in time series. J. Amer. Statist. Ass 88, 284-297. Cipolletta, 1. (1992). Congiuntura Economica e Previsione. Bologna: 11 Mulino. Cleveland, W. P. and G. C. Tiao (1976). Decomposition of seasonal time series: a model for the X-II program. J. Amer. Statist. Ass. 17, 581-587. Cox, D. R. and P. A. W. Lewis (1966). The Statistical Analysis of Series of Events. London: Methuen. Cox, D. R. and H. D. Miller (1965). The Theory of Stochastic Processes. London: Methuen. Damsleth, E. (1980). Interpolating missing values in a time series. Scand. J. Statist. 7, 33-39. Di Fonzo, T. and F. Lisi (2005). Serie Storiche Economiche. Roma: Carocci. Dickey, D. A. and W. A. Fuller (1979). Distribution of the estimates for autoregressive time series with unit roots. J. Amer. Statist. Ass. 74, 427-431. Engle, R. F. (1982). Autoregressive conditional heteroscedasticity with estimates of the variance of the United Kingdom inflation. Econometrica 50, 987-1007. Fabbri, G. and R. Orsini (1993). Reti Neurali per le Scienze Economiche. Padova: Muzio. Ferreiro, O. (1987). Methodologies for the estimation of missing observations in time series. Stat. Prob. Letters 5, 65-69. Findley, D. F., B. C. Monsell, W. R. Bell, M. C. Otto, and B. C. Chen (1998). New capabilities and methods of the X-12-ARIMA seasonal adjustment program. J. Bus. Econom. Statist. 16, 127-176. Fox, A. J. (1972). Outliers in time series. J. Roy. Statist. Soc. Set: B 34, 350-363. Gabriel, K. R. and J. Neumann (1962). A Markov chain model for rainfall occurrence at Tel Aviv. Quarterly J. Roy. Meteorol. Soc. 88, 90-95.
Gaetan, C. (2000). Subset ARMA model identification using genetic algorithms. J. Time Ser. Anal. 21, 559-570. Gilchrist, W. (1976). Statistical Forecasting. London: Wiley.
Bibliografia
317
Gomez, W. and A. Maravall (1996). Programs Seats and Tramo: instructions for the user. Working Paper 9628, Bank of Spain, Madrid. Granger, C. W. J. (1980). Forecasting in Business and Economics. London: Academic Press. Guerrero, V. M. (1993). Time series analysis supported by power transformations. J. Forecasting 12, 37-48. Hamilton, J. D. (1994). Time Series Analysis. Princeton: Princeton University Press. Hannan, E. J. (1960). Time Series Analysis. London: Methuen. Hannan, E. J. and B. G. Quinn (1979). The determination of the order of an autoregression. J. Roy. Statist. Soc. Ser. B 41, 190-195. Harvey, A. C. (1990). Forecasting Structural Time Series Models and the Kalman Filter. Cambridge: Cambridge University Press. Hipel, A. W. and A. 1. McLeod (1994). Time Series Modelling of Water Resources and Environmental Systems. Amsterdam: Elsevier. Johnson, N. L. and S. Kotz (1970). Distributions in Statistics. Continuous Univariate Distributions, Volume 2. New York: Wiley. Kalman, R. E. (1960). A new approach to linear filtering and prediction problems. Trans. ASME J. Basic. Engin. D 82, 35-45. Karlin, S. (1966). A First Course in Stochastic Processes. New York: Academic Press. Kwiatkowski, D., P. C. B. Phillips, P. Schmidt, and Y. Shin (1992). Testing the null hypothesis of stationarity against the alternative of a unit root. J. Econometrics 54, 159-178. Linstone, H. and M. Turoff (1975). The Delphi Method. Reading: Addison-Wesley. Ljung, G. and G. E. P. Box (1978). On a measure of lack of fit in time series. Biometrika 65, 297-303. Ljung, G. M. (1982). The likelihood function for a stationary Gaussian autoregressive moving average process with missing observations. Biometrika 69, 265-268. Liitkepohl, H. (1993). Introduction to Multiple Time Series Analysis. Berlin: Spinger-Verlag. Mann, H. B. and A. Wald (1943). On the statistical tr eatment of linear stochastic difference equations. Econometrica 11, 173-220. Marbach, G., C. Mazziotta, and A. Rizzi (1991). Le P. evisioni. Fondamenti Logici e Basi Statistiche. Milano: ETAS Libri. Martelli, A. (1988). Scenari e Strategie: Analisi del Futuro e Condotte d'Impresa. Milano: ETAS Libri. Martin, R. D. (1980). Robust estimation of autoregressive models. In D. R. Brillinger and G. C. Tiao (Eds.), Directions in Time Series. Hayward: Institute of Mathematical Statistics. Mc Culloch, R. E. and R. S. Tsay (1994). Bayesian analysis of autoregressive time series via the Gibbs sampler. J. Time Ser. Anal. 15, 235-250. Pefia, D. and J. Rodriguez (2002). A powerful portmanteau test of lack of fit for time series. J. Amer. Statist. Ass 97, 601-610. Piccinato, L. (1996). Metodi per le Decisioni Statistiche. Milano: Springer-Verlag Italia.
318
Bibliografia
Piccolo, D. (1974). Analisi delle serie temporali. I processi AR(2). Portici: Centro di Specializzazione e Ricerche Economico-Agrarie per il Mezzogiorno della Universita di Napoli. Piccolo, D. (1990). Introduzione all'Analisi delle Serie Storiche. Roma: La Nuova Italia Scientifica. Priestley, M. B. (1981). Spectral Analysis and Time Series. London: Academic Press. Priestley, M. B. (1988). Non Linear and Non Stationary Time Series Analysis. London: Academic Press. Pukkila, T. M. (1984). On the distributions of differences between the estimated autocorrelations and the partial autocorrelations at the same lag. Commun. Statist. Simula. Compo 13, 463-488. Reinsel, G. C. (1997). Elements of Multivariate Time Series Analysis. New York: Springer-Verlag. Said, S. E. and D. A. Dickey (1985). Hypothesis testing in ARIMA(p,l,q) models. J. Amer. Statist. Ass. 80, 369-374. Schwarz, G. (1978). Estimating the dimension of a model. Ann. Statist. 6, 461-464. Sharda, R. and R. B. Patil (1990). Neural networks as forecasting experts: an empirical test. In Proc. IJCNN 1989 Joint Conference on Neural Networks, Washington. Shumway, R. H. and D. S. Stoffer (2000). Time Series Analysis and Its Applications. New York: Springer-Verlag. Taniguchi, M. and Y. Kakizawa (2000). Asymptotic Theory of Statistical Inference for Time Series. New York: Springer-Verlag. Tong, H. (1990). Non Linear Time Series. A Dynamical System Approach. Oxford: Clarendon Press. Tong, H. and R. L. Smith (1992). Royal Statistical Society Meeting on Chaos: introduction. J. Roy. Statist. Soc. Ser B 54, 301-302. Tsay, R. S. (1988). Outliers, level shifts and variance changes. J. Forecasting 7, 1-20. Vere-Jones, D. (1995). Forecasting earthquakes and earthquake risk. Int. J. Forecast. 11, 503-538. Weigend, A. S. and N. A. Gershenfeld (Eds.) (1994). Time Series Prediction: Forecasting the Future and Understanding the Past. Reading: Addison- Wesley. Young, A. H. (1965). Estimating trading-day variation in monthly economic time series. Technical Paper 12, Bureau of Census, Washington.
Indice
Algoritmi genetici, 222, 241 Allineamento, 180 Analisi complessa richiami, 299 Analisi di intervento, 236 Approccio normativo, 4 Autocorrelazione, 46, 74 corner method, 192 definita positiva, 74 distribuzione stimatori, 160 estesa, 192 inversa, 192 parziale, 120, 124 stima della, 152 Autocovarianza, 46, 74 definita positiva, 74 distribuzione stimatori, 160 rappresentazione spettrale, 81 ritardo massimo di stima, 154 stima della, 152 Barriera, 57 Bartlett formula di, 156 stimatore di, 168 Bartlett-Priestley stimatore di, 172 Box e Cox trasformazione di, 214 Cambio di livello, 234 Campione casuale, 144 Chi quadrato, 43
Coefficiente di determinazione R 2 , 109, 202 Coerenz~ 105, 109 stima della, 180 Condizioni di mixing, 46 Consistenza, 144 Correlazione incrociata, 103 stima della, 179 Correlogramma, 76 Covarianza incrociata, 102 rappresentazione spettrale, 104 stima della, 179 Cross-correlogramma, 103 Cumulanti, 36, 37 Daniell stimatore di, 170 Dati anomali, 237 Dati mancanti, 241 Delphi, 5 Destagionalizzazione, 99, 218 metodi Census, 225 metodi model-based, 226 metodo TRAMO-SEATS, 226 metodo X-11-ARIMA, 225 Dickeye Fuller, 212 Dirac funzione delta di, 85 Dirichlet nucleo di, 170 Dissomiglianza indice di, 288 Distribuzione di probabilita
320
Indice
di Poisson, 136 esponenziale, 136, 246 gamma, 136, 247 normale multipla, 38 cumulanti, 43 distribuz. condizionate, 39 formula di Isserlis, 43 marginale , 39 standardizzata, 39 Dominio frequenziale, 73, 78 temporale, 73 Dualita, 128 Durbin metodo iterativo di, 126, 198 Effetti di calendario, 236 Entropia, 289 Equazione allc differenze finite, 117 di Chapman e Kolmogorov, 53 di misura, 275 di transizione, 275 di Yule e Walker, 117, 124, 184 normale, 183 Ergodicita, 144 in autocovarianza, 157 in cross-covarianza, 179 in media, 149 Esponenziale complessa, 300 Eteroschedasticita condizionata, 215 Eulero formule di, 300 Fejer nucleo di, 150, 168, 305 Filtro lineare, 90 a media mobile, 223 alle differenze, 98 dodicesime, 220 alle quasi differenze, 101 fase, 93 fisicamente realizzabile, 90 guadagno, 93 input, 91 invariante, 90 invertibile, 98 output, 91 rappresentazione spettrale, 93
simmetrico, 91 Finestra chiusura della, 175 di intervallo, 167 gradi di Iiberta equivalenti, 175 larghezza di banda, 169 spettrale, 167 Fisher informazione di, 184 Formule di ortogonalita esponenziali complesse, 301 seni e coseni, 301 Fourier analisi di, 73, 78 frequenze di, 89 integrale di, 311 spettro di, 308 trasformata di, 88, 89, 164, 310 Funzione di trasferimento, 92, 108, 113 generatrice dei cumulanti, 36 dei momenti, 36 dei pesi, 113 delle autocovarianze, 89 indicatrice, 243 Hawkes modello di, 292 Hilbert spazio di, 73 Identificazione come approssimazione, 191 come scoperta, 191 criteri automatici, 193 AIC, 194 BIC, 198 FPE, 193 Hannan e Quinn, 198 Schwarz, 197 Incertezza, 3 Indicatori anticipatori, 291 Inferenza parametrica, 143 Innovazioni, 116, 256 Integrale stocastico, 80 Interpolatore lineare, 241 Intervallo di confidenza, 143 per l'autocorrelazione, 160
Indice per la densita spettrale, 176 Kalman filtro di, 241, 274 guadagno di, 278 smoothing, 284 Kolmogorov e Smirnov, 205 Kwiatkowski, Phillips, Schmidt e Shin, 213 Macchie solari, 178, 200, 265 Mann eWald, 184 Markov catene di, 48, 51 ergodiche, 60 irriducibili, 60 previsione, 287 stima delle probabilita, 243 distribuz. di equilibrio, 61 processo di, 47, 275 proprieta di, 47 stato ricorrente, 59 stato transitorio, 59 Matrice definita positiva, 37 della densita spettrale, 106 di cross-correlazione, 107 di cross-covarianza, 106 di dispersione, 37 di Toeplitz, 75 Hermitiana, 106 stocastica, 52 Media condizionata, 254 di insieme, 145 stima della, 148 distribuzione asintotica, 151 stima di massima verosimiglianza, 151 temporale, 145 Modelli caotici, 10 Modelli interpretativi, 188 Modelli rappresentativi, 13, 187 classe ARCH, 216 classe CARCH, 218 a funzione di trasferimento, 227 a soglia (threshold), 234 classe ARIMA, 189, 209 classe ARMA, 189
321
identificazione, 189, 190 stima dei parametri, 190, 201 verifica, 190, 201 integrati, 209 modello airline, 222 serie non stazionarie, 207 serie stagionali, 218 spazio degli stati, 274 ARIMA, 281 strutturali, 279 stagionali moltiplicativi, 220 Modelli strutturali, 267 a livello locale, 272 a trend lineare locale, 273 di base BSM, 273 forma ridotta, 273 Multinomiale, 244 N umero complesso argomento, 300 coordinate polari, 300 forma algebrica, 300 forma esponenziale, 300 modulo, 300
Operatore lineare, 95 anticipo, 95 differenza, 95 inverso, 97 ritardo, 95 Outlier, 237 additivo, 238 innovativo, 238 Parsimonia, 193, 207 Passeggeri linee aeree internazionali, 222, 265 Passeggiata aleatoria, 56 Periodogramma, 163 distribuzione del, 165 troncato, 170 Polinomio trigonometrico, 219 Previsione catene di Markov, 287 combinata, 284 combinazione lineare convessa, 285 condizionale, 4 errore di, 13 lineare, 254
322
Indice
livellamento esponenziale, 264, 268 metodi adattivi, 267 metodi di Holt e Winters, 269 modelli ARIMA, 257 pesi pi greco, 260 pesi psi, 260 modelli strutturali, 271 origine, 253 orizzonte, 253 processi di punti, 289 secondo Kolmogorov, 255 secondo Wiener, 255 spazio degli stati, 274 teoria della, 253 univariata, multivariata, causale, 5 varianza di, 256 Previsione statistica, 6 glob ale , 10 metodo, 8 oggetto, 6 puntuale, 12 scopo, 7 Previsore, 13 costo di un, 13 di combinazione lineare, 257 ottimo, 254 Principio di incertezza, 175 Processo aleatorio a parametro continuo, 33 a parametro discreto, 33 a somma mobile, 114, 128 del primo ordine, 128 del secondo ordine, 129 previsione, 257 stima dei parametri, 181 autoregressivo, 115 del primo ordine, 118 del secondo ordine, 121 previsione, 257 stazionarieta, 116 stima dei parametri, 181 autoregressivo a somma mobile, 115, 130 di ordine (1,1), 130 previsione, 257 stima dei parametri, 181 bivariato, 102 circolare, 78 di Poisson, 135
intensita, 135 intervallo tra due eventi, 135 numero di eventi, 136 previsione, 289 stima, 246 tempo di attesa, 136 di Poisson non omogeneo, 137 test di omogeneita, 247 di punti, 49, 133 autocovarianza, 139 densita degli eventi, 134 densita di covarianza, 139 densita spettrale, 139 intensita, 134 intensita condizionata, 291 previsione, 289 rischio, 290 di rinnovo, 134 lineare, 111 autocovarianza, 113 densita spettrale, 113 invertibile, 114, 128, 129 multivariato, 106 non markoviano, 67 pseudo-periodico, 124 rappresentazione spettrale, 80 realizzazione di un, 33 rumore bianco, 86, 160 stazionario, 45, 71 Punto di troncamento, 167
Radici unitarie, 209, 211 Rendimenti, 215 Reti neurali, 9 Ritardo 0 lag, 76 Robustezza, 6, 238 Rumore, 227 Scenari, 4, 5 Simulated annealing, 222 Sinusoide ampiezza, 299 fase, 299 frequenza, 299 armonica, 306 fondamentale, 306 Sistema lineare bivariato, 107 Software, 313 Spettro
Indice
323
densita cospettrale, 104 stima della, 179 densita di quadratura, 104 stima della, 179 densita spettrale, 82 stima della, 163 densita spettrale incrociata, 104 densita spettrale normalizzata, 86 evolutivo, 234 misura spettrale, 82 a salti, 82 assolutamente continua, 82 mista, 84 stimatori consistenti, 166 distorsione, 173 distribuzione, 175 varianza, 173 Stazionarieta, 44
di bianchezza, 203 nel dominio frequenziale, 205 KPSS, 213 Ljung e Box, 204 portmanteau, 204, 229 probabilita delle catene di Markov, 245 Trend, 72, 100 in varianza, 214 stocastico, 210 Trigonometria richiami, 299 Tukey stimatore di, 171 Tukey-Hamming stimatore di, 171 Tukey-Hanning stimatore di, 171
Teoria dell'affidabilita, 137 Teoria delle code, 137 Teoria delle decisioni, 13 Terremoti, 290, 292 sciame sismico, 292 Test, 143 ADF, 213 Box e Pierce, 204
Urti, 116 Validazione, 6 Volatilita, 218 What."if,4 Wold decomposizione di, 111