Zdenka Gogala
OSNOVE STATISTIKE
Mladenu) Maji i Marku
Zdenka Gagala OSNOVE STATISTIKE ISBN
953-6895-08-0
Nakladn...
294 downloads
1487 Views
5MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Zdenka Gogala
OSNOVE STATISTIKE
Mladenu) Maji i Marku
Zdenka Gagala OSNOVE STATISTIKE ISBN
953-6895-08-0
Nakladnik: Sinergija d.o.o. Zagreb Za nakladnika: prof. dr. sc. Darko Tipurić Recenzenti: prof. dr. Ksenija Dumičić prof. dr. Šemso Tanković Lektura i korektura: Alka Zdjelar-Paunović Priprema za tisak: iDEA studio, Samobor Tisak: Grafomark d.o.o., Zagreb
CIP - Katalogizacija II publikaciji Nacionalna i sveučilišna knjižnica Zagreb UD K311 (035) GOGAlA, Zdenka Statistika I Zdenka Gogala. - Zagreb: Sinergija, 2001. Bibliografija. ISBN953-6895-08-0 l. Statistika 4]1217014
Priručnik
PREDGOVOR u ovoj su knjizi izložene osnove statistike koje su potrebne prvenstveno ekonomistima, kako onima u toku veleučilišnog studija, tako onima u praksi. Rad je koncipiran tako da omogući što jednostavniji uvid u materiju, a da usto nije lišen izlaganja teoretske podloge na kojima pojedine statističke metode počivaju, tako da onima, koji osim primjene u svakodnevnoj praksi žele u statističkom istraživanju otići malo dalje, to bude omogućeno.
Imam dugogodišnju praksu kao nastavnik statistike i stoga razvijen osjećaj za one dijelove gradiva koje studenti izrazito teško savladavaj u i koje im pričinja najveće teškoće. Takvi su dijelovi gradiva detaljnije razrađeni. To sc prvenstveno odnosi na materiju u vezi s formiranjem statističkih nizova. Iz istih sam razloga nastojala što je moguće detaljnije obraditi neke temeljne pojmove s kojima se u kasnijoj analizi barata. Također sam za iste pojmove namjerno koristila nekoliko alternativnih izraza, budući sam uočila da usvajanje i posebice baratanje stručnom statističkom terminologijom studentima zadaje mnogo muke. Uz neke stručne nazive na hrvatskom naveden je i odgovarajući naziv na engleskom jeziku, prvenstveno stoga što je jezik računala engleski, pa to može olakšati studentima rad s statističkim softverom (usvajanje raznih statističkih paketa.). Također, neke sam dijelove gradiva namjerno detaljnije i na što jednostavniji način obradila i stoga jer sam imala u vidu veliki broj studenata koji se školuju uz rad, što znači da se školuju u za njih otežanim uvjetima. Stoga je knjiga pisana tako, da ujedno omogući samostalno savladavanje gradiva propisanog programom studija i onima, koji nisu u stanju redovito pohađati nastavu. U knjizi je mnoštvo malih, školskih primjera, koj i nisu brojčano zahtjevni, s ciljem da se maksimalno olakša njihovo razumijevanje . S druge strane neke teme su obrađene u samo u glavnim crtama, sa svrhom da sc pruži osnovna orijentacija u materiji, jer sam imala u vidu studente veleučilišta kojima je knjiga prvenstveno namijenjena, kao i jer sam vodila računa o zahtjevima koji se na ekonomiste u praksi prvenstveno postavljaju. Zahvaljujem svim prijateljima i kolegama koj i su me bodrili u radu i davali mi prijateljske savjete. Zahvaljujem članovima moje obitelji čija mi je lj ubav bila neophodna podrška. Nadalje zahvaljujem recenzentima, sponzorima koji su finanCijski potpomogli izdavanje knjige i izdavaču, čija je ekipa pedantno obavila opsežni i mukotrpni posao pripreme za tisak i samo tiskanje knjige. Ukoliko se se u njoj ipak potkrale greške, one, naravno, treba pripisati meni.
Zdenka Gogala
v
SADRZAJ 1. UVODNI DIO 1.1. Pojam statistika . . . . . . . . .. . . .. 1.2. Podaci . . .. . . . . ..... . ... . . .. 1.3. Statistički skup i osnovni skup ili populacija. .. . . .. . . . .. 1 .4. Prikupljanje podataka i izvori podataka . .. .. . . .. . . . 1 .4.1. iVljerne skale. . . . .. . ... . . . . . . .. 1.4.2. Faze statističkog istraživanja . . . . . . .. .. . 1 .4.3. Matrica podataka . .. .. . . .. .. . ... 1.4.4. Podjela na deskriptivnu i inferencijalnu statistiku . .
............. . . . ..... ............... . . . . . ......................... ..... ...................... . . . . ..................
..
......
...... .
........ ...... ........
..
.
... . .
. ...
. . . ... . . ...... . . ...
............ .. .. ..
. . . ..
.......
.
....... ...
................... . . .
.......... . .
....
. .... .. ...
.. . .. . .. . ..... .. ... . .
..
.
. .. .... ...
...
.. .
. ...
. .....
..
.
...
.. ..
..
.....
..... . ...
..................
...... . .............. ...
.. . .......
. .....
.
....
... .... .
.... ... . . .. . . .. ... .. .
. . . ...
....
...
2.
.
. . ... .... . .... . ...... . . . . .. . .
. .....
.. .... . .. .. ...... . .. . . ... . . ...
.
.
. ..
...
.... .... . ...
. .......
..
. . ..... . . ..
.. ....... . . ..
. . .... ... ... ... . .
OSNOVNI POJMOVI I TEHNIKE DESKRIJYfIVNE STATISTIKE ... .
..
.....
... . .. .
....
.
.
.
. ....... ... .
l
I
1 2 2 2 4 4 5
.7 2. 1 . Uređivanje podataka i formiranje statističkih nizova . . . . .7 2 .2 . Tabelamo i grafičko prikazivanje statističkih podataka, te njihova analiza pomoću relativnih brojeva . . . . ... .. . . 18 2.2.1. Grafičko prikazivanje numeričkih nizova . . . .. . 29 2.2.2 . Relativni brojevi koordinacije i indeksi kvalitativnih nizova . 37 2.3. Srednje vrijednosti . . . ... . . . .. . . 40 2.3. 1 . Aritmetička sredina . ... . . ... ... . . . .. .... 40 2.3.2. Harmonijska sredina . . . . .. . . . . . 53 2.3.3. Geometrijska sredina .. . .. . . .. . . . . . . 56 2 .3.4. Mod . . . . . . .... . . . .. . . 5 6 2.3.5. Medijan .. . . . . .. . . . . 60 2.3.6. Kvantili . . . ... . . . .. . . 66 2.4. :V1jerenje disperzije . . . . .. .. ... . 70 2.4. 1 . Raspon varijaCije . . . . . .. . .. 70 2.4.2. Interkvartil i koeficijent kvartilne deVijacije . ... ... . 71 2 .4.3. Srednje apsolutno odstupanje . .. . . .. .. . .. 74 2.4.4. Varijanea, standardna devijacija i koeficijent varijacije . . . . 75 2 . 5. Ostali pokazatelji numeričkih nizova . .. ... . .. .. 76 2 . 5 . 1 . Monlenti . . . .. . . . ... . . .. . .. 76 2.5.2. Standardizirano obilježje . . . . . . ... . . . . ... . . 8 1 2.5.3. 1\1jere asimetrije . ... . . . . . . . . .. . . .. 82 2 . 5 .4. Mjera zaobljenosti . . . .... . . ... . 87 2.5.5. Mjere koncentracije . . ... . . . . . . .. . .. . . 89 ..
..... . .....
............. .. .. ..
.. ...............
... .
.. ....
... . .......
. .... ..
.
.
...... ... .....
. .. .. ... .. ..
..
....
.... . ..... ..
. ......
.
.
...
.... .... . .. ..... .
.. ........ .
.... .. . ....
........ .. . .
.... .......... ..... .
.. . ... .
...
..
.. . . .... .... . ... ... .. . ... . . . ... . . .. . . . .. . ... ....
... . ... . .. .... .... . .......
. . . . .. . . ..... ...... . ...
.. . ... ..... ... . . . .
....
.
....
..... . . . . . .. ..
... . . . ....... ......... ..
. ....
... ..
. ......
.
.
... .. .
... .... .. ..
.
.. . ....... . ... ..
. ...
.. . .. .. ..
... ...... ..... . .
.
.. . .... ..... . ..... ......
. . ........ . . . ......
. ...........
.. . ..
.
. . . ..
.
.. ......
. . . . .... .. ..
. .. ........ ... ..
. ... ... . . .... .
... ... ..........
..... ..
..
.......
..... . . ........ . .
...
. .. .
...... .... . .....
.... ...... . ..... .......
...
... .
.. ..
...
. ... ... .... . ..
.... ... .... ..... . . ....
...
.. ..
. .. .
.
..
...
.
..
... ... .
... . ......
. ..
. ...
.. . .
.
....
. ..... . ... . . . . ... .
..... .
.... .
.......... .......... ....
. . . . . . ...... . ...............
... ... .... . .. ... ..
.... . ..... . ...
. ... .
. . ....... ..
.... .. . .
. .. ......
..
..
...
...... ....
. ..
.. . . . ..
... . .. ... . ... ..... . ...
....... . . ....
.. ... .. ......
.. ...... . .
.....
.. .
...... . ...... ....
...
.
. .. .
.
.. .. . .
..
. ... . .
..
.
. ..
.. ..
..
..
.
.. . . .. . .. .
. .. ...
.
. .. ........
. . . . ....
.... ... .. ...
.
.
..... . .... . .... .. ... .. . ..
.. .. ..... . . .
...
.... ....... . . . . . . . ....
....... .
.. . .. ... . . . ....
.
.. . ... .
..
. .. . ...... ...
. ... . ..
.
. ... ...
...
.
.
.. ..
..
.. . .. ..
... .. ....
. . . . ..
.
.
. ... .
....... . ... ...... . . .. .. ..... . ... . .
.. . .... ... . .
..
... ........ . .
. .... .
VIII
Sadržaj
3. METODA UZORKA ... . . . . . .. ... . . ... . . . . . .. . . .... . . . . .... .. . . . 99 3. 1 . Osnovne zadaće metode uzorka . ... ..... ..... .. . ... . .. . . . . . .. .... ... . .. 99 3.2. Distribucija procjenitelja . . . . . .. . .. . .. ..... . .... . . . . . . ........ ... . . 1 0 1 3 . 3 . Procjena aritmetičke sredine . . . . . .... . .... . " ........................................ 1 02 3.4. Procjena totala populacije . .. .. . . . . .. . .. . ... . .. .. ..... . 1 09 3.5. Procjena proporcije populacije .. . . . .. ... . . .. . . . . 1 10 3.6. Određivanje veličine uzorka u svrhu provedbe postupaka procjenjivanja .. ... 113 3.7. Ispitivanje pretpostavki o nepoznatim karakteristikama populacije . . 1 16 3.7. 1 . Testiranje hipoteze da je aritmetička sredina populacije jednaka nekoj vrijednosti ... .. .. . .... ..... . . .. .. . . . . . .... . . ... .. 1 1 6 3.7.2. Jednosmjerna testiranja ptetpostavki o nepoznatoj aritmetičkoj sredini populacije ... .. . . . . . .. .. . . .. . . . . 123 3.7.3. Ispitivanje pretpostavki o nepoznatoj proporciji populacije . . . . 1 27 .. .
.
. ..
.
.
. ...
...
.
.
.
.
.
.
.
..
.
.
....
...
.
.
.
.
. .
..
......
.
.
..
. .
. ..
.....
....
..
. .
.
.
.
..
.
...
. . ....
.
.
..
.
..
..
.
.
..
......
.
.
..
..
....
....
. ..
..
...
.
. .
..
.
..
. .. . ..
.......
.
.
..
.
.
.
..
... . . .
.
..
..
..
.
.
...
. ..
...
.
..
.
.
.....
............
.. . .
..
...
..
. . ..
..
..
.
..
...
.
......
. .... . .
. ..... .
...
..
..
..
.
...
....
.... . .
.
...
..
.
...
...
.
.
.
. ....
..
.
.
.. . .
.
..
.
.
.
...
..
.
. ....
.. . .......
..
.
.....
.
. ..
.....
.
.
.
..
. ..
..
.. .
.
..
4. REGRESIJSKA I KOREI.ACIjSKA ANALlZA ...... .. . . . . ... " . ............................... 1 3 1 4. 1 . Svrha regresijske analize . . . . . . .. .. ... . . . . .. . . ... 1 3 1 4.2. Dijagram rasipanja ... . . ... . ..... .. . . . ... . . . . ... . . . . . .. . .... .. 1 32 4.3. Jednostavna linearna regresija......... . . . . ...... . . .. . . ........ : ......................................... 1 34 4.4. Ocjena reprezentativnosti regresije ..... .. .... . . .. .. ... .. ..... . .. .. ... 1 40 4.5. Koeficijent linearne korelacije . . . . .. .. . . .. . . . . . .. .... ...... . ... . . . 1 45 4.6. I nferencijalno-statistički pristup regresijskoj analizi; tabela ANOVA . . . .. 1 48 4.7. Korelacija ranga . . . . .. . . .. . . . .. . . . . . . . . .. . 1 54 .
. . ....
.
..
.
. ...
....
.
. . .. .
..
..
.
... . .
.
...
..
.
.
.
..
......
.. . ..
.
.
.
.
.
.
.
.
.
..
....
...
..
. . . ... .. . ..
..
. ..
.
.
....
...
...
.
.
.. ..
.....
.
. ..
..
.
.
.
.
. . ..
... .
.
.
.
...
.
. . .... . .
..
....
..
..
..
..
..
.....
...
...... . ..
......
.... . .
..
..
.
..
...
..........
....
.
..
.
..
..
....
...
. .
..
..
..
..
..
..
...
.
.....
. ..
.
..
....
. . ..
5. VREMENSKI NIZOVI ...... .... . . . . . . . . . .. .. . .. . . . . ..... .. . 1 57 5. 1 . Vremenski niz - definicija i vrste . .. .. .. ..... . . . . . .. .. . .. . . .. .. . 1 57 5.2. Grafičko prikazivanje vremenskih nizova .. . . . . .. .. . . .. . . ... . . .... .. 1 58 5.3. Osnovni statistički pokazatelji vremenskih nizova . . . . .. ... . .. . ... .. .... . . . 1 68 5.3. 1 . Pokazatelji pojedinačnih apsolutnih promjena . . . . . .. . 1 68 5.3.2. Individualni indeksi . . . . . . . . . .. . . . 1 68 5.3.4. Skupni indeksi . . . . . . . .. . . . . . .. . 1 74 5.3.5. Srednje vrijednosti vremenskih nizova . .. . . . . . . 1 82 5.3.5.1 . Aritmetička sredina . .. . . . .. . . . . . . .... . 1 82 5.3.5.2. Kronološka sredina .. .. ... . . .... . . ... ..... . .. . .. . . 1 83 5.3.5.3. Geometrijska sredina . . .. . . .... . . . . . .... .. . . ... . .. 1 85 5.3.5.4. Trend . .. . .. . . . . . .. . .. .. . . . .. . .. . . .. 1 89 5.3.6. Neke jednostavne tehnike prognoziranja ... . . . . . . ... ... . 202 .
.
.
.
.
....... .. ..
.
..
. ..
.
.
.
..
. ...
.
.
.
.
..
...
.
..
.
.
.....
......
........
.
.
. ..
.
.. . ......
... . ...
.
...
...
. ..
.
.
.
..
..
..
. .. . ...... . ...............
. ....
..
. .. .. . . . . .... . ..
. ...
.
...
..
.
.......
.
.
...
..
..
. ...
.
.
... .
..
.
..
..
.
.
....
.. . .. . .
.
.
..
..
...
..
..
.
..
...
. .. .
..
.....
..
.
.
.
.
.
.
...
.
.
. ..
..
.
....
...
...
. ..
.
.
.
.
.
.. .
.
.
.
.
.
..
.
....... . .....
..
.
....
.......
.... .. . . ..... . .
..
.
..
. .... . .
... .
.... . .. . .
..
...
...
.
. ...
.
..... . ..
..
.
.
..
.
. ....
. ..
...
.
..
.
.
. ...
.
..
. .. . . . .
.
.
.. .
....
..
..
. ...
. . ......
. . ..
..
..... ......
.
. .. .........
.
.. . .
...
..
...
.
..
. . ..
........
...
... .
.
.
.
..
.. .
...
..
.
...
.
.
.
..
.....
.
.
. ..
Dodatak
........... . ...... . . . . . . . . ..................... ...................... ................... . . . ................. ..................
Literatura
..
. . ..
.. . . .
205
. . . . . .. . . . . .. . . . . .. . ....... ... ... . . . ... . . . . .. .. . . . .. . 2 1 O .. .
.
.
..
..
..
..
.
.
.
.
.
. ...
...
.
..
.
.. . .
.. . .
.. . .
.
....
.
..
.
..
.
.
.
.
..
.
UVODNI DIO 1.1. Poja m statisti ka Statistika je znanost o prikupljanju (najčešće brojčanih) podataka različite vrste, kojih je u pravilu mnogo, te o njihovu u ređenju, metodama analize i tumačenju. II svakodnevnom govoru riječ statistika rabi se i za već prikupljene i uređene podatke koji su objavljeni u obliku tabela, grafikona i slično.
1.2. Podaci Podaci (obilježja) su prikupljene informacije o jedinicama promatranja. Na primjer, prilikom popisa stanovništva jedinica promatranja je kućanstvo, a podaci jesu: broj članova kućanstava, njihova starost, bračno stanje, stručna sprema, zaposlenost, mjesečni prihodi, uvjeti stanovanja itd. Kod prikupljanja informacija o gospodarstvu jedinica promatranja je npr. poduzeće, a podaci ili obilježja su broj zaposlenih, njihove plaće, prihod poduzeća, veličina proizvodnje i sl.
2
POGLAVUE l
1.3. Statistički skup i osnovni skup ili populacija . Statistički skup čine jedinice promatranja. Skup prikupljenih podataka naziva se osnovni skup ili populacija. Opsezi tih dvaju skupova mogu se, ali ne moraju, poklapati. Primjeriee, ako je
jedinica promatranja poduzeće, tada statistički skup čine sva poduzeća. Zanima li nas izvoz nekog artiHa po pojedinim područjima, tada je broj podataka o izvozu, koji u tom slučaju čine osnovni skup ili populacij u, različit od broja poduzeća koja taj artikl proizvode jer pojedina poduzeća izvoze isti artikl u više zemalja. Ako nas zanima broj zaposlenih u pojedinim poduzećima, taela sc statistički skup i osnovni skup poklapaju. Statistički sc skup prij e početka prikupljanja podataka mora precizno definirati, i to pojmovno, prostorno i vremenski. To znači, treba utvrditi svojstva koja treba imati neka jedinica da bismo ju uključili u statistički skup, vezano za određeni prostor i vrijeme. Na primjer, ako kažemo skup studenata Veleučilišta Zagrebu školske godine 2000./200L, to podrazumijeva sve studente upisane na Veleučilište koji u toj godini imaju sva studentska prava. Izraz "student Veleučilišta" čini pojmovni dio definicije, oznaka školske godine je vremenski dio definicije, a naznaka da sc radi o Veleučilištu u Zagrebu njezin prostorni dio. Statistički skup je konačan ako se sastoji od konačnog broja jedinica. U protivnom je beskonačan. Statističkih podataka treba biti dovolj no. ZakljuČCi koje na osnovi njih donosimo utemeljeniji su ako je njihov broj veći. Prikuplj eni podaci variraju. Na primjer, broj zaposlenih u poduzećima nije isti, kao ni plaće zaposlenih, ni stručna sprema članova kućanstava. Stoga za prikupljene podatke (obilježja) često rabimo izraz varijabla. II
1.4. Prikupljanje podataka i izvori podataka
Svojstva elemenata statističkih skupova sc mjere. Način mjerenja ovisi o vrsti podataka koje namjeravamo prikupiti. Primjerice, ako nas zanimaju visina i težina studenata, uz njihovo ćemo imc pribilježiti njihovu visinu u centimetrima i težinu u kilogramima. Zanima li nas pak njihov uspjeh u srednjoj školi ili strani jezik koji su učili, uz njihovo ćemo imc pribilježiti prosječnu ocjenu, odnosno naziv stranoga jezika.
1.4.1. Mjerne skale Mjerenje svojstava elemenata statističkih skupova provodi se prema određenim pravilima koja su dana mjernim skalama, i to: nominalnom, ordinalnom, intervalnom i omjernom skalom.
UVO D N I DIO
3
Nominalna skala sc sastoji od liste naziva, kategorija, svojstava po kojima se jedinice statističkoga skupa razlikuju. U spomenutom slučaju prikupljanja podataka o stranom jeziku koji su studenti učili u srednjoj školi, nominalnu skalu čine nazivi stranih jezika poredani nekim proizvoljnim, najčešće abecednim redom. U svrhu identifikacije često se nazivima pridružuju brojevi, a to je ujedno i prikladnije za obradu pomoću računala. Podaci dobiveni primjenom nominalne skale čine nominalnu varijablu ili nominalno obilježje. Nominalno se obilježje katkad pojavljuje u samo dva oblika ili modaliteta, kao npr. spol, u kom slučaju govorimo o alternativnom obilježju. Ako je broj naziva, tj. modaliteta nominalne varijable velik, rabimo nomenklature. To su zakonski, dogovorom državnih organa ili međunarodnih organizacija utvrđeni uređeni popisi modaliteta nominalnog obilježja (nominalne varijable) kojima su pridruženi nomenklaturni brojevi. Tako se npr. služimo nomenklaturom zanimanja, vrsta privrednih djelatnosti, bolesti, uzroka smrti i sl. Posebnu podvrstu nominalnog obilježja čini geografsko obilježje, koje pokazuje povezanost jedinica statističkog skupa s nekim prostorom (npr. mjesto rođenja, mjesto stalnog boravka itd.). Podaci o geografskom obilježju prikupljaju se također pomoću nominalne skale. Ordinalnu skalu čine oblici ili modaliteti istog obilježja koji se međusobno razlikuju po intenzitetu. Takvo se obilježje naziva obilježje ranga, ordinalno ili redoslijedno obilježje. Primjeri ordinalnog obilježja su ocjena, visina zgrade (mjerena brojem katova), postignuti stupanj stručne spreme i sl. Modaliteti obilježja ranga redaju se od manjeg intenziteta prema većem ili obratno. Uobičajeno se modalitetima obilježja ranga pridružuju brojevi, ali nad njima nisu dopuštene brojčane operacije. Npr. dva puta ocjena dovoljan (2) nije ekvivalent ocjeni vrlo dobar (4). Intervainu skalu čine brojevi kojima se mjeri neko svojstvo na taj način da jednake razlike brojeva na toj skali predstavljaju jednake razlike mjerenog svojstva. Položaj nule i mjerna jedinica određeni su dogovorno, kao npr. kod temperaturne skale (ledište vode označeno je nulom). Omjerna se skala sastoji od brojeva čije je.dnake razlike također predstavljaju jednake razlike mjerenog svojstva, ali za razliku od prethodne skale, nula znači nepostojanje mjerenog svojstva, nije utvrđena dogovorom. Starost, težina, cijena, dobit, primjeri su obilježja koja su izražena brojevima do kojih se dolazi primjenom omjerne skale. Ti sc brojevi nazivaju vrijednostima numeričke varijable ili vrijednostima numeričkog obiljcžja. Nad brojevima dobivenim mjerenjem pomoću intervalne skale, kao i onima dobivenim primjenom omjerne skale, dopuštene su osnovne računske operacije. Numerička varijabla (obilježje) može biti diskretna ili diskontinuirana i kontinuirana. Diskretna numerička varijabla može poprimiti prebrojivo mnogo vrijednosti. Obično je broj vrijednosti takve varijable konačan i ona je najčešće cjelobrojna, kao npr. broj djece u obiteljima, broj prodavača u prodavaonicama, broj otkazanih rezervacija itd. Kontinuirana numerička varijabla, za razliku od diskontinuirane, može poprimiti svaku vrijednost između dva broja, dakle u nekom intervalu i mogući broj njezinih vrijednosti je beskonačan (zato jer
4
POGLAVUE 1
se svaki i najmanji interval može prepoloviti i tako unedogled.). Kontinuirane numeričke varijable su, na primjer, visina, težina, duljina. Između visine od 170 i 180 cm teoretski je moguće
bczbroj međuvrijednosti, mada je njihov broj u praksi ograničen stupnjem
preciznosti mjernog instrumenta.
1.4.2. Faze statističkog istraživanja Kao što je već rečeno, statistički su podaci promotrena svojstva (obiljcžja) jedinica statističkog skupa.
Do njih se dolazi statističkim promatranjem, najvažnijom fazom
statističkog istraživanja. Podatke je potrebno, prikupiti prema unaprijed utvrđenom planu istraživanja. Samo stručno prikupljeni podaci osiguravaju kvalitetnu informaciju o pojavi koja se istražuje. Stoga prikupljanju podataka prethodi: a) definiranje ciljeva istraživanja, b) definiranje statističkog skupa, tj. jedinica promatranja, c) izbor obilježja i definiranje njihovih oblika (modaliteta), d) sastavljanje upitnika ili obrazaca evidencije, e) određivanje načina prikupljanja podataka (anketiranjem, putem pošte, telefona i sL),
f) planiranje načina obrade podataka pomoću računala.
Prikupljanje podataka promatranjem, tj. podataka iz primarnih izvora, često je povezano s velikim izdacima. Zato se, kad god je to moguće, nastoje iskoristiti već prikupljeni podaci, tj. podaci koje su prikupile i publicirale statističke i drugc ustanove. U tom slučaju govorimo o podacima iz sekundarnih izvora. Prednost korištenja već prikupljenih podataka je, osim znatno nižih troškova i njihova relativno brza dostupnost. Promatranje je iscrpno (cenzus), ako se prikupljaju podaci o obiljeŽjima svih jedinica
promatranja. U protivnom, tj. obuhvati li se promatranjem samo dio jedinica, ono je reprezentativno. S obzirom na vrijemc provedbe, statistička promatranja mogu biti jednokratna, periodična i tekuća. Jednokratna se sastoje u prikupljanju podataka o obiljeŽjima jediniea u kritički vremenski trenutak (primjer: popis stanovništva). Ponavljaju li se promatranja jedinica nakon određenoga vremenskog razmaka, govorimo o periodičkom promatranju (primjer:
registracija vozila, godišnja prijava poreza). Tekućim se promatranjem (evidencijom) prikupljaju podaci u određenom vremenskom intervalu. Na primjer, podaci o novorođenima evidentiraju sc po satima, danima, mjesecima itd. Slično sc prikupljaju podaci o proizvodnji, prodaji i mnoštvu drugih pojava.
1.4.3. Matrica podataka Prikupljeni podaci uobičajeno se prezentiraju u obliku matrice podataka. Označimo matricu sa D (od engleskog: data), a njeZine clemente od kojih svaki predstavlja pojedinačni podatak
UVODNI DIO
5
ili obilježje, sa dij Uz pretpostavku da s u prikupljeni podaci o K obilježja za N elemenata statističkog skupa, njezin je izgled sljedeći:
Pojedini redak te matrice naziva se entitet. Proizvoljni, i-ti redak sadrži sve podatke, tj. sva obilježja koja se odnose na i-tu jedinicu promatranja. Proizvoljni, j-ti stupac sadrži podatke o istom obilježju (obilježjuj) za svih N elemenata statističkog skupa. Stupac matrice podataka ili nekoliko njih naziva se poljem (engl.: field). Prilikom planiranja statističkog promatranja potrebno je voditi računa o karakteristikama raspoloživog računala, posebno o njegovoj memoriji. Važno je poznavati i postupak unosa te način skladištenja i kasnijeg korištenja podataka. Kako je, zbog velikih troškova i velikog utroška vremena, poželjno koristiti se podacima iz sekundarnih izvora, sve je češće korištenje podataka iz baza podataka I drugih u stanova. U tom slučaju treba unaprijed razmotriti i mogućnosti njihove konverzije u oblik u kome ih prihvaća računalo na kome će se obrađivati.
1.4.4. Podjela na deskriptivnu i inferencijalnu statistiku Statistika koja se bavi organiziranim prikupljanjem podataka, metodama njihove prezentacije i njihovom analizom u cilju pružanja jasne, koncizne i točne informacije o istraživanoj pojavi naziva se deskriptivnom statistilwm. Predmet inferencijalne statistike su statističke metode i tehnike koje omogućuju da se na osnovi dijela informacija koje čine podskup skupa podataka, zaključuje o karakteristikama cijeloga skupa podataka (populacije).
l) Bazapodataka je skup medusobno povezanih podataka namijenjenih zadovoljenju potreba različitih tipova krajnjih korisnika. Baza podataka je također i skup programa koji omogućuju da se prikupljeni podaci na jedinstveni način efikasno i jednostavno održavaju i rabe.
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATISTIKE 2.1. Uređivanje podataka i formiranje statisti čkih nizova Deskriptivna statistika obuhvaća postupke uređivanja, prezentacije i analize prikupljenih podataka. Prikupljene podatke treba prije svih daljnjih postupaka urediti. Izdvoje li se iz skupa podataka podaci o jednom obilježju i urede li se i nanižu prema nekom pravilu, nastat će statistički niz. j"\aziv niza istovjetan je s vrstom obilježja pa govorimo o nominalnim, ordinalnim) numeričkim itd. nizovima. I
l) Posebnu Vistu nizova čine vremenski nizovi, koji se zbog svojih specifičnosti razmatraju u zasebnom poglavlju ove knjige,
8
POGLAVU E 2
Najčešće je broj podataka s kojima raspolažemo vrlo velik, tako da se redovito radi o prevelikom broju informacija o pojavi koju želimo istražiti, prevelikom a da bi ih ljudski mozak mogao bez prethodne prerade usvojiti. Puko nas nizanje podataka stoga ne zadovoljava. Zadaća je deskriptivnih metoda, medu ostalim, da sumarno zahvate prikupljene informacije i na taj način reduciraju njihov broj . Pritom u reduciranim informacijama moraju ostati sačuvane glavne značajke pojave koja se istražuje, tj. slika pojave ne smije biti iskrivljena. U tu se svrhu najprije provodi postupak grupiranja ili klasifikacije podataka. Grupiranje je raščlanjivanje skupa od N podataka u k grupa (podskupova) prema prethodno utvrdenim modalitetima danog obilježja. Pri provedbi grupiranja poštuju se principi iscrpnosti i medusobne isključivosti. Drugim riječima, to znači da svaki podatak mora b iti obuhvaćen grupiranjem, kao i da svaki podatak mora biti svrstan u samo jednu grupu.2 Grupiranje može biti ekstremno jednostavno, kao što je npr. slučaj kod alternativnog obiljeŽja "spol" kad se u jednu grupu svrstaju svi muškarci, a u drugu sve žene iz danog skupa podataka, ali može biti i vrlo komplicirano . Treba uvijek imati na umu da se grupiranjem gube pojedinačne informacije o obilježjima jedinica pa valja voditi računa da se grupiranjem ne izgube bitne značajke skupa podataka. Broj podataka u grupi naziva se apsolutna frekvencija. Formirani nizovi nose naziv prema vrsti nanizanih podataka, odnosno prema vrsti nanizanih grupa podataka, npr. nominalni, ordinalni, numerički niz. Ako su podaci samo nanizani nekim redom, govorimo o negrupiranom statističkom nizu, o nizu pojedinačnih podataka. Ako su podaci prethodno grupirani, govorimo o grupiranom n izu podataka. Svaki grupirani niz možemo shematski predočiti kao skup parova danog obilježja i pripadnih frekvencija. Obilj ežj e koje čini prvi dio para može biti iskazano pojedinačno, ako je broj oblika iJi modaliteta obilježja malen, kao npr. kod alternativnog obilježja "spoJ", "podrijetlo turista" (domaći i strani) ili kod ordinalnog obilježja (obilježja ranga) "ocjena" ( I do 5). Ako je broj modaliteta obilježja veći, tada se preglednosti radi može provesti stezanje više modaliteta istog obilježj a u jednu grupu - obično na kraju statističke tabele. Na primjer, želimo li osobe grupirati prema znanju stranih jezika, možemo formirati posebne grupe za engleski, njemački, francuski, talijanski i ruski te grupu "ostalo" za sve druge jezike. Radi li se o velikom broju modaliteta numeričke varijable, tada se za više modaliteta istog obilježja stegnu tih zajedno, umjesto naziva grupa rabi naziv razred ili klasa. Uz pretpostavku da je formirano k grupa obilježja, i grupirani statistički niz čini skup parova:
=
l ,2, .. . ,k
(Čitaj:
i
ide od jedan do k),
{obilježje i-te grupe ili razreda, pripadna, tj. i-ta frekvencija.}.
2) JIllikom algebre skujlOVlI s e poštivanje principa iscrpnosti i međusobne isključivosti formulira kao raščlanjivanje (particija) skupa od N podataka u k disjuoktnih podskupova • dakle takvih !\oji se ne preklapaju, lj. čiji je presjek prazan.
9
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATISTIKE
Simbolički, to oznacuJemo ovisno o danom obilježju. Ako se radi o nominalnom ili atributivnom obilježju, čiji i-ti modalitet, tj. modalitet i-te grupe označujemo sa
aj,
te uz
oznaku /; za pripadnu frekvenciju, grupirani nominalni niz čini skup parova
(2.1) Analogno, uz oznaku
Tj
za i-ti oblik ili modalitet redoslijednog obilježja, redoslijedni ili
ordinalni niz čini skup parova:
(2.2) za razliku od nominalnog niza, kod kojega je poredak grupa proizvoljan, kod ordinalnog niza su obilježja poredana bilo prirodnim redom, počevši od najmanjega do najvećeg intenziteta svojstva koje se tim obilježjem iskazuje, bilo obrnutim. Tabele koje slijede sadrže po jedan grupirani statistički niz. Tabela a tabela 2.2. redoslijedni statistički niz.
2.1. sadrži nominalni niz,
.. Tabela 2. l. Poduzeća prema obliku vlasništva u RH 1992. Oblik vlasništva l
društveno
Broj poduzeća 2
2501
zadružno
3
mješovito
231
Ukupno
2735
Izvor: Slat ljetopis 1992, str. 48
.. Tabela 2.2. Osobe prema stupnju naobrazbe stečenom 1990. u RH Stupanj naobrazbe l
Broj osoba 2
osnovna
62310
srednja
42408
viša
3284
visoka
6422
Ukupno Izvor: Mjesečno slat. izvješće 8, 1992., str. 42
114424
10
POGLAVLJE 2
Tabela 2.1. sadrži podatke koji su svrstani u tri grupe, prema tri modaliteta nominalnog obilježja (varijable). Poredak grupa, tj. oblika vlasništva je proizvoljan, tj. mogli smo ih i drugačije poredati. Podaci u tabeli 2.2. svrstani su u četiri grupe, prema četiri modaliteta ordinalnog obilježja poredanih od manjeg postignutog stupnja naobrazbe prema većem, a mogli smo ih poredati i obrnutim redom. Brojevi u stupcu 2 obiju tabela su apsolutne frekvencije. Numeričko obilježje se uobičajeno označuje sa X, te njegova i-ta vrijednost sa Xi' Ako numeričko obilježje poprima manji broj vrijednosti, što je moguće samo ako je ono diskretno (diskontinuirano), tada grupirani numerički niz čini skup parova:
{ Xi' j; } .
(2.3)
Grupirani numerički niz naziva se distribucija frehvencija. Tabela 2.3. sadrži primjer distribucije frekvencija diskretne numeričke varijable "broj djece" . ..... Tabela 2.3. Anketirane obitelji prema broju djece Broj obitelj i
Broj djece l
2
O
7
l
9
2
13
3
7
4
4
Ukupno
40
Podaci su simulirani.
Numerička varijabla "broj djece" u ovom primjeru ima svega pet modaliteta (vrijednosti), tj. broj se djece u 40 anketiranih obitelji kreće od nule do četiri. Zbog maloga broja modaliteta, moguće je bilo formirati grupe O 4 i nakon prebrojavanja podataka uz svaku oznaku broja djece u stupcu br. l, pridružiti u stupcu br.2 odgovarajući broj obitelji. Brojevi u stupcu br. 2 su apsolutne frekvencije. Sve jedinice u grupi imaju istu vrijednost obilježja, tj. istu Vrijednost numeričke varijable. Znači, svih sedam obitelji je bez djece. svih devet obitelji ima po jedno dijete, svih trinaest obitelji ima po dva djeteta itd. -
Ako je numeričko obilježje (numerička varijabla) kontinuirano. tada se podaci grupiraju na osnovi razreda (klasa), i to tako da se formiraju razredi, tj. intervali susjednih vrijednosti obilježja i njima pridruže jedinice (podaci) čije su vrijednosti unutar raspona granica danoga razreda. Razredi, tj. intervali obilježja, omeđeni su s dva broja koji se nazivaju granice
II
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATISTIKE
razreda. Donju granicu i-tog razreda označit ćemo sa Lu, II gornju granicu sa L2.> U i-ti se razred svrstavaju podaci s vrijednosti obilježja izmedu granica toga razreda, to jest: •
Iz prethodnog se izraza vidi da se radi o intervalima tipa [ ), tj. o poluotvorenim intervalima. Na primjer, zanima li nas visina studenata (u cm) i definiramo li granice razreda: J 60 l65 l6S - l70 l70 J 75 itd., -
svrstati sve studente čija je visina 160 cm ili veća, ali je manja od J 65 cm. U pm cemo Oni sa J 6 5 cm visine svrstavaju se u drugi razred itd. Brojčano se gornje granice na taj način formiranih razreda podudaraju s donjim granicama razreda koji slijede. Takve se granice nazivaju prave. Dakle, ako je provedeno grupiranje na temelju razreda na opisani način, tada grupirani numerički niz, tj. distribuciju frekvencija kontinuirane numeričke varijable, čini skup parova: Xi
slijedi da je
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATISTIKE
45
a + bdi ' Kako t o vrijedi za sve vrijednosti varijable, tj. za svaki i, njihovim zbrajanjem dobivamo
Xi
N
N
L >i Na + bIA · i=l Dijeljenjem ovog izraza s N , direktno dolazimo do izraza (2. 1 7.). Zelimo li pokazati da on i=l
vrijedi i za distribuciju frekvencija, potrebno je prije zbrajanja izraz Xi =
a + bdi
pomnožiti s pripadnom frekvencijom, tj. sa];: Xi]; = a]; + bdJi ' Zbrajanjem po i, tj. zbrajanjem svih k takvih jednadžbi (podsjetimo se, odnosno razreda u distribuciji frekvencija) dobivamo k
k
k
k
je broj grupa,
k
L xJ; = aL /; + b L d!/; . Dijeljenjem ovog izraza zbrojem frekvencija LJi i =l ;=1 i=l 1=1
'
ponovno dobivamo izraz (2. 1 7.). Do istog smo rezultata mogli doći i da smo izraz xi=a+bdi umjesto s apsolutnim, množili s relativnim frekvencijama. U slučaju takvog postupka s proporcij ama, posljednje bi dijeljenje zbrojem relativnih k
frekvencija otpalo, budući da je L p i=l
i
=l.
Kod istovjetnog postupka pomoću postotaka bilo bi potrebno k zbrojenih jednadžbi podijeliti sa 1 00. Računanje aritmetičke sredine pomoću linearne transformacije obilježja pokazat ćemo na tri mala simulirana primjera, od kojih je prvi primjer negrupiranih, pojedinačnih vrijednosti numeričke varijable, dok su druga dva primjeri distribucije frekvencija. .....
Tabela 2 . 2 4 . Proizvodnja artikla �IAI! , u kom . , za bilježena kod petorice radn i ka Proizvodnja u kom. Xi
Xi - a
360
-20
-1 -0,5 O
l
2
370
-10
380
O
di 3
420
40
2
470
90
4,5
2000
-
5
46
POG LAVUE 2
Sva su petorica radnika ukupno proizvela 2000 komada tog artikla, što je total koji podijeljen na pet članova toga skupa daje prosječno 400 komada po radniku. Izraženo formulom, takvo izravno računanje glasi: 5
X
=
2:> i �
=
N 2 i 3
2000
5
400
kom.
U stupcima br. proveden je postupak linearne transformacije. Od svake je pojedine vrijednosti varijable X, sadržane u prvom stupcu, u sljedećem stupcu oduzeta ista brojka, tj. odabrana konstanta 380. U posljednjem, trećem stupcu su sve razlike x;-380 iz stupca br. 2 podijeljene s 20, tj. konstantom b. Na taj su način dobivene linearno transformirane, odnosno kodirane vrijednosti varijable X. Konstanta je proizvoljno odabrana. Odabrana je brojka 3 80 čija je pozicija u sredini uređenog niza, tako da razlike budu što je moguće manje. Za izračunane razlike u stupcu 2 pokazalo se da je moguće njihovo kraćenje brojem 20, pa je on izabran za konstantu b, S transformiranim vrijednostima varijable D postupamo na isti način kao i s originalnim vrijednostima numeričke varijable, tj. računamo njihov prosjek pomoću izraza: a
x;-a
Xj-a
5
d
=
L d;
�
N
= 2. = l
5
Uvrštenjem tog rezultata u izraz (2. 1 7.) dobivamo:
x = a + bd
=
3 80 +20· l
400 kom,
kao što smo to i prije izravno izračunali dijeljenjem totala opsegom skupa podataka. Slijedi prvi od dva primjera računanja aritmetičke sredine pomoću kodiranja za distribuciju frekvencij a. .... Tabela 2 . 2 5 . Broj pogrešn i h odgovora 80 studenata na testu iz statistike Broj pogrešnih odgovora
Broj studenata
Podtotali
Xi
fi
Xdi
di
dt
O
5
O
l
7
7
-3 -2
-15 - 14
2
15
30
-l
-1 5
I
2
3
4
5
3
19
57
O
O
4
20
80
l
20
5
10
50
2
20
6
4
24
3
12
Ukupno
80
248
-
8
47
OSNOVNI POJ M OV I I TEHNIKE DESKRIPTIVNE STAT I STI K E
U stupcu br. 3 provedeno je najprije izravno računanje subtotala množenjem originalnih vrijednosti diskretne numeričke varijable "broj pogrešnih odgovora" pripadnim frekvencijama. Zbrojeni, oni daju total 248, tj. ukupni broj pogrešnih odgovora svih 80 studenata. Aritmetička sredina , računana izravno kao N-ti dio totala na jedinicu populacije iznosi: 248 80
= 3 I pogresni odgovor. > ,
;=]
Do istog se rezultata dolazi primjenom linearne transformacije di Xi -3. Kao konstanta je odabrana vrijednost središnje grupe, tj. 3 . Razlike Xi -3 izračunane u stupcu br. 4 nemaju zajedničkog djelitelja osim broja l , koji je u takvom slučaju konstanta kodiranja h. Stoga smo do kodiranih vrijednosti numeričke varijable došli u samo jednom koraku, tj. bez kraćenja. Daljnji se postupak s kodiranim vrijednostima di odvija na isti način kao i prethodno s originalnim vrijednostima. Računa se njihova vagana aritmetička sredina: 7
"I d ,fj ;=]
Izračunani prosjek kodirane varijable, tj. 0, 1 , uvrštavamo u izraz aritmetičku sredinu originalne varijable X: X=
a
+
bd
3 + 3, l = 3 , 1
(2. 1 7.)
za traženu
pogrešni odgovor.
Postupak kodiranja pokazali smo na primjeru distribucije frekvencija diskretne numeričke varijable s formiranim grupama. Kod distribucije frekvencija s formiranim razredima kao konstanta kodiranja odabire se neka od razrednih sredina (obično pozicionirana sredini niza), kraćenje razlika Xi je najčešće moguće jednom od veličina razreda, koja se u tom slučaju odabire kao h. To ćemo pokazati na sljedećem primjeru: a
a
a
u
48
�
POGLAVUE 2
Tabe l a 2 . 2 6 . Trgovačke rad nje poduzeća A prema ostvarenom mjesečnom prometu , u 000 kn : "
Razredne s redine
"
Promet u 000 kn
Broj radnj i
Xi
ji 2
Xi
Xiji
Xi - G
di
dJi
30 - 40
2
35
70
-3
-6
40 - 50
5
45
225
-30 - 20
-2
-10
50 - 60
10
55
550
-10
-l
-10
l
Podtotali
3
6
7
60 - 70
12
65
780
O
70 - 90
10
80
800
15
1 ,5
15
90 - 1 1 0
9
100
900
35
3,5
3 1,5
1 1 0 - 1 50
2
130
260
65
6,5
13
U kupno
50
-
3585
-
O
-
O
33,5
Iz tabele se vidi da je kao konstanta kodiranja odabrana sredina četvrtog razreda 65, te da su razlike 65 iz stupca br. 6 u sljedećem, sedmom stupcu podijeljene s 1 0, što je veličina prvih četiriju razreda. Sve ostalo je kao u primjeru prethodne distribucije frekvencija. Aritmetička je sredina ponovno izračunana na dva načina. Njezino računanje putem totala daje: X;
-
7
x
=
L xJ i-I
7
L li
3 :> 8 5 50 _
= -- =
7 1 7 tisuca ' kuna. ,
'
i=1
Do istog rezultata ponovno dolazimo korištenjem rezultata linearne transformacije: 7
Ld;!;
x = a + bd
0,67
6 5 + 1 0·0,67
i
=
7 1 ,7
tisuća kuna.
Već je na početku rečeno da je aritmetička sredina najviše upotrebljavana srednja vrijednost. Tome su uzrokom njezina svojstva:
OSNOVNI POJMOVI I TEH N I KE DESKRI PTIVN E STATISTIKE
49
l) Zbroj odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine jednak
je nuli. To svojstvo možemo formalno iskazati pomoću sljedećih dvaju izraza, od kojih se prvi odnosi na negrupirane podatke, na pojedinačne vrijednosti numeričke varijable, a drugi vrijedi za slučaj kad je formirana distribucija frekvencija. U prvom slučaju vrijedi i=1
k
a u drugom "L Ji (X i - x) = o . i=1
N
N
N
N
i=1
i=1
i=1
i=1
Dokaz: L )x i - x) = LX i - Ni = LX i - L X i = O , odnosno, ako je formirana distribucija frekvencija, k
k
k
k
k
L ( X i - x)Ji = L X ;!i - XL Ji = L X;!i - L X ;!i = o . i=l i=l i=1 i=1 i=l
2)
Zbroj kvadrata odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine je minimalan. To svojstvo opet iskazujemo dvama izrazima, i to: N
L (x i - x)2 = min i=l
za pojedinačne podatke i k
L (X i _ X)2 Ji = min i=l
za distribuciju frekvencija. Dokaz: N
N
N
i=1
i=i
L (Xi - x) 2 + 2(x; - x)(x i=1
- a) + (x - a)2] =
L (Xi i=l N
N
[
L ( X; i=l N
N
_ x)2 + 2(x - a)L (x; - x) + N(x - a)2 i=i
L (X i _ x)2 + N(x - a)2 i=l
2
a) 2 = L (xi - x + x - a)2 = L [(X; - x) + (x - a)]
=
50
POGLAVLJE 2
Za grupirane podatke dokaz je u suštini isti, osim što se sumira od l do k i što se kvadrati odstupanja a prije zbrajanja množe pripadnim frekvencijama. Aritmetička se sredina uvijek nalazi unutar raspona vrijednosti pomoću kojih je izračunana. Ona se, znači, nalazi između minimalne i maksimalne vrijednosti obilježja, tj. Xi
3)
Izraz (2. 1 3 . ) za vaganu aritmetičku sredinu ima široku pnmJenu. Ako, npr., raspolažemo podacima o aritrnetičkim sredinama nekoliko osnovnih skupova, kao i o njihovim opsezima, tj. raspolažemo podacima:
te pripadnim opsezima skupova se sredina aritmetičkih sredina računa kao njihova vagana sredina, pri čemu kao ponderi služe opsezi skupova za koje su pojedine aritmetičke sredine prethodno izračunane. Sve aritmetičke sredine, naime, nemaju jednaku važnost. Veću važnost pridajemo aritmetičkoj sredini izračunanoj iz veće populacije. Aritmetička se sredina aritrnetičkih sredina dakle računa pomoću obrasca:
aritmetička
k
x
L xi N i
= -=7--
(2. 1 8.)
i=l
Pritom opsezi skupova Ni ne moraju nužno biti poznati u točnim iznosima. Dovoljno je znati u kom su oni međusobnom odnosu. Na primjer, znamo li da su oni u odnosu 3: 2: 5 l , onda se i ti brojevi, kojima smo procijenili njihove međusobne odnose, mogu iskoristiti kao ponderi pri računanju vagane aritmetičke sredine aritrneličkih sredina. TJ tom slučaju imamo modifikaciju izraza (2 . 1 8.) : :
k
x
L
Xj W j
1=1
(2. 1 9.)
pri čemu su W1,W2, . " , Wk ponderi proporcionalni opsezi ma populacija N, .
51
OSNOVNI POJ MOVI I TEH N I KE DESKR I PTIVNE STATISTIKE
Primjenu izraza (2.18.) pokazat ćemo na sljedećem primjeru: ....
Tabela 2 .2 7 . Prosječn i radn i staž zaposlen i h u podružn icama A, B i e Prosječni radni staž u godinama
Podružnica
Xi
2
1
Broj zaposlenih
kol.2 x kol.3 ukupni radni staž zaposlenih
Ni
Ti 4
3
A
5,2
50
260
B
7,8
70
546
e
1 2,6
1 20
1512
240
23 1 8
-
Ukupno
x
2318 240
==
9,7 godina.
Prosječni smo radni staž radnika svake od podružnica pomnožili pripadnim brojem zaposlenih i na taj način dobili koloni 4 totale T; ( Ti xjN; ) svih triju podružnica. Zbrojeni totali na dnu kolone 4 daju ukupni radni staž zaposlenih svih trij u podružnica zajedno, tj. 23 1 8 godina, što podijeljeno ukupnim brojem zaposlenih daje traženi prosjek. Daljnje primjene izraza za vaganu aritmetičku sredinu imamo kod računanja prosjeka relativnih brojeva, i to kod računanja prosjeka relativnih brojeva koordinacije i kod postotaka. U oba slučaja kao ponderi služe baze relativnih brojeva ili procjene njihovih baza svakom su slučaju brojevi proporcionalni bazama relativnih brojeva u pitanju. il skladu s time, izraz za vaganu aritmetičku sredinu relativnih brojeva koordinacije glasi: li
=
u
k
L P.;Bi;
(2.20.) ;=1
ili, ako ne raspolažemo točnim veličinama baza, već njima proporcionalnim veličinama Wj: k
p.
L RjWj
(2.21.) ;=1
Analogno, takva dva izraza za računanje prosjeka postotaka glase:
52
POGLAVU E 2
(2.22.)
k
L Pj Wj
P = -"j=-:�--
(2.23.)
Wi L i=t
Primjer postupka računanja prosjeka postotaka dan je u tabeli 2 .28. �
Ta bela 2 . 2 8 . Godišnji promet i postota k d obiti od ostvarenog prometa u pod ružnicama A, B i e Dobit u %
Promet u mil. kn.
Podružnica
kol. 2 x kol. 3 m il.
=
Di 4
2
57
Pi 3 5,1
2,907
B
1 02
1 ,8
1 ,836
e
26
5,7
1 ,482
-
6,225
c;
l A
185
Ukupno
Prosječna dobit
6,225 =
185
1 00
dobit u
3,36% .
tabeli 2.28. prikazan je postupak računanja prosjeka triju postotaka primjenom izraza (2. 1 8. ) M noženjem brojeva u stupcu 2 s onima u stupcu 3 , te dijeljenjem sa 1 00 radi iskazivanja u mi!., dobivena je u stupcu 4 dobit, koja je zatim zbrojena i podijeljena s ukupnim prometom, te ponovno pomnožena sa 1 00 radi iskazivanja u %. U
9) Korištena je uobičajena notacija pri definiranju postotaka: P, = i-ti postotak, O, = i-ti dio, C;
i- ta cjelina, tj.
IJi
Ci
1 00 .
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATIST I K E
53
2.3.2. Harmonijska sredina Harmonijska sredina se definira kao recipročna vrijednost aritmetičke sredine recipročnih vrijednosti numeričke varijable. za pojedinačne podatke ručunamo ju pomoću izraza: H
N
-:---:-----=-1- ' odnosno, kraće zapisano, +
N
H=
,=1
+ . .. + -
, uz uvjet Xi *0 za svaki i.
(2.24.)
Xi
Vagana Hi ponderirana harmonijska sredina dana je izrazom: H
JI + J2 + . . . + J{k f + .-2 f + . . . + _l_,k -1. Xk XI X2
, odnosno
, uz uvjet Xi *0 za svaki i.
H
(2.25)
Razmotrimo slučaj primjene harmonij ske sredine. Da bi se dobio povrat uloženih l mil. kn putem ulaganja u investicijski projekt A, potrebno je 1 2 mjeseci, ulaganjem u projekt B 6 mjeseci, i u projekt e 4 mjeseca, Ako investitor irna uložen isti iznos, tj. l mil. kn u sva tri projekta tijekom razdoblja od 12 mjeseci, koliko je u tom slučaju prosječno vrijeme povrata jedinice uloženog kapitala? U ovom bi slučaju bilo pogrešno računati aritmetičku sredinu, tj . . 12 + 6 + 4 3
::: 7 ' 3 3
mJ'eseci.
Naime, u razdoblju investiranja od 1 2 mjeseci investicija A rezultirala je s l mil. kn, investicija B s 2 mil. kn i investicija e s 3 mil. kn, odnosno, sve tri investicije odbacile su kroz 12 mjeseci 6 miL kn zajedno. Pornnožirno li 6 sa 7 , 3 3 dobivamo znatno više od 36 mjeseci koliko je iznosilo vrijeme ulaganja u sva tri projekata zajedno. Naime, ukupno vrijeme investiranja podijeljeno rezultirajućim kapitalom daje prosječno vrijeme povrata jedinice uloženoga kapitala. Stoga traženi prosjek pomnožen rezu!tirajućim kapitalom mora dati ukupno vrijeme investiranja. Tom zahtjevu udovoljava harmonij ska sredina. U ovom slučaju ona iznosi:
54
POGLAVUE 2
H
= -:1
3
-::---:1 + 6 4
6 mjeseci.
-
12
+
Napomena: Budući da su u ovom slučaju svi ponderi jednaki, zbog jednakog razdoblja investiranja u svaki od projekata, tj. 1 2 mjeseci, svejedno je koristi li se izraz za vaganu ili za jednostavnu harmonijsku sredinu. Da smo se koristili izrazom za vaganu harmonijsku sredinu, svi bi se ponderi pokratili s dvanaest i na taj se način sveli na gornji izraz. Pomnožirno li dobiveni rezultat sa 6 (s rezultirajućim kapitalom), dobivamo 36, tj, ukupni broj mjeseci trajanja svih triju ulaganja. Vagana se harmonijska sredina rabi u svrhu računanja prosjeka relativnih brojeva kada raspolažemo brojnicima relativnih brojeva (ili procjenama brojnika), a nedostaju nam podaci o njihovim bazama, tj. nazivnicima" U takvim slučajevima rabimo brojnike (ili njihove procjene) kao pondere u izrazima za vaganu harmonijsku sredinu. Tako, na primjer, izraz za vaganu harmonijsku sredinu relativnih brojeva koordinacije glasi k
R
:�:>i
(2.26.)
te za vagan u harmonijsku sredinu postotaka k
IDi
(2.27.)
U to se pravilo uklapa i gore opisani primjer, budući da je prosječno vrijeme povrata jedinice uloženoga kapitala omjer ukupnog trajanja ulaganja i rezultirajućega, proizvedenog kapitala. Vremensko trajanje ulaganja je brojnik vremena povrata jedinice uloženoga kapitala, pa je stoga računana harmonijska sredina, Općenito. kod računanja prosjeka relativnih brojeva treba imati na umu smisao prosjeka, a taj je da je on kVOcijent zbroja svih brojnika i zbroja svih nazivnika relativnih brojeva čiji se prosjek računa.
Značenje prosjeka relativnih brojeva postat će nam vidljivo razvijemo li izraze za vaganu aritmetičku i zatim za vaganu harmonijsku sredinu:
OSNOVNI POJMOVI I TEH N I KE DESKRI PTIVNE STATISTIKE
k
55
k
k V,
I R; B ij I -Lj , Bj ; ] = B R = j= k k I Bj I B; j=! ;=]
IV
]
i
i=1
R=�=�=
k "
k
V Vj I -j I Ri i=l i=1
II
i=l
oba smo dakle slučaja dobili isto, što smo i željeli pokazati.
...
Tabela 2 .2 9 . Dobit i postotak dobiti od ostvarenog prometa u podružnicama A, B i e Dobit u
Podružnica
Di 2
l A
kol. 2:koL3 promet u mil kn .
Cj
4
5, 1
57
B
1 836
1 ,8
102
e
1 482
5,7
26
6225
-
ProsJecna dob'lt :::: �
Dobit u %
Pi 3
2907
Ukupno
.
000 kn
6,225 -_ .
185
1 00
185
10 . ')J,J') 601
II
tabeli 2.29. prikazan je postupak računanja prosjeka triju postotaka primjenom izraza za ponderiranu harmonijsku sredinu. Dijeljenjem dobiti pojedinih podružnica pripadnim postotkom dobiti (stupac 2 stupac 3), te množenjem dobivenih kvocijenata s 1 0 poradi iskazivanja prometa u miL kn, dobiveni su podaci o prometu u stupcu 4. Na kraju je ukupna dobit (u miL kn) podijeljena ukupnim prometom i pomnožena sa 1 00, kao što je to UČinjeno i prije (vidi tabelu 2.28.) , kad je za iste postotke dobiti računana vagana aritmetička sredina. (2.27 . )
:
56
POGLAVLJE 2
2.3.3. Geometrijska sredina Geometrijska sredina, koja također spada u potpune srednje vrij ednosti kao i aritmetička i harmonijska, definira se kao N- ti korijen iz produkta N faktora, tj.: (2.28.)
G
Izraz za geometrijsku sredinu može se zapisati na kraći način tako da se za naznaku produkta znak množenja I11O, pa se prethodni izraz transformira u
N faktora upotrijebi G
',,V� D xi
'
uz uvjet da sve v:-ijednosti budu pozitivne, tj. x > 0, \:fi. I I x
za prije analizirani prImjer 2 5 zaposlenih, za koje smo u odsjeku 2.3. 1 . izračunali jednostavnu aritmetičku sredinu, izračunat ćemo i geometrijsku sredinu primjenom izraza (2.28.) , tj.
G
2?1 8 · 1 9 · 1 9 · 0 0 . · 62 == 27,75
godina.
Vidimo da je izračunana geometrijska sredina manja od prethodno izračunane aritmetičke sredine, koja je iznosila 29,92 godine. To nije slučajnost, geometrijska je sredina za isti skup podataka UVijek manja od aritmetičke i veća od harmonijske. Vrijedi nejednakost: H sG s
2.3.4. Mod Mod je najčešći oblik ili modalitet obilježja (oznaka M,,). Mod se određuje kako za kvalitativna, tako i za kvantitativna obilježja (varijable). Najjednostavniji je slučaj određivanja moda kada su formirane grupe, kao u primjeru u tabeli 2.30. gdje su podaci grupirani na osnovi nominalnog obilježja. li takvom slučaju mod je modalitet s najvećom frekvencijom.
la) Produkt N faktora: Xi 'liJ,X,
'
"
'XN na kompaktni se
N način zapisuje kao n x i ' i�1
III Znak V rabi se u matematitkoj logici i čita se: "za svaki".
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIV N E STAT I ST I K E
....
57
Tabela 2 .30. Za posleni u trgovin i i ugostiteljstvu u RH 1 996. Stru ktu ra zaposlen i h u %
Vrsta djelatnosti
Broj zaposlenih
ai l
trgovina na malo
fi 2
58361
42,87
trgovina na veliko
22934
1 6,85
ugostiteljska poduzeća
38279
28,12
ugostitelji-obrtnici
1 6545
12,15
136 1 1 9
1 00,00
• Ukupno
Pi 3
Izvor: SLjH 98" str, 538-541
Iz podataka u tabeli 2, 30. vidi se da je najveći broj zaposlenih u trgovini i ugostiteljstvu RH 1 996, godine bio u trgovini na malo, To se može ustanoviti usporedbom bilo apsolutnih, bilo relativnih frekvencija. Maksimalna apsolutna frekvencija je 5 83 6 1 , a maksimalna relativna frekvencija 42,87. Obje frekvencije se odnose na isti modalitet nominalne varijable, tj, na trgovinu na malo. Trgovina na malo je, dakle, u ovom slučaj u mod. Odredivanje moda za distribuciju frekvencija ovisi o tome jesu li formirane grupe ili je obilježje dano u razredima. Ako su formirane grupe, postupak ja potpuno isti kao u prethodnom primjeru. Budući da u grupi svi podaci imaj u isti modalitet obilježja, u ovom slučaju istu vrijednost numeričke varijable, dovoljno je pronaći najveću frekvenciju i očitati pripadnu vrij ednost numeričke varijable koja predstavlja mod. Primjer: .... Ta bela 2 .3 1 . Broj pogrešnih odgovora 80 studenata na testu iz statisti ke Broj pogrešnih odgovora
Xi
l O
.
I
'
Broj studenata
fi
2
5
1
7
2
15
3
19
4
20
5
10
6
4
Ukupno
80
•
58
POG LAVLJE 2
Najveća frekvencija je 20, a pripadna vrijednost numeričke varijable 4. Najčešći broj pogrešnih odgovora, tj. mod, iznosi četiri. Do istog bismo zaključka bili došli da smo, umjesto apsolutnih, imali relativne frekvencije, budući da su one proporcionalne apsolutnim frekvencijama. Kod distribucije frekvencija s formiranim razredima, mod nije moguće direktno očitati. Izravno je moguće samo identificirati razred u kom se mod nalazi. Takav se razred naziva modaini. Budući da na iznos apsolutne frekvencije utječe veličina razreda, a nju određujemo proizvolj no prilikom grupiranja podataka, moramo se, ako razredi nisu jednake veličine, za identifikaciju modainoga razreda, koristiti korigiranim frekvencijama. Modaini je razred onaj s najvećom korigiranom frekvencijom. Daljnji problem čini određivanje pozicije moda unutar modainoga razreda. Da bismo odredili mod, služimo se pretpostavkom da na njegov položaj utječu frekvencije dvaju susjednih razreda - onog ispred i onog iza modainog razreda. Ako bi frekvencije dvaju susjednih razreda bile jednake, tada bi mod bio pozicioniran u sredini modalnoga razreda . Ako one nisu jednake, mod biva privučen bliže granici susjednoga razreda s većom frekvencijom. Takva pretpostavka o poziciji moda unutar modainoga razreda rezultira izrazom: (2.29.)
gdje je 1H" oznaka za mod, LJ donja granica (prava ili precizna) modalnoga razreda, l veličina modaInoga razreda, dok su b i tri uzastopne korigirane'2 frekvencije. Točnije: korigirana frekvencija prije frekvencije modainoga razreda, b korigirana frekvencija modainoga razreda, tj. najveća korigirana frekvencija, i korigirana frekvencija koja slijedi, tj. frekvencij a nakon one modainoga razreda. =
:=
a,
a
e
-
:=
e
=
Izraz za mod (2.29.) izveden je pomoću histograma:
121 Ako je korekcija potrebna. tj. ako razredi nisu jednake veličine.
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
59
� G rafi kon 2 . 2 2 . Konstrukcija moda pomoću h i stogra ma fCi
a
o
Xi
Spojnice gornjih uglova najvišeg stupca visine b, s uglovima dvaju susjednih stupaca tvore, zajedno s dužinama (b ) i (b ) međusobno slične trokute čiji se vrhovi dodiruju. Visine obaju trokuta zajedno jednake su veličini modainoga razreda i. Označimo li visinu trokuta kojemu je osnovica (b ) sa mod je određen izrazom M" = Lj + x. - a
-
- e ,
a
x,
Veličina x slijedi direktno iz razmjernosti vi�ina i osnovica sličnih trokuta, tj. vrijedi x : (i - x) = (b
-
) : (b - e) .
a
Uvećavanjem donje granice modainoga razreda (2.29.) .
LJ
za
x
dobiva se direktno izraz za mod
Opisani postupak određivanja moda za distribuciju frekvencija s formiranim razredima pokazat ćemo na već poznatom nam primjeru radnika poduzeća "X" (primjer 2. 1 9.) prema godinama starosti:
60
POGLAVLJE 2
..
Tabela 2 . 3 2 . Radn ici pod uzeća X p rema god i nama starosti
I
Veličina razreda
Korigirane frekvencije
ii 3
lei
10
2
lO a
20 - 22
15
2
15 b
22 - 28
15
6
5
28 - 32
8
4
48
-
4 -
Godine starosti
Broj rad nika
Xi 1
Ji
18 - 20
Ukupno
2
4
e
1 5 - 1 0 5 · 2 20,67 godina. To je najčešća starost radnika u tom ) (1 5 - 1 0) + ( 1 5 poduzeću, odnosno starost najvećeg broja radnika. Mod je vrlo ilustrativna i lako razumljiva srednja vrijednost. Odreden je svojim položajem u nizu i na njega stoga ne utječu ni izrazito velike ni izrazito male vrijednosti obilježja, kao što je to npr. slučaj kod aritmetičke sredine. Kad bi npr. gornja granica posljednjega razreda bila 50, umjesto 32, uz nepromijenjenu frekvenciju tog razreda, aritmetička bi se sredina jako pomakla prema većim vrijednostima numeričkog obilježja, dok se na mod to uopće ne bi odrazilo. Prednost moda je i to što ga je moguće odrediti i za nenu merička, tj. kvalitativna obilježja. Nedostatak moda je da ga nije moguće odrediti ako nema bar dva podatka s istim modalitetom obilježja (u slučaju pojedinačnih podataka). Također, mod nije uputno odrediti ako je modaIni razred prvi i ako je usto otvoren. Nedostajuća donja granica može se, doduše, procijeniti, ali mod određen pomoću nje nije pouzdan. Slično je kad je modaini razred posljednji i usto otvoreni razred. Nepoželjno svojstvo moda je i njegova osjetljivost na način grupiranja, koji sadrži određenu dozu proizvoljnosti. O određivanju veličina razreda, naime, ovise i njihove frekvencije, a one izravno utječu na veličinu moda. Mod nije moguće odrediti ako je distribucija bimodalna, tj. ako ima dva vrha. II tom slučaju postoje dva mjesta gomilanja podataka oko neke vrijednosti pa postoji neizvjesnost u pogledu položaja moda. To također vrijedi i za multirnodalne distribucije, koje imaju više točaka gomilanja podataka pa nismo u stanju odrediti mod na jedinstveni način. 1\1 u
=:
20 +
=
2.3.5. Medijan Medijan je pOZicijska srednja vrijednost koja po veličini uređeni niz dijeli na dva jednakobrojna dijela, na način da polovina članova niza ima vrijednost kvantitativne varijable
OSNOVNI POJMOVI I TEH N I KE DESKR I PTIVN E STATISTIKE
61
manju ili jednaku medijalnoj, dok druga polovina članova niza ima vrijednost jednaku medijanu ili veću . II Određivanje medijana sastoji se u pronalaženju vrijednosti obilježja na središnjoj poziciji u uređenom nizu. Ako se radi o nizu s neparnim brojem članova, vrijednost središnjeg podatka u uređenom nizu je medijan. Njegov redni broj r računa se tako da se N podijeli s dva i cjelobrojnom dijelu dobivenoga kvocijenta (oznaka INT od latinskog "in teger" = sav, čitav) pribroji l , tj. r =
N N INT( ) + l za 2
2
-:t=
INT , te je medijan : (2. 30.)
Me = x, . Razmotrimo to na primjeru izostanaka 9-ero radnika u razdoblju
L-X.
mjesec 2000. :
Xi: 2, 4, 1 , 20, 1 6, 5 , 7, 6, 8 dana. Uredimo li varijablu "broj dana izostanaka" po veličini, imamo
Xi: 1 , 2, 4, 5 , 6, 7, 8, 1 6, 20 dana. 2. 4,5 . Cjelobrojni dio od 4 , 5 je 4, koji uvećan za l daje traženi 2 2 redn i broj medijalnog člana niza 5 . Dakle, X5 = Me = 6 dana. U našem slučaju, polovina radnika izostala je 6 dana ili manje. U ovom je slučaju
N
=
=
Ako je broj članova niza paran , N je djeljivo s 2 bez ostatka, tj . kvocijent
N
je cijeli broj . 2 U tom se slučaju u sredini niza nalaze dva njegova člana, čiji je polu zbroj medijan. Ta se dva središnja člana nalaze na dvjema uzastopnim pozicijama koje označujemo sa r i r+ 1, pa imamo:
Me
=
x r + X r+1 2
N r=-
za
2
N - =
2
INT .
(2. 3 1 .)
Primjer: Vrijeme izrade proizvoda UA" l O-ero radnika (varijabla uređena po veličini):
Xi: 2, 3, 3, 4, 6, 7 , 8, 9, l l , l I minuta. � = INT = 5 = r � M 2
e
=
Xs + x6 2
=
6+7 2
=
6 ' 5 minuta.
Polovina radnika trebala je za izradu toga proizvoda 6,5 minuta ili manje (druga polovina 6,5 min ili više) . 13)
U ovom se slučaju ne radi o rezu na brojnom pravcu u Dedekindovu smislu. tj. ne radi se o rezu tipa ](. Radi se, naime. o statističkim podacima od kojih se pojedina vrijednost mole javljati više nego jedanput. Stoga je ispravno govoriti o vrijednostima manjim ili jednakim u odnosu na medijan i vrijednostima jednakim medijanu ili većim od njega.
62
POGLAVLlE 2
Kod distribucije frekvencija s formiranim grupama, što je slučaj kod velikog broja distribucija frekvencija diskretne numeričke varijable, za pronalaženje središnjeg člana u nizu radi očitavanja njegove vrijednosti, tj. medijana, služimo se kumulativnim nizom "manje od" . Pomoću prve kumulativne frekvencije koja je jednaka i l i veća od
N 2
identificira s e pripadna
vrijednost grupe, koja je u tom slučaju medijan. Ovo vrijedi bilo za slučaj da je N neparan, bilo da je paran, budući da sve jedinice u grupi imaju istu vrijednost obilježja. Jedino, ako b i N jedinice s redoslijedom i N + l pripadale dvjema uzastopnim grupama, medijan bi se 2 2 odredio kao poluzbroj vrijednosti obilježja tih dviju grupa. Ako su frekvencije izražene kao proporcije, postupa se na isti način, s time da se grupa čija je vrijednost medijaina, identificira pomoću prve kumulativne frekvencije jednake ili veće od 0,5 (odnosno 50 kod postotaka). Već prikazanu tabelu 2.25. proširit ćemo u tabeli 2.33. dodavanjem empirijske distribucije frekvencija, tj . kumulativnog niza "manje od":
lJIlI-
Tabela 2 .3 3 . Broj pogrešnih odgovora 80 stUdenata n a testu iz statistike Kumulativni n iz "manje od"
B roj pogrešnih odgovora
Broj studenata
Xi l
fi 2
3
O
5
5
SX(Xi)
1
7
12
2
15
27
3
19
46
4
20
66
5
10
76
6
4
80
Ukupno
80
U prethodnom je primjeru N paran broj pa je medijan obilježje jedinica s rednim brojevima 40 i 4 1 . Prva kumulativna frekvencija, jednaka ili veća od 40, jest četvrta po redu kumulativna frekvencija 46. Toj grupi pripadaju i 40, i 4 1 . student, s istim brojem pogrešnih odgovora, tj. 3. Dakle, polovina studenata imala je 3 pogrešna odgovora ili manje, a polovina 3 pogreške ili više. Za računanje medijana distribUcije frekvencija s formiranim razredima najčešće se rabi sljedeći izraz:
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
N 2 -- . i , LI + --=--Imra
63
( 2.32. )
donja granica medijainoga razreda, prethodna kumulativna frekvencija (najveća od kumulativnih frekvencija koja je usto i strogo manja od
N/2),
frekvencija medijainoga razreda, te veličina medijainoga razreda. Izraz
(2. 32.)
izvodi se iz grafičke konstrukcije medijana pomoću kumulante. Medijan se
dobiva kao obilježje pridruženo kumulativnoj frekvenciji veličine N/2:
... Grafikon 2 . 2 3 . Konstrukcija medijana pomoću kumulante
N
2
L l Me '-
+ .
I
Vrijedi razmjer
čije rješavanje po x i uvrštavanje u izraz:
Me
Lj
+
X
rezultira prethodno navedenim izrazom sljedećem primjeru:
(2.32.)
za medijan. Taj ćemo izral primijeniti na
64
�
POGLAVUE 2
Ta bela 2 . 34. Zaposlen i pogona "A" prema vel ičini prosječ n i h mjesečnih plaća u listopadu 2000 .
� mjesečna plaća u kn
Broj zaposlenih
Veličina razreda
Kumulativni niz "manje od"
Xi
fi
ii
Sx(Xi)
l
2
3
4
800 - 1000
6
200
10
1 000 - 1 200 1 200 - 1400
14
200
24
20
200
44
1 400 - 1800
32 .
400
76
1800 - 2500
24
700
100
Ukupno
100
-
-
U ovom je slučaju N/2 1 00/2 = 50. Potražimo među frekvencijama kumulativnoga niza "manje od" najveću koja je ujedno i strogo manja od 50. To je po redu treća kumulativna frekvencija, 44. N/2-ti, 50. zaposleni se, dakle, nalazi u sljedećem razredu , koji je medijaIni. Donja je granica medijaInoga razreda 1 400, njegova frekvencija 32 i veličina 400, pa je prema tome =
50 - 44
Me = 1 400 + -- · 400 = 1 475 kn.
32
Polovina zaposlenih primila je u listopadu 2000. plaću u iznosu 1 475 kn ili manje, dok je druga polovina zaposlenih primila 1 475 kn ili više. Kao što je već spomenuto, medijan distribucije frekvencija grafički se određuje pomoću kumulante, odnosno pomoću empirijske funkcije distribucije. Grafikon 2.23. prikazuje grafičko određivanje medijana za podatke iz tabele 2 . 34.:
OSNOVNI POJMOV I I TEHNIKE DESKRIPTIVNE STATISTIKE
..
65
Grafikon 2 . 2 4 . Medij a i n a plaća zaposlenih u pogonu "A" u l i stopad u 2 00 1 .god i n e
Zaposleni kumulativno 1 00 90 80 70 60 50 40 30 20 10 0 4-�r---4----+--r-6--� 800
1 000
1 200
Medijan se može odrediti i
1 400
za
Me
1 800
0 mj. plaća u
Kn
2500
ordinalni niz. U tom je slučaju medijan obilježje ranga koj i
uređeni n i z podataka dijeli n a dva jednakobrojna dijela. Postupak njegova određivanja jednak je postupku koj i primjenj ujemo za niz pojedinačnih vrijednosti ili za distribucij u frekvencija diskontinuirane n umeričke varijable s formiranim grupama. To je pokazano u primjeru koji slijedi. ..
Tabela 2 .3 5 . Uspjeh 30 studena.ta na ispitu fz statistike
i
I
ri
fi
Kumulativni niz "manje od" Sr(ri)
l
2
3
1
7
7
2
8
15
3
12
27
4
2
5
1
Ukupno
30
Ocjena
Broj studenata
29 i
30 -
66
POGLAV U E 2
ovom je slučaju, budući da je N parni broj, medijan poluzbroj rangova 1 5 . i 1 6. studenta, tj . 2 , 5 . Time je učinjen praktični, ali teoretski nedopušteni kompromis, jer nad modalitetima varijable ranga nije dopuštena operacija zbrajanja. U
M edijan se, kao i sve srednje vrijednosti, nalazi izmedu minimalne i maksimalne vrijednosti obilježja. Njegovo je i svojstvo da je zbroj odstupanja podataka od medijana uzetih apsolutno (tj. uz ignoriranje predznaka) , minimalan, tj.: N
L:lx; Mei ;=1
-
=
min ,
odnosno, za grupirane podatke, k
L:lx; Mei!; ;=1
-
min .
Medijan je, kao i sve srednje vrijednosti, izražen u istim mjernim jedinicama kao i obilježje. Jednostavan je za tumačenje. N ij e osjetljiv na ekstremne vrijednosti budući da su one uvijek smještene na rubovima uređenoga niza. Zbog toga je medijan dobar izbor srednje vrijednosti za asimetrične distribucije frekvencija s jako izraženim ekstremima. za razliku od aritmetičke sredine, koj u ekstremi odvlače prema izrazito velikim ili malim vrijednostima, na medijan oni jedva da utječu pa se stoga o medijanu govori kao o trornoj srednjoj vrijednosti. Medijan je pogodan i za distribucije frekvencija s otvorenim razredima, čije se granice procjenjuju pa su stoga nesigurne. Na medijan takve granice ne utječu, osim ako je rubni, otvoreni razred ujedno i medijalni.
2.3.6. Kvantili Kvanti1i su vrijednosti kvantitativne varijable koje uredeni niz dijele na q jednakobrojnih dijelova, pa u tom smislu govorimo o redu kvan tila. Nizove možemo npr. dijeliti na dva, četiri, šest, deset ili sto dijelova, pa u tom slučaju govorimo o kvantilima reda dva, četiri, šest, deset ili sto. Budući da medijan dijeli uređeni niz na dva jednakobrojna dijela, medij an je kvantil reda dva. Kvartili su kvantili reda četiri, jer uređeni niz dijele na četiri jednakobrojna dijela. Analogno, sekstili su kvanUli reda šest, decili reda deset, percentili reda sto itd. Određivanje kvantila u uređenom nizu podataka svodi se na pronalaženje vrij ednosti na traženoj , kvantilnoj pOZiciji. Suština se toga postupka sastoji u sukcesivnom računanju kvocijenata
Ni
,
gdje j e
q
N i q
-
-
-
broj podataka, redni broj kvan tila, red kvan tila.
1, ,q- l J4 , te ...
14) Mogući broj kvantila istoga reda la l je manji od veličine reda q. Tako (jedan) medijan dijeli nil na dva dijela, tri kvartila dijele nil na četvrtine, devet decila na desetine itd.
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATIST I K E
67
Rezultat takvih uzastopnih dijeljenja je dvojak - sa ostatkom ili bez ostatka. Ako se radi o dijeljenju s ostatkom, cjelobrojni dio kvocijenta uvećan za jedan daje redni broj (r) elementa na traženoj , kvantilnoj poziciji. Ako je dijeljenje bez ostatka, tada dotični kvantil pada između dva susjedna elementa, tj. traženi je kvan til poluzbroj vrijednosti na pozicijama r i Ni r+ 1 , pri čemu je u tom sI ućaju r q U skladu s time, prvi ili donji kvarU\' te treći ili gornji kvartil (drugi kvartil jednak j e medijanu pa ga nije potrebno dodatno računati) dani s u izrazima: N
Xr '
4 N
QI
2
{
4
,
Xr + Xr+l 2
{
r = IN]'(
I NT,
4 N·3 4
*
�)
+l
(2.33.)
N r = -. 4
INT,
N·3
Xr ' Q =
*
INT, INT,
r
N I NT( /) + l
r
N·3 4
--
Vratimo se ponovno na primjer i zostanaka 9-ero radnika u razdoblju (varijabla uređena po veličini): x;:
l,
(2.34.)
L -X.
mjesec 2000.
2, 4, 5 , 6, 7, 8, 1 6, 20 dana.
Opseg skupa 9 nije djeljiv s 4, tj . prilikom dijeljenja pojavljuje se ostatak. Zanemarimo ostatak, a cjelobrojni dio kvocijenta, tj . 2, povećamo za l i dobivamo redni broj vrijednosti koja je na pozicij i prvoga kvartila, tj . 3. Prvi kvart il je dakle X], odnosno 4 dana. Interpretacija: četvrtina radnika izostala je četiri dana ili manje, preostale tri četvrtine radnika izostale su četiri dana ili više. Analogni postupak ponavljamo u cilju određivanja trećega kvartila: 9· 3/4 = 6,75. il Cilju određivanja rednog broja podatka koji se nalazi na poziciji trećega kvartila, cjelobrojni dio tog kvocijenta povećavamo za l , tj. X6+I :::: X7 Q3 8 dana. Tri četvrtine radnika izostalo je 8 dana ili manje, dok je četvrtina radnika izostala 8 dana ili više. Kvartili distribucije frekvenCija određuju se računski i grafički postupcima analognim onima za određivanje medijana. za primjer zaposlenih prema veličini prosječnih mjesečnih plaća (tabela 2. 34.) imamo: N LI + -'---- . i
fkv8rl
(2. 3 5 .)
68
POGLAVLJE 2
Q I = 1 200 +
2 5 24 · 2 00 = 1 2 1 0 kn, 20
Q 3 = 1 400 +
7 5 - 44 . 400 32
odnosno,
1 787, 50 kn.
Jednostavnosti radi, u oba su izraza kori šteni isti simboli Lp Ejl i jh." značenjem:
,
ali s analognim
LI u gornjim izrazima označava donju granicu razreda u kojemu se nalazi prvi, odnosno treći kvartil. Ejl označava kumulativnu frekvencij u koja prethodi kvartilnom razredu (tj . posljednju u kumulativnom n izu "manje od" koja je još strogo manja od N/4, odnosno, u slučaju računanja trećeg kvartila, od N ·3/4). jh'"" je oznaka z a frekvenciju kvartilnoga razreda, tj. razreda u kom s e nalazi prvi, odnosno treći kvarti\. Interpretacija izračunanih kvartila: četvrtina zaposlenih tog pogona primila je u listopadu 2000. god. 1 2 1 0 kn i li manje, dok je tri četvrtine zaposlenih primilo 1 2 1 0 kn ili više. Tri četvrtine zaposlenih primilo je u listopadu 2000. godine 1 787,50 kn ili manje, a četvrtina zaposleni h primila je 1 787,50 kn ili više. Dobivene rezultate moguće je, kao i kod medijana, odrediti grafički pomoću kumulante. Kvartili su u tom slučaju apscise točaka na kumulanti, s ordinatom N/4, odnosno N ·3/4.
OSNOVNI POJMOVI I T E H NI KE DESK R I PTIVNE STAT I ST I K E
69
.... G rafikon 2.25. Kvart i l ne p laće zaposlen i h u pogonu "A" u l istopadu 200 l .godine Broj zaposlenih 1 00 90 80 70 60 50 40 30 20 10 0 4---�--�---Q�----0+--+800
1 000
Ql
1 200
1 400
'" mj. plaća u
Kn
2500
Od kvan tila, razmjerno se često rabe i percentiliJS Za primjer iz tabele 2.34. izračunat ćemo jedan od njih, i to 20. percentiL Koristimo se izrazom:
(2. 3 7.) gdje je
(4i i-ti kvan til reda q, .Efi tzv. prethodna kumulativna frekvencija, tj. ona koja prethodi kvantilnom razredu ; t o je posljednja kumulativna frekvencija koja j e još strogo manja o d N ilq, frekvencija razreda u kom se nalazi Hi kvantil reda q , donja granica kvantilnoga razreda, te veličina kvantilnoga razreda.
15) 99 percentila dijeli uredene podatke na 100 jednakobrojnih dijelova.
70
POGLAVUE 2
1 00 · 20 1 000 +
1 00 14
-10
. 200
l
1 42,86 kn.
In terpretacija: 20% zaposlenih primilo je 1 1 42,86 kn ili manje, dok je preostalih 80% zaposlenih primilo 1 1 42,86 kn ili više.
2.4. Mjerenje disperzije Kao što je već rečeno, srednja je Vrijednost konstanta kojom je predočen niz varijabilnih podataka. Drugim rij ečima, mnogobrojhe informacije o obilježju koje se analizira zamijenjene su jednom jedinom informacijom, srednjom vrijednošću. Ta je informacija to bolja što su podaci gušće nagomilani oko srednje vrijednosti. Prema tome nije dovoljno izračunati srednju vrijednost prikupljenih podataka, već ju treba nadopuniti pokazateljem njihove raspršenosti (disperzije). Mala vrijednost pokazatelja disperzije znači da je izračunana srednja vrijednost bolji reprezentant skupa podataka i obratno. Među najpoznatije mjere disperzije ubrajamo: raspon varijacije, interkvartil i koeficijent kvartilne devijacije, varijancu, standardnu devijaCiju i koeficijent varijacije.
2.4.1 . Raspon varijal�ije Raspon varijacije (H) je najjednostavnija mjera disperZije, a predstavlja razliku između najveće i najmanje vrijednosti obilježja, tj. , (2.38.) R x..., X_ . Posegnimo ponovno za p rimjerom uređene varij able "broj dana izostanaka" (primjer sa stranice 50 i 54): Xi:
1 , 2, 4, 5, 6, 7, 8, 1 6, 20 dana.
Raspon varijacije iznosi: 20 devet radnika iznosi 1 9 dana.
-
l
= 1 9 dana. Znači, maksimalna razlika u dulj ini izostanaka
za
distribuciju frekvencija diskontinuirane varijable s formiranim grupama raspon varijacije određujemo pomoću izraza: (2. 39.) R Xk - X"
U primjeru danom u tabeli 2.3. raspon varijacije iznosi: 4 - O = 4 djece. Vidimo, dakle, da se anketirane obitelji razlikuju po broj u djece za maksimalno četiri djeteta. Za distribuciju frekvencija s formiranim razredima raspon varijacije se određuje kao razlika gornje granice posljednjega i donje granice prvoga razreda, odnosno: (2 .40.)
OSNOVNI POJMOVI I TEH N IKE DESKRI PTIVNE STAT I ST I K E
71
U primjeru u tabeli 2. 34. raspon varijacije iznosi 2 500 - 800 = 1 700 kn, što je maksimalna razlika u plaćama zaposlenih. Treba napomenuti da je tako izračunani raspon varijacije često samo aproksimacija njegove stvarne vrijednosti. Naime, nije sigurno postoje li u skupu podataka podaci koji su jednaki tim dvjema graničnim vrijednostima, pogotovo ako su one procijenjene, što je redovito slučaj kod otvorenih razreda. Raspon varijacije je izražen u istim mjernim jedinicama kao i promatrano obilježje pa ga stoga ubrajamo među apsolutne mjere disperzije. Njegova prednost kao mjere disperzije je jednostavnost, kako njegova računanja, tako i interpretacije. S druge strane, ocjena disperzije pomoću samo dvije, i to krajnje vrijednosti u nizu koje mogu biti i atipične, ne mora biti pouzdana.
2.4.2. Interkvartil i koeficijent kvartilne devijacije Interkvartil (oznaka Iq) je apsolutna mjera disperzije koja pokazuje veličinu raspona varijacije središnjih 5 0% podataka uređenoga numeričkog niza. Računamo ga kao razliku gornjega i donjeg kvartila, tj .: Iq = QJ - Q J (2.4 1 . ) Primjenom in terkvartila i z razmatranja isključujemo po 25% najmanjih i najvećih vrijednosti obilježja. Interkvartil je dobra dopuna rasponu varijacije jer su ekstremne vrijednosti izvan interkvartiInoga razmaka. S druge strane, nedostatak in terkvartila je, kao i kod raspona varijacije, što se za njegovo računanje rabe samo dvije vrijednosti, tj. što nije potpuna mjera disperzije. Za primjer 9-ero radnika čije smo izostanke analizirali, izračunali smo kvartile, i to: Qf = 4 dana i QJ = 8 dana. Interkvartil, dakle, iznosi: Iq = 8 - 4 = 4 dana. Središnjih se 5 0% radnika razlikuje po izosfancima za najviše 4 dana. Osim interkvartilnog, često se rabe interdecilni i interpercentilni razmaci koji se naJcesce računaju kao razlika devetoga i prvog decila, odnosno devedesetoga i desetog percentila. Na taj se način mjeri raspon varijacije središnjih 80% podataka, a rubnih 20% podataka (po 1 0% sa svake strane uređenog niza) isključeno je iz analize, dakle znatno manje nego kod in terkvartila . Uz in terkvartil , koji je apsolutna mjera disperzije, može se izračunati i koeficijent kvartilne devijacije (simbol Vq) kao odgovarajuća relativna mjera disperzije, tj. ona koja se također računa pomoću dvaju kvartila: (2.42.)
72
POGLAVU E 2
Disperzija je to manja što je Vq bliže nulL Koeficijent kvartilne devijacije spada među relativne mjere disperzije. Računa se dijeljenjem interkvartila zbrojem kvartila, sa svrhom da se mjerne jedinice u brojniku i nazivniku pokrate i tako dobije relativna mjera lišena mjernih jedinica koje onemogućuju usporedbu disperzije skupova podataka izraženih u različitim mjernim jedinicama. D isperzija izostanaka devetero radnika izmjerena koeficijentom kvartilne devijacije iznosi: V
q
8-4 :=
8+4
=
0,3 3 .
Vidimo, dakle, da je disperzija osrednja, tj. 0,3 3 ili, izraženo u postotku, 3 3%. Raspon varijacije i interkvartilni razmak prikazuje se nekom od varijanata Tukeyevih grafikona " Box and Whiskers Plot", skraćeno " Box-Plof', odnosno " B-P". Takav grafikon sadrži pravac s aritmetičkim mjerilom za vrijednosti numeričke varijable od do X",�\. Paralelno u z pravac s mjerilom položen je pravokutnik, tj. " ku tija" (engleski: box), čija je stranica, koja je paralelna s mjerilom, duljine interkvartilnoga razmaka. Krajevi kutije sežu od mjesta koje odgovara prvom kvartilu do mjesta koje odgovara trećem kvartilu. Krajevi se kutije naZivaju "hinge(s)" , što je engleska riječ za šarku ("pant") . l . Unutar kutije je oznaka, obično crtica ili križić, na pOZiciji koja odgovara medijalnoj vrijednosti. I z kutije na obje strane izlazi po jedan "brk" (engleski izraz "whisker" znači mačji brk). Kao pomoćno sredstvo za određivanje njihove duljine služe nam prethodno izračunane unutarnje i vanjske međe (ograde) 1 7.Unutarnje su međe udaljene od rubova kutije po 1 , 5, a vanjske po 3 interkvartilna razmaka. M eđe se ne ucrtavaju u grafikon, one su, kao što je već rečeno, samo pomoćno sredstvo za određivanje duljine brkova koji izlaze iz k utije. Brkovi sežu do vrijednosti u nizu koje su još unutar unutarnjih međa, tj. koje su jednake ili veće od donje unutarnje međe, odnosno jednake ili manje od gornje unutarnje međe. X"';II
za primjer duljine izostanaka 9-ero radnika imali smo: Xi:
1,
2, 4, 5 , 6, 7, 8, 1 6, 20 dana, QI
dana.
4 dana, Mr
Donja unutarnja međa = QI - 1 , 5 Iq = 4 1 , 5·4 veće od -2, to će lijevi brk sezati do XlIIi"' tj. do l .
6 dana, Q3
=
8 dana i
Iq
= 8-4 = 4
-2. Budući da s u sve vrijednosti niza
Gornja unutarnja međa Q, + 1 , 5 Iq = 8 + 1 , 5-4 1 4 . Kako između vrijednosti 8, na kom je mjestu desni kraj kutije Uer je 8 ujedno i vrijednost trećega kvartila), i gornje =
16) Zbog toga u ispisima računalnih programa često Ul kvartilne vrijednosti staji oznaka H. 17) Prijevod engleske riječi "fence", sa značenjem: meda, ograda.
OSNOVNI POJMOVI I TEHNIKE DESKRI PTIVNE STATISTIKE
73
unutarnje međe tj. l 4 nema podataka, desni se brk izostavlja, a dvije izolirane vrijednosti 1 6 i 20, koje su između gornje unutarnje i vanjske međe prikazane su zvjezdicom 1 8 . .... G rafikon 2 . 2 6 . Box-Plot za podatke o izostancima g-oro radn i ka
*
N
M
""
u"l
...,
*
I',
co
(1'1
o N
dani
Pokazat ćemo Box-Plot na još jednom primjeru. Primjer: Godišnji prinosi dionice "XTERM" u % (varijabla uređena po veličini) : Xi:
- 1 0,-7 -2, 0, 2, 4, 4, 5 , 5 , 5 , 6, 1 2 , 20, 22 %.
QJ = 0%, Me = 4 , 5%, Q3
=
6% i Iq = 6
°
= 6%.
Donja unutarnja međa = 0 - 1 , 5·6 = -9 % Gornja unutarnja međa = 6 + l ,5·6 15 % Donja vanjska međa = 0 - 3·6 = - 1 8 % Gornja vanjska međa = 6 + 3·6 24 % .... G rafikon 2 . 2 7 . Box-Plot god išnj i h pri nosa dion ice "XTERM"
*
*
*
%
Vidimo da l ijevi brk seže od ruba kutije do vrijednosti a da je podatak - 1 0 prikazan zvjezdicom jer je manji od donje u nutarnje međe, koja iznosi -9 . Desni brk seže do vrijednosti 1 2 . koja je posljednja u nizu koja je još manja od gornje unutarnje međe. Vrij ednosti 20 i 22 prikazane su zvjezdicom jer se nalaze u području između obiju gornjih međa.
18) Znakovi kojima se prikazuju vrijednosti izmedu unutarnjih i vanjskih meda razlikuju se kod pojedinih statističkih programa. MINITAB se npr. korisij zvjezdicama, a SAS malim znamenkama O.
74
POGLAVUE 2
Kad imamo vrijednosti koje padaj u izvan vanjskih međa. prikazujemo ih drukčijim znakom, najčešće malom nulom. Vrijednosti koje se nalaze između unutarnjih i vanjskih međa zaslužuju posebnu pažnju analitičara budući da su relativno rijetke. za distribucije frekvencija s jednom točkom gomilanja podataka, tj. za unimodaine distribucije. očekuje se da izvan unutarnjih međa padne manje od l % podataka. Još su rjeđi podaci izvan vanjskih međa - vjerojatnost njihova pojavljivanja je manja od l %0 1 9• Općenito, svakom podatku između unutarnjih i vanjskih međa treba posvetiti dužnu pažnju jer je on potencijalni "ou tlier"2o, potencijalna atipična vrijednost. B-P dijagram je izvrsno sredstvo za njihovo otkrivanje. Outiieri su ekstremne vrijednosti koje strše u skupu prikupljenih podataka i mogu biti pogrešne: možda se radi o pogrešno pribilježenim podacima, možda je došlo do greške pri unosu podataka. Moguće je i da se radi o podacima koji pripadaju nekoj drugoj populaciji. ali i o neobičnim podacima iz iste populacije. U gornjem primjeru atipična su dva posljednja podatka. Oni su prikazani zvjezdicama � . U takvom bi slučaj u bilo uputno istražiti faktore koji su u tjecali na formiranje tako visokih prinosa od 20% i 22%, u dvjema od ukupno 1 4 godina n a koje s e podaci i z primjera odnose.
2.4.3. Srednje apsolutno odstupanje Š to su podaci gušće nagomilani oko srednje vrijednosti, disperzija je manja i obratno. Da bismo uočili koliko su npr. podaci blizu izračunane aritmetičke sredine. promatramo razlike Xi X . M eđutim. prosjek svih takvih razlika nema smisla računati jer je on uvijek jednak nuli, tj. -
N
O,
zbog kompenzacije odstupanja s pozitivnim i negativnim predznacima u brojniku (vidi prvo svojstvo aritmetičke sredine). Stoga mjera disperzije srednje apsolutno odstupanje ili MAD (kratica engleskog naziva: Mean Absolute Deviation) ignorira predznake odstupanja podataka od njihove aritmetičke sredine. Ona je dana izrazom:
MAD = ..:=.!..-N
za pojedinačne podatke, odnosno izrazom
19) Vidi: McClave,Benson and Sincich,str. 84.
20) Engleski izraz sa značenjem: "koji leži izvan"(niza) .
(2.43.)
OSNOVNI POJMOVI I TEHN I KE DESKRIPTIVN E STATISTIKE
75
( 2.44.)
za distribuciju frekvencija. Umjesto aritmetičke sredine u navedenim se izrazima može rabiti medijan ili neka druga srednja vrijednost. Ako se rabi medijan, ta mjera rezultira najmanjom vrijednosti, zbog svojstva medijana da je zbroj odstupanja podataka od medijana uzetih . apsolutno, minimalan. Kako, međutim, računanje s apsolu tnim vrijednostima ima određenih nedostataka, MAD se rjeđe rabi kao mjera disperzije numeričkih nizova, a više kao mjera uspješnosti prognoziranja u analizi vremenskih nizova.
2.4.4. Varijanca, standardna devijacija i koeficijent varijacije Kompenziranje odstupanja Xi X negativnog predznaka s onima pozitivnog predznaka, može se, osim njihovim promatranjem u apsolutnom iznosu, spriječiti i njihovim kvadriranjem, budući da su kvadrati nenegativni. Tako je nastala mjera disperzije poželjnih algebarskih svojstava, varijanca, i njezin pozitivni drugi korijen, standardna devijacija. Varijanca (simbol cl 21) je definirana izrazima: -
N
(2.45.)
za pojedinačne vrijednosti, odnosno
(2.46.)
za distribuciju frekvencija. Iz gornjih izraza vidimo da je varijanca prosjek kvadrata odstupanja vrijednosti numeričke varijable od njezine aritmetičke sredine. Varijanca je potpuna mjera disperzije - u njezi� u 2!)
cr
( čitaj: sigma) je malo slovo grčkog alfabeta. Podsjetimo se da se velikim slovom sigma, tj. 1: koristimo kao znakom zbrajanja.
76
POGLAV U E 2
računanju sudjeluju sve vrijednosti analiziranoga numeričkog obilježja. Varijanca, međutim, ima nedostatak da je nepodesna za interpretaciju , jer je izražena u mjernim jedinicama dignutim na kvadrat. Taj se nedostatak otklanja vađenjem pozitivnoga drugog korijena te se dobiva mjera disperzije standardna devijacija (simbol a):
i=1
o'
N
(2.47.)
za pojedinačne, negrupirane vrijednosti i
o'
(2.48.)
za distribuciju frekvenCija. Primijetimo da se u potonjem slučaju simbol x može odnositi bilo na originalne vrijednosti obilježja (ako su formirane grupe), bilo na njihove procjene, tj. na vrijednosti razrednih sredina. Standardna deVijaCija se interpretira kao prosječno odstupanje vrijednosti numeričke varijable od njezine aritmetičke sredine. Izražena je u mjernim jedinicama varijable . U svrhu u sporedbe disperzije u različitim skupovima podataka rabi se relativna mjera disperzije, koeficijent varijacije, kojom se veličina disperzije izražava u postotku (u odnosu n a aritmetičku sredinu) :
v
� · 1 00 . x
(2.49.)
Prije no što prlmJenma ilustriramo izračunavanje varijance, standardne devijacije i koeficijenta varijacije, izrazit ćemo varijancu u terminima momenata, što je tema sljedećeg odjeljka.
2.5. Ostali pokazatelji numeričkih nizova 2.5. 1 . Momenti Momenti numeričkih nizova su parametri koji se računaju kao prosjeci zbroja odstupanja vrijednosti numeričke varijable od odabrane konstante dignutih na neku potencij u . Razlikujemo centralne, glavne i l i momente oko (aritmetičke) sredine i pomoćne momente.
OSNOVN I POJMOVI I T E H N I KE DESKRIPTIVN E STATISTIKE
77
Ovisno o tome n a koju potenciju se dižu odstupanja, govorimo o redu pojedinoga momenta. Opći oblik momenta oko sredine (oznaka p 22) reda r za pojedinačne, negrupirane podatke glasi:
Pr
= -'-'---- , r N
za distribuciju frekvencija
Pr
Pr
0, 1 ,2, ...
(2. 50.)
je definiran izrazom:
= .:.;;;.:.--;---- , r
0, 1,2, . . . .
(2 . 5 1 .)
i=J
Po l , a PI = O, 2, vidimo da su oni
N ulti i prvi centralni moment se ne računaju jer je za svaki skup podataka što se vrlo lako dokazuje. Ako u i zraze (2. 50) i (2. 5 1 ) uvrstimo za r jednaki varijanci, tj,
=
P 2 = 1j2 .
Računanje centralnih momenata može biti mukotrpno. Jednostavniji je način njihova dobivanja putem tzv. pomoćnih momenata. U tu svrhu rabimo dvije vrste pomoćnih momenata: momente oko nule i momente oko "a" (oko konstante kod iranja). za momente oko nule koristimo se oznakom m, a za momente oko konstante kodiranja a koristimo se oznakom m . Opći oblik pomoćnoga momenta oko nule reda r za negrupirane podatke glasi:
, r = 0, 1 ,2, . . .
(2.52.)
a z a distribuciju frekvencija
k
L. xU;
;=J ":"":k,......- ,r = 0" 1 2, . . . . L. J; ;=1
22)
p=
grčko slovo, čitaj: "mi".
(2. 5 3 . )
78
POGLAV U E 2
Opći oblik pomoćnog momenta oko konstante kodiranja glasi:
a
reda
r
za negrupirane podatke
N
m, r
L d;
- i= 1
T -
- -- , N
(2 . 54.)
0, 1 2 . . . ,
,
a za distribuciju frekvencija k
m
'
r
=
L d;/; i=1
k
L /;
,r =
(2. 55.)
0, 1 , 2 . . '''
i=1
Iz izraza (2 . 52.) i (2 . 5 3.) vidi se da je prvi moment oko nule jednak aritmetičkoj sredini obilježja X. Također, iz izraza (2.54 . ) i (2. 5 5 .) vidimo da je prvi moment oko a jednak
aritmetičkoj sredini kodiranog obilježja D. Ili, simbolički, m,
=
x
i m;
=
d.
Uloga pomoćnih momenata je isključivo tehničke prirode. Pomoćni momenti služe jednostavnijem računanju centralnih momenata pa se, nakon što ih izračunamo, služimo izrazima koji povezuju pomoćne s centralnim momentima, i to: f1 2 = m2 - m / , (2. 56.) 12 . 2 lh f12 = b (m2 - m l ) . (2 . 5 7.) I
·
Simbol b označuje konstantu kojom se prilikom kodiranja (linearne transformacije) dijele razlike Xi a ( vidi definicioni izraz (2. 1 6.) za linearno transformirano obilježje). -
Treći moment oko sredine dobiva se izrazima: f1 J = mj -3mj m2 + 2 m/ , " ,3 3 ' Ih f13 = b (m3 - 3m l m 2 + 2m l ) . ·
.
Četvrti moment oko sredine računa se pomoću izraza: 4 f1 4 = m4 - 4m , m3 + 6m/m2 - 3 m, , 2 14 1 4 ·. Ih f14 = b (m 4 - 4mlm3 + 6m l m2 - 3m l ) . I
I
I
I
(2. 5 8.) (2. 59.) (2.60.) (2.6 1 .)
il primjerima koji slijede pokazat ćemo računanje drugoga momenta oko sredine f12' tj. varijance, te standardne devijacije i koeficijenta varijacije. Prvi se primjer odnosi na negrupirane vrijednosti, a drugi na distribuciju frekvencija.
Primjer 5 . Proizvodnja artikla " AH tokom 5-dnevnog radnog tjedna kretala se kako slijedi: X : 32, 34, 30, 28, 24 kom.
Preglednosti radi, uredit ćemo varijablu po veličini i prikazati postupak računanja u tabeli:
OSNOVNI POJ MOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
�
79
Tabela 2 . 36.
Proizvodnja u kom
Xi
X/
Xi - 3O
di
d/
24
576
-6
-3
9
28
784
-2
-1
30
900
32
1024
2
1
O
34
1 1 56
4
148
4440
-
x
O
5
1
O 1
2
4
-1
15
N
N
LX i - = m = i=l l
4
3
2
l
1 48
----r::;- = 5
--
= 29,6 kom.,
LX � 4440 - 888 i=l - -m2 - -N 5 _
_
!-l2 = (I2 = m2 - m/ = 888 - 29,62 = 1 1 ,84 (I = ..jl l,84
=
3, 44 kom.
Do istih rezultata dolazi se alternativnim postupkom pomoću linearne transformacije, tj . pomoću momenata oko konstante kodiranja a. Taj je postupak prikazan u stupcima 3 , 4 i 5 tabele 2.36., koji su odijeljeni od prvih dvaj u stupaca nešto debljom crtom. N
N
L df L di l - = m ' = -l i=1 ' d l N = --S = -O' 2 m2 = i=N
--
x
= ml = a + bm;
=
IS
=-=3 5
30 + 2 · (-0,2) = 29,6 kom.
2 !-l 2 = (I 2 = b 2 ( m2' - m ,l ) = 2 (3 - (-0,2» 2
2
= 1 1 ,84 .
Dodajmo dobivenim rezultatima koeficijent varijacije: v
=
(I . 1 00 = 3, 44 . 1 00 = 1 1,62% . x
29,6
Prosječna dnevna proizvodnja u tom je tjednu, dakle, iznosila 29,6 komada, s prosječnim odstupanjem od 3,44 komada, odnosno s prosječnim relativnim odstupanje od 1 1 , 62%. Disperzija je u ovom slučaju izuzetno mala, što znači da je reprezentativnost izračunane
80
POGLAVUE 2
aritmetičke sredine vrIo velika. Obično smo s koeficijentima varijacije ispod 20% vrlo zadovoljni. U praksi. medutim. nisu rijetkost koeficijenti varijacije iznad 1 00%. Jasno je da u takvim slučajevima moramo gledati na aritmetičku sredinu s velikom rezervom i nadopuniti analizu drugim pokazateljima. Postupak računanja varijance i standardne devijacije distribucije frekvencija u primjeru koji slijedi sadržan je u dvjema tabelama. U prvoj tabeli su konstruirane kolone potrebne za računanje navedenih pokazatelja pomoću pomoćnih momenata oko nule. a u drugoj pomoću momenata oko konstante kodiranja a. ....
Tabela 2 .3 7 . Kontro l a težine proizvoda UA" dala je sljedeće rezultate Razr sredina
Kol.
Kol.
2x3
4x3
Težina u gramima
Broj proizvoda
Xi l
fi
Xi 3
80 - 90
4
85
340
28900,0
90 - 95
6
92,5
555
5 1 337,5
2
!
x/Ji
xJi
I
4
5
100
20
97,5
1950
1 9 0 1 25,0
100 - 105
10
102.5
1025
105062,5
105 - 1 10
8
107,5
860
92450,0
1 10
2
115
230
26450,0
4960
494325,0
95
1 20
50
Ukupno
6
L x Ji =) ml = i 6
i
6
=
L Ji i=)
/J.2
=
a
Z
4960 --
=
50
'
= .J45,86 = 6. 77 grama i
v
=
x
=
� I-I
= m2- m / = 9886,5 - 99,22 = 4 5,86 ,
a
a
99 2 grama ' m 2
L x �Ji
. 1 00 = 6 ,77 . 1 00
99,2
6,8% .
6
L Ji i=1
=
494325 50
=
9886' 5
81
OSNOVNI POJ MOVI I TEH N I KE DESKR I PTIVNE STAT ISTIKE
Iste pokazatelje dobivamo kodiranjem:
�
Tabela 2 .38. Ko l.
Težina u gramima
Broj proizvoda
Razred. sredina
Xi
Ji
Xi
Xi - a
80 - 90
4
85
90 - 95
6
2
l
Ko l .
5x2
6x5
di
dJi
d/Ji
-12,5
- 2,5
-10
25
92,5
-5
-1
-6
6
5
4
3
6
7
95 - 100
20
97,5
O
O
O
O
100 - 105
10
102,5
5
1
10
10
105 - 1 1 0
8
1 07,5
10
2
16
32
1 1 0 - 120
2
115
17,5
3,5
-
50
Ukupno
-
-
6
d=m
l.
=
" L..J dI I
I
i=l--=
6
LJ;
17 = -- = O ,34 50
24,5
17
97,5
6
, m2 .
L.. " dl2 f·I =
i=l
6
I fi
97,5 = --= 1,95 50
i=l
i=l
x = ml = a + hm;
7
=
97,5 + 5 · 0,34
2 2 P2 = a 2 = b (m2' - ml. ) = 5 ( 1 ,95 2
-
=
99,2 grama 2
0,34 ) = 45 , 86.
Vidimo da smo alternativnim postupkom došli do jednake varijance. Možemo, dakle, zaključiti da je prosječna težina kontroliranih proizvoda 99,2 grama, s prosječnim odstupanjem od 6,67 grama, odnosno s prosječnim relativnim odstupanjem od 6,8%. I u ovom je primjeru disperzija izrazito mala pa je prema tome reprezentativnost izračunane aritmetičke sredine vrlo dobra.
2.5.2. Standardizirano obilježje Standardna devijacija, koja je pozitivna konstanta, rabi se, među ostalim, i za provedbu postupka standardizacije numeričke varijable X. Standardizacija je postupak specifične linearne transformacije (kodiranja) dan izrazom : Zi
x
·
-
x
' -, i =a
=
1, . . . , N
(2.62.)
82
POG LAVLl E 2
Xi
Slijedi da je
X+
=
a Zi.
Radi se, dakle, o specifičnoj linearnoj transformaciji s konstantama kodiranja X i o: Standardizirano obilježje pokazuje za koliko se standardnih devijacija originalno obilježje razlikuje od aritmetičke sredine. Standardizirana varijabla Z je pokazatelj udaljenosti pojedinih vrijednosti varijable X od njezine aritmetičke sredine, pri čemu je ta udaljenost izražena brojem standardnih devijacija. Na primjer, ako za neku vrijednost numeričke varijable njezina pripadna standardizirana vrijednost iznosi 2, znači da je ta vrijednost veća od prosjeka za dvije standardne devijacije. U tom je smislu standardizirano obilježe pokazatelj relativnog položaja pojedinih vrijednosti numeričke varijable unutar niza. Poznato je, naime, da se u području oko aritmetičke sredine širine tri standardne devijacije na svaku stranu nalazi oko 90% podataka bilo kog skupa23. Prema tome, apsolutne vrijednosti Zi veće od tri upućuju na to da se radi o ekstremnim vrijednostima originalnog obilježja X. Standardizacija obilježja nam također omogućuje grafičku usporedbu numeričkih nizova s podacima izraženim u različitim mjernim jedinicama. Bud ući da je obilježje Z neimenovano, lišeno mjernih jedinica (mjerne jedinice u brojniku i nazivniku izraza (2.62.) krate se) , moguće je, npr., pri konstrukciji dvaju poligona frekvencija na istom grafikonu koristiti se zajedničkom osi apscisa unatoč različitostima originalnih obilježja. Usto na takvom grafičkom prikazu aritmetička sredina obaju nizova koji se uspoređuju pada na isto mjesto, u točku u kojoj je Zi O. Iz definicionog se, naime, izraza (2.62 .) vidi da za Xi X � Zi O.
=
=
=
Transformirana varijabla Z ima posebna svojstva. Aritmetička sredina standardiziranog obilježja jednaka je nuli, a njegova standardna devijacija jedinici: N
-
N
N
X; - x I a z = � = ;=1 N N I z;
I (Z; _ z)2 ;=1
z
I z; N
�
N
a2 = l � a
z
= �'1l
;=1
N
N
az2
I (x; - :x) =0 Na
=
x; - x I( a J N
N
-
;=1
N
;=1
I (X; _ :x)2
..:. i= -'I____ N
I (X i _ :x)2
=
l ,
i=l
l .
2.5.3. Mjere asimetrije Osim disperzije, interesira nas i način na koji su podaci raspoređeni oko srednje vrijednosti. Distribucija podataka oko srednje vrijednosti može biti simetrična, a može pokazivati slabiju 23) Detaljnije o tome u poglavlju o pravilu Čebiševa u: (26) Šošić, Ivan, Serdar Vladimir (2000), Uvod u statistiku. Zagreb: Školska knjiga.
OSNOVNI POJMOVI I TEH N I K E DESKRI PTIVNE STATI ST I K E
83
ili jaču asimetriju. Asimetrija može biti bilo pozitivna, bilo negativna. Ako je graf distribucije više razvučen prema većim vrijednostima numeričkog obilježja, govorimo o pozitivnoj asimetriji. U suprotnom slučaju, kad su najmanje vrijednosti ekstremne, distribucija je negativno asimetrična. Postoji nekoliko mjera asimetrije. Na mjere asimetrije postavljaju se sljedeći zahtjeVi: one moraju biti neimenovani brojevi, lišeni mjernih jedinica, kako bi se omogućila u sporedba asimetrije podataka izraženih u različitim mjernim jedinicama. Nadalje, mjere asimetrije moraju moći poprimiti pozitivne vrijednosti, negativne vrijednosti i nulu (u slučajevima pozitivne asimetrije, negativne simetrije i u slučaju odsutnosti asimetrije) . Vrijednosti koje mjere asimetrije poprimaju moraju biti i z zatvorenog intervala, da bi ih se moglo vrednovati.
Koeficijent aSimetrije a3 24 je potpuna mjera asimetrije. Temelji se na odstupanjima podataka od aritmetičke sredine, tj. na razlikama Xj X dignutim na treću potenciju. li prvom stupnju te razlike nisu podesne za mjerenje asimetrije, budući da je njihov zbroj jednak nuli. Parne potencije ne dolaze u obzir jer su pozitivnog predznaka, pa iskazivanje negativne asimetrije pomoću njih nije moguće. Za mjerenje asimetrije podesne su neparne potencije odstupanja podataka od aritmetičke sredine jer je njihov zbroj bilo pozitivnog, bilo negativnog predznaka, bilo nula, ovisno o tome radi li se o pozitivnoj, negativnoj asimetriji ili o simetriji. Ako je distribucija pozitivno asimetrična, odstupanja pozitivnog predznaka pretežu nad onima negativnog predznaka. li negativno asimetričnoj distribuCiji je obrnuto. li simetričnoj distribuciji se razlike (xj- X ) 3 >0 kompenZiraju razlikama (Xj - X )3 3
dl Pravokutna (uniformna) distribucija, (l4=1 ,8
c) Distribucija plosnatija od normalne (l4j ' j�J i L > Jj j�! T
N
�: > j j =i=1
,
Jj Pj = N ' k
T = Lx Jj '
j =i=1
i .j
1 . ,N.
i ,j
1, . ,k.
i,j
l , . . , k. .
.
..
(2.68.)
..
(2.69.)
Želimo li konstruirati Lorenzovu krivulju za distribuciju u kojoj su frekvencije izražene kao proporCije. moramo, da bismo izračunali udjele podtotala u totalu, sukcesivno dijeliti produkte P,xi aritmetičkom sredinom, budući da je
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
91
N U tom je slučaju, dakle, j
I XjPj x
i ,j
} , . . ,k..
(2.70.)
Napominjemo, takoder, kako je svejedno da li se u svrhu računanja kumulativnih udjela podtotala u totalu najprije podtotali dijele totalom, pa se dobiveni udjeli nakon toga postupno zbrajaju ili se podtotali najprije postupno zbrajaju pa se zatim dobivene parcijalne sume dijele totalom Ger je nazivnik u oba slučaja isti) . Sve točke Lorenzove krivulje leže ispod pravca jednakosti raspodjele promatranog obilježja po Lorenzu dohodaka ili bogatstva spojnice točaka (0,0) i C l , l ) . Pravac jednakosti raspodjele dan je izrazom F.lxJ FIOJ Riječima, tako zamišljena jednakost bi bila postignuta kad bi odredeni kumulativni udio dohotka ili ine imovine pripadao po veličin i jednakom kumulativnom udjelu nosilaca imovine. Na primjer, u tom bi slučaju 1 0% stanovnika imalo l O%imovine. 20% stanovnika bi imalo 20%imovine itd. Drugi ekstrem je krajnja nejednakost. kad je sva imovina u rukama samo jedne jedinke, tj. za i N, F,(xj) Fil�). l . Za sve ostale vrijednosti i, i l , . . N- l , FT(T), O. Između tih dvaju ekstrema, unutar troku ta omeđenog točkama (0,0), ( I .o) i ( l , 1 ) leži Lorenzova krivulja. Apscise točaka Lorenzove krivulje su u slučaju pojedinačnih podataka jednako udaljene. tj. kažemo da čine ekvidistantni niz. Njezin je prikaz za N 4 dan grafikonom 2 . 3 1 . =
=
=
..
.. G rafikon 2 .3 1 . S hematski prikaz Lorenzove krivulje za N
=
=
4.
=
92
POGLAVLJ E 2
Vidimo npr. da udjelima jedinica 1/4, 1/2 i 3/4 pripadaju znatno manji udjel i imovine ili , općenito, ekonomskog dobra čija s e (ne)ravnomjernost raspodjele mjeri. Primijetimo također da Lorenzova krivulja ima N+ l točaka. Stupanj nejednakosti raspodjele mjeri se Ginijevim koeficijentom koncentracije koji se izvodi direktno pomoću Lorenzove krivulje. Š to je Lorenzova krivulja udaljenija od pravca jednakosti, nejednakost raspodjele je, a time i koncentracija ekonomskog dobra na manji broj jedinki, veća. C inijev se koeficijent koncentracije (oznaka G) definira kao odnos površine što ju zatvara pravac jednakosti i Lorenzova krivulja i površine trokuta s vrhovima (0,0) , ( l ,Q) i ( 1 , I ) . Na grafikonu 2.32. smo prethodno opisanu površinu iznad Lorenzove krivulje označili sa A, a onu ispod nje sa B, pa je Cinijev koeficijent koncentracije odnos površine A i zbroja površina A i B, tj .
G
A A+B
( 2 . 7 1 .)
Dvostruka površina A i kvadrat sa stranicom duljine l u istom su odnosu kao površina A i trokut površine 0 . 5 ispod pravca jednakosti, tj . zbroj površina A i B : 2A
2A = � . A+B
Kako je 2A
G
2 B , to se alternativno Cinijev koeficijent koncentracije računa kao l
2B ,
(2.72.)
jer povrsmu A nije moguće izračunati izravno, već samo kao razliku 0.5 B, ako su relativne frekvencije iskazane kao proporcije25• Očito je da Cinijev koeficijent može poprimati samo vrijednosti iz intervala [ O, l J . Uz potpunu bi se jednakost razdiobe Fy{T;) pa bi površina A iščezla te bismo Lorenzova krivulja podudarala s pravcem Fix.) imali : G O. Uz potpun u bi nejednakost (sva imovina u posjedu jednoga jedinog sudionika u razdiobi) površina B iščezla i G bi poprimio vrijednost l . -
25) Ukoliko su relativne frekvencije iskazane kao posMei, B se oduzima od 5000 (112 od 100 x 1 00).
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
� G rafikon
93
2.32. ix/) F
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
(1 , 1 )
Flr;)
(0,0)
Izraz za Ginijev koeficijent koncen tracije računan kao l minus dvostruka površina B za pojedinačne podatke glasi:
G = l
N
-
l - L [FT ( Ti ) + Fr C(-I )] .
N i=1
(2.73.)
Zbrojevi [ Fr(T;) + FT(Tj_ /) l čine stranice trapeza smještenih ispod Lorenzove krivulje, koji čine površinu B na grafikonu 2.32 .To je još uočljivije na grafikonu 2 . 3 \ . gdje se jasno razabiru tri prema gore okrenuta trapeza i na početku, počevši od ishodišta, trokut, jer je FT(To) = O pa je prvi trapez degenerirao u .trokut. Visine svih trapeza i trokuta su jednake i iznose l/N (na grafikonu 2 . 3 \ . po 1/4) . i
L Xj = Uvrštavanjem odgovarajućih kvocijenata j �r za kumulativne udjele podtotala
FT(Tj )
i
FT(l:_/), svođenjem na zajednički nazivnik, te neznatnim modifikacijama izraza (2 .73.) dolazimo do još jednostavnijeg izraza za Ginjev koeficijent koncentracije: N
G
=
N
2L ix i - ( N + l)Lx i ,..,-_...:. -- i=.. . I_ ----'-i=..I .:.. ..:. N
_ _
N L Xi i= 1
(2.74.)
94
POGLAVLJ E 2
Simbol i u izrazu (2.74.) označuje redni broj podatka. Ginijev koeficijent koncentracije za grupirane podatke, tj . za distribuciju frekvencija glasi:
G
=
1 -
k
'L Pi [FT ( T; ) + FT Cf;-I )]
(2. 7 5 .)
;=1
Računanje Gin ijeva koeficijenta primjenom i zraza (2.73.) i (2.74.) pokazat ćemo na primjeru lO poduzeća jedne grane kod kojih je zabilježen godišnji promet (u mil. DEM) kako slijedi: Xi:
li
0,4 , 0,9, 1 ,2, 1 5, 1 2 , 1 ,4, 0,8, 6, 1 , 3
l.
svrhu računanja pokazatelja koncentra'Cije, varijablu je potrebno urediti po veličini. To, kao i daljnji postupak računanja, sadrži tabela 2.4 1 .
�
Tabela 2 .4 l . Promet kumulativ no
Kum. udjeli totala
Sr(T)
Fr(Ti)
Redni broj poduzeća
Promet u mil. DEM
i
Xi
iXi
l
2
3
4
5
l
0, 4
0, 4
0,1
0,1
0, 4
0,01
0,01
2
0,8
1,6
0,1
0,2
1,2
0,03
0,04
3
2,1
0,0525
0,0825
Pi
=
liN
Fixi)
6
7
Fr(Ti)+ Fr(1i-J) 8
0,9
2,7
0,1
0,3
4
l
4
0,1
0, 4
3,1
0,0775
0,13
5
1 ,2
6
0,1
0,5
4 ,3
0,1 075
0,185
6
1 ,3
7,8
0,1
0,6
5,6
0,1 4
0,2475
7
1 ,4
9,8
0,1
0,7
7
0 , 1 75
0,3 1 5
8
6
48
0,1
0,8
13
0,325
0,5
9
12
1 08
0,1
0,9
25
0,625
0,95
15
1 50
0,1
1,0
40
1,0
40
338,3
1,0
-
-
10 -
1 ,625 -
4,085
Brojevi u stupcima 5 i 7 su apscise i ordinate točaka Lorenzove krivulje, koja je prikazana na grafikonu 2.33.
OSNOVNI POJMOVI I TEH N I K E DESKRIPTIVNE STATI ST I K E
95
� G rafikon 2 .33 . Kum. udjeli u prometu
Flr;) 1 ,0
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 -f-.....,..,=F'----+---+-t---+--+-t---l
0,0 0, l 0,2 0, 3 0,4 0,5 0,6 0,7 0,8 0,9 1 ,0
Kum. proporcija poduzeća
Fx (Xi)
Vidimo da se radi o dobro izraženoj koncentraciji jer je Lorenzova krivulja dosta odmaknuta od pravca jednakosti. To se uočava i usporedbom kumulativnih udjela poduzeća i pripadnih udjela prometa u stupcima 5 i 7 tabele 2.4 l .Vidimo da na 8 od 1 0 poduzeća otpada svega 32,5% prometa, a na 9 poduzeća ukupno 62,5% prometa. Jedno jedino poduzeće drži čak . 3 7 , 5% prometa ( 1 00-62 , 5 ) . To pokazuje i izračunati Ginijev koeficijent koncentracije dobiven primjenom izraza (2.74.): N
G=
N
2 L ix - (N + l)2 > ;=1
'
N
NL x;
i=1
'
=
2 · 338,3 - (1 0 + 1) · 40 = 0' 59 1 5 . 1 0 . 40
i=1
Do istog rezultata dolazimo i pomoću izraza (2 .73.) koji se od izraza koji se primjenjuje za grupirane podatke razlikuje samo po tome što je pi= liN za svaki i, pa je liN kao konstanta izlučen ispred znaka zbrajanja:
96
POGLAVU E 2
G= l
� I[FrCfJ+FTCfi-1)]
N i=l
-
= 1-
{ llI O)
·4,085
=
0,5915.
U primjeru kOji slijedi pokazat ćemo računanje Ginij eva koeficijenta koncentracije za grupirane podatke:
Tabela 2.42. Poduzeća na tržištu A prema veličini prometa
....
Promet
Broj
u mil.
podu-
DEM
zeća
Xi
fi
Razr sred.
Podtotali
Xi
xl;
Udjeli podtotala
Kumulat. udjeli podtotala
xl/T
FriTJ
Proporcija poduzeća
Pi
Kumulat.
Koi}
udjeli
x
poduzeća
F.(xJ
kol 9
[FT(1i)+ FT(Tj./)]
p;'[]
120
0,5
3
4
60
0,027
0,027
0,2 1 1
0,2 1 1
0,027
0,006
l -2
200
1,5
300
0,136
0,163
0,351
0,561
0,190
0,067
1
O-l
2
5
6
7
8
9
10
2-5
175
3,5
6 1 2,5
0,277
0,440
0,307
0,868
0,603
0,185
5 - 10
55
7,5
412,5
0 , 1 87
0,627
0,096
0,965
1,067
0,103
1 0 - 50
15
30
450
0,204
0,830
0,026
0,991
1 ,457
0,038
50 -100
5
75
375
0,170
1,000
0,009
1 ,000
1 , 830
0,016
Ukupno
570
-
2210
1,000
.
1.000
0,4 1 5
Primjenjujemo izraz (2.75.):
G
= 1-
k
LPi[FT(Tj)+ FrCfi-1)] i=l
= l
0,415
0,585.
Vidimo da je i na ovom tržištu koncentracija dosta jaka jer površina između pravca jednakosti i Lorenzove krivulje iznosi 58,5% površine trokuta koji zatvaraju točke (0,0), (l ,O) i (l,l). I u ovom primjeru se do tog zaključka može doći analizom ordinata i apscisa točaka Lorenzove krivulje sadržanih u kolonama 6 i 8 tabele 2.42. Na 96,5% poduzeća, npr., otpada svega 62,7% prometa. N ajveća poduzeća, kojih je jedva 1% (proporcija 0,009), ostvaruju 17% prometa na tom tržištu itd.
Na grafikonu 2.33. prikazana je Lorenzova krivulja za distribuciju frekvencija iz tabele 2.42.
OSNOVNI POJMOVI I TEH N I KE DESKRIPTIVNE STATISTIKE
97
� Grafikon 2 .34. Kum. udjeli u prometu
FrfT,) 1,0 .. .. - .. �
- � .. ��.--------- .......... -------
0,9
0,8
0,7
0,6
0,5
0,4 0,3
0,2
0,1
�,O
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,6 0,9 1,0
Kum. proporcija poduzeća
Fx(Xi)
Izračunani Ginijev koeficijent treba uvijek nadopuniti Lorenzovom krivuljom i analizirati njezin oblik u konkretnom slučaju. Ginijev koeficijent koncentracije, naime, ima nedostatak da njegova jednaka b rojčana vrijednost ne mora značiti jednaku nejednakost raspodjele, i to treba imati na umu kod njegova računanja. Naime, kad bi npr. trećina sudionika sudj elovala u raspodjeli s udj elom n ula, a ostale dvije trećine bile ravnomjerno raspodijeljene na ostatak sudionika, koeficij ent bi koncentracije bio isti kao i kad bi na jednog sudionika u raspodjeli otpala jedna trećina dobara, ostali b i sudionici ravnomjerno sudjelovali u raspodjeli preostale dvije trećine dobara. Takav slučaj ilustrira grafikon 2.35.
� Grafikon 2 . 35. FrfT;) 1
-------------. -----• • - •• ---- • • -----
2/3
1/3
Oi"'-�-_f_---_+_--__l o
1/3
1
Fix;)
98
POGLAVUE 2
Vrlo prikladni pokazatelji neravnomjernosti udjela pojedinih sudionika u raspodjeli nekoga ekonomskog dobra su Iwncentracijski omjeri. Koncentracijski omjer Creda r jest udio takvog dobra koje drži r najvećih sudionika, tj. on se definira kao
(2.76.) i=1
Na primjer, koncentracijski omjeri reda dva i tri za podatke iz tabele 2.4 1. iznose: C 2
15+12 40
= 0,675
i C3
15+ 12+ 6 40
0,825.
Znači, na dva posljednja poduzeća otpada 67,5% prometa, a na tri posljednja poduzeća otpada 82,5% prometa. Do istih se rezultata dolazi analizom kumulativnih proporcija podto tala u stupcu 7 tabele 2.41. Ako na prvih osam poduzeća otpada samo 32,5% prometa tada na preostala dva po prometu najveća poduzeća otpada ostatak do 100% ostvarenog prometa. Znači, C2 = l 0,325 0,675. Također, Cl = l 0, 175 = 0,825. -
-
II
METODA UZORKA 3.1. Osnovne zadaće metode uzorka Metode izložene u prethodnom poglavlju jesu metode deskriptivne statistike; pomoću njih se opisuju j analiziraju prikupljeni podaci. Prikupljanje podataka o obilježjima svih jedinica statističkog skupa, tj . iscrpno promatranje, često je preskupo ili zahtijeva previše vremena, a katkad nije ni moguće, ako je on npr. beskonačan. Katkada je u svrhu kontrole kvalitete potrebno uništiti proizvode. Dio proizv�da se u tu svrhu može žrtvovati, ali cijela proizvodnja ne, a ona je ta čija nas kvaliteta zanima. U takvim se slučajevima pribjegava reprezentativnom promatranju kojim se obuhvaća samo dio jedinica statističkog skupa. Na taj način dobiveni podaci čine dio ili podskup skupa podataka, ali se zaključci dobiveni temeljem njegove statističke analize protežu na sve podatke, za koje rabi mo naziv osnovni skup ili populacija. Do valjanih zaključaka o osnovnom skupu dolazimo primjenom metoda inferencijalne statistike. Podskup osnovnog skupa, koji je u takvom slučaju predmet statističke obrade, naziva se uzorak. Da bi uzorak mogao odgovoriti zadaćama koje se na njega postavljaju, a to je prije svega da se pomoću njega dobiveni zaključci mogu protegnuti na cijeli osnovni skup, on mora biti reprezentativan. To znači da po svoj im karakteristikama mora biti nalik na osnovni skup, tj .
1 00
POGLAV U E 3
mora predstavljati osnovni skup u malom. To se postiže ispravno provedenim izborom jedin ica u uzorak I . Pouzdanu informaciju o populaciji omogućuje slučajni izbor elemenata u uzorak. Slučajni izbor podrazumijeva da je za svaki element populacije poznata vjerojatnost2 izbora u uzorak. I zbor jedinica u uzorak može biti namjeran ako u uzorak biramo elemente koje smatramo tipičnima za pojavu koja se istražuje. Takav se izbor primjenjuje prije svega iz pragmatičnih razloga. Razlikujemo izbor jedinica u uzorak s ponavljaftjem i bez. ponavljmtja, ovisno o torne vraćaj u li se one nakon i zbora u osnovni skup i mog u li ponovno biti birane u uzorak ili ne. Označimo sa 11 opseg, tj. broj elemenata u uzorku, a sa N opseg populacije. Tada je broj različitih uzoraka koje j e moguće izabrati i z osnovnog skupa (bez ponavljanja) dan izrazom
( N\ za broj kombinacija od po n elemenata iz skupa od N elemenata. I\nJlJ·
Jednostavni slučajni izbor je takav izbor kod kojega svaki od jednaku vjerojatnost izbora. Drugim riječima, svaka je od
(�J
(';J
različitih uzoraka irna
mogućih kombinacija od po n
elemenata jednako vjerojatna. Rezultat takvog načina izbora je jednostavni slučajni uzorak. Kod njega za svaki element populacije postoji jednaka vjerojatnost izbora u uzorak. Pritom je izbor jednog elementa u uzorak neovisan o izboru drugoga. Postupci koje ćemo opisati u ovoj knjizi baziraju se na takvom uzorku. Pomoću uzorka provodimo dvije vrste postupaka. U prve ubrajamo postupke procjenjivanja karakteristika osnovnog skupa na temelju istovjetnih karakteristika izračunanih iz uzorka. Drugo su ispitivanja istinitosti pretpostavki o nepoznatim karakteristikama populacije. Obje vrste postupaka počivaju na predodžbi o tzv. sampling< distribuciji.
1) O tome opširnije u knjizi Šošić. I .. Serdar. V.•UlIOđ u statistiku. Zagreb: Š kolska knjiga 2000.
2) U ovom kontekstu se misli na klasično definiranu vjerojatnost. na vrijednost kvocijenta broja "povoljnih" slučajeva realizacije nekog dogadaja i
(:) N (N) Nl
broja mogućih slučajeva.
3)
- čitaj:
izralom:
povrh (iznad) n, U kombinatarici se rabi za označavanje broja kombinacija od po n elemenata iz skupa od
;
11
111(."1
4) od engleskog: sample
/I)!
uzorak
, Oznaka
Nl N ( Čitaj
faktorijel) označava umnožak prirodnih brojeva od 1 do
N.
N
elemenata, Dan je
METODE UZORKA
101
3.2. Distribucija procjenitelja Prije n o što protumačimo pojam sampling distribucije, moramo uvesti pojmove procjenitelj i Procjenitelj je postupak, formula koja se primjenjuje na podatke iz uzorka, a procjena je broj, rezultat primjene procjen itelja. Procjenitelj je varijabla. Izraz za bilo koji statistički pokazatelj će, primijenjen na različite uzorke, rezultirati različitim vrijednostima.
procjena.
Kao što je već rečeno, iz osnovnog skupa veličine N moguće je na slučajni način izabrati
(:)
5
uzoraka veličine n. Za svaki od tih uzoraka mogla bi se npr. izračunati aritmetička
sredina (ili bilo koji drugi pokazatelj) . One bi međusobno varirale ovisno o torne iz kojeg bi uzorka bile izračunane. Znači, procjenitelj je u ovom primjeru aritmetička sredina varijabla, i to sampling varijabla, a varijacije među svim mogućim njezinim vrijednostima nazivamo sampling varijacije6• Budući da je riječ o slučajnim uzorcima, n ije izvjesno koju će vrijednost popri miti aritmetička sredina konkretnog uzorka. Stoga kažemo da je procjenitelj slučajna varijabla7 čija se distribucija naziva sampling distribucija. Ovisno o korn se procjeniteIju, tj. pokazatelju koji se računa iz uzorka radi, govorimo o sampling distribuciji aritmetičke sredine, medijana, varijance itd. Postupci procjena i ispitivanja istinitosti pretpostavki o karakteristikama populacije temelje se na svojstvima sampling distribucije. Poznavanje svojstava sampling distribucije n ekog procjenitelja omogućuje zaključke o istovjetnom pokazateiju populacije. Prema grupi teorema matematičke statistike poznatoj pod imenom centralni grani�l1i teorem, sampling distribucija aritmetičke sredine je normalna ako je i distribucija podataka u populaciji normalna, a ako nije, ali je uzorak dovoljne veličine, tj. ako je n?30, ona je približno normalnog oblika. Prema istom je teoremu aritmetička sredina sampling distribucije aritmetičke sredine, tj. njezina očekivana vrijednost8, jednaka aritmetičkoj sredini osnovnog skupa. Uz oznaku
E(X)
za očekivanu vrijednost9 aritmetičke sredine i J.l (grčko slovo, čitaj:"mi") za aritmetičku sredinu populacije, to se svojstvo, za koje se rabi termin nepristranost 10 iskazuje:
5) U svrhu razumijevanja pojmova na kojima se baziraju postupci inferencijalne statistike, potrebno je imati na umu da je broj mogućih komilinacija
(N) \."
redovito golem.
6) Različite moguče vrijednosti sampling varijable, lj. procjene koje bi ona mogla poprimiti, pripisujemo različitim uzorcima, pa odatle naziv sampling varijacije. Slobodno prevedeM: "koje se pripisuju u.rorku"
7) Vrijednosti slučajne varijable realiziraju se s odredenom vjerojatnosti.
8) "tl aritmetičku sredinu distnbucije vjerojatnosti rabi se izraz oče!rjvana vrijednosi.
9) engleski. expected value (očekivana vrijednosO, ili kraće: expectation (očekivanje). odatle simbol E
10) O nepristranoj procjeni guvorimo ako je očekivana vrijednost nakog pokazatelja (karakteristike) jednaka tom pokazateiju osnovnog skupa. U protivnom. procjena je pristrana (engleSKi: biased). Procjena varijance i standardne devijacije su primjeri pr"lstranih procjena. Očekivana vrijednost varijance, ijo aritmetička sredina njezine sampling distribucije manja je od varijance populacije.
1 02
POGLAVUE 3
Spomenuto svojstvo da se, bilo da je riječ o normalnoj distribuciji u populaciji, bilo da je uzorak dovoljne veličine uzet iz populacije koja nije normalna, sampling distribucija aritmetičke sredine može smatrati normalnom vrlo je važno jer su izraz za normalnu distribuciju i njezina svojstva poznati. Normalna je distribucija najpoznatija i svakako najprimjenjivanija teoretska distribucija kontinuirane numeričke varijable. Ona je dvoparametarska distribucija koja ovisi o vrijednosti aritmetičke sredine i standardne devijacije, što znači da su za svaki različiti par vrijednosti (fl, (J') njezin graf, a time i površina različiti. U postupcima koji spadaju u područje inferencijalne statistike, u kojima se donose zaključci s nekom vjerojatnosti, rabi se tzv. jediniZ11a ili standardizirana normalna distribucija. Njezino j e obilježje, kao što ime kaže, standardizirano, a frekvencije su izražene kao proporcije. Takva distribucija čini distribuciju vjerojatnosti slučajne varijable, budući da je površina ispod njezina grafa jednaka l, što je uvjet za svaku distribuciju vjerojatnosti. Njezina je površina tabelirana, pa iz tablica možemo npr. očitati kolika je vjerojatnost da neka vrijednost numeričke varijable premaši aritmetičku sredinu za najviše Zj standardnih devijacija. Ta je vjerojatnost dana površinom za vrijednosti pozicionirane desno od aritmetičke sredine distribucije do točke Zj Aritmetička sredina distribucije (preciznije: očekivana vrijednost, jer je riječ o distribuciji vjerojatnosti) poklapa se s nul-točkom, budući da je varijabla standardizirana.
� Slika 3.l. Skica površina ispod standardizira ne normalne krivulje
Zi
3.3. Procjena aritmetičke sredine U postupku procjenjivanja aritmetičke sredine osnovnog skupa pomoću aritmetičke sredine uzorka možemo postupiti na dva načina. Prvi način je procjena točkom (engleski: point estimate) , a drugi je intervaina procjena. Na primjer, zanimaju li nas prosječna primanja stanovnika nekog područja, možemo izabrati uzorak od n stanovnika tog područja, izračunati aritmetičku sredinu uzorka X , tj. prosječna primanja osoba u uzorku i zaključiti da su ona
METODE UZORKA
1 03
istovjetna prosJecmm primanjima stanovnika cijelog područja. Takav bi postupak činio procjenjivanje točkom. Izraženo simbolima: jJ = X.
Znak"" ., (čitaj: "kapa") iznad simbola za aritmetičku sredinu populacije označuje da se radi o njezinoj procijenjenoj vrijednosti. Izračunana aritmetička sredina uzorka je samo jedna od točaka sampling distribucije i nama nije poznata njezina točna pozicija u odnosu prema aritmetičkoj sredini populacije p. Da bismo dobili intervainu procjenu aritmetičke sredine populacije, oko izračunane aritmetičke sredine uzorka formiramo interval određene širine, ovisno o željenoj pouzdanosti (ili povjerenju) procjene. Š to je interval širi, procjena je pouzdanija, veća je vjerojatnost njegove istinitosti, tj . veća je vjerojatnost da će se u njemu naći aritmetička sredina populacije. Formiramo li uži interval oko aritmetičke sredine uzorka, procjena intervalom će, doduše. biti preciznija, ali će i vjerojatnost njegove neistinitosti, vjerojatnost pogrešne procjene biti veća. Pri opredjeljivanju za interval određene širine obično radimo kompromis između pouzdanosti i potrebne preciznosti. Interval procjene aritmetičke sredine populacije gradimo tako da aritmetičkoj sredini uzorka s jedne strane dodamo, a s druge od nje oduzmemo stanoviti broj standardnih pogrešaka aritmetičke sredine. Standardna pogreška (greška) pro(jenitelja u našem slučaju aritmetičke sredine - jest n aziv za standardnu devijaciju njegove sampling distribucije. Koliko ćemo standardnih grešaka dodati, odnosno oduzeti od aritmetičke sredine uzorka, ovisi o željenoj pouzdanosti intervalne procjene. il općem slučaju aritmetičkoj sredini s jedne strane dodajemo, a s druge strane od nje oduzimamo Zi standardnih grešaka procjene. Broj Zi se naziva koeficijent pouzdanosti procjene. Alternativni naziv za Zi je koeficijent povjerenja. Najčešće se formiraju intervali procjene s 95%-tnom pouzdanosti, u kom slučaj u koefiCijent povjerenja iznosi 1 ,96. On se očitava iz tablica površina ispod normalne krivulje. -
Tablica površina ispod normalne krivulje (tablica A u prilogu) sadrži, kao što to ime kaže, površine ispod njezina grafa desno od aritmetičke sredine distribucije, pa do neke točke Zi . Distribucija je simetrična pa je dovoljno n�vesti površine samo na jednoj strani distribUCije. Ž elimo li formirati interval procjene s određenom pouzdanosti, npr. 9 5%, to znači da moramo formirati interval takve širine da je u njemu sadržano 95% podataka normalne distribUCije. Preračunato u proporcije, to iznosi 0,95. Moramo dakle u tablici naći površinu koja iznosi 0,95 : 2 = 0,4750, jer tablica sadrži samo površine na desnoj polovini distribUcije. Vrijednosti Zi sadržane su u pretkoloni i u zaglavlju tablice tako da se njihov cjelobrojni dio i prva decimala nalaze u pretkoloni, a druga decimala u zaglavlju tablice. il našem se slučaju površina 4750 (nula na početku decimalnog broja je ispuštena radi štednje prostora) nalazi na presjeku retka 1 ,9 i stupca ,06, pa je traženi Z = 1 ,96. To je prikazano na slici 3.2.
1 04
POGLAVLJE 3
� Slika 3.2. Očitavanje vrijednosti
Zj
druga decimala
z
.. E 'u " 'o '"
�
a. +
� " 'f .�
..cl
Qj
:5'
iz tabl ica površina ispod normal ne krivulje
0.0 0.1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 O,g 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7
I� �9
2,0 2,1
1
11475001 -- � -- _ - _ _
--------------
Interval procjene aritmetičke sredine glasi:
p{X-Zj{O':;: X+Zj{O':;:} ::; f.1::;
=
i-y.
( 3 . 1 .)
Središnja točka intervala je aritmetička sredina uzorka X oko koje se gradi interval, sa željom da se u njemu nađe aritmetička sredina populacije f.1. . Simbol P označava pouzdanost, povjerenje odnosno vjerojatnost (engleski: probability) . Grčkim slovom y (gama) označena je vjerojatnost pogreške u procjeni aritmetičke sredine populacije, pa razlika l - yoznačuje pouzdanost intervalne procjene, tj . vjerojatnost njezine istinitosti. Ako je npr. pouzdanost l-y = 0.95, to znači da je od mOgUĆih
( �J
intervala
širine od po 1 ,96 standardnih grešaka oko aritmetičke sredine pojedinog uzorka, njih 95% istinitih U z koeficijent pouzdanosti z je indeks y!2, budući da se, kako je gore opisano, koeficijent pouzdanosti iz tablice površina ispod normalne distribucije očitava za polovinu pouzdanosti, a time ujedno i polovinu vjerojatnosti pogreške u procjeni, y. Stoga je u slučaju intervalne procjene = Z;12' Osim koeficijenta povjerenja" moramo izračunati i standardnu grešku aritmetičke sredine. U izrazima za njezino računanje rabe se sljedeći simboli: 0':;: standardna greška aritmetičke sredine,
Zj
o'
=
standardna devijacija populacije (ako je otprilike poznata),
METODE U Z ORKA
s
a
N
N
f
1 05
standardna devijacija uzorka, =
standardna devijacija populacije procijenjena pomoću uzorka (ili, kraće: ocjena standardne devijacije), opseg populacije (osnovnog skupa), opseg uzorka, frakcija izbora. To je odnos veličine uzorka i veličine osnovnog skupa. tj. f = n/N. U zimamo j u u obzir prilikom izbora odgovarajućeg izraza za standardnu grešku. Izraz za računanje standardne greške biramo ovisno o tome je li frakcija izbora manja ili je jednaka ili veća od 0,05 . Recipročna vrijednost frakcije izbora N/n zove se korak izbora.
Standardna se greška aritmetičke sredine računa pomoću izraza danih, preglednosti radi, u tabeli:
..
Tabela 3.1. Izraz za standardnu grešku aritmetičke sredine ax
a
ax
ax
=
Uvjeti za primjenu izraza
a
J;;
a
poznata ij 30) možemo pretpostaviti da je sampling distribucija normalna i u procjeni se koristiti koeficijentom pouzdanosti z 1,96 iz tablice A. Standardna greška aritmetičke sredine, u ovom slučaju kad je cf poznata izbora manja od 0,05, jer se radi o beskonačnom osnovnom skupu, iznosi
i
kad je frakcija
Traženi je interval procjene:
P�
-
Zrj,Cfx ::; f.1::; x + Zrj,Cfx
J= 1- r
P{50000 -1,96· 700::; f.1::; 50000 + 1,96 ·700} P{48628::; f.1::; 51372}
0 ,95
0,95.
Uz pouzdanost (povjerenje) 95%, dakle, procjenjujemo da se prosječno trajanje guma u cjelokupnoj tvorničkoj proizvodnji kreće između 48628 km i 51372 km. Primjer 3.3.2. U uzorku od 20 tekućih računa od njih 4857 u nekoj banci, ustanovljeno je, sa stanjem 31.12.2000., sljedeće prekoračenje raspolOŽivih sredstava (kn): 150
122
O
32
30
196
10
17
17
120
1100 1964
100
20
30
O
]06 1961
]0 961
Želimo uz pouzdanost 95% procijeniti prosječno prekoračenje raspolOŽivih sredstava na svim tekućim računima te banke. U tu svrhu moramo najprije izračunati aritmetičku sredinu i standardnu devijaciju uzorka, te nakon toga standardnu grešku aritmetičke sredine. Iz podataka uzorka izračunano je:
M ETODE UZORKA
109
20 20 LX; = 6946 , LX7 = 995 1 776 , pa je ;=1
;=1
x= 6946 =347 3 s= 995 1 776 20 ' 20 Kako standardna devijacija populacije devijacije uzorka, tj. a
s�
n
o'
( 6942066 )2
=
6 1 3,9 8.
nije poznata, procijenit ćemo ju pomoću standardne
.
Frakcija izbora u ovom je slučaju manja od n-I pa se standardna greška računa pomoću izraza =
0,05
(20 4: 85 7=0,004), s = _ _=6 1 3 9, 8 = 140, 86 . � .120 -1 0'x
•
Koeficijent povjerenja glasi:
{
P x -tr!z O'
tr12
X
u ovom slučaju iznosi
: 0,05, znači d a nul
hipotezu nije moguće odbaciti jer je očito da se aritmetička sredina uzorka nalazi unutar kritičnih granica. Tek u z signifikantnost veću od 0,060 1 bilo bi u ovakvom slučaju moguće odbaciti nul-hipotezu u korist alternativne.
II sve tri razmotrene varijante donoš enja odluke zaključak je isti, tj. da uz razinu
signifikantnosti 5% prihvaćamo nul-hipotezu kao moguću, tj. moguće je da je prosječni postotak mliječne masti 3,2%.
Izračunat ćemo i veličinu greš ke tipa I I ako je stvarni prosječni postotak mliječne masti u litri mlijeka manji od deklariranog i iznosi 3, l . Na slici 3 . 8. skicirana j e vjerojatnost da se učini
greš ka tipa II kao d io površ ine pod sampling d istribucijom sa sredinom /JJ = 3 , l koji se nalazi u intervalu između 2, 8864 i 3. 5 1 36 .
.. Slika 3.8.
Vidimo d a s e tražena površ i n a sastoji od dviju površ ina, koje zbrojene čine
{J.
D a bismo
očitali tražene površ ine iz tablice A, moramo prethodno izračunati udaljenost kritičnih granica od alternativne sredine u standardnim greš kama:
M ETODE UZORKA
1 23
1 2,8864 3, 1 1 1- 1 3351 1 335 � P 0, 40988 0,1 6 =
=
"
2,585 � p = 0,495 20
fi 0,40988 + 0,4952 0,90508. Snaga testa je mala: S = l fi = 0,09492 (9,5%). =
3.7.2. Jednosmjerna testiranja pretpostavki o nepoznatoj aritmetičkoj sredini
populacije U praksi smo ['esto zainteresirani ne toliko za tvrdnje tipa da je aritmetička sredina populacije jednaka nekoj pretpostavljenoj vrijednosti. koliko za tvrdnje da ona bilo premašuje neku vrijednost, bilo da je ispod neke vrijednosti J.lv. Tada se provode tzv. jednosmjerni testovi, i to test na donju ili test na gornju granicu. Na primjer, može nam kao kupcu mliječnih proizvoda biti stalo da postotak mliječne masti bude barem 3,2% ( po mogućnosti i viši). Istinitost tvrdnje ovakvog tipa provjerava se pomoću testa na gornju granicu. U tom slučaju hipoteze glase: Ho ; J.l :{J.lo. ili Ho ; J.l J.lo ::;; O H I : J.l > J.lo. ili H J.l J.lo> > O. Riječima. nul-hipotezom tvrdimo da aritmetička sredina populacije ne premašuje vrijednost J.lo , a alternativnom hipotezom tvrdimo suprotno. Skica takvog testa dana je na slici 3.9 . I :
.... Slika 3.9.
-------------... ''( ,... '_ '" . .... 11·. 111111111111)1
P o d r u č j e
;.
PodlUčje HI
1 24
POGLAVUE 3
Kod takvog načina provedbe testa formira se samo jedna kritična granica, i to gornja granica Kod jednosmjernih je testova, bilo da se radi o testu na donju, bilo na gornju granicu, cijela signifikantnost, tj. proporcija podataka sampling distribucije izvan područja prihvaćanja nul hipoteze, smještena na jednom od njezinih krajeva. Stoga uz koeficijent značajnosti stoji indeks a, a ne a/2 kao kod dvosmjernog testa. Koeficijent očitava se iz tablice A za površinu 0,50 - a. Za signifikantnost 5 %, površina iz tablice iznosi 0 , 5 - 0,05 = 0,45000 a pripadni iznosi 1 ,64. Kod jednosmjernog testa na gornju granicu odluka se pomoću kritične granice C2 donosi na sljedeći način: ako je aritmetička sredina uzorka x manja ili jednaka kritičnoj granici nul hipoteza ja moguća , tj. moguće je da je aritmetička sredina populacije f.1o ili manja od nje. Ako je aritmetička sredina uzorka veća od gornje kritične granice prihvaćamo tvrdnju hipoteze H kao vjerojatniju, tj. prihvaćamo tvrdnju da je aritmetička sredina populacije veća od J.1o. ili, simbolički: x ::; Cz => Ho je moguća x > C2 => prihvaćamo H Do odluke usporedbom empirijskog i tabli čnog omjera dolazi se na isti način kao i kod dvosmjernog testa. Ako je empirijski, tj. izračunani manji ili jednak koeficijentu značajnosti izvađenom iz tablice površina normalne distribucije, zaključuje se da je nul hipoteza moguća. U protivnom, tj. ako je z' strogo veći od prihvaća se alternativna hipoteza H , . Odluka pomoću p-vrijednosti također se donosi na isti način kao i kod dvosmjernog testa, samo se ona računa neznatno drugačije. Empirijska razina signifikantnosti se kod jednosmjernih testova računa tako da se od 0,5 oduzme površina za Za jednosmjerni test na donju granicu hipoteze glase: Ho : J.1 2 J.1o, ili Ho : p - J.10 2 0 Ht : p < J.1o, ili Ht : J.1 - J.1o , < O . Riječima, nul-hipotezom tvrdimo da je aritmetička sredina populacije veća ili jednaka pretpostavljenoj vrijednosti J.1o , alternativnom hipotezom tvrdimo suprotno, tj. da je aritmetička sredina populacije manja od pretpostavljene. Skica takvog testa dana je na slici 3. 10. Za
Z OI
C2,
C2,
l
j.
Z
z'
Za ,
z' .
a
M ETODE U ZORKA
1 25
.... Slika 3. 1 0 .
1I(: ltllllltlllllllllll }tll
Područje H I
P o d r u č j e
Kod testa na donju granicu formira se samo kritična granica
Ho
CJ:
Odluka pomoću kritične granice ako je aritmetička sredina uzorka X veća ili jednaka kritičnoj granici nul-hipoteza ja moguća, tj. moguće je da je aritmetička sredina populacije /4) ili veća od nje. Ako je aritmetička sredina uzorka manja od prihvaćamo tvrdnju hipoteze H kao vjerojatnij u, tj. prihvaćamo tvrdnju da je aritmetička sredina populacije manja od P o ' lli, simbolički: X ;:: Hu je moguća x < =:> prihvaćamo H l ' Postupak donošenja odluke usporedbom empirijskog i tabličnog omjera, kao i pomoću p vrijednosti isti je kao i kod testa na gornju granicu, Primjer 3,7, 1 .2. Tržišna inspekcija podvrgava mlijeko iz mljekare kontroli zbog prijave da je prosječni sadržaj mliječne masti u litri mlijeka manji od deklariranih 3,2%. Uz razinu signifikantnosti S % provodi se test na donju granicu: Cl
c"
:
(' l '
I
('I =:> Ci
z
HI : P
II 0,16 z
1
=
z
I
=:
p-vrijednost = (0,50 - P (z :::: 1 ,88» = 0,5 - 0,46995 0,03005 < a 0,05 => prihvaćamo H Izračunat ćemo i veličinu greš ke tipa II ovaj jednosmjerni test, ako stvarni prosječni postotak mliječne masti u litri mlijeka iznosi 3, l. Na slici 3. 1 1 . skicirana je vjerojatnost da se učini greš ka tipa II kao dio površ ine pod sampling distribucijom sa sredinom Jil = 3, l koji se nalazi u područj u prihvaćanja nul-hipoteze, tj. desno od donje granice 2,9376. I
za
.... Sli ka 3. 1 1 .
CI
3, 1
3,2
Vidimo ponovno da se tražena površ ina sastoji od dvijU površ ina, koje zbrojene čine {3. Računamo udaljenost kritične granice od alternativne sredine u standardnim greš kama i pripadnu površ inu iz tablice A: z
=
1
2 ,9376 - 3 0,1 6
=
j- 1,0 151
=:
1.02 =} P(z
1 ,02) = 0,3 46 1 4.
Druga površ ina je 0,50 (cijela desna polOVina površ ine ispod normalno distribuirane sampling distribuCije), pa je greš ka tipa Il: {J = 0,3461 + 0,50 0,846 14. Snaga testa je i ovog puta mala: S l - {J 0, 1 5386 ( I 5,39%) . Vjerojatnost da se izbjegne prihvaćanje neistinite nul-hipoteze iznosi 1 5,39% . =
METODE U ZORKA
1 27
3.7.3. Ispitivanje p retpostavki o nepoznatoj p ro porciji populacije
Testiranje pretpostavki o nepoznatoj proporcij i populacije moguće je samo uz uvjet da se radi o velikom uzorku, jer samo se u tom slučaju sampling distribucija može aproksimirati normalnom distribucijom. Postupci su istovjetni onima za testiranje pretpostavki o aritmetičkoj sredini populacije, a oznake koje se rabe su u terminima proporcija. Specifičnost postupaka testiranja pretpostavki o nepoznatoj proporciji populacije je samo računanje standardne greške proporcije. Naime, kako a priori pretpostavljamo da je nul-hipoteza istinita, to se pomoću pretpostavljene proporcije populacije, koju označavamo sa pu. računa standardna greška proporcije. Kod postupaka testiranja, dakle, koristimo se sljedećim izrazima za računanje standardne greške: , ako je frakcija izbora f
� : , ako je f PO O
(J . I'
=
n
N
� 0,05
i
< 0,05.
Primijetimo da je pod korijenom u nazivniku ovih dvaju izraza n (a ne n- l ) , jer ovdje ne procjenjujemo varijancu populacije iz uzorka već računamo s varijancom Prijo, koja je točna ako je točna nul-hipoteza. Kod testa na dvije granice ispituje se istinitost para tvrdnji Ho : p = po' ili Ho : p - po O HI : p r! pu, ili H J : p - pu, r!O. Nul-hipotezom se tvrdi da je proporcija populacije P jednaka nekoj pretpostavljenoj vrijednosti po, dok alternativna hipoteza tvrdi da se one razlikuju. Interval prihvaćanja nul hipoteze dan je sa Ako iz uzorka izračunana proporcija pada u taj interval, zaključujemo da je nul-hipoteza moguća, tj. da je uz danu razinu značajnosti a moguće da proporcija populacije iznosi po. Ako je proporcija uzorka izvan tog intervala, bilo da je lijevo od donje, bilo da je desno od gornje kritične granice, odbacujemo nul-hipotezu u korist alternativne: A
c I :::; p :::; c 2" => H o A
P < Cl A
p > C2
)
=>
je moguća,
. . , . . pnhvacamo HI hipotezu kao IstinitU.
.
1 28
POGLAVLJE 3
I
ovdje se, osim pomoću kritičnih granica, do odluke može doći i u sporedbom empirijskog i tabličnog z omjera, kao i pomoću p-vrijednosti.
Empirijski koeficijent značajnosti z' je, kod testiranja pretpostavki o proporciji populacije, udaljenost izračunane proporcije uzorka od pretpostavljene proporcije populacije PO izražena u standardnim greškama: z
z
Tablični
1\
•
omjer je koeficijent značajnosti
�
z
,
koj i je udaljenost kritičnih granica od
pretpostavljene proporcije populacije po, tj. Po
7 � -
p
Ako je empirijski, tj. izračunani z' manji ili jednak koeficijentu značajnosti izvađenom iz tablice površina normalne distribucije, zaključit ćemo da je nul-hipoteza moguća. II ' protivnom, tj . ako je z strogo veći od z% , prihvatit ćemo alternativnu hipotezu H / : z
"
:::; z
z" >
% � H o je moguća, �
prihvaćamo H/.
Empirijska razina značajnosti računa se na isti način kao kod simetričnog (dvosmjernog ) ' testa o pretpostavljenoj sredini populacije, tj. od 0,5 se oduzme površina za z i dobivena razlika pomnoži s dva. Odluka se pomoću p-vrijednosti donosi na isti način kao prije opisanim testovima, tj . p-vrijednost > p-vrijednost :::;
a =? Ho je a�
moguća, ili
prihvaćamo H I kao istinitu.
lednosmjerni testovi o pretpostavljenoj proporciji populacije provode se na isti način kao istovjetni postupci glede pretpostavljene aritmetičke sredine populacije, koj i se provode na velikom uzorku, uz opisane izmjene u terminima. Isto vrijedi i za računanje greške tipa Primjer
ll.
3.7.3 . 1 .
II uzorku robe veličine 200 izabranom i z vrlo velike pošiljke, nađeno j e 1 0 proizvoda
greškom:
s
METODE UZORKA
129
a) Procijenite uz 95%- tnu pouzdanost proporciju proizvoda s greškom u cijeloj pošiljci. b) I spitajte istini tost tvrdnje dobavljača le robe da postotak proizvoda s greškom ne prelazi 8%. Signifikantnost 2%. Ima l i kupac robe osnove da zatraži sniženje ugovorene cijene robe? Pod a) je radi formiranja i ntervalne procjene potrebno i zračunati proporciju uzorka, standardnu grcšku proporcije i izvaditi koeficijent povjerenja (pouzdanosti) iz tablice A:
p= n 1\
10
m
=
200
0,05 = p rocjena brojem,
Radi se o vrlo velikoj pOŠiljci pa je u tom slučaju
�
= l - 0,05
n < < N J5 ,
=
0,95.
što povlači da je
standardna pogreška proporcije računa pomoću izraza
gl\ J..!L
n-I
=
0,05 · 0,95 1 99
f < 0,05. Stoga se
= 0,0 1 5.
Za veliki uzorak i pouzdanost procjene 0,95 već smo prije očitali iz tablice A ZO,DlS = 1 ,96, pa
je traženi i nterval: P{0,05+ 1,96 ' 0,0 1 5}
P{
0,0206 -:;,
p :::;
0,0794 }
0,95 , odnosno
0,95.
Uz pouzdanost 95% procjenjujemo da se p roporcija proizvoda s greškom kreće izmedu 0,0206 i 0,0794, odnosno između 2,06 i 7,94%. Pod b) je potrebno provesti sljedeći test na donju granicu: Ho : P � 0,08 HI :
p
0,04 1 05
0,04 1 05.
Ho je moguća (nismo j u uspjeli odbaciti), pa zaključujemo
da je proporcija proizvoda s greškom 0,08 ili više, a ne manje kao što tvrdi dobavljač robe. Kupac robe i ma osnove zatraž.iti sniženje ugovorene cijene robe,
15)
0,02 a, što opet znači da se proporcija uzorka nalazi u intervalu prihvaćanja nul-hipoteze. Da bismo uspjeli odbaciti nul-hipotezu, signifikantnost bismo motali povećati na više od 5,7 1 %.Testiranje uz nivo značajnosti od npr. 6% dovelo bi do željenog odbacivanja hipoteze HJ• Za gornji ćemo primjer izračunati i vjerojatnost da se prilikom testiranja počini greška tipa I l , ako je alternativna proporcija populacije PI = 0,04. Kao što se vidi iz slike, grešku jJ u ovom slučaju čini površina veličine 0,50 P ( I ), gdje je =
=
-
Z
I
- Pl = CI = a
PI
Z
0 ,04105 - 0,04 ,8 1 7. 0,04 · 0,96 200 o::
jJ 0 , 50 - 0,46926 0 , 03074. Snaga ovog testa je velika, jer je mala vjerojatnost da se počini greška tipa Il, što se vidi i iz slike, jer je unutar intervala prihvaćanja nul-hipoteze samo "rep" distribucije sa sredinom pt- S = 1-0,0307 = 0,9693. =
� Slika 3. 1 2 .
=
•
REG RESIJSKA I KO RELACIJSKA ANALIZA 4.1 . Svrha regresjjske analize
Statistička analiza čije su metode i tehnike razmotrene u prethodnim poglavljima jednodimenzionalna je jer je predmet analize bila samo jedna statistička varijabla. No svijet koji nas okružuje nije tako jednostavan pa je često potrebno analizu pojedinačnih varijabli nadopuniti dvodimenzionalnom ili višedimenzionalnom analizom, tj. istodobnom analizom dviju ili više statističkih varijabli. Pojave koje nas interesiraju često su međusobno povezane i spoznati njihovu uzročno-posljedičnu vezu, osim što je izazov, može biti od velike ekonomske koristi. To je svrha regresijske i korelacijske analize. Veza između dViju (ili više) pojava u realnom ekonomskom okruženju nije funkcionalna, kakva je svojstvena matematici. Da je npr. veza između proizvodnje i dobiti funkcionalna, onda bi bilo moguće precizno izračunati dobit za svaku predvidivu razinu proizvodnje. To, svakako, nije slučaj jer na veličinu dobiti mogu, osim proizvodnje, utjecati i brojni drugi čimbenici, od prirodnih nepogoda do tržišnih poremećaja svake vrste, a mnoge os njih nije moguće predvidjeti.
132
POG LAVLJ E 4
Veza koja je predmet regresijske i korelacijske analize jest stohastička ili statistička. Ona je labavija od funkcionalne veze jer osim varijabli čija se povezanost ispituje, uključuje i varijablu koja sumarno izražava sve moguće čimbenike koje nije moguće kvantificirati. Naime, funkcionalna je veza između dViju varijabli oblika Y = f(X), dok je statistička veza predočena modelom jednostavne regresije oblika Y = f(X) + (4. 1. ) Simbolom Y označena je zavisna varijabla, a simbolom X nezavisna varijabla, tj. pojava čiji se utjecaj na pojavu Y ispituje. Sa je označena varijabla nepoznatih utjecaja na zavisnu varijablu Y. Ovakav se model naziva aditivnim jer je varijabla pribrojena funkcijskim vrijednostima f(X). Jedna od zadaća regresijske analize je određivanje oblika regresijske funkcije f(X) ( kraće: regresij e), koja u danom slučaju predočuje povezanost pojava koje se istražuju. i
u.
u
u
4.2. Dijagram rasipanja
Za određivanje oblika regresije kao vrlo prikladno a jednostavno sredstvo služi dijagram rasipanja. Konstruira se tako da se u koordinatni sustav, ili samo u jedan njegov dio, unose parovi vrijednosti varijable X i Y, tj. on se sastoji od točaka (x" y) Najčešće se za konstrukciju toga dijagrama koristi prvi kvadrant ili dio njega, ovisno o vrijednostima obiju varijabli u konkretnom slučaju. Iz rasporeda točaka u dijagramu raSipanja zaključujemo o obliku , smjeru i jakosti veze. Na slikama 4. 1 . 4.4. prikazano je nekoliko mogućih izgleda dijagrama rasipanja. Na primjer, veza među pojavama može biti linearna što sugeriraju točke na dijagramu 4. I .a), ili krivolinijska kao što je predočeno dijagramom 4 . 1 . b) tl
.. Slika 4. 1 .
bl
al y
y
o o o
x
l) Riječ "jednostavna" ovdje znači da je u model uključena samo jedna nezavisna varijabla X.
x
REG RESIJSKA I KORELACIJSKA ANALIZA
1 33
Ako se radi o linearnoj vezi, raspored točaka duž zamišljenoga pravca na dijagramu može biti počevši od lijevoga donjeg prema desnom gornjem uglu (slika 4.2. a) ili obratno, počevši od lijevoga gornjeg prema desnom donjem uglu (slika 4.2. b). li prvom slučaju linearna je veza pozitivnog, a u drugom negativnog smjera . ... Sli ka 4.2. bl
al y
y
o o o o o o o o o o o o o o o o o o o o o o
o o o o o o o o o o o o o o o o o o o o o o
x
x
Nadalje, točke mogu biti gušće ili rjeđe raspoređene oko zamišljene funkcije (bilo da je ona linearna ili krivolinijska), što upućuje na jaču ili slabiju vezu među statističkim varijablama koje su predmet analize. Povezanost varijabli X i Y predočena slikom 4.3.a jača je, dok je ona predočena slikom 4.3.b slabija. ... Slika 4.3. b)
al y
y
o
x
o
o o
o o o o o o
:
o
o
o
x
1 34
POGLAVUE 4
na kraju, odsutnost pravilnosti u rasporedu točaka na dijagramu rasipanja govori u prilog zaključka o nepostojanju veze, što je ilustrirano slikom 4.4 .
l
.... Slika 4 . 4 . y
o
o
x
4.3. Jednostavna linearna regresija
Najjednostavniji slučaj regresijske funkcije jest linearna funkcija, tj. f(X) = a + bX Ako smo se opredijelili za linearnu regresijsku funkciju (kraće: regresij u), potrebno je još oCij eniti parametre i b. Parametri se ocjenjuju metodom najmanjih kvadrata; ona se sastoji u iznalaženju regresije određenih svojstava. Kroz točke predočene dijagram om rasipanja treba povući pravac koji ima svojstva prosjeka, tj. zbroj odstupanja opaženih vrijednosti zavisne varijable od vrijednosti ocijenjenih pomoću regresijskog pravca mora biti jednak nuli i zbroj kvadrata odstupanja opažen ih (empirijskih) vrij ednosti zavisne varijable od pripadnih regresij skih vrijednosti (vrijednosti koje leže na traženom regresijskom pravcu) mora biti minimalan. Na slici 4.5. skiciran je dijagram rasipanja, regresijski pravac s Ocijenjenim parametrima, tj. pravac: a
+ bX
(4.2.) i naznačena je udaljenost (mjerena paralelno s osi ordinata) proizvoljne , i-te točke od njega. Y= a
R EG R ESIJSKA I KORELACIJSKA ANALIZA
135
� Slika 4.5. y
Xi
o
o o
)('Oi�..;.� o o
o
o
:
. o o o :o : o o o o o
x
Traženi je pravac geometrijsko mjesto točaka najbližih opaženim vrijednostima zavisne varijable Y, tj. on odgovara zahtjevu: n
yJ2 =min., �)Yi i=1 odnosno , ako za Yi supstituiramo a + bxj, -
"
(4. 3.)
� )Yi - a - bx i ) 2 min . =
i=1
(4.4.)
Traži se, dakle, minimum kvadratne funkcij e. Postupak traženja minimuma sastoji se u uzastopnom deriviranju izraza (4. 3 . ) po parametrima a i b . Dobivene se derivacije izjednačuju s nulom i kao rezultat tog postupka dolazimo do dviju jednadžbi poznatih pod nazivom nonnalne jednadžbe: II
n
I Yi = na + b I x ; i=1 i=l n
n
n
I Xi Y i = a I x ; + b I x 7 . i=1 i=1 i= 1
(4. 5 .)
Njihovim rješenjem dolazi se do izraza za ocjene parametara i b: a
II
I X i Y i - nXji
=I b = ...:.i--' ,, 2 � X i - nx- 2
___ _
(4.6. )
136
POG LAVLJE 4
(4.7.)
a y - hi .
I zraz (4.6.) za b moguće je modificirati i pisati na više načina. Umjesto i zraza U
brojniku može npr. stajati II
L (Xi
-
x)2 ) ili kao
n
L (Xi x)(Yi -
ji) . Nazivnik
II
L X; nx 2
"
L X i Yi - nxy i=l
često se piše u formi
na ; , tj. kao produkt broja parova vrijednosti varijabli X i Y i varijance
varijable X. U tablici 4. 1 . izložen je postupak računanja parametara linearne regresijske jednadžbe i dane su regresijske vrijednosti. U zmimo, na primjer, da neko poduzeće analizira podatke o ostvarenom prometu i dobiti (oboje u mil. kn) u osam uzastopnih godina:
..
Tabela 4. 1 . Regresijske vrijednosti
Dobit
Xi
Yi
20
l
20
400
1 ,05
30
3
90
900
2,35
40
3,5
140
1600
3,65
50
5
250
2500
4,95
70
7
490
4900
7,55
80
8,5
680
6400
8,85
l
2
I
XJ!i 3
x;f 4
Yi 5
90
9
810
8 100
10, 1 5
100
13
1300
10000
1 1 ,45
480
50
3780
34800
50,00
Prije no što izračunamo parametre l inearne regresije, prikazat ćemo 8 parova vrijednosti prometa i dobiti iz stupaca l i 2 na dijagramu rasipanja:
1 37
REGRESlJSKA I KORELAClJSKA ANALIZA
... Sli ka 4.6.
u
Dobit
m i l . Kn
13
O
12 11 10 9
O
8 7
O
O
6 5
O
4 3
O
O
2 O O 10
20
30
40
50
60
70
80
90
1 00
�� Kn
u mil.
Vidimo da su točke raspoređene približno u pravcu, i to počevši od lijevoga donjeg prema desnomu gornjem uglu. Veza između prometa i dobiti je pozitivna, tj. porast vrijednosti jedne varijable prati rast druge varijable. Veza je također prilične jakosti jer su točke blizu zamišljenoga pravca. Napominjemo da se ovdje radi o školskom primjeru, s malim brojem parova vrijednosti. Samo je po sebi razumljivo da se bolji, statistički utemeljeniji zaključci, dobivaju na osnovi dulje serije vrijednosti obiju varijabli. Prelazimo na ocjenjivanje parametara linearne regresije primjenom izraza Prethodno treba izračunati aritmetičke sredine obiju varijabli:
4 80 6 - = 50 = 6 28 O, Y 8 3 7 80 - 8· 60· 6,25 = 7 80 = 0 13 34 800 8· 6000 ' . 6,25 0,1 3·60 = · 1,5 5. ,
b a
II
(4.6.) i (4.7.).
)
ovom slučaj u , dakle, regresija s ocijenjenim parametrima glasi: y
.
1,55
+
0 , 13
x.
Parametar a interpretiramo kao Vrijednost regresije za Vrijednost nezavisne varijable n ula. Njegova nam interpretacija redovito nije bitna. II ovom bismo ga slučaju in terpretirali kao očekivani gubitak od 1 ,5 5 miL kn ako ne bi bilo prometa. Parametar b se još naziva regresijski
1 38
POGLAVLJE 4
koeficijent i on je najvažniji pokazatelj u regresijskoj analizi. On pokazuje za koliki se iznos
teoretski (tj. prema dobivenoj jednadžbi) mijenja zavisna varijabla, za jedinični porast nezavisne varijable. Prema tome, ako promet poraste za l mil. kn, na temelj u jednadžbe očekujemo povećanje dobiti za 0, 1 3 mil. kn, tj . regresijska vrijednost dobiti se povećava za 0, 1 3 mil. kn . Regresijske su vrijednosti teoretske vrijednosti, vrijednosti koje bi zavisna varijabla trebala poprimiti na temelj u jednadžbe s ocijenjenim parametrima. Za dani niz empirijskih vrijednosti n ezavisne varijable X, pripadne se regresijske vrijednosti računaju njihovim A
uvrštavanjem u regresijsku jednadžbu Y :
YI a + bx1 ]2 = a + bx2
U našem primjeru:
j\ Y2 Y3 A
=
- 1 , 5 5 + 0, 1 3 ·20
1 ,05
1 , 5 5 + 0, 1 3·30 = 2 , 3 5 1 , 5 5 + 0, 1 3 -40
3 ,6 5
+ 0, 1 3 · 1 00 = 1 1 ,4 5 Stupac broj 4 tablice u primjeru 9. 1 . sadrži svih osam regresijskih vrijednosti. Vidimo da j e njihov zbroj jednak 5 0 . To je ujedno kontrola točnosti postupka jer zbroj empirijskih vrijednosti zavisne varijable mora biti jednak zbroju pripadnih regresijskih vrijednosti, tj. mora vrijediti:
Regresijske se vrijednosti mogu pojedinačno analizirati. Uzmimo npr. prvu regresijsku vrijednost 1 ,0 5 . Ona čini procjenu nivoa zavisne varijable, dakle procjenu veličine dobiti, za dani nivo nezavisne varijable, u ovom slučaju za promet od 20 mil. kn. Kako je pripadna stvarna (empirijska) vrijednost dobiti samo I mil. kn, to je razlika YI
YI ::::
l
1 ,05 = - 0,05. To znači da je prvom regresijskom vrijed nosti n ivo dobiti
precijenjen za 0,05 mil. kn ili, relativno izraženo, za 5%. Općenito, razlike yi
yi
Ui su
R EG R ESIJSKA I KORELACIJSKA ANALIZA
vrijednosti varijable neobjašnjenih odstupanja o d teoretskih vrijednosti koje rezidualnim 2 odstupanjima. Za njih se pretpostavlja da su normalno distribuirana ° i konačnom varijancom. Relativna reziduaIna odstupanja dobivaju se reziduaInih odstupanja pripadnom empirijskom vrijednosti zavisne varijable i
139
s e naZIvaJU sa sredinom dijeljenjem m noženjem
kvocijenata sa 1 00, tj.
jJ =
R egresijski pravac
- 1 , 5 5 + 0, 1 3
x
ucrtan je na slici 4.7. U d ijagram raSipanja. To j e
učinjeno pomoću dvije točke čije su ordinate dobivene računanjem regresijske vrijednosti za proizvoljno odabranu vrijednost nezavisne varijable. II ovom je slučaju pravac p rovučen kroz točke T1 (20, 1 ,05) i 'J�(1 00, 1 1 ,45), tj . kroz točke dobivene računanjem prve i osme regresijske vrijednosti. Za u crtavanje regresijskog pravca može se u zeti i točka Cx, ji) , jer je to točka kojom prolazi svaki regres ijski p ravac. Također se može uzeti i točka (O, a) , tj. odrezak na osi ordinata, ako je za konstrukciju dijagrama rasipanja korišten cijeli prvi kvadrant koordinatnog sustava, jer samo u tom slučaju on sadrži svoju n ul-točku .
.... Sli ka 4 . 7 . Dobit
o
13
12 11 10 9 8 7 6
o
5 4
o
3 2 1
O 10
T, 20
30
40
50
60
70
80
90
1 00
Parametar u mil. Kn
Regresij ske su vrijednosti pogodno sredstvo za prognoziranje. Na pnmJer, možemo izračunati koliku dobit možemo očekivati ako bi promet porastao na 1 1 0 mil. kn: 2) o d latinskog: resiđuum • ostatak
140
POGLAVUE 4
Y(x=I IO)
= - 1 , 5 5 + 0, 1 3 · 1 1 0
=
1 2 , 75 mil. kn.
4.4. Ol:jena reprezentativnosti regresije Nakon što smo ocijenili parametre regresijskog pravca, postavlja se pitanje njegove reprezentativnosti. Regresijski je pravac reprezentativniji što je udaljenost parova opaženih, tj . empirijskih vrijednosti od njega manja, tj . što su mu točke na dijagramu rasipanja bliže. Prije no što se pozabavimo mjerama reprezentativnosti, razmotrit ćemo tzv. jednadžbu analize varijance, koja je podloga za računanje pokazatelj ? reprezentativnosti regresije. Ona glasi: n
I (Yi i=l
-
y)2 =
n
I (j\
-
i=l
y)2 +
n
I (Yi i=l
-
yy l.
(4.8.)
Jednadžbu čine tri sume kvadrata čije ćemo značenje ilustrirati pomoću raščlambe dijela ordinate proizvoljne točke iz dijagrama rasipanja.
� Slika 4.8. y
T;(Xi,Yi)
o
o
:} : A
�
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
'Oi-
x
o
o
'-\1-� o
_
o
_ _ _ _ _ _ _ _
o
i � �� _
o
/
_ _ _ _ _ _
o
o
x
3) Pod nazivom jednadžba analize varijance u statističkoj se literaturi podrazumijeva bilo jednadžba triju varijanci:
11
i=1
L (y . - )7) I
11
2
11
L (j . - yl 2
i=1
-'=--- + l
11
n
1=1
L (y - j ) J
same varijance (jer je nazivnik triju varijanci isti).
n
l
2
, bilo njihovih brojnika, budući da su brojnici triju varijanci u istom odnosu kao i
141
REG RESIJ SKA I KO RELACIJSKA ANALIZA
Promotrimo ordinatu točke Tj (xj,Yj) na slici 4.8., preciznije njezin dio do linije Y Y . To je dužina Yi - ji . Ona siječe regresijski pravac u točki čija je ordinata pripadna regresijska vrijednost Yi . Dužina Yi - ji podijeljena je na dva dijela, na dio između regresijskog pravca i prosjeka, dužinu Yi - ji i dužinu Yi - Yi ' tj. dužinu između i-te točke i regresijskog pravca Y . Vrijedi ,dakle, =
(4 .9.)
Razliku Yi ji smatramo protumačenom regresijskom jednadžbom - oč�kujemo, budući da je pravac izraz veze među analiziranim pojavama, da za neku i-tu vrijednost nezavisne varijable zavisna varijabla poprimi teoretsku, tj. regresijsku vrijednost Yi ' Ono što nismo u stanju objasniti jesu su razlike Yi - Yi ' pa ih nazivamo neprotumačenima. Želimo li relaciju (4.9.) izraziti sumarno, za svih n točaka, koliko je parova vrijednosti dviju varijabli, moramo odstupanja kvadrirati. Kako točke na dijagramu rasipanja leže iznad i ispod pravca, tj. kako je -
II
II
II
LYi = L Yi , to je L (Yi - Yi ) = O . i=1 i=1 i=1 II
Isto vrijedi i za zbrojeve odstupanja L (Yi
II
L (Yi - ji) . Stoga se ukupna odstupanja i=1 i=1 kvadriraju i njihovom se raščlambom dolazi do jednadžbe analize varijance (4 .8.). Za dijelove jednadžbe analize varijance uobičajeno se rabe kratice. Za ukupnu sumu kvadrata II
L (Yi - ji) 2 koristit ćemo se kraticom i=1 II
-
ji)
ST (S
=
protumačen u sumu kvadrata L (Yi - ji)� kraticom II
i=1
suma, SP
T =
totalna, tj. ukupna), za
i za neprotumačenu ili reziduainu
sumu kvadrata L (Yi - Yi ) 2 kraticom SR. Vrijedi dakle, i=1 ST = SP + SR.
Iii, precizno: zbroj kvadrata odstupanja empirijskih vrijednosti zavisne . varijable od njezine prosječne vrijednosti jednak je zbroju kvadrata odstupanja regresijskih vrijednosti od prosjeka i zbroju kvadrata odstupanja empirijskih vrijednosti zavisne varijable od pripadnih regresijskih vrijednosti. Elementi jednadžbe analize varijance podloga su za računanje pokazatelja reprezentativnosti regresije. Kako je regresija to reprezentativnija što su joj točke na dijagramu rasipanja bliže,
1 42
POG LAVUE 4
kao prikladna mjera reprezentativnosti služi varijanca regresije ili reziduaina varijanca cr �
.
Ona se računa kao prosjek reziduaine sume kvadrata:
cr y�
( 4. 1 0 ) .
n
Drugi korijen iz varijance regresije je standardna devijacija regresije:
(4 . 1 1 .) Ona je prosJecno odstupanje opaženih, tj. empirijskih vrijednosti zavisne varijable od pripadnih regresijskih vrijednosti.
Koeficijent varijacije regresije Vy , koji predstavlja prosječno relativno odstupanje empirijskih vrijednosti zavisne varijable od pripadnih regresijskih vrijednosti jest omjer regresijske standardne devijacije i aritmetičke sredine zavisne varijable pomnožen sa 1 00:
V·y
cr
(4. 1 2 .)
· 1 00 .
Y
Dijeljenjem protumačene sume ukupnom sumom kvadrata dobiva se koeficijent determinacije (simbol re ) kao pokazatelj jakosti veze među dvjema analiziranim varijablama, a time ujedno i pokazatelj reprezentativnosti regresije. On je dan izrazom: n
L eYi
R 2 = -'-i=n-"
____
L (Yi
(4. 1 3 .)
;=1
Što je veza jača, pravac je reprezentativniji, tj. udio protumačenih u ukupnim odstupanjima je veći, a udio neprotumačenih ili reziduainih odstupanja manji. Vrijednost H2 bliže jedinici znači veću reprezentativnost regresije, manju disperziju točaka oko regresije. Koeficijent determinacije se može izraziti i kao l minus udio reziduainih u ukupnim odstupanjima :
n
L (Yi y) 2 i=1
-
(4. 1 4.)
REGRESIJSKA I KORELACIJSKA ANALIZA
1 43
Komponente jednadžbe analize varijance računaju se pomoću sljedećih izraza:
II II L (Yi y) 2 = L y�-ny 2 i=l i=l II
L (Y; y) 2 = ncr; i=1
,
ili
4.
Protumačena suma kvadrata najjednostavnije se računa tako da se regresijski koeficijent b pomnoži svojim broj nikom. tj.
� (Yi
y)2 = b
[� XiYi - nxyl'
odnosno
n II L (Yi y) 2 = bL (Xi - X)(Yi -y) a može se izračunati i pomoću izraza ;=1 i=l II II II = aL y; +b L xiy; - ny2 , L G; ;=1 1=1 ;=1 11 II II x = 2 2 2 2 _ x; - nx 2 ) x1 b i b y) ( ) ( L L LeV 1=1 1=1 1=1 II II II L
Y
. t
I
t :: )'B . .
1 00
Prema tome, ostale ćemo frekvencije dobiti množenjima:
59 · 1 , 356 = 80 59 · 1 ,88 1 = 1 1 1 JI997 59 · 1 ,91 5 = 1 1 3 J1998 J1999 = 59 · 1 ,864 = 1 l 0. J1996
174
POGLAVLJE 5
5.3.4. Skupni indeksi Skupnim indeksima mjerimo relativne promjene skupine pojava. Skupni se indeksi računaju kao vagani prosjeci individualnih indeksa. Ako nas npr. interesira kretanje prodajnih cijena nekih vrsta roba, onda na promjenu cijena više utječu cijene robe koja se u većim količinama pojavljuje na tržištu. Stoga se pri računanju skupnih indeksa cijena one ponderiraj u količinama proizvoda koji su u pitanju, dok npr. pri računanj u relativnih promjena količina skupine artikala, kao ponderi služe cijene proizvoda itd. Najčešće se računaju tri vrste skupnih indeksa: skupni indeksi količina, skupni indeksi cijena i skupni indeksi vrijednosti. Svaki je skupni indeks kvocijent skupine veličina tekućega ili izvještajnog razdoblja u odnosu prema takvoj skupini veličina baznog razdoblja, razdoblja u odnosu prema kojemu se dinamika skupine veličina iskazuje. Način računa�ja skupnih indeksa nije jedinstven. Ovisno o načinu ponderiranja razlikujemo Laspeyresove i Paascheove (čitaj Lasperove i Pašeove) skupne indekse. Laspeyresov skupni indeks količina, računan kao vagana aritmetička sredina individualnih indeksa količina, dan je izrazom:
k L iiL. I 00 · qioPio q i::.,O .: i ..:..:, Q OI ( PO ) - ...!. -i=:!..,. k Lq iOPiO _
___
(5.5.)
S a O označene s u sve veličine baznog (nultog) razdoblja, a s l veličine tekućega ili izvještajnog razdoblja. Količine su označene sa q , a cijene sa p. Oznaka qiJ na primjer, predstavlja i-tu količinu izvještajnog razdoblja. Oznaka QOI (po) znači da se radi o skupnom indeksu količina (Q), indeksi OI upućuju na to da se uspoređuju razdoblja O i l , a po u zagradi upućuje na to da su za pondere korištene cijene nultog razdoblja. Kod svih Laspeyresovih indeksa ponderi su iz nultog, tj . baznog razdoblja. Produkti količina i cijena qiOPiO čine vrijednosti - u ovom slučaju baznog razdoblja. Ponderi qiOPiO mogu se izraziti i relativno, u kom slučaju oni predstavljaju strukturu vrij ednosti pojedinih artikala u baznom razdoblju, tj . : ,
WiO
=
q OP k i iO (100) . LqiOPiO
(5.6.)
i= 1
Struktura vrijednosti može biti dana bilo kao proporcije, bilo u obliku postotaka, pa je stoga množenje sa 1 00 u gornjem izrazu u zagradama. S relativno izraženim ponderima Laspeyresov skupni indeks količina poprima oblik:
VREMENSKI N I ZOVI
1 75
k
I R · 1 00 · WiO - ..qiO .::,.k . Q OI ( Po ) -_ ..!..:·:.!.I ..:.: I WiO i=1
__ _
(5 . 7 .)
Laspeyresov skupni indeks količina u agregatnom obliku dan je izrazom: k
Iq il PiO ( = · 1 00 , ) QOI PO i;1 IqiOPiO i=1
( 5 . 8.)
a dobiven je sređivanjem izraza ( 5 . 5 . ) kraćenjem sa qiQ u brojniku. Paascheovi sku pni indeksi se razlikuju od Laspeyresovih po načinu ponderiranja. Kod Laspeyresova indeksa količina ( 5 . 5 . ) individualni se indeksi količina ponderiraju produktima q,OPiO, dakle vrijednostima baznog razdoblja. Kod Paascheova skupnog indeksa količina kao ponder služe produkti qiOPd, dakle količine baznog po cijenama izvještajnog razdoblja. Na to, da se radi o Paascheovu indeksu, upućuje i oznaka P I u zagradi na lijevoj strani izraza koji slijede. Izraz za Paascheov skupni indeks količina, računan kao vagana aritmetička sredina individualnih indeksa količina glasi: k
I R . l OO · qioPiI qi. .:,O _ ...!.: : I ..:..:. Q OI ( PI ) - i=:.!... k I qiOPil i=1
__ _
(5 .9.)
Isti indeks s relativno izraženim ponderima glasi: k
I R . I OO . Wil i=:.!... : I ..:..:. .q i.:,-O Q OI ( PI ) -_ ...!.: k I w i] i=1
_ _ _
'
(5 . 1 0.)
pri čemu ponderi Wj predstavljaju strukturu vrijednosti pojedinih artikala iz baznog razdoblja po cijenama izvještajnog razdoblja, tj . :
1 76
POGLAVUE 5
( 5 . 1 1 .)
Paascheov skupni indeks količina u agregatnom obliku, dobiven sređivanjem brojnika izraza ( 5 .9.), glasi: k
LqilPil ) · 1 00 . QOI (PI i;1 LqiOPiI i=1
(5. 1 2.)
=
Analogno skupnim indeksima količina, računaju se i skupni indeksi cijena. Kod Laspeyresovih indeksa individualni se indeksi cijena ponderiraj u vrijednostima baznog razdoblja, produktima qiUPiU, a kod Paascheovih indeksa ponderira se s količinama izvještajnog, po cijenama baznog razdoblja, tj. s produktima qilPiU . Laspeyresov skupni indeks cijena, računan kao vagana aritmetička sredina individualnih indeksa cijena, dan je izrazom: k
L lli · 1 00 . qiOP;o
OI (qO ) - ..!;-i-=.!.l--=P....:.i.::-Ok LqiOP;o i=1
R
____
-
( 5 . 1 3.)
S relativno izraženim ponderima Laspeyresov skupni indeks cijena poprima oblik: k
L lli . 1 00 · wio
P OI (qO ) - -'-i=---'I__i..O ..,. LWiO i=l
R
k
_ _ __
-
'
( 5 . 1 4 .)
te u agregatnom obliku: k
LPilqiO i;1 · 1 00 . ( ) qo Ol P LP iOqiO i=l =
( 5 . 1 5.)
VREMENSKI N IZOVI
1 77
Slijede tri izraza za Paascheove skupne indekse cijena:
( 5 . 1 6.) i=]
k
L ..fu. . lOO , wil
P01(qj) = -"=-"'-'7--i=l
k
L Pilqil PoMI ) = i;:1 L P Oq ;=1
(5. 1 7. )
i
· 1 00 .
( 5 . 1 8)
il
Skupni indeks vrijednosti računa se samo u agregatnom obliku , i to tako da se vrijednosti izvještaj nog razdoblja (zbroj produkata qilPI1 ) podijele s vrijednostima baznog razdoblja ( zbrojem produkata q;aPio) i kvocijent pomnoži sa sto: k
V.
OI
L q"Pil -
i=l k
Lq oP O i=l
;
. 1 00 .
( 5. 1 9. )
i
Skupni s e indeks vrijednosti može dobiti i množenjem dvaju skupnih indeksa količina i cijena, od kojih jedan (svejedno koji) mora biti Laspeyresov, a drugi Paaseheov. Primjer: U veletrgovini "A" zabilježen je u dvije godine sljedeći promet triju vrsta robe.
...
Tabela 5 . 9 . Vrsta robe
Cijena po toni u 000 kn
Količina u tonama
1 999.
2000.
1 999.
2000.
PiO
Pil
qiO
qu
staklo
18
20
25
22
porculan
24
25
18
20
keramika
10
8
28
35
l
2
3
4
5
178
POGLAVUE 5
tabeli koja slijedi izračunat ćemo sve elemente potrebne za računanje Laspeyresovih indeksa količina:
U
....
Tabela 5 . 1 0 . Količine Individualni indeksi količina
Vrijedno-
Produkti
sti 1999.
stupaca 2 i 3
2000.g.
Struktura
po
vrijednosli 1999.
cijenama 1999.
Vrsta robe
1
Produkti stupaca 2 i 6
qil . 1 00 qw
q,o PiO
2
3
q il
- ·
qiO
. 1 00 qiO PiO ·
q ilPiO
WtO
5
6
4
qjl l O o. i1';o qiQ •
7
88
450
39600
396
38,7
3405,6
porculan
III
432
47952
480
37, 2
41 29,2
keramika
125
staklo
Ukupno
-
280
35000
350
24. 1
3012,5
1 1 62
122552
1226
100,0
10547,3
"
I !iJl . 1 00 · qioPiO ) ...!.:i-:.c.1 -'-.:. :,-. ( QOI Po - - q. ;0:: k IqiOPiU i=1 _
_ _ _
1 22 5 5 2 = 1 0 5' 5 1 1 62
k
I !iJl . 1 00 · wiO
Q0 1 ( WU) = -'=-'-'-';---
1 05, 5
i=1 k
IqiJPiU
· 1 00 1 226 ' 1 00 = 10 5, 5 . QO I(PO) = ikI 1 162 Iq ;op;o ;=1 Količine navedenih trij u vrsta robe povećane su 2000 . godine u odnosu prema prethodnoj 1 999. godini za 5 , 5 % u prosjeku , raču nano po cijenama 1 999. godine. U
nastavku tabele dani su elementi potrebni za računanje Paascheovih indeksa količina:
VREMENSKI NIZOVI
Vrsta robe
Količine 1999, po cijenama 2000,g, qiOPil
Produkti stupaca 2 i 8 q il
- ·
qiQ
1 00 qiO Pi I ·
9
8
Vrijednosti 2000,
Ponderi
qilPil
Wi1
10
II
Produkti stupaca 2 i I I q 'l
' ·
qiQ
1 00 wiI ·
12
staklo
500
44000
440
42,6
3748,8
porculan
450
49950
500
38,3
425 1 ,3
keramika
224
28000
280
19.1
2387,5
1 1 74
1 21 950
1 220
100.0
10387,6
Ukupno
l 79
k
( ) Q 01 PI
=
� !liL · I 00 · w il L.. , ;=1
q,o k L Wi]
1 0387 6 = 100 ' = 1 03' 9
;=1
Količine navedenih triju vrsta robe povećane su 2000 . godine u odnosu prema prethodnoj 1 999 . godini za 3,9% u prosjeku, računano po cijenama 2000 . godine.
180
POG LAVLJE 5
Slijedi nastavak tabele u kom je i zložen postupak raču nanja skupnih indeksa cijena:
Vrsta robe
Individualni indeksi
Produkti stupaca
Produkti stupaca
13 i 3
13 i 6
cijena
PiO 13
100
PiO
1 00 ' qiOPiO 14
Pl
'
PI O
·
l OO
,
Produkti stupaca 13 i 5
wO
i
PiO
15
· 1 0 0 · qilPiO
Ponderi
w11
Produkti stupaca 1 3 i 17
Pl ' · I OO , wiI PiO
-
18
16
17
staklo
III
49950
4295,7
43956
32,3
3585,3
porculan
104
44928
3868,8
49920
39,2
4076,8
keramika
80
Ukupno
22400
1928,0
28000
28,5
2280,0
1 1 7278
10092,5
1 2 1876
1 00,0
9942,1
Računamo tri varijante Laspeyresova indeksa cijena: k
'" P 'I · I OO · L.. i=l PiO
qiOPiO
1 1 7278 1 1 62
=
1 00'9
i=1
-'=--'-':,--__ = 1=1
10092,5 100 9 100 =
'
I
Cijene triju vrsta robe povećane su 2000. godine u odnosu prema prethodnOj 1 999. godi n i za 0,9% u prosjeku, računano po količinama 1 999. godine.
VREMENSKI N I ZOVI
181
Slijede tri Paascheova skupna indeksa cijena:
k P L -;l · I OO · q'l P 'O 1 2 1 876 P01 ( ql ) = ...!.::.!...�---- = l226 = 99,4 I
I
;=1
k P i1 · 1 00 · Wi1 L __ P i I oM P I ) = ..!;i-::!....:;...:;°7-k--- 9942,1 = 99'4 100 L WiJ i=1
Na kraju ćemo izračunati i skupni indeks vrijednosti:
VO I
=
k L qil Pil 1 . 1 00 = 1 220 · 100 1 05 0 . ;= k 1 162 ' Lq;o P;o ;=1
Isti se rezultat može dobiti množenjima odgovarajućih indeksa količina i cijena, i to:
� l (PO ) ·POI (ql) = 105,5·0,995 = 1 05,0 Vo I = Qo I (PI ).pOI (qo) = 1 03,9· 1,009 = 1 04,84 ", 1 05. Vrijednost prometa triju vrsta roba povećala s e 2000. godine u odnosu prema prethodnoj, 1 999. godini u prosjeku za 5%. VO I
=
Zbog nepostojanja jedinstvene metodologije računanja skupnih indeksa, računa se i tzv. Fischerov " idealni" skupni indeks količina, odnosno cijena. On se računa kao geometrijska sredina dvaju i ndeksa količina (odnosno cijena), od kojih je jedan Laspeyresov, a drugi Paascheov. Za prethodni primjer Fisherovi skupni indeksi bi iznosili:
QO I
.J105,5 · 1 03,9 = 1 04,7
POl .J1 00,9 · 99,5 = 1 00,2 .
182
POGLAVUE 5
Za potrebe ekonomskih analiza u statističkim se zavodima raču naj u različiti posebni oblici skupnih indeksa količina, kao npr. indeksi fizičkog obujma različitih grana proizvodnje, te različite vrste skupnih indeksa cijena, kao skupni indeksi cijena poljoprivrednih proizvoda, industrijskih proizvoda, skupni indeksi cijena u trgOVini na veliko, u trgovini na malo itd. Od posebne je važnosti slmpn i indeks troškova života, kao posebni oblik skupnog indeksa cijena. Pri njegovu se računanju prate promjene cijena samo artikala i usluga potrebnih za svakodnevni život. Služi za izračunavanje realnih plaća i indeksa realnih plaća prema obrascima: ' real nI" Iznos place
=
. der1-.. ' ln e; realm'Jl placa
nominalni iznos indeks troškova života : I OO
=
iznos nominalnih indeks troškova života
· 1 00.
Postupak dijeljenja nominalnih iznosa skupnim indeksom cijena (a indeks troškova života je vrsta skupnog indeksa cijena) je "čišćenje" nominalnih iznosa od inflacije i naziva se deJlacioniranje.
5.3.5. Srednje vrijednosti vremenskih nizova 5.3.5. 1 . Aritmetička
sredina
Izbor srednje vrijednosti vremenskog n iza ovisi o tome radi li se o intervalnom ili trenutačnom vremenskom nizu, te radi li se o stacionarnoj ili dinamičnoj pojavi . Ako se radi o intervalnom vremenskom nizu i o stacionarnoj pojavi, čije frekvencije variraju oko neke zamišljene paralele s osi apscisa, jednostavna aritmetička sredina je prikladna srednja vrijednost vremenskog niza. II takvom, dakle, slučaju računamo:
Reprezentativnost izračunanog prosjeka mjerimo na uobičajeni način, tj. pomoću varijance, standardne devijacije j koeficijenta varijaCije: II
2)y, t=1
11
VREMENSKI N IZOVI
1 83
V = � ·l OO . Y
Varijancu, odnosno standardnu devijaciju računamo najlakše preko momenata, bilo onih oko nule, bilo onih oko odabrane konstante "a" , kao što je to opisano u prethodnim poglavljima. Aritmetičku sred inu intervalnog niza računamo i onda kad raspolažemo s vrlo malim brojem frekvencija, npr. podacima o proizvodnji za tri mjeseca. U takvom se slučaju može izračunati prosjek triju frekvencija njihovim zbrajanjem i dijeljenjem s tri, bez obzira na eventualnu odsutnost njihove stacionarnosti, mada je pitanje što se time dobiva. 5.3.5.2.
Kronološka sredina
Za trenutačni vremenski niz, ako je stacionaran (što vidimo npr. iz grafičkog prikaza) i ako je pojava snimana u jednakim vremenskim razmacima, računa se kronološka sredina pomoću i zraza
Y1 + y
_ _ , _ "
,li
2
==
11-1
+ ""
n-l
y
LJ ·l 1-2
( 5.20.)
To je oblik izraza za vaganu aritmetičku sredinu u kojoj su ponderi vremenska razdoblja između dvaju sukcesivnih snimaka pojave. Ako razdoblja nisu jednaka, ponderi se posebno računaju tako da se razdoblja između pojedinih datuma, na koje se podaci odnose, raspodijele na po dva jednaka dijela. Svaki se podatak, tj . frekvencija, množi ponderom koj i čine polovica razdoblja prije i polovica razdoblja nakon datuma na koji se t a frekvencija odnosi. U općem slučaj u , izraz za kronološku sredinu , s vremenskim razdobljima w kao ponderima glasi: n
L:Yt w/ y = -,-I==..!I_ L:w/ n
( 5 .2 1 .)
1=1
Primjenu kronološke sredine pokazat ćemo na dva pnmJera. U oba se slučaja radi o trenutačnim i stacionarnim nizovima, što se vidi po frekvencijama koje variraju oko 200. Hačunat ćemo prosječni broj zaposlenih jednog poduzeća u razdoblju od devet mjeseci. U prvom su primjeru frekvencije ekvidistantne, tj. među njima je jednaki vremenski razmak\ a u drugom nisu. 4) Jedl1Qslavl1Qsti radi, ulimamo da su svi mjeseci jednake veličine.
1 84
..
POG LAVLJ E 5
Ta bela 5 . 1 1 . Zapos l e n i u poduzeću "A" 1 .-g . mjesec 2000 . , stanje krajem mjeseca
Mjesec
Broj zaposlenih
t
YI
l
!
Ponderi Wt
2
Yili-Jt
3
4
l.
200
0,5
100
2.
200
l
200
3.
202
l
202
4.
201
l'
201
5.
1 99
1
199
6.
202
1
202
7.
200
1
200
8.
203
1
203
9.
202
0,5
101
Ukupno
8
1 608
Iz postupka izloženog u tabeli 5 . 1 1 . vidi se da je i zraz ( 5 .20.) samo specijalni slu čaj izraza ( 5 . 2 1 .), odnosno, u slučaj u jednako vremenski udaljenih podataka poluzbroj što i množenje frekvencija J I i JtI ponderima 0,5 i njihovo zbrajanje nakon toga.
11-1
J
JI + )"2 + L Jt 2 t",)
---�=- = ...!.::.!.--
n -l
1 608 8
-- =
201 zaposlenI. .
2
isto je
VREME NSKI N I ZOVI
�
1 85
Tabela 5. 1 2 . Zaposleni u poduzeću "A" 1 . - g . mjesec 2000 . , stanje krajem mjeseca Mjesec
B roj zaposlenih
t
y,
1.
200
Razdoblja
Polovine razdoblja
3
4
2
l
2
l
l
3
9.
202
Ukupno
-
6
l
200
1 ,5
303
2
402
2,5
500
l
202 1607
1,5 1,5
200
7.
y,w,
5
0,5 0,5
201
4.
w,
l
202
3.
Ponderi
2
l l
8
-
8
n
ji
2 >, w,
=
-'-.'=--,-1__ n
1 607
= __ =
L W,
8
200,87 5 "". 20 1 zaposleni.
' =1
Kolone 3 i 4 tabele 1 1 . 2.2. jesu pomoćne kolone i mogu se izostaviti. Ovdje su u metnute radi razjašnjenja računanja pondera WtO Prvi ponder 1 u stupcu br. 5 jest polovina od 2 mjeseca, koliko je proteklo između datuma kada su zabilježena prva dva podatka. Drugi ponder je 1 , 5 , tj . polovina o d 2, plus polovina jednomjesečnog razdoblja koje slijedi, 0 , 5 itd.
5.3.5.3. Geometrijska sredina Radi li se o dinamičkoj pojavi (bez obzira na to je li niz intervalni ili trenutačni) , može nas interesirati brzina njezina rasta ili pada. Prosječni tempo promjene pojave u nekom razdoblju
1 86
POG LAVLJ E 5
računa se pomoću geometrijske sredine. Ona se definira kao (n- I ) korijen produkta verižnih indeksa vremenske serije: G Kako
/I{j V
2
je
YI
. . ll
.
Y3 '"
1 00 .
\!
. /I-l V/I
( 5 .22.)
.
V3 = h. · 1 00 . . . V,,_ I ==
yz
YII-2
· 100 . V,,=
Y,,-l
· 1 00 .
njihovim
množenjem dolazi do kraćenja brojnikn indeksa V2 s nazivnikom indeksa Vl . kraćenja broj niku indeksa Vl s nazivnikom indeksa V. itd. Ako pomnožirno svih YI- I verižnih indeksa dobivamo: Y2'Y3
•
..
G = n-l
· Yn.)·Yn
=
fi:. . I OO .
V YI
� · 1 00 n-1 pa j e YI
'
•
( 5 .2 3 . )
Geometrijska sredina je izrazom ( 5 .22.) i ( 5 . 2 3 . ) dana u obliku prosječnoga verižnog indeksa. Kako je množenje sa 1 00 kod računanja indeksa prisutno samo i nterpretacije radi Uer je interpretiranje u postocima vrlo rašireno i omiljeno). to se ono može i izostaviti. U tom se slučaju izraz za geometrijsku sredinu reducira na
G=
n-fi .
( 5 .24.)
Geometrijska sredina, računana pomoću izraza ( 5 .24.) , dana je u obliku prosječnoga verižnog indeksa iz kog je uklonjeno množenje sa 1 00 s Iz istog se izraza vidi da je za računanje geometrijske sredine dovoljno podijeliti posljednj u s prvom frekvem:ijom niza i izvaditi korijen veličine 11 - L Geometrijska se sredina može računati i pomoću indeksa n a stalnoj bazi jer s u proporcionalni originalnim frekvencijama p a modifikacija prethodnog izraza ( 5 .24.) za geometrijsku sredinu glasi: G = Il
-f.
.
( 5 .2 5 . )
Treba napomenuti da s e geometrijska sredina smije računati samo za pojave u razdoblju u kome one bilo neprekidno rastu. bilo neprekidno padaju. U takvim su slučajevima svi verižni indeksi ili iznad ili ispod 1 00. Također. osim što svi verižni indeksi moraj u biti bilo veći, bilo 5) Mnogi autori razlikuju indekse od koeficijenata. Kvocijente razina pojave dvaju razdoblja koja se usporedulu, bel množenja s a 100 nazivaju koeficijentima, a nakon množenja sa 100 indeksima. Ima, međutim, autora koji se dosta ležerno odnose prema tim nazivima ; rabe naziv indeks bez obzira na to je li obavljeno množenje sa lOO ili ne.
VREMENSKI N IZ OVI
1 87
manji od 1 00, oni moraju biti i približno istog reda veličina, jer u protivnom računanje geometrijske sredine ne bi imalo smisla. Na primjer, kad bi jedne godine pojava porasla u odnosu prema prethodnoj za 2% (verižni indeks 1 02), a sljedeće za 1 20% (verižni indeks 220) , onda ne bi bilo uputno tvrditi da se pojava u tom razdoblju prosječno godišnje povećavala za 49,8%, tj. približno za 50% (
.JI 02 · 220
=
1 49,8 ).
Pomoću izračunane geometrijske sredine možemo utvrditi prosječnu stopu kojom se pojava u prosjeku mijenjala u promatranom razdoblju. Ako je geometrijska sredina izračunana u obliku prosječnoga verižnog i ndeksa, dakle ako je u rezultatu sadržano množenje sa 1 00, stopa se računa kao kod svakog indeksa, tj. prosječna stopa promjene
=
prosječni verižni indeks - 1 00.
Dakle, ako je geometrijska sredina računana pomoću izraza (5.22.) ili (5.23.), prosječna stopa promjene iznosi:
S
C
IDO.
( 5.26.)
Ako je geometrijska sredina računana pomoću izraza ( 5 .24.) ili ( 5 . 2 5 .) , tj. ako je dana u formi prosječnoga verižnog indeksa "očišćenog" od množenja sa 1 00, prosječna se stopa promjene pojave u promatranom razdoblju računa pomoću obrasca:
S
(C 1) · 100.
(5.27.)
Geometrijska sredina je vrlo pogodno sredstvo za planiranje. za buduće se razdoblje izračunaju teoretske frekvencije na takav način da se početna empirijska frekvencija za svaku sljedeću godinu (ili neku drugu vremensku jedinicu) množi planiranom geometrijskom sredinom. Primjenu geometrijske sredine ćemo pokazati na jednostavnom primjeru. U tabeli 5 . 1 3. koja slijedi dani su podaci o proizvodnji artikl� "A" u tonama za razdoblje 1 994.-2000. za empirijske su podatke izračunani verižni indeksi te pojedinačne stope promjena, kako bi se potkrijepila opravdanost računanja geometrijske sredine, U stupcu 5 dane su teoretske frekvencije.
188
�
POG LAVLJ E 5
Tabela 5. 1 3. Proizvodnja tonama
Godina
u
Verižni indeksi proizvodnje
Pojedinačne stope promjena
Teoretske (očekivane) frekvencije
Ostvareno planirano
V,
SI
YI
YI - YI
-
-
400
-
t
YI
1994.
400
1995.
414
1 03,5
3,5
416
-2
1996.
432
1 04,3
4,3
433
-
1997.
450
1 04,2
4,2
450
O
1998.
470
1 04,4
4,4
468
2
1999.
480
102,1
2,1
487
-7
2000.
506
105,4
5,4
506
O
2
I
3
4
5
6
l
Vidimo da pojava neprekidno raste jer je svaka empirijska frekvencija u stupcu 2 veća od prethodne, te da su svi verižni indeksi veći od sto i usto približno istog reda veličina, što se vidi i iz stupca s pojedinačnim stopama uzastopnih promjena koje su u rasponu od 2, 1 do 5,4%. Znači, uvjeti za računanje geometrijske sredine su ispunjeni. Ona u ovom slučaju iznosi: G
=
,,-lu.: VJ; =
7-�
506 400
;:::; 1,04 .
Do geometrijske sredine možemo doći i vađenjem šestoga korijena iz produkta verižnih indeksa iz stupca br. 3, odnosno:
G
�
'-4V, . V, . ... . V._, . v.
�
.�tr 1=2
V, VI 03,5 · 1 04,L. · 1 05,4 �
�
V1,263 7443 5 5 · 1 0" " 1 04.
Na prvi je pogled vidljivo da je prvi način računanja mnogo jednostavniji i treba ga rabiti kad god raspolažemo originalnim frekvencijama ili njima proporcionalnim veličinama (indeksima na stalnoj bazi, na primjer) .
VRE M E NSKI N IZOVI
189
Iz oba s e rezultata vidi d a j e prosječna stopa porasta proizvodnje artikla " A " u razdoblju 1 994.-2000. iznosila 4% na god in u, tj .
S (G - 1) · 1 00 ( 1 ,04 =
S
=
G - 1 00
1 04
1 00
1 ) · 1 00
4%, odnosno
4%.
U stupcu br. 5 su teoretske frekvencije, tj. frekvencije kakve bi bile da se proizvodnja ravnomjerno povećavala, tj . da je rasla točno prema izračunanoj stopi. One su izračunane tako da je početna empirijska frekvencija povećana u sljedećoj godini za 4% itd . Preciznije,
YI
YI = 400
416 4 1 6 · 1 ,04 = 400 . 1 ,042 = 4 3 3
487 · 1 ,04 = 400 · 1 ,04" = :;06. FrekvenCije u stupcu br. 5 moglo se izračunati i unaprijed, odmah nakon isteka 1 994. godine. Zamislimo da je poduzeće za razdoblje do 2000. godine planiralo prosječni godišnji porast proizvodnje od 4%. U tom bi slučaju plan u cijelosti bio ispunjen, mada je u nekim godinama bilo i podbačaja plana, kao što se vidi iz stupca br. 6 . Planiranje budućih frekvencija za razdoblja nakon n-tog provodi se tako da se posljednja, tj. n-ta empirijska frekvencija pomnoži geometrijskom sredinom dignutom na odgovarajuću potenciju. Tako, ako računamo prognozu za dva razdoblja unaprijed, posljednju empirij sku frekvenciju množimo s geometrijskom sredinom dignutom n a kvadrat itd. Kod korištenja geometrijske sredine u svrhu prognoziranja treba procijeniti hoće li se i nakon n-tog razdoblja pojava o kojoj se radi dešavati u istim uvjetima kao i do tada, je samo u tom slučaju prognoziranje opravdano. Zbog toga nije preporučljivo prognozirati za dugo razdoblje . unaprijed. Za prethodn i primjer prognoza za 2003. godinu iznosi:
Y2003. A
506 · 1 ,04 3
569 tona.
5.3.5.4. Trend Kod dinamičkih vremenskih serija često želimo uočiti i na pogodan analitički način izraziti dugoročnu tendencij u razvoja pojave u vremenu. Vremenska se serija Y uobičajeno predstavlja kao zbroj nekoliko komponenata:
Y 6)
T + e + s + R6 .
( 5 .28.)
Takav model naziva s e aditivnim, z a razliku o d multiplikalivnog modela koji čini umnožak navedenih komponenata. gdje je
Y
T· C· S R..
1 90
POGLAVU E 5
T je oznaka za dugoročnu tendenciju razvoja pojave u vremenu, tj. trend komponentu.
e označuje cikličku komponentu kojom su izražena odstupanja od trenda koja se pripisuju općim poslovnim i ekonomskim uvjetima u kojima se pojava odvija. S izražava sezonsku komponentu kojom se opisuju fluktuacije vremenskog niza koje se ponavljaju u određeni m razdobljima vremena. Na primjer, u zimskim su mjesecima aktivnosti u građevinarstvu na najnižoj razini. R je rezidualna komponenta. Ona je neobjašnjeni ostatak pojave nakon što se glavnina obj asni trend komponen tom, te cikličkom i sezonskom komponentom. ReziduaIna se komponenta može djelomično pripisivati nepredvidivim rijetkim događajima, kao što je potres ili teroristički akt, a djelomično nepredvidivim akcijama ljudi. Premda često nije moguće izolirati svaku od komponenata zasebno (to vrijedi ponajprije za cikličku komponentu), ovakva formulacija modela pomaže analitičarima vremenske serije da bolje shvate fluktuacije analizirane pojave. Trend se izražava kao funkcija vremena modelom: Y = f (X) + u.
( 5 .29.)
Pojava je, dakle, u nekom vremenu predstavljena zbrojem funkcijske vrijednosti f (X) vrijednosti slučajne varijable u. Ako npr. na temelju grafičkog prikaza pojave Y zaključi mo da se pojava linearno mijenja u vremenu, odlučit ćemo se za linearnu funkciju, tj. za
f(X)
a + bX.
Linija trenda s ocijenjenim parametrima glasi (kao i kod linearne regresije) :
Y = a + bX,
(5. 30.)
a parametri a i b ocjenjuju se metodom najmanjih kvadrata. za svaku jedinicu vremena jednadžba linearnog trenda s ocijenjenim parametrima glasi Y,
a+
bx"
(5.3 1 .)
a ocjene parametara računaju se pomoću izraza: 11
2:>tYt nxy
b = �--/I ,, ?
-2
(5. 32.)
L.,x; - nx !=I
a
y bi .
( 5 . 33.)
t
VREM ENSKI N I ZOVI
191
Računanje parametara jednadžbe trenda demonstrirat ćemo na nekoliko malih, školskih primjera. Prvi se primjer odnosi na proizvodnju artikla HA", dakle na intervalni niz.
�
Tabela 5 . 1 4 . Računanje parametara l inearnog trenda Godina
Proizvodnja u 000 kom
Varijabla vrijeme
t
YI
X/
X/YI
XI
1 996.
15
l
15
l
1 997.
24
2
48
4
1998.
33
3
99
9
3
2
l
4
2
5
1 999.
42
4
1 68
16
2000 .
42
5
210
25
Ukupno
1 56
15
540
55
i = .!2. = 3 , -y = � = 3 1 2 , 5 ' 5 "
L XtYt - nxy
b = ,- l n
'" L.. X t2 - nx 2 -
t=l
a
72 = 7 2 = 540 - 5 . 2 . 3 1' 2 = ' 55 - 5 · 2 lO 2
= Ji -bi = 31,2 - 7,2 · 3 = 9,6 y = 9,6 + 7 , 2 x
x =
1 , 30.06.1996. god.
Jed. za x
Jed. za y
=
l godina
=
000 kom.
CD
Ovo je standardni oblik jednadžbe linearnoga trenda. Ispod jednadžbe trenda uvijek se navode oznake koje omogućuju interpretaciju izračunanih parametara linearnoga trenda. Parametar b općenito predstavlja prosječnu promjen u pojave u promatranom razdoblju za jedinični porast varijable vrijeme. U ovom ćemo slučaju reći da je proizvodnja artikla HA" u promatranom razdoblju prosječno na godinu rasla za 7,2 tisuće komada.
1 92
POGLAVLJE 5
Parametar a nema neku posebn u i nterpretaciju, osim geometrijske, On je veličina ordinate trenda u ishodištu, tj. točki x = O. U ovom slučaju 9,6 je teoretska proizvodnja izračunana na temelj u jednadžbe za nultu, dakle za 1 99 5 . godinu, preciznije proizvodnju dosegnutu na dan 30.06, 1 99 5 , 7 Računanje trenda moguće je jako pojednostavniti drugačijim računanjem vremena, tj , počevši od sredine niza unaprijed i unazad. Kako je vremenska n ul-točka tada u sredini niza, to je aritmetička sredina n a taj način formulirane varijable vrijeme n ula, pa se izrazi za parametre trenda znatno reduciraju, Uz oznake Xr za na taj način transformiranu varijablu ' vrijeme i a i b ' za parametre l inearnog trenda računane pomoću nje, izrazi za njihovo računanje glase: a
= y,
( 5 , 34.)
"
b' =
2:XtJ't
",, 1= -,1__
(5.35,)
/I
2: x; t=1
Za podatke i z prethodnog primjera izračunat ćemo jednadžbu linearnog trenda pomoću izraza (5. 34.) i ( 5 . 3 5 ,) ,
....
Tabela 5. 1 5 . Računanje para metara linearnoga trenda, linea rno transform irana varijabla vrijeme (tj. ishodište u sredini razdoblja) Godina
I
Varijabla vrijeme
YI
XI
15
-30 -24
l
-1 = 2 - 3
O
0 = 3-3
2
3
X
1 997.
24
-2 -l
1 998.
33
O
O 42
l
1 = 4-3
2
84
4
2
1 996,
)l
Objašnjenje za vrijednosti u stu cu br. 3
Proizvodnja u 000 kom
1 999.
42
2000.
42
Ukupno
1 56
=
5-3
10
Ovdje se radi a i nteflla lnom vremenskom nizu, čije su jrekvencijO nastale l�rajanJem tokom promatranag razdo�lja,
U svrhu proved�e raznih
operacija s trendom, pose�no u svrhu računanja teoretskog nivoa pOjave za manja, npr. mjesečna razdol!lja, uzima se da su svi podaci datirani u sredini razdoblja u kom su nastali, Tako se uzima da su godišnji podaci datirani u sredini pojedine godine, tj, na dan 30,06, Ako se trend rabr samo za analizu godišnjih podataka, datum
30,06, u Gznakama uz jednadžbu trenda može se ilGStaviti,
dovoljna je samo oznaka godine,
1 93
VREMENSKI N IZOVI
a
. =
ji
X ""
; = 3 1 ,2 .
3 1 ,2 + 7,2 x
0, 30.06. 1998. gOd.
(?)
Jed. za x = 1 godina Jed. za y = 000 kom. '
Vidimo da se jednadžba CD od jednadžbe @ razlikuje samo u parametru a , što je i logično jer ordin ata na dan 30. 06. 1 998., budući da se radi o rastućem trendu, mora biti veća od ordinate na dan 30. 06. 1 99 5 . za tri prosječna godišnja porasta proizvodnje. Dakle, 3 1 ,2 9,6 + 3· 7,2 . U posljednjem, šestom stupeu tabele 5. 1 5 . pokazano je da se vrijednosti varijable vrijeme iz stupea br. 3 te tabele mogu shvatiti kao rezultat linearne transformaeij e koja se provodi na vrijednostima varijable vrijeme iz stupca br. 3 tabele 5 . 1 4 . prema obrascu: XI XI X . Zbog toga se jednadžba @ naziva i jednadžba na temelju linearno transformirane (kodirane) varijable vrijeme. l\apominjemo da se opisani postupak transformacije varijable vrijeme provodi kod neparne duljine serije. Kod parnog broja frekvencija postupak linearne transformacije je drugačiji i opisan je u primjeru prikazanom u tabeli 5 . 1 8 . ovog poglavlja. -
Pomoću jednadžbe linearnog trenda računaju se trend vrijednosti, tj . vrijednosti koje pojava teoretski poprima na temelju izračunane jednadžbe. One se računaju na isti način kao i regresijske vrijednosti, tj . uvrštavanjem odgovaraj ućih vrijednosti nezavisne varijable vrijeme u jednadžbu trenda s ocijenjenim parametrima. One u našem slučaju iznose:
1 94
....
POGLAVUE 5
Tabe l a 5 . 1 6. Trend vrijednosti
Godina
Trend vrijednosti
t
Y/
l
Računanje trend vrijednosti
"
al pomoću jednadžbe CD
2
3
1996.
1 6,8
1 6,8
=
1 997.
24,0
24,0
=
1 998.
3 1 ,2
3 1,2
=
1 999.
38,4
38,4
2000.
45,6
45,6
Ukupno
156
=
bl pomoću jednadžbe @ 4
9,6 + 7,2 · 1
16,8
9,6 + 7 ,2 · 2
24,0
3 1 ,2 + 7,2 · (- l)
9,6 + 7,2 · 3
31,2
3 1 ,2 + 7,2 · O
9,6 -I: 7,2 · 4
38,4
9,6 + 7,2 · 5
45,6
=
3 1 ,2 + 7,2 . (-2)
3 1 ,2 + 7,2 · 1 =
31,2 + 7,2 · 2
-
-
Vidimo da je zbroj trend vrijednosti jednak zbroju originalnih frekvencija, tj .
n
n
;=1
;=1
L YI LYI '
Frekvencije vremenskog niza, kao i jednadžba trenda (ucrtana pomoću dvije trend vrijednosti) prikazane su na grafikonu 5. 1 3 .
....
Grafikon 5 . 1 3 . Proiz. u 000 kom. 50
40
30
20
10
o
1 996
1 99 7
1 998
1 999
2000
Godina
VREMENSKI N IZOVI
1 95
Jednadžba se trenda, na isti način kao i regresija, rabi za prognoziranje. Prognoziranje unaprijed (ekstrapolacija) opravdano je samo ako se pojava i nakon n-tog razdoblja odvija u približno istim uvjetima kao do tada. Prognoza proizvodnje artikla "A"za 200 1 . godinu pomoću jednadžbe (j) iznosi: 9,6 + 7,2 · 6 '= 52,8 tisuća komada .
hool = )\x:6)
Do istog rezultata možemo doći i pomoću jednadžbe 0 : 3 1,2 + 7,2 · 3 = 52,8 tisuća komada.
Y2001
Ocjena reprezentativnosti izračunanog trenda provodi se na isti način kao ocjena reprezentativnosti regresije. U tu se svrhu računaju varijanca, standardna devijacija i koeficijent varijacije trenda, kao i udio protumačenih u ukupnim odstupanjima.
Varijanca trenda se, jednako kao i kod regresije, računa kao prosjek reziduaIne sume kvadrata:
YI ) 2 (j � = ...:.;;;.:.--- •
y
n
Drugi korijen iz varijance trenda je standardna devijacija trenda:
n
Ona predstavlja prosječno odstupanje opaženih frekvencija od pripadnih trend vrijednosti.
Koeficijent varijacije trenda
V; ,
koji označuje prosje