Estimointi

Wikipediasta
Siirry navigaatioon Siirry hakuun
Esimerkki systemaattisesta otannasta, jossa perusjoukosta valitaan joka kolmas otokseen. Ei ole aina mahdollista valita koko perusjoukkoa ja siksi estimointi on tärkeää, koska se säästää aikaa ja rahaa.

Estimoinnilla (engl. estimation) tarkoitetaan, että etsitään parasta arviota perusjoukon parametrin oikealle arvolle otokseen perustuen. Estimaattorilla (estimator) tarkoitetaan estimoinnissa käytettävää otossuuretta. Estimaatti (estimate) taas on havaintoaineistosta laskettava estimaattorin arvo. Hyvänä muistisääntönä voidaan sanoa, että estimaattori on estimointikaava, jolla laskettu luku on estimaatti. Estimaatti on siis kiinteä luku, jolla ei ole satunnaisjakaumaa.

Estimaattori on satunnaismuuttuja, jolla siten on oma todennäköisyysjakauma eli otosjaukauma. Estimaattori on harhaton, jos estimaattori osuu keskimäärin oikeaan, eli sen otosjakauman odotusarvo on estimoitavan parametrin arvo. Harha (bias) on estimaattorin odotusarvon poikkeama estimoitavan parametrin arvosta.

Merkitään nyt tuntematonta parametria :lla ja sen estimaattoria :llä. :n harha on:
.

Yleensä vaaditaan asymptoottinen harhattomuus, jossa siis harha lähestyy nollaa, kun otoskoko kasvaa. Systemaattinen virhe johtuu estimaattorin harhaisuudeesta ja satunnaisvirhe taas otantavirheestä, mikä aiheutuu perusjoukon vaihtelusta.

Estimaattori on tarkentuva (consistent), jos se on asymptoottisesti harhaton ja lisäksi estimaattorin varianssi lähestyy asymptoottisesti nollaa. Tällöin otoskoon kasvaessa estimaattorin arvot keskittyvät yhä tiiviimmin parametrin todellisen arvon ympärille. Estimaattori on taas tehokas (efficient), jos se on asymptoottisesti harhaton ja sillä on pienin mahdollinen varianssi.

Estimointimenetelmät perustuvat erilaisiin optimointikriteereihin, joista saadaan erilaisia estimaattoreita. Estimointiyhtälö tulee valita valitun optimointikriteerin mukaan, josta saadaan ratkaisuna estimaattori. Parametrien estimointivaiheita voidaan ajatella olevan kaksi suurempaa kokonaisuutta, kun tehdään tutkimusaineiston analyysiä:

  1. Halutaan tutkia ja kuvailla tilastollisia tunnuslukuja, jolloin mielenkiinnon kohteena ovat muuttujien jakaumaparametrien estimointi ja parametreihin liittyvien hypoteesien testaaminen
  2. Halutaan rakentaa erilaisia mallikuvauksia jakaumaparametreille

Estimointimenetelmiä

[muokkaa | muokkaa wikitekstiä]

Momenttimenetelmä (method of moments) on vanhin estimointimenetelmä, jossa otosmomentit asetetaan vastaamaan jakauman momentteja. Näistä saadaan yhtälöitä, joiden avulla ratkaistaan ja estimoidaan parametrit. Menetelmä ei kuitenkaan ole kovin tehokas.

Pienimmän neliösumman menetelmä (least squares, LS) on yleisin optimointikriteeri ja hyvin käyttökelpoinen. Menetelmä on asymptoottisesti tehokas, koska sen tuottamat estimaattorit noudattavat asymptoottisesti normaalijakaumaa, kunhan otoskoko on riittävän suuri. Menetelmässä estimaattori minimoi keskineliöpoikkeaman (mean squared error)

.

Tämä voidaan ilmaista myös varianssin ja harhan avulla seuraavasti:

.

Suurimman uskottovuuden estimointi on tilastotieteessä hyvin tärkeä estimointimenetelmä. Menetelmässä luodaan uskottavuusfunktio, joka maksimoidaan mallin parametrien suhteen.

Bayesin menetelmät

[muokkaa | muokkaa wikitekstiä]

Katso: Bayesilainen tilastotiede

Bayesilaisessa tilastotieteessä ajatellaan, että tarkasteltavalla parametrilla on myös satunnaisjakauma, eli se on satunnaismuuttuja. Tämä jakauma on a priori-jakauma. A priori-jakauman tietoon yhdistetään havaintoaineiston tuoma uusi tieto, josta saadaan parametrille uusi jakauma, eli posteriori-jakauma. Posteriori-jakauman odotusarvo on Bayesin estimaatti.

Yllä kuvatut menetelmät ovat piste-estimointia. Voidaan myös estimoida optimaalinen väli, jolle estimoitava parametri kuuluu tietyllä todennäköisyydellä, jos estimaattorin jakauma ja keskivirhe on tiedossa. Luottamusväli on tavallisesti käytetty tilastollisessa päättelyssä. Luottamusvälit ovat satunnaisvälejä, jotka kertovat, millä tietyllä valitulla todennäköisyydellä estimoitava parametri kuuluu välille. Tavallisesti käytetään 95 %:n luottamusväliä, jossa lasketuista luottamusväleistä keskimäärin 95 % sisältää todellisen parametrin arvon. Luottamusväli kuvaa siis estimoinnin tarkkuutta, eli mitä lyhyempi luottamusväli on, sitä tarkempi parametrin estimointi on ollut.

  • Tapio Nummenmaa & Raimo Konttinen & Jorma Kuusinen & Esko Lehtinen: Tutkimusaineiston analyysi (1997), s. 38-41, ISBN 951-0-21369-1
  • Laininen, Pertti: Tilastollisen analyysin perusteet (2004), s. 12-16, ISBN 951-672-339-X
  • Högmander, Harri: Tilastotieteen peruskurssi 2, luentomoniste. Jyväskylän yliopisto, matematiikan ja tilastotieteen laitos (2010), s. 5-11