Puuttuva tieto
Puuttuvalla tiedolla tarkoitetaan tilastotieteessä sellaisia käytettävissä olevien muuttujien arvoja, joita ei ole saatu mitattua yhdeltä tai useammalta tilastoyksiköltä. Puuttuvaa tietoa on lähes jokaisessa aineistossa ja sillä voi olla hyvin suuri merkitys aineistolle tehtävien analyysien kannalta.
Puuttuvan tiedon lajit
[muokkaa | muokkaa wikitekstiä]Puuttuvuutta voidaan luokitella monin eri tavoin esimerkiksi sen perusteella kuinka puuttuvuus on syntynyt tai minkälainen puuttuvuusrakenne aineistossa vallitsee.
Puuttuva tieto voidaan jakaa esimerkiksi suunnitellusti ja suunnittelemattomasti puuttuvaan tietoon. Suunnitellusti puuttuvaa tietoa syntyy, kun tutkija jättää tietoisesti osan muuttujien arvoista mittaamatta joiltakin tutkimuksessa mukana olevilta tilastoyksiköiltä. Kyselytutkimukset ovat tyypillinen esimerkki suunnitellusti puuttuvasta tiedosta. Kysely voi esimerkiksi sisältää päihteidenkäyttöön liittyviä kysymyksiä, joihin päihteettömän henkilön ei odoteta vastaavan.[1] Myös otantatutkimuksissa voidaan ajatella, että ne yksilöt jotka eivät valikoituneet otokseen puuttuvat suunnitellusti.
Suunnittelemattomasti puuttuvaa tietoa syntyy kun muuttujien arvoja on yritetty mitata, mutta jostain syystä tässä ei ole onnistuttu. Esimerkiksi seurantatutkimuksissa henkilö voi jättäytyä pois kesken tutkimuksen, jolloin tältä mitattavan tiedon saanti keskeytyy. Tiedon puuttuminen voi myös johtua sen virheellisestä hankinnasta, jolloin tutkija voi joutua hylkäämään mitatut muuttujien arvot.
Puuttuvaa tietoa voidaan luokitella myös sen mukaan, kuinka monessa muuttujassa puuttuvuutta esiintyy. Tällöin puhutaan yksi- ja moniulotteisesta puuttuvuudesta. Moniulotteinen puuttuvuus tuo monia haasteita aineiston käsittelyyn. Eri muuttujien puuttuvat arvot voivat esimerkiksi riippua toisistaan.
Donald Rubin (1976) esitteli usein käytetyn puuttuvan tiedon luokitteluperiaatteen, jossa puuttuvuus jaetaan täysin satunnaiseen, satunnaiseen ja ei-satunnaiseen puuttuvuuteen.[2] Täysin satunnainen puuttuvuus (engl. missing completely at random, MCAR) tarkoittaa sitä, että aineiston puuttuvuus ei riipu lainkaan datasta. Satunnaisessa puuttuvuudessa (engl. missing at random, MAR) puuttuvuus riippuu ainoastaan havaitusta datasta. Systemaattista, eli ei-satunnaista puuttuvuutta (engl. missing not at random (MNAR) tai not missing at random (NMAR)) syntyy kun puuttuvuus riippuu myös havaitsemattomasta datasta.
Puuttuvan tiedon käsittely
[muokkaa | muokkaa wikitekstiä]Tilastollisessa päättelyssä pyritään tekemään päätelmiä jostain populaatiosta käytettävissä olevan otoksen perusteella. Puuttuva tieto vähentää otoksen edustavuutta ja lisää siten epävarmuutta.[3] Puuttuvan tiedon käsittelyyn on kehitetty lukuisia menetelmiä, mutta yksikäsitteistä toimintasääntöä puuttuvuuteen liittyvien ongelmien ratkaisemiseksi ei ole. Tutkija voi myös pyrkiä ehkäisemään tiedon puuttumista ennen itse aineiston hankintaa, mikä ei kuitenkaan aina ole mahdollista.
Jos tietoa puuttuu, on suositeltavaa pyrkiä hankkimaan puuttuva tieto. Esimerkiksi kyselytutkimuksissa voidaan vastaamatta jättäneille henkilöille lähettää uusi kysely tarvittaessa useamman kuin yhden kerran vastauskadon korjaamiseksi. Usein puuttuvaa tietoa on hyvin hankala yrittää hankkia jälkikäteen tai se voi olla jopa täysin mahdotonta. Esimerkiksi seurantatutkimuksesta pois jättäytynyt henkilö voi olla muuttanut maasta kesken tutkimuksen tai olla muusta syystä tutkijan tavoittamattomissa.
Täydellisten havaintorivien analyysi
[muokkaa | muokkaa wikitekstiä]Yksinkertainen ratkaisu puuttuvan tiedon ongelmaan on käyttää vain täydellisiä havaintoja, eli niitä tilastoyksiköitä joilta kaikkien muuttujien arvot on havaittu. Tätä toimintatapaa kutsutaan täydellisten havaintorivien analyysiksi (engl. complete case analysis). Jos puuttuvan tiedon määrä on hyvin pieni suhteessa onnistuneesti hankittuun tietoon ja puuttuvuus aineistossa on täysin satunnaista, niin täydellisten havaintorivien analyysi on mahdollisesti varteenotettava vaihtoehto. [4]
Imputointi ja Moni-imputointi
[muokkaa | muokkaa wikitekstiä]- Pääartikkeli: Moni-imputointi
Imputoinnilla tarkoitetaan puuttuvien havaintojen paikkaamista joillakin korvaavilla arvoilla. Puuttuvia arvoja ei voi korvata mielivaltaisesti, jos aineistosta halutaan edelleen tehdä tilastollista päättelyä. Yksinkertaisessa imputoinnissa puuttuvat havainnot paikataan yhdellä korvaavalla arvolla, mikä voi olla käytännöllistä jos puuttuvia havaintoja on vähän. Usein on kuitenkin suositeltavampaa käyttää moni-imputointia, jossa puuttuvalle havainnolle annetaan useita mahdollisia arvoja.
Uskottavuuspäättely ja EM-algoritmi
[muokkaa | muokkaa wikitekstiä]Puuttuva tieto on aiheuttaa ongelmia myös suurimman uskottavuuden estimoinnissa. EM-algoritmi on eräs keino uskottavuusfunktion maksimoimiseksi, kun aineisto sisältää puuttuvaa tietoa.
Lähteet
[muokkaa | muokkaa wikitekstiä]- ↑ Brick, J. M.; Kalton, G.: Handling missing data in survey research. Statistical Methods in Medical Research, 1996, 5. vsk, s. 215-238.
- ↑ Rubin, Donald B.: Inference and missing data. Biometrika, 1976, 63. vsk, nro 3, s. 581–592. doi:10.1093/biomet/63.3.581 Artikkelin verkkoversio.
- ↑ McKnight, Patrick E.;Sidani, Souraya;Mcknight, Katherine M.;Figueredo, Aurelio Jose: Missing Data: A Gentle Introduction. Guilford Pubn, 2007. ISBN 1-59385-394-7
- ↑ Little, Roderick J. A.; Rubin, Donald B.: Statistical analysis with missing data. 2nd painos. New York: Wiley, 2002. ISBN 0-471-18386-5