Variogrammi

Wikipediasta
Siirry navigaatioon Siirry hakuun

Variogrammi eli variogrammifunktio on stokastiikassa ja tilastotieteessä käytettävä riippuvuuden määrän ilmaisemiseen käytettävä mitta. Stokastisissa prosesseissa, jotka muistuttavat esimerkiksi aikasarjoja, käytetään autokorrelaatiota prosessin sisäisen riippuvuuden mittaamiseksi. Satunnaiskentissä, jotka muodostetaan moniston avulla, satunnaismuuttujien väliset riippuvuus ilmaistaan spatiaalisen autokorrelaation avulla. Korrelaatiota ilmaisevan variogrammin rinnalla käytetään myös korrelogrammia ja kovarianssifunktiota.[1][2][3]

Kovarianssia käytetään sellaisten satunnaiskenttien yhteydessä, joilla on olemassa äärelliset odotusarvot ja toiset momentit. Jos toiset momentit ovat äärettömät, voidaan vielä käyttää variogrammia riippuvuuden määrän ilmaisemiseen. Variogrammeja käytettiin aluksi kaivosteollisuuden parissa geostatistiikassa, jonka puitteissa havaittiin, kuinka satunnaiskentän toinen momentti kasvoi kaivosalueen laajetessa liikaa. Variogrammien käyttö mahdollisti erityisesti kriging-estimoinnin, jolla suunniteltiin kaivoksen tuotantoa, mutta sen käyttö on levinnyt muillekin ympäristön suureita estimoiville aloille.

Semivariogrammi[2] on variogrammin puolikas, vaikka joissakin teksteissä nämä kaksi sekoitetaan toisiinsa. Tässä artikkelissa variogrammia merkitään ja semivariogrammia (lue: "gamma"). Vaikka variogrammilla on tärkeä asema geostatistiikan teoriassa, käytetään kuitenkin sovelluksissa lähinnä semivariogrammia.[1][4][3]

Määritelmä

[muokkaa | muokkaa wikitekstiä]

Satunnaiskentässä , missä , eri kohdissa sijaitsevien satunnaismuuttujien erotuksen varianssi (lyhennetään Var) antaa satunnaismuuttujien variogrammin arvon

Koska satunnaismuuttujan varianssi määritellään toisen keskusmomentin avulla

voidaan erotuksen varianssi myös ilmaista keskusmomentin avulla

.

Tätä kutsutaan yleisesti variogrammiksi. Sovelluksissa käytetään yleisemmin semivariogrammia, joka on variogrammin puolikas

Tätä variogrammin yleistä määritelmää voidaan edelleen tarkentaa, mikäli saadaan tarkempia tietoja satunnaiskentän stationäärisyydestä ja laadusta. Mikäli variogrammin arvot riippuvat vain satunnaismuuttujien välisestä etäisyysvektorista voidaan edelliset lausekkeet kirjoittaa

tai

Stationääriset satunnaiskentät

[muokkaa | muokkaa wikitekstiä]

Näin määriteltynä huomioidaan se mahdollisuus, että variogrammilla voi olla eri arvoja jokaisen lähiympäristön pisteparin välillä. Käytännön sovellutuksissa tällainen teoreettinen variogrammi ei ole käyttökelpoinen, sillä sen selville saaminen näytteitä tutkimalla on epätodennäköistä. Optimaalinen toive on, että satunnaiskenttä on jossakin määrin stationäärinen.[3]

On olemassa tilastollisia testejä riippuvuuksien paljastamiseksi. Eräs sellainen on Mantelin testi.[4]

Stationäärisyyksiä

[muokkaa | muokkaa wikitekstiä]

Vahva stationäärisyys (engl. Stationary random function) tarkoittaa sitä, että jokainen satunnaiskentän satunnaismuuttuja on jakaumaltaan identtinen toisen satunnaismuuttujan kanssa ja että mikä tahansa satunnaismuuttujien kokoelman yhteisjakauma on identtinen missä tahansa muualla avaruudellisesti samoin järjestäytyneen satunnaismuuttujaparven yhteisjakaumaan kanssa. Yksinkertainen seuraus on, että kaikki satunnaismuuttujien momentit ovat samat ja niistä erityisesti odotusarvo ja kovarianssi. Jos odotusarvo on äärellisinä olemassa ja se on voidaan odotusarvo vähentää jokaisen satunnaismuuttujan arvosta pois . Näin saadun modifioidun satunnaiskentän satunnaismuuttujien odotusarvoksi tulee nolla Kovarianssi pisteiden ja välille lasketaan silloin

jolloin varianssi tulee olla arvoltaan sama kuin kovarianssi etäisyydellä eli

Viimeinen ehto on myös kovarianssifunktion olemassaoloehto, sillä sitä ei ole olemassa ilman äärellistä varianssia. Vahvasti stationäärisen satunnaiskentän riippuvuusilmiö levittäytyy samanlaisena läpi avaruuden sen eri suunnissa ja on helposti määritettävissä tilastollisin keinoin. Käytännön sovellutuksissa tällaisia kenttiä ei kuitenkaan juuri tavata ja siksi työhypoteesiksi otetaan heikommin stationäärisiä satunnaiskenttiä.[3][5][6]

Heikosti stationäärinen (engl. Second order stationary hypothesis) satunnaiskenttä ei ole yhtenäisesti jakautunut, koska satunnaiskentän satunnaismuuttujilla on vain samat odotusarvot ja varianssit (kaksi ensimmäistä momenttia) muttei samoja jakaumia. Tämä vastaa monien kenttätöiden tuloksia, jossa tilastoanalyysin tuloksena onnistutaan saadaan vain kaksi ensimmäistä momenttia. Muita satunnaiskentän piirteitä ei aina ole käytettävissä. Tarkemmissa geostatistisissa analyyseissä pyritään selvittämään vielä satunnaismuuttujien riippuvuuden määrä ja laatu. Lisäselvityksen tuloksena esitetään usein korrelogrammi tai kovarianssifunktio, jotka ilmaisevat pitoisuuden tai muun suureen jatkuvuuden määrää ja laatua. Tämäkään stationäärisyys ei kaikissa kenttätöissä toteudu. Esimerkiksi odotusarvo voi riippua paikasta eikä ole kaikkialla vakio ja eräillä kentillä satunnaismuuttujien varianssi kasvaa tutkimuskentän laajentuessa. Varianssi voi siis olla ääretön äärettömän laajalla tutkimuskentällä. Seuraava satunnaiskentän stationäärisyysehto onkin tällaisia tapauksia varten.[3][5]

Sisäisesti stationäärinen (engl. Intrinsic hypothesis) satunnaiskenttä määritellään modifioidun satunnaiskentän avulla. Jos satunnaiskentän satunnaismuuttujien erotukset muodostavat heikosti stationäärisen satunnaiskentän, voivat erotusten varianssit olla äärellisinä olemassa. Näitä tapauksia varten lasketaan satunnaismuuttujien välisten riippuvuuksien määrä variogrammin avulla. Variogrammissa tietyn erotusvektorin erottamien satunnaismuuttujien varianssi muodostaa variogrammifunktion yhden arvon. Laskemalla kaikkien eri etäisyydellä olevien satunnaismuuttujien erotuksen varianssin saadaan variogrammin kaikki arvot.[3][5][6]

Koska variogrammi kehitettiin nimeen omaan sisäisesti stationäärisen satunnaiskentän riippuvuusfunktioksi, käytetään sitä siinä kovarianssifunktion sijasta. Se on kuitenkin myös käyttökelpoinen stationäärisemmissä satunnaiskentissä, joten seuraavassa käsitellään sen ominaisuuksia myös niissä.

Vahvasti stationääriset variogrammit

[muokkaa | muokkaa wikitekstiä]

Vahvan stationäärisyyden satunnaiskentässä , jossa on olemassa äärellinen odotusarvo voidaan odotusarvo vähentää jokaisen satunnaismuuttujan arvosta pois . Tämän satunnaismuuttujien odotusarvo on silloin nolla Jos satunnaiskentän toiset momentit ovat äärellisinä olemassa, saadaan

ja

[5]

Variogrammi on tällaisessa satunnaiskentässä

Kovarianssi- ja variogrammifunktioiden suhteesta, kun varianssi on äärellisenä olemassa.

eli variogrammi on kovarianssifunktion yhdistelmäfunktio

Semivariogrammi on silloin

[5][6]

Yleensä kovarianssit saavat suurimman arvonsa arvolla ja muilla etäisyyden arvoilla pienempiä arvoja. Tämän vuoksi variogrammi on vahvasti stationäärisessä satunnaiskentässä ylhäältä rajoitettu funktio. Jos kovarianssi saa vain positiivisia arvoja, on semivariogrammin yläraja[6]

ja jos riippuvuus voi olla myös käänteistä ja niin yläraja on kaksinkertainen

Heikosti stationääriset variogrammit

[muokkaa | muokkaa wikitekstiä]

Heikon stationäärisyyden satunnaiskentässä on vahvaan stationäärisyyteen verrattuna suuri ehtojen huojennus se, että vain satunnaiskentän odotusarvosta ja kovarianssifunktiosta on selvä käsitys, mutta jakaumien laadusta ei tiedetä mitään. Odotusarvot ovat tietyn rajatun ympäristön sisällä vakio eli kun . Kovarianssin arvot ovat saman ympäristön sisällä

ja sen vuoksi myös varianssi on äärellisenä olemassa. Koska vahvasti stationäärisessä satunnaiskentässä johdetaan odotusarvon, kovarianssifunktion ja variogrammin lausekkeet samanhenkisten olettamusten varassa, pätevät ne tässäkin stationäärisyyden hypoteesissä.[5]

Jos odotusarvo ei olekaan vakio, vaan muuttuu paikan mukaan muodostaen esimerkiksi pitoisuuksien trendin, eivät edellä kuvatut olettamukset pidä enää paikkaansa. Toisaalta varianssi voi olla arvoltaan jopa ääretön, jolloin kovarianssifunktio ei esitä riippuvuutta luotettavalla tavalla. Silloin tulee riippuvuusfunktiona käyttää variogrammia.

Sisäisen stationäärisyyden variogrammi

[muokkaa | muokkaa wikitekstiä]

Mikäli lähekkäisissä pisteissä olevat satunnaismuuttujat muistuttavat laadultaan ja arvoiltaan toisiaan ja jos esimerkiksi samat odotusarvot, äärelliset toiset momentit tai varianssit eivät vaihtele satunnaiskentän eri osissa merkittävästi, voidaan silloin hyödyntää tilastollisesti koko satunnaiskentän mitattuja arvoja. Odotusarvot voivat muodostaa trendin eli odotusarvot ovat tietyssä suunnassa paikan funktio, joka näkyy jopa erotuksissa

.

Tällaisissa tapauksissa vain variogrammi olemassa

ja se voidaan estimoida näyteotoksen perusteella koko satunnaiskentälle yhteisesti.[5]

Jos satunnaiskenttä on riittävän stationäärinen, riippuu variogrammi vain suuntavektorista (anisotropia)

tai, kun satunnaismuuttujien erotus on sama kaikissa suunnissa, variogrammi riippuu vain pisteiden välisestä etäisyydestä (isotropia)

Sekä variogrammista että semivariogrammista käytetäänkin sovelluksissa kahta viimeiseksi esitettyä muotoa

ja

[5]

Yleensä satunnaiskenttä ei toteuta heikon stationäärisyysden ehtoja ja silloin variogrammi ei ole enää ylhäältä rajoitettu. Semivariogrammi muistuttaa silloin enemmän logaritmista (de Wijsin malli) tai lineaarista mallia.[5]

Variogrammin tulkinta

[muokkaa | muokkaa wikitekstiä]

Variogrammi antaa tavallisesti pienimmän arvon satunnaismuuttujille, jotka sijaitsevat lähellä toisiaan. Niiden riippuvuus on suurta ja sen vuoksi niiden saamat arvot ovat lähellä toisiaan. Silloin satunnaismuuttujien erotuksen varianssi on myös pieni. Riippuvuus vähenee, kun satunnaismuuttujat etääntyvät toisistaan, jolloin variogrammin arvot suurenevat. Variogrammin arvo origossa onkin nolla ja se kasvaakin varsin yleisesti etäisyyden kasvaessa.[6]

Variogrammin estimaattori

[muokkaa | muokkaa wikitekstiä]

Variogrammin arvojen estimointi suoritetaan laskemalla sen arvoja näytteistä suoritetulla otoksella. Otos muodostetaan valikoimalla sopivan etäisyyden päässä toisistaan olevia näytteitä. Jos mitattava suure ei toista itseään (temperospatiaaliset satunnaismuuttujat) vaan se esiintyy pitkän aikaa samanlaisena, sanotaan sillä olevan vain yksi käytettävissä oleva reaalisaatio eli ulostulo. Silloin tulee satunnaiskentän olla stationäärinen ja kaikki näytteet edustavat tulkinnan mukaan samalla tavalla jakautuvia satunnaismuuttujia. Silloin näistä muodostettu variogrammi on luotettava riippuvuuden mitta. Satunnaismuuttujien reaalisaatioita merkitään tässä .[5]

Määritelmä

[muokkaa | muokkaa wikitekstiä]
Aineiston semivariogrammiarvot (vihreät pisteet) on luokiteltu viiteen eri etäisyysluokkaan, joiden arvojen keskiarvot muodostavat tilastollisesti tasoitetun semivariogrammin arvot (mustat pisteet).

Variogrammi estimoidaan mitatuista näytteistä laskemalla samalla etäisyydellä sijaitsevien näytteiden arvojen erotukset . Sama etäisyys voidaan korvata samalla etäisyysvälillä, jolloin aineisto on etäisyyden mukaan luokiteltua. Variogrammin estimaatti on näiden erotusten neliöiden keskiarvo. Semivarigrammin estimaatti (merkitään myös [2]) on variogrammin puolikas:

[3][2][6][7]

missä on etäisyydellä olevien näytteiden lukumäärä. Jos satunnaiskenttä on anisotropinen, huomioidaan myös etäisyysvektorin suunta semivariogrammia laskettaessa. Silloin semivariogrammi on sekä etäisyyden että suunnan funktio. Estimoituihin semivariogrammin pisteisiin sovitetaan jokin ennalta valittu käyrä, joka antaa jatkuvan funktion ominaisuudet riippuvuuslaskuihin.

Eräs varhaisia krigingin sovelluskohteita oli geologinen malminarviointi. Siinä kallioon kairataan syviä reikiä, joiden kiviytimet nostetaan maanpinnalle analysoitavaksi. Tutkimuksissa kairauksia on voitu tehdä satoja ja niiden analysoitujen ytimien osat muodostavat tuhansien näytteiden tietokannan. Koska kunkin näytteen sijainti kalliossa tunnetaan, voidaan niiden arvot hyödyntää riippuvuusanalyysissä ja krigingestimoinnissa. Näytteistä lasketaankin estimointia varten semivariogrammit, joista tutkitaan riippuvuuden laatu ja vaikutusala.[7]

Variogrammien approksimaatiofunktioita

[muokkaa | muokkaa wikitekstiä]

Yleisiä ominaisuuksia

[muokkaa | muokkaa wikitekstiä]
Semivariogrammin huntu, kynnys ja vaikutussäde silloin, kun ne ovat satunnaiskentässä olemassa.

Huntu (engl. nugget effect) tarkoittaa variogrammin ja semivariogrammin origossa olevaa epäjatkuvuuskohtaa ja se on seurausta satunnaiskentässä olevasta satunnaisuudesta, kun eri pisteiden arvojen välillä ei ole keskinäistä riippuvuutta, tai kun näytteiden suureiden arvoissa on mittausvirhettä. Kun lasketaan lähekkäisillä satunnaismuuttujilla semivariogrammin arvoja, saadaan raja-arvoksi huntua merkitsevä luku

vaikka [6]

Kynnys (engl. sill) tarkoittaa semivariogrammin saamaa maksimiarvoa niissä tapauksissa, kun satunnaiskenttä on vahvasti- tai heikosti stationäärinen, odotusarvo on sekä äärellinen että vakio ja varianssi on äärellisenä olemassa. Kynnysarvo saavutetaan yleensä vaikutussäteen jälkeen tai asymptoottisesti hyvin kaukana

[6][7]

Vaikutussäde (engl. range) kertoo etäisyyden, jonka jälkeen variogrammi tai semivariogrammi saavuttaa suurimman arvonsa. Semivariogrammilla kyseinen arvo on satunnaiskentän varianssi.[6][7]

Edelliset kolme ominaisuutta on mahdollista sisällyttää mihin tahansa sovituskäyrään, jolla approksimoidaan näytteistä saatua variogrammiaineistoa. Jos merkitään vaikutussäteen sisällä variogrammifunktiota sen ulkopuolella kynnystä ja origossa huntua saadaan paloittaisella määrittelyllä semivariogrammiksi[6][7]

Semivariogrammilla voi edelleen olla vielä monta sisäkkäistä vaikutussädettä ja mutkikas lausekerakenne.[6]

Paljon käytettyjä semivariogrammikäyriä

[muokkaa | muokkaa wikitekstiä]

Alla on luettelo variogrammianalyysissä käytettävistä sovituskäyristä. Lausekkeissa vakio tarkoittaa kynnyksen suuruutta, etäisyyttä ja vaikutussädettä. Muut suureet, kuten esimerkiksi ja , ovat käyrän sovittamisessa käytettäviä parametreja.

semivariogrammien käyriä
Käyrä Nimi Normi Yhtälö
kynnys on C, ei vaikutussädettä puhdas huntu[6][7]
käyrät, jotka saavauttavat kynnyksen C vaikutussäteen a etäisyydellä gaussin malli[2][8][7] 1,731
kuutiollinen[8] 1
eksponenttifunktion malli[2] ≃ 2,996 [7]
pallomainen[3][2][8][7] 1
sinc-käyrä[8] ≃ 20,371
epästationääristen satunnaiskenttien käyrät lineaarinen 1
potenssimalli[8][7] 1
havemmin käytettävät käyrät eksponentiaalinen (yleinen)
gamma
ensimmäisen lajin Besselin funktio[8] 1
Matérnin kovarianssifunktiosta johdettu käyrä[8] 1
Cauchyn yleistys
  • Matheron, Georges: The Theory Of Regionalized Variables And Its Applications. (julkaisusarjasta "Les Cahiers du Centre de Morphologie Mathématique de Fontainebleu", nro 5) Pariisi, Ranska: École Nationale Supérieure des Mines de Paris, 1971. Verkkoversio (pdf) (viitattu 24.8.2015). (englanniksi)
  • Heikkinen, Juha: Geostatistiikka (Arkistoitu – Internet Archive), luentomoniste, Helsingin Yliopisto, 2006
  1. a b Pohjois-Karjalan Ammattikorkeakoulu: Kriging
  2. a b c d e f g Horttanainen, Esa-Pekka: Mat-2.108 Sovelletun matematiikan erikoistyö Spatiaalisen autokorrelaation testaaminen, s. 5−7, Systeemianalyysin opinnäytetyö, Aalto-yliopisto, 2003
  3. a b c d e f g h Koistinen, Esko: Geomatematiikan menetelmiä ja sovelluksia malmivaratutkimuksissa, Tutkimusraportti nro 52, Geologinen tutkimuslaitos, 1981
  4. a b Horttanainen, Esa-Pekka: Mat-2.108 Sovelletun matematiikan erikoistyö Spatiaalisen autokorrelaation testaaminen, Systeemianalyysin opinnäytetyö, Aalto-yliopisto, 2003
  5. a b c d e f g h i j Matheron, Georges: The Theory Of Regionalized Variables And Its Applications, 1971, s. 50–53
  6. a b c d e f g h i j k l Heikkinen, Juha: Geostatistiikka, s. 9–17
  7. a b c d e f g h i j Bohling, Geoff: Variograms, Kansas Geological Survey, 2005
  8. a b c d e f g Heikkinen, Juha: Geostatistiikka, s. 17–20