Logistinen regressio

Wikipediasta
Siirry navigaatioon Siirry hakuun

Logistinen regressio (engl. logistic regression) on tilastollinen malli, joka on erityistyyppi tavanomaisesta regressiomallista. Logistisessa regressiomallissa selitettävä muuttuja on dikotominen eli kaksiluokkainen muuttuja. Selitettävä muuttuja saa arvon 0 tai 1 siten, että se muuttujan luokka, jota halutaan ennustaa, saa arvon 1. Logistinen regressiomalli on siis yleistetty lineaarinen malli, jonka linkkifunktio on . Selittävät muuttujat voivat olla suhdeasteikollisia, järjestysasteikollisia tai luokiteltuja.

Logistisella regressioanalyysillä mallinnetaan vastemuuttujan ja selittävien muuttujien suhdetta. Toisin kuin tavanomaisessa regressiomallissa, vasteen odotusarvo on riski (eng. odds). Riski on todennäköisyys, että jokin tapahtuma tapahtuu suhteessa siihen, että se ei tapahdu;
[1]

Oletetaan, että käytössä on kappaletta selittäviä muuttujia. Merkitään vasteen odotusarvoa . Tehdään vasteen odotusarvolle logistinen muunnos

, missä


.


Silloin logistinen regressiomalli on [2] , josta ratkaisemalla saadaan



.


Mallin sovittaminen

[muokkaa | muokkaa wikitekstiä]

Yleiselle lineaariselle mallille, jolle vastemuuttuja on jatkuva, mallin sovitus voidaan tehdä pienimmän neliösumman menetelmällä (PNS). Koska logistisella regressiomallilla on dikotominen vaste, menetelmällä estimoitavilla parametreillä ei ole tiettyjä ominaisuuksia.Mallin sovitus tehdään Suurimman uskottavuuden menetelmällä (SU), joka on yleistys PNS-menetelmästä.[2] Sitä varten muodostetaan mallille uskottavuusfunktio: oletetaan, että käytössä on usean selittäjän malli. Oletetaan myös, että yksittäinen noudattaa Bernoulli-jakaumaa ja että vasteet ovat riippumattomia. Silloin niiden summa noudattaa jakaumaa . Uskottavuusfunktio on



Logaritminen uskottavuusfunktio on
.

Sijoitetaan kaavaan , derivoidaan ja asetetaan derivaatta nollaksi. Saadaan

josta ratkaistaan numeerisesti.[3]

Devianssin avulla voidaan tutkia, kuinka hyviä valitun mallin ennusteet ovat. Devianssi määritellään



jossa saturoitu malli tarkoittaa mallia, joka sisältää yhtä monta parametria, kuin havaintoja on, ja sopii siten aineistoon täydellisesti (virhetemit ovat nollia). Devianssilla verrataan siis, kuinka hyvin sovitetun mallin arvot eroavat saturoidusta mallista (verrattavissa lineaarisen regressiomallin jäännösneliösummien vertailuun). Mitä pienempi devianssi on, sitä paremmin malli sopii aineistoon. Devianssin avulla voidaan laskea uskottavuusosamäärän testi, jolla selvitetään, ovatko mallin parametrit merkitseviä, eli selittävätkö ne todella vasteen vaihtelua. [4]


Halutaan tutkia, miten ikä vaikuttaa riskiin sairastua sepelvaltimotautiin. Aineisto sisältää muuttujat
= koehenkilön tunniste (koehenkilölle )
= koehenkilön ikä
= tieto siitä, onko henkilö sairastunut sepelvaltimotautiin vai ei. Jos henkilö on sairastunut, CHD=1 ja jos henkilö ei ole sairastunut, CHD=0.

Malli on


eli


Aineisto
ID AGE CHD
1 20 0
2 23 0
3 24 0
4 25 0
5 25 1
6 26 0
7 26 0
8 28 0
9 28 0
10 29 0
... ... ...
99 65 1
100 69 1


Suurimman uskottavuuden estimoinnilla saadaan , joka on mallin vakiotermi ja , joka on kulmakerroin muuttujalle .
[2]
Malli on siis .

Tulkinta: Kun verrataan kahta henkilöä, joista toinen on vuoden verran vanhempi, kuin toinen, vanhemmalla henkilöllä on -kertainen todennäköisyys sairastua sepelvaltimotautiin (suhteessa siihen, että ei sairastu), kuin nuoremmalla henkilöllä.


  1. Yan, X.: Linear Regression Analysis : Theory and Computing (2009).
  2. a b c Hosmer, D. W., Lemeshow, S. Sturdivant, R. X.: Wiley Series in Probability and Statistics : Applied Logistic Regression (3rd Edition) (2013).
  3. Nyblom, J.: Yleiset lineaariset mallit (2014). Luentomoniste. Lähde kuollut, vuoden 2015 versio täällä.
  4. Larose, D: Data minig and methods and models (2006).