Aineiston muunnos (tilastotiede)

Logaritmi- ja neliöjuurimuunnoksia käytetään yleisesti positiiviselle aineistolle, ja multiplikatiivista käänteismuunnosta (käänteismuunnos) voidaan käyttää nollasta poikkeavalle aineistolle. Potenssimuunnos on muunnosperhe, joka on parametrisoitu ei-negatiivisella arvolla λ ja joka sisältää logaritmin, neliöjuuren ja multiplikatiivisen käänteismuunnoksen erikoistapauksina. Jotta datan muunnosta voitaisiin lähestyä systemaattisesti, on mahdollista käyttää tilastollisia estimointitekniikoita potenssimuunnoksen parametrin λ estimoimiseksi ja siten tunnistaa muunnos, joka on suunnilleen sopivin tietyssä tilanteessa. Koska potenssimuunnosperheeseen kuuluu myös identtisyysmuunnos, tämä lähestymistapa voi myös osoittaa, olisiko parasta analysoida tiedot ilman muunnosta. Regressioanalyysissä tämä lähestymistapa tunnetaan nimellä Box-Cox-tekniikka.

Vastavuoromuunnos, jotkut potenssimuunnokset, kuten Yeo-Johnson-muunnos, ja tietyt muut muunnokset, kuten käänteisen hyperbolisen sinin soveltaminen, voidaan mielekkäästi soveltaa aineistoon, joka sisältää sekä positiivisia että negatiivisia arvoja (potenssimuunnos on käänteismuunneltavissa kaikilla reaaliluvuilla, jos λ on pariton kokonaisluku). Jos kuitenkin havaitaan sekä negatiivisia että positiivisia arvoja, on joskus tavallista aloittaa lisäämällä vakio kaikkiin arvoihin, jolloin saadaan joukko ei-negatiivista dataa, johon voidaan soveltaa mitä tahansa potenssimuunnosta.

Yleinen tilanne, jossa datan muunnosta sovelletaan, on silloin, kun kiinnostuksen kohteena oleva arvo vaihtelee usean suuruusluokan välillä. Monissa fysikaalisissa ja yhteiskunnallisissa ilmiöissä esiintyy tällaista käyttäytymistä – tulot, lajipopulaatiot, galaksien koot ja sademäärät, muutamia mainitakseni. Potenssimuunnoksia ja erityisesti logaritmia voidaan usein käyttää tällaisten tietojen symmetrisyyden aikaansaamiseksi. Logaritmia suositaan usein, koska sen tulosta on helppo tulkita ”kertaistuvina muutoksina.”

Logaritmilla on myös hyödyllinen vaikutus suhdelukuihin. Jos vertaamme positiivisia suureita X ja Y käyttäen suhdelukua X / Y, niin jos X < Y, niin suhdeluku on välillä (0,1), kun taas jos X > Y, niin suhdeluku on puolivälillä (1,∞), jossa suhdeluku 1 vastaa tasa-arvoa. Analyysissä, jossa X:ää ja Y:tä käsitellään symmetrisesti, log-suhde log(X / Y) on nolla tasa-arvotapauksessa, ja sillä on ominaisuus, että jos X on K kertaa suurempi kuin Y, log-suhde on yhtä kaukana nollasta kuin tilanteessa, jossa Y on K kertaa suurempi kuin X (log-suhteet ovat log(K) ja -log(K) näissä kahdessa tilanteessa).

Jos arvot on luonnollisesti rajoitettu siten, että ne ovat välillä 0-1, loppupisteitä lukuun ottamatta, logaritmimuunnos voi olla tarkoituksenmukainen: tällöin saadaan arvot välillä (-∞,∞).

Muunnos normaaliuteenEdit

1. Aina ei ole tarpeen tai suotavaa muuntaa datajoukkoa muistuttamaan normaalijakaumaa. Jos kuitenkin halutaan symmetriaa tai normaalisuutta, ne voidaan usein saada aikaan jonkin potenssimuunnoksen avulla.

2. Kielellinen potenssifunktio jakautuu Zipf-Mandelbrotin lain mukaisesti. Jakauma on erittäin piikkinen ja leptokurttinen, tästä syystä tutkijat ovat joutuneet kääntämään selkänsä tilastotieteelle ratkaistakseen esim. tekijyyden määritysongelmia. Gaussin tilastojen käyttö on kuitenkin täysin mahdollista soveltamalla datan transformaatiota.

3. Sen arvioimiseksi, onko normaalisuus saavutettu transformaation jälkeen, voidaan käyttää mitä tahansa tavanomaisia normaalisuustestejä. Graafinen lähestymistapa on yleensä informatiivisempi kuin muodollinen tilastollinen testi, ja siksi normaalin kvantiilin kuvaajaa käytetään yleisesti arvioitaessa tietokokonaisuuden sopivuutta normaalipopulaatioon. Vaihtoehtoisesti on ehdotettu myös otoksen vinouteen ja kurtoosiin perustuvia nyrkkisääntöjä.

Muunnos tasajakaumaksi tai mielivaltaiseksi jakaumaksiEdit

Jos havaitsemme joukon n arvoa X1, …, Xn, joissa ei ole yhtäläisyyksiä (eli on n erillistä arvoa), voimme korvata Xi:n muunnetulla arvolla Yi = k, jossa k on määritelty siten, että Xi on k:nneksi suurin X:n arvoista. Tätä kutsutaan rank-muunnokseksi, ja se luo tietoja, jotka sopivat täydellisesti tasajakaumaan. Tällä lähestymistavalla on väestöanalogi.

Todennäköisyysintegraalimuunnoksen avulla, jos X on mikä tahansa satunnaismuuttuja ja F on X:n kumulatiivinen jakaantumisfunktio, niin niin kauan kuin F on käänteismuunnettavissa, satunnaismuuttuja U = F(X) noudattaa yhtenäisjakaumaa yksikkövälillä.

Yhtenäisjakaumasta voidaan muunnos tehdä mihin tahansa jakaumaan, jolla on käänteismuunnettavissa oleva kumulatiivinen jakaantumisfunktio. Jos G on käänteismuunneltava kumulatiivinen jakaumafunktio ja U on tasaisesti jakautunut satunnaismuuttuja, niin satunnaismuuttujan G-1(U) kumulatiivinen jakaumafunktio on G.

Kytkemällä nämä kaksi yhteen, jos X on mikä tahansa satunnaismuuttuja, F on X:n käänteismuunneltava kumulatiivinen jakaumafunktio ja G on käänteismuunneltava kumulatiivinen jakaumafunktio, niin satunnaismuuttujalla G-1(F(X)) on G kumulatiivisena jakaumafunktiona.

Varianssia stabiloivat muunnoksetTiedostoa muokkaa

Pääaineartikkeli: Varianssia stabiloiva muunnos

Monilla tilastollisilla aineistotyypeillä on ”varianssi-keskiarvo-suhde”, mikä tarkoittaa, että vaihtelu on erilaista sellaisille aineiston arvoille, joilla on erilaiset odotusarvot. Verrattaessa esimerkiksi maailman eri väestöjä tulojen varianssi pyrkii kasvamaan keskitulon myötä. Jos tarkastelemme useita pieniä alueyksiköitä (esim. Yhdysvaltojen piirikuntia) ja saamme tulojen keskiarvon ja varianssin kunkin piirikunnan sisällä, on tavallista, että piirikunnilla, joiden keskitulot ovat korkeammat, on myös suuremmat varianssit.

Varianssin stabiloivalla muunnoksella pyritään poistamaan varianssi-keskiarvo-suhde niin, että varianssi muuttuu vakioksi suhteessa keskiarvoon. Esimerkkejä varianssia stabiloivista muunnoksista ovat Fisherin muunnos otoskorrelaatiokertoimelle, neliöjuuritransformaatio tai Anscomben muunnos Poisson-aineistolle (laskentatiedot), Box-Cox-muunnos regressioanalyysille ja arkkiini-neliöjuuritransformaatio tai kulmamuunnos suhdeluvuille (binomiaineisto). Vaikka arcsine-neliöjuurimuunnosta käytetään yleisesti suhteellisten tietojen tilastollisessa analyysissä, sitä ei suositella, koska logistinen regressio tai logit-muunnos soveltuvat paremmin binomisten tai ei-binomisten suhteiden analyysiin, erityisesti pienentyneen tyypin II virheen vuoksi.

Vastaa

Sähköpostiosoitettasi ei julkaista.