Datatransformation (statistik)

Logaritme- og kvadratrodstransformationer anvendes almindeligvis til positive data, og den multiplikative inverse (reciprokke) transformation kan anvendes til data, der ikke er nul. Potenstransformationen er en familie af transformationer, der er parametreret ved en ikke-negativ værdi λ, som omfatter logaritmen, kvadratroden og den multiplikative inverse som specialtilfælde. For at nærme sig datatransformationen systematisk er det muligt at anvende statistiske estimationsteknikker til at estimere parameteren λ i potenstransformationen og derved identificere den transformation, der tilnærmelsesvis er den mest hensigtsmæssige i en given situation. Da familien af potenstransformationer også omfatter identitetstransformationen, kan denne fremgangsmåde også angive, om det ville være bedst at analysere dataene uden en transformation. I regressionsanalyse er denne fremgangsmåde kendt som Box-Cox-teknikken.

Den reciprokke transformation, nogle potenstransformationer som Yeo-Johnson-transformationen og visse andre transformationer som f.eks. anvendelse af den omvendte hyperbolske sinus, kan meningsfuldt anvendes på data, der omfatter både positive og negative værdier (potenstransformationen er inverterbar over alle reelle tal, hvis λ er et ulige heltal). Når der observeres både negative og positive værdier, er det imidlertid undertiden almindeligt at begynde med at tilføje en konstant til alle værdier, hvilket giver et sæt ikke-negative data, som enhver potenstransformation kan anvendes på.

En almindelig situation, hvor der anvendes en datatransformation, er, når en værdi af interesse spænder over flere størrelsesordener. Mange fysiske og sociale fænomener udviser en sådan adfærd – indkomster, artspopulationer, galaksestørrelser og nedbørsmængder, for blot at nævne nogle få. Potenstransformationer, og især logaritmen, kan ofte anvendes til at skabe symmetri i sådanne data. Logaritmen er ofte foretrukket, fordi det er let at fortolke dens resultat i form af “foldændringer.”

Logaritmen har også en nyttig virkning på forholdstal. Hvis vi sammenligner positive størrelser X og Y ved hjælp af forholdet X / Y, så ligger forholdet, hvis X < Y, i intervallet (0,1), mens forholdet, hvis X > Y, ligger i halvlinjen (1,∞), hvor forholdet 1 svarer til lighed. I en analyse, hvor X og Y behandles symmetrisk, er log-forholdet log(X / Y) nul i tilfælde af lighed, og det har den egenskab, at hvis X er K gange større end Y, er log-forholdet lige så langt fra nul som i den situation, hvor Y er K gange større end X (log-forholdet er log(K) og -log(K) i disse to situationer).

Hvis værdierne naturligt er begrænset til at ligge i intervallet 0 til 1, uden at medtage endepunkterne, kan en logit-transformation være hensigtsmæssig: Dette giver værdier i intervallet (-∞,∞).

Transformering til normalitetRediger

1. Det er ikke altid nødvendigt eller ønskeligt at transformere et datasæt, så det ligner en normalfordeling. Hvis der imidlertid ønskes symmetri eller normalitet, kan de ofte fremkaldes ved hjælp af en af potenstransformationerne.

2. En sproglig potensfunktion er fordelt i henhold til Zipf-Mandelbrot-loven. Fordelingen er ekstremt spids og leptokurtisk, dette er årsagen til, at forskerne måtte vende ryggen til statistikken for at løse f.eks. problemer med tilskrivning af forfatterskaber. Ikke desto mindre er det fuldt ud muligt at anvende den gaussiske statistik ved at anvende datatransformation.

3. For at vurdere, om der er opnået normalitet efter transformationen, kan en hvilken som helst af de almindelige normalitetstest anvendes. En grafisk fremgangsmåde er normalt mere informativ end en formel statistisk test, og derfor anvendes almindeligvis et normalt kvantilplot til at vurdere, om et datasæt passer til en normal population. Alternativt er der også blevet foreslået tommelfingerregler baseret på stikprøvens skævhed og kurtose.

Transformere til en ensartet fordeling eller en vilkårlig fordelingRediger

Hvis vi observerer et sæt af n værdier X1, …, Xn uden bånd (dvs. at der er n forskellige værdier), kan vi erstatte Xi med den transformerede værdi Yi = k, hvor k er defineret således, at Xi er den k-te største blandt alle X-værdierne. Dette kaldes rangtransformationen og skaber data med en perfekt tilpasning til en ensartet fordeling. Denne fremgangsmåde har en befolkningsanalog.

Ved anvendelse af sandsynlighedsintegraltransformationen, hvis X er en vilkårlig tilfældig variabel, og F er den kumulative fordelingsfunktion for X, så længe F er inverterbar, følger den tilfældige variabel U = F(X) en ensartet fordeling på enhedsintervallet.

Fra en ensartet fordeling kan vi transformere til en vilkårlig fordeling med en inverterbar kumulativ fordelingsfunktion. Hvis G er en invertibel kumulativ fordelingsfunktion, og U er en ensformigt fordelt tilfældig variabel, har den tilfældige variabel G-1(U) G som kumulativ fordelingsfunktion.

Samlet set, hvis X er en vilkårlig tilfældig variabel, F er den inverterbare kumulative fordelingsfunktion for X, og G er en inverterbar kumulativ fordelingsfunktion, så har den tilfældige variabel G-1(F(X))) G som sin kumulative fordelingsfunktion.

Variansstabiliserende transformationerRediger

Hovedartikel: Variansstabiliserende transformation

Mange typer af statistiske data udviser et “varians-på-middelværdien-forhold”, hvilket betyder, at variabiliteten er forskellig for dataværdier med forskellige forventede værdier. Som eksempel kan nævnes, at når man sammenligner forskellige befolkninger i verden, har variansen af indkomst en tendens til at stige med gennemsnitsindkomsten. Hvis vi betragter en række små områdeenheder (f.eks. amter i USA) og får gennemsnittet og variansen af indkomster inden for hvert amt, er det almindeligt, at amter med højere gennemsnitsindkomst også har højere varians.

En variansstabiliserende transformation har til formål at fjerne et varians-på-middel-forhold, således at variansen bliver konstant i forhold til gennemsnittet. Eksempler på variansstabiliserende transformationer er Fisher-transformationen for stikprøvekorrelationskoefficienten, kvadratrodstransformationen eller Anscombe-transformationen for Poisson-data (tælledata), Box-Cox-transformationen for regressionsanalyse og arcsine kvadratrodstransformationen eller vinkeltransformationen for proportioner (binomiale data). Selv om den almindeligvis anvendes til statistisk analyse af proportionale data, anbefales arcsine kvadratrodstransformationen ikke, fordi logistisk regression eller en logit-transformation er mere hensigtsmæssig for henholdsvis binomiale eller ikke-binomiale proportioner, især på grund af nedsat type-II-fejl.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.