Gegevenstransformatie (statistiek)

De logaritme- en vierkantsworteltransformaties worden algemeen gebruikt voor positieve gegevens, en de multiplicatieve inverse (reciproke) transformatie kan worden gebruikt voor gegevens die niet gelijk zijn aan nul. De machtstransformatie is een familie van transformaties die wordt geparameteriseerd door een niet-negatieve waarde λ en die de logaritme, vierkantswortel en multiplicatieve inverse als speciale gevallen omvat. Om gegevenstransformaties systematisch te benaderen, is het mogelijk statistische schattingstechnieken te gebruiken om de parameter λ in de machtstransformatie te schatten en aldus de transformatie te identificeren die in een gegeven setting bij benadering het meest geschikt is. Aangezien de familie van machtstransformaties ook de identiteitstransformatie omvat, kan deze aanpak ook aangeven of het het beste zou zijn de gegevens zonder transformatie te analyseren. In regressieanalyses staat deze aanpak bekend als de Box-Cox-techniek.

De reciproke transformatie, sommige machtstransformaties zoals de Yeo-Johnson-transformatie, en bepaalde andere transformaties zoals de toepassing van de inverse hyperbolische sinus, kunnen zinvol worden toegepast op gegevens die zowel positieve als negatieve waarden bevatten (de machtstransformatie is inverteerbaar over alle reële getallen als λ een oneven geheel getal is). Wanneer echter zowel negatieve als positieve waarden worden waargenomen, is het soms gebruikelijk te beginnen met bij alle waarden een constante op te tellen, zodat een reeks niet-negatieve gegevens wordt verkregen waarop elke machtstransformatie kan worden toegepast.

Een veel voorkomende situatie waarin een gegevenstransformatie wordt toegepast, is wanneer een waarde van belang varieert over verscheidene orden van grootte. Vele fysische en sociale verschijnselen vertonen een dergelijk gedrag – inkomens, populaties van diersoorten, grootte van melkwegstelsels en neerslaghoeveelheden, om er enkele te noemen. Machtstransformaties, en in het bijzonder de logaritme, kunnen vaak worden gebruikt om symmetrie in dergelijke gegevens te brengen. De logaritme krijgt vaak de voorkeur omdat het resultaat gemakkelijk te interpreteren is in termen van “vouwveranderingen.”

De logaritme heeft ook een nuttig effect op verhoudingen. Als we positieve grootheden X en Y vergelijken met behulp van de verhouding X / Y, dan ligt de verhouding in het interval (0,1) als X < Y, terwijl de verhouding in het interval (1,∞) ligt als X > Y, waarbij de verhouding van 1 overeenkomt met gelijkheid. In een analyse waarin X en Y symmetrisch worden behandeld, is de logverhouding log(X / Y) nul in het geval van gelijkheid, en heeft zij de eigenschap dat als X K keer groter is dan Y, de logverhouding even ver van nul ligt als in de situatie waarin Y K keer groter is dan X (de logverhoudingen zijn log(K) en -log(K) in deze twee situaties).

Als de waarden van nature beperkt zijn tot het bereik 0 tot 1, de eindpunten niet meegerekend, dan kan een logitransformatie aangewezen zijn: dit levert waarden op in het bereik (-∞,∞).

Transformatie naar normaliteitEdit

1. Het is niet altijd nodig of wenselijk om een gegevensreeks zo te transformeren dat ze op een normale verdeling lijkt. Indien symmetrie of normaliteit echter gewenst zijn, kan dit vaak worden bewerkstelligd door middel van een van de machtstransformaties.

2. Een linguïstische machtsfunctie is verdeeld volgens de wet van Zipf-Mandelbrot. De verdeling is extreem piekerig en leptokurtisch, dit is de reden waarom onderzoekers zich tot de statistiek hebben moeten wenden om b.v. auteurschapstoewijzingsproblemen op te lossen. Niettemin is het gebruik van Gaussische statistieken perfect mogelijk door gegevenstransformatie toe te passen.

3. Om na transformatie te beoordelen of normaliteit is bereikt, kan een van de standaardnormaliteitstests worden gebruikt. Een grafische benadering is gewoonlijk informatiever dan een formele statistische test en daarom wordt gewoonlijk een normale kwantielplot gebruikt om te beoordelen of een gegevensreeks bij een normale populatie past. Als alternatief zijn ook vuistregels op basis van de skewness en kurtosis van de steekproef voorgesteld.

Transformeren naar een uniforme verdeling of een willekeurige verdelingEdit

Als we een verzameling van n waarden X1, …, Xn zonder gelijken (d.w.z. er zijn n verschillende waarden) waarnemen, kunnen we Xi vervangen door de getransformeerde waarde Yi = k, waarbij k zo is gedefinieerd dat Xi de k-de grootste is onder alle X-waarden. Dit wordt de rangtransformatie genoemd, en levert gegevens op die perfect passen bij een uniforme verdeling. Deze aanpak heeft een populatieanalogon.

Gebruik makend van de kansintegraaltransformatie, als X een willekeurige variabele is, en F de cumulatieve verdelingsfunctie van X, dan volgt, zolang F inverteerbaar is, de willekeurige variabele U = F(X) een uniforme verdeling op het eenheidsinterval.

Van een uniforme verdeling kunnen we transformeren naar elke verdeling met een inverteerbare cumulatieve verdelingsfunctie. Als G een inverteerbare cumulatieve verdelingsfunctie is, en U is een eenvormig verdeelde willekeurige variabele, dan heeft de willekeurige variabele G-1(U) G als cumulatieve verdelingsfunctie.

Door de twee samen te voegen, als X een willekeurige variabele is, F de inverteerbare cumulatieve verdelingsfunctie van X is, en G een inverteerbare cumulatieve verdelingsfunctie is, dan heeft de willekeurige variabele G-1(F(X)) G als zijn cumulatieve verdelingsfunctie.

Variantiestabiliserende transformatiesEdit

Main article: Variantie-stabiliserende transformaties

Veel soorten statistische gegevens vertonen een “variantie-op-mean relatie”, wat betekent dat de variabiliteit verschillend is voor gegevenswaarden met verschillende verwachtingswaarden. Een voorbeeld: bij vergelijking van verschillende bevolkingsgroepen in de wereld heeft de variantie van het inkomen de neiging toe te nemen met het gemiddelde inkomen. Als we een aantal kleine gebiedseenheden beschouwen (bv. counties in de Verenigde Staten) en het gemiddelde en de variantie van de inkomens binnen elke county bepalen, is het gebruikelijk dat de counties met een hoger gemiddeld inkomen ook een hogere variantie hebben.

Een variantie-stabiliserende transformatie heeft tot doel een variantie-op-meanrelatie op te heffen, zodat de variantie constant wordt ten opzichte van het gemiddelde. Voorbeelden van variantiestabiliserende transformaties zijn de Fisher-transformatie voor de steekproefcorrelatiecoëfficiënt, de vierkantsworteltransformatie of Anscombe-transformatie voor Poisson-gegevens (telgegevens), de Box-Cox-transformatie voor regressieanalyse, en de arcsinusworteltransformatie of angulaire transformatie voor verhoudingen (binomiale gegevens). Hoewel de arcsinus vierkantsworteltransformatie vaak wordt gebruikt voor statistische analyse van proportionele gegevens, wordt deze niet aanbevolen omdat logistische regressie of een logitransformatie geschikter zijn voor respectievelijk binomiale of niet-binomiale verhoudingen, vooral vanwege de verminderde type-II-fout.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.