Adattranszformáció (statisztika)

A logaritmus és a négyzetgyök transzformációt általában pozitív adatok esetén használják, a nem nulla adatok esetén pedig a multiplikatív inverz (reciprok) transzformáció használható. A hatványtranszformáció a λ nemnegatív értékkel paraméterezett transzformációk családja, amely a logaritmust, a négyzetgyököt és a multiplikatív inverzt mint speciális eseteket tartalmazza. Az adattranszformáció szisztematikus megközelítéséhez statisztikai becslési technikákat lehet alkalmazni a hatványtranszformáció λ paraméterének becslésére, ezáltal meghatározva azt a transzformációt, amely megközelítőleg a legmegfelelőbb egy adott környezetben. Mivel a hatványtranszformációk családjába tartozik az azonossági transzformáció is, ez a megközelítés azt is jelezheti, hogy az adatokat transzformáció nélkül lenne-e a legjobb elemezni. A regresszióelemzésben ez a megközelítés Box-Cox-technikaként ismert.

A reciprok transzformáció, néhány hatványtranszformáció, például a Yeo-Johnson-transzformáció, és bizonyos más transzformációk, például az inverz hiperbolikus szinusz alkalmazása, értelmesen alkalmazható olyan adatokra, amelyek pozitív és negatív értékeket is tartalmaznak (a hatványtranszformáció minden valós számon invertálható, ha λ páratlan egész szám). Ha azonban negatív és pozitív értékeket is megfigyelünk, néha előfordul, hogy az összes értékhez egy konstans hozzáadásával kezdünk, így olyan nem negatív adathalmazt kapunk, amelyre bármely hatványtranszformáció alkalmazható.

Az adatok transzformációjának alkalmazása gyakori helyzet, amikor egy érdekes érték több nagyságrendnyi tartományban mozog. Számos fizikai és társadalmi jelenség mutat ilyen viselkedést – a jövedelmek, a fajok populációi, a galaxisok mérete és az esőzések mennyisége, hogy csak néhányat említsünk. A teljesítménytranszformációk, különösen a logaritmus, gyakran használhatók az ilyen adatok szimmetriájának előidézésére. A logaritmust gyakran előnyben részesítik, mert könnyen értelmezhető az eredménye a “hajtásváltozások” szempontjából.”

A logaritmus az arányszámokra is hasznos hatással van. Ha X és Y pozitív mennyiségeket hasonlítunk össze az X / Y arány segítségével, akkor ha X < Y, akkor az arány a (0,1) intervallumban van, míg ha X > Y, akkor az arány a (1,∞) felezővonalban van, ahol az 1-es arány az egyenlőségnek felel meg. Egy olyan elemzésben, ahol X-et és Y-t szimmetrikusan kezeljük, a log-arány log(X / Y) egyenlőség esetén nulla, és megvan az a tulajdonsága, hogy ha X K-szor nagyobb, mint Y, akkor a log-arány a nullától egyenlő távolságra van, mint abban a helyzetben, amikor Y K-szor nagyobb, mint X (a log-arányok log(K) és -log(K) ebben a két helyzetben).

Ha az értékek természetesen a 0 és 1 közötti tartományra korlátozódnak, a végpontok nélkül, akkor megfelelő lehet a logaritmus transzformáció: ez a (-∞,∞) tartományba eső értékeket eredményez.

Átalakítás a normalitásraSzerkesztés

1. Nem mindig szükséges vagy kívánatos egy adathalmazt úgy átalakítani, hogy az normális eloszlásra hasonlítson. Ha azonban szimmetriát vagy normalitást szeretnénk, ezek gyakran előidézhetők a hatványtranszformációk valamelyikével.

2. Egy nyelvi hatványfüggvény a Zipf-Mandelbrot-törvény szerint oszlik el. Az eloszlás rendkívül tüskés és leptokurtikus, ez az oka annak, hogy a kutatóknak hátat kellett fordítaniuk a statisztikának pl. a szerzői attribúciós problémák megoldására. Ennek ellenére a Gauss-statisztika használata az adatok transzformációjának alkalmazásával tökéletesen lehetséges.

3. Annak megítélésére, hogy a transzformáció után megvalósult-e a normalitás, a szabványos normalitásvizsgálatok bármelyike alkalmazható. A grafikus megközelítés általában informatívabb, mint egy formális statisztikai teszt, és ezért a normál kvantilis ábrát általában arra használják, hogy értékeljék egy adatsor normális populációhoz való illeszkedését. Alternatívaként a minta ferdeségén és kurtózisán alapuló ökölszabályokat is javasoltak.

Egyenletes eloszlásra vagy tetszőleges eloszlásra való transzformálásSzerkesztés

Ha megfigyelünk egy n értékből álló X1, …, Xn halmazt, amelyben nincsenek kapcsolatok (azaz n különböző érték van), akkor az Xi-t helyettesíthetjük a transzformált Yi = k értékkel, ahol k úgy van meghatározva, hogy Xi az összes X érték közül a k-edik legnagyobb. Ezt nevezzük rangtranszformációnak, és olyan adatokat hoz létre, amelyek tökéletesen illeszkednek az egyenletes eloszláshoz. Ennek a megközelítésnek van egy populációs analógja.

A valószínűségi integrál transzformációt használva, ha X bármilyen véletlen változó, és F az X kumulatív eloszlásfüggvénye, akkor amíg F invertálható, az U = F(X) véletlen változó egyenletes eloszlást követ az egységnyi intervallumon.

Az egyenletes eloszlásból transzformálhatunk bármilyen eloszlásra, amelynek kumulatív eloszlásfüggvénye invertálható. Ha G egy invertálható kumulatív eloszlásfüggvény, és U egy egyenletes eloszlású véletlen változó, akkor a G-1(U) véletlen változónak G a kumulatív eloszlásfüggvénye.

A kettőt összevetve, ha X egy tetszőleges véletlen változó, F az X invertálható kumulatív eloszlásfüggvénye, és G egy invertálható kumulatív eloszlásfüggvény, akkor a G-1(F(X)) véletlen változónak G a kumulatív eloszlásfüggvénye.

Varianciastabilizáló transzformációkSzerkesztés

Főcikk: Varianciastabilizáló transzformáció

A statisztikai adatok számos típusa mutat “variancia-középérték kapcsolatot”, ami azt jelenti, hogy a különböző várható értékű adatértékek esetében a variancia eltérő. Példaként a világ különböző népességeinek összehasonlításakor a jövedelem varianciája hajlamos arra, hogy az átlagjövedelemmel együtt nőjön. Ha több kis területegységet (pl. megyéket az Egyesült Államokban) tekintünk, és megkapjuk a jövedelmek átlagát és szórását az egyes megyéken belül, gyakori, hogy a magasabb átlagjövedelemmel rendelkező megyéknek nagyobb a szórása is.

A szórást stabilizáló transzformáció célja a szórás-középérték kapcsolat megszüntetése, hogy a szórás az átlaghoz képest állandó legyen. A varianciastabilizáló transzformációra példa a Fisher-transzformáció a minta korrelációs együtthatójára, a négyzetgyök-transzformáció vagy Anscombe-transzformáció Poisson-adatokra (számlálási adatok), a Box-Cox-transzformáció regresszióelemzésre, és az arcsinusz négyzetgyök-transzformáció vagy szögtranszformáció arányokra (binomiális adatok). Bár általában arányos adatok statisztikai elemzéséhez használják, az arcsinus négyzetgyök-transzformáció nem ajánlott, mivel a logisztikus regresszió vagy a logit-transzformáció megfelelőbb binomiális, illetve nem binomiális arányok esetén, különösen a csökkentett II. típusú hiba miatt.

Az arcsinus négyzetgyök-transzformáció nem ajánlott.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.