Transformace dat (statistika)

Pro kladná data se běžně používají transformace logaritmem a odmocninou, pro nenulová data lze použít multiplikativní inverzní (reciproční) transformaci. Mocninná transformace je rodina transformací parametrizovaná nezápornou hodnotou λ, která zahrnuje logaritmus, odmocninu a multiplikativní inverzní transformaci jako zvláštní případy. Pro systematický přístup k transformaci dat je možné použít techniky statistického odhadu k odhadu parametru λ v mocninné transformaci, a tím určit transformaci, která je v daném prostředí přibližně nejvhodnější. Protože rodina mocninných transformací zahrnuje také transformaci identity, může tento přístup také naznačit, zda by bylo nejlepší analyzovat data bez transformace. V regresní analýze je tento přístup znám jako Boxova-Coxova technika.

Reciproční transformaci, některé mocninné transformace, jako je například Yeo-Johnsonova transformace, a některé další transformace, například použití inverzního hyperbolického sinusu, lze smysluplně použít na data, která obsahují jak kladné, tak záporné hodnoty (mocninná transformace je inverzní nad všemi reálnými čísly, je-li λ liché celé číslo). Pokud však pozorujeme jak záporné, tak kladné hodnoty, je někdy běžné začít přičítáním konstanty ke všem hodnotám, čímž vznikne soubor nezáporných dat, na který lze aplikovat libovolnou mocninnou transformaci.

Běžnou situací, kdy se aplikuje transformace dat, je situace, kdy se hodnota zájmu pohybuje v rozsahu několika řádů. Takové chování vykazuje mnoho fyzikálních a společenských jevů – například příjmy, populace druhů, velikosti galaxií a objemy srážek. Mocninné transformace, a zejména logaritmus, lze často použít k navození symetrie v takových datech. Logaritmus je často upřednostňován, protože je snadné interpretovat jeho výsledek ve smyslu „násobných změn“.

Logaritmus má také užitečný vliv na poměry. Porovnáváme-li kladné veličiny X a Y pomocí poměru X / Y, pak je-li X < Y, je poměr v intervalu (0,1), zatímco je-li X > Y, je poměr v polopřímce (1,∞), kde poměr 1 odpovídá rovnosti. V analýze, kde se s X a Y zachází symetricky, je logaritmický poměr log(X / Y) v případě rovnosti nulový a má tu vlastnost, že pokud je X Kkrát větší než Y, je logaritmický poměr stejně vzdálený od nuly jako v situaci, kdy je Y Kkrát větší než X (logaritmy jsou v těchto dvou situacích log(K) a -log(K)).

Jsou-li hodnoty přirozeně omezeny na rozsah 0 až 1, přičemž se nepočítají koncové body, pak může být vhodná logaritmická transformace: ta dává hodnoty v rozsahu (-∞,∞).

Transformace na normalituEdit

1. Ne vždy je nutné nebo žádoucí transformovat soubor dat tak, aby se podobal normálnímu rozdělení. Pokud jsou však symetrie nebo normalita žádoucí, lze je často navodit některou z mocninných transformací.

2. Jazyková mocninná funkce je rozdělena podle Zipfova-Mandelbrotova zákona. Toto rozdělení je extrémně špičaté a leptokurtické, to je důvod, proč se badatelé museli obrátit zády ke statistice, aby vyřešili např. problémy s atribucí autorství. Nicméně použití Gaussovy statistiky je dokonale možné použitím transformace dat.

3. K posouzení, zda bylo po transformaci dosaženo normality, lze použít některý ze standardních testů normality. Grafický přístup je obvykle informativnější než formální statistický test, a proto se k posouzení shody souboru dat s normální populací běžně používá normální kvantilový graf. Alternativně byla také navržena pravidla založená na výběrové šikmosti a kurtóze.

Transformace na rovnoměrné rozdělení nebo libovolné rozděleníPravidlo

Pokud pozorujeme soubor n hodnot X1, …, Xn bez vazeb (tj. existuje n různých hodnot), můžeme Xi nahradit transformovanou hodnotou Yi = k, kde k je definováno tak, že Xi je k-tá největší ze všech hodnot X. V případě, že se jedná o soubor n hodnot X1, …, Xn bez vazeb (tj. existuje n různých hodnot), můžeme Xi nahradit transformovanou hodnotou Yi = k, kde k je definováno tak, že Xi je k-tá největší ze všech hodnot X. Tomuto postupu se říká hodnostní transformace a vytváří data s dokonalou shodou s rovnoměrným rozdělením. Tento přístup má populační analogii.

Pomocí integrální transformace pravděpodobnosti, je-li X libovolná náhodná veličina a F je kumulativní distribuční funkce X, pak pokud je F inverzní, náhodná veličina U = F(X) sleduje rovnoměrné rozdělení na jednotkovém intervalu .

Z rovnoměrného rozdělení můžeme transformovat na libovolné rozdělení s inverzní kumulativní distribuční funkcí. Je-li G inverzní kumulativní distribuční funkce a U je rovnoměrně rozdělená náhodná veličina, pak náhodná veličina G-1(U) má G jako svou kumulativní distribuční funkci.

Spojíme-li tyto dvě věci dohromady, pak je-li X libovolná náhodná veličina, F je inverzní kumulativní distribuční funkce X a G je inverzní kumulativní distribuční funkce, pak náhodná veličina G-1(F(X)) má G jako svou kumulativní distribuční funkci.

Transformace stabilizující rozptylUpravit

Hlavní článek: Variance-stabilizující transformace

Mnoho typů statistických dat vykazuje „závislost rozptylu na střední hodnotě“, což znamená, že variabilita je různá pro hodnoty dat s různými očekávanými hodnotami. Jako příklad lze uvést, že při porovnávání různých populací ve světě má rozptyl příjmu tendenci se zvyšovat s průměrným příjmem. Pokud uvažujeme řadu malých územních jednotek (např. okresů ve Spojených státech) a získáme průměr a rozptyl příjmů v každém okrese, je běžné, že okresy s vyšším průměrným příjmem mají také vyšší rozptyly.

Stabilizační transformace rozptylu má za cíl odstranit vztah rozptylu ke středu tak, aby se rozptyl stal konstantním vzhledem k průměru. Příklady transformací stabilizujících rozptyl jsou Fisherova transformace pro výběrový korelační koeficient, odmocninová transformace nebo Anscombeho transformace pro Poissonova data (data o počtu), Boxova-Coxova transformace pro regresní analýzu a arcsinová odmocninová transformace nebo úhlová transformace pro proporce (binomická data). Ačkoli se běžně používá pro statistickou analýzu proporcionálních dat, arcsine transformace odmocninou se nedoporučuje, protože logistická regrese nebo logitová transformace jsou vhodnější pro binomické, resp. nebinomické proporce, zejména kvůli snížení chyby typu II.

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.