Transformacja danych (statystyka)

Transformacje logarytmu i pierwiastka kwadratowego są powszechnie używane dla danych dodatnich, a transformacja odwrotności multiplikatywnej (odwrotności) może być używana dla danych niezerowych. Transformacja potęgowa jest rodziną transformacji parametryzowanych przez nieujemną wartość λ, która obejmuje logarytm, pierwiastek kwadratowy i odwrotność multiplikatywną jako przypadki specjalne. Aby podejść do transformacji danych w sposób systematyczny, możliwe jest wykorzystanie technik estymacji statystycznej do oszacowania parametru λ w transformacji potęgowej, identyfikując w ten sposób transformację, która jest w przybliżeniu najbardziej odpowiednia w danym otoczeniu. Ponieważ rodzina transformacji potęgowych obejmuje również transformację tożsamościową, podejście to może również wskazać, czy najlepiej byłoby analizować dane bez transformacji. W analizie regresji to podejście jest znane jako technika Box-Cox.

Transformacja wzajemna, niektóre transformacje potęgowe, takie jak transformacja Yeo-Johnsona, i niektóre inne transformacje, takie jak zastosowanie odwrotnej sinusoidy hiperbolicznej, mogą być sensownie zastosowane do danych, które zawierają zarówno wartości dodatnie, jak i ujemne (transformacja potęgowa jest odwracalna na wszystkich liczbach rzeczywistych, jeśli λ jest nieparzystą liczbą całkowitą). Jednakże, gdy obserwuje się zarówno wartości ujemne jak i dodatnie, czasami często zaczyna się od dodania stałej do wszystkich wartości, tworząc zbiór nieujemnych danych, do których można zastosować dowolną transformację potęgową.

Powszechną sytuacją, w której stosuje się transformację danych, jest sytuacja, gdy interesująca nas wartość rozciąga się na kilka rzędów wielkości. Wiele zjawisk fizycznych i społecznych wykazuje takie zachowanie – dochody, populacje gatunków, rozmiary galaktyk i wielkość opadów, by wymienić tylko kilka. Przekształcenia potęgowe, a w szczególności logarytm, mogą być często stosowane w celu wywołania symetrii w takich danych. Logarytm jest często preferowany, ponieważ łatwo jest zinterpretować jego wynik w kategoriach „zmian fałdowych”

Logarytm ma również użyteczny wpływ na proporcje. Jeśli porównujemy dodatnie wielkości X i Y używając stosunku X / Y, to jeśli X < Y, stosunek jest w przedziale (0,1), podczas gdy jeśli X > Y, stosunek jest w półlinii (1,∞), gdzie stosunek 1 odpowiada równości. W analizie, w której X i Y są traktowane symetrycznie, log-ratio log(X / Y) jest równe zero w przypadku równości i ma tę własność, że jeśli X jest K razy większe od Y, to log-ratio jest tak samo odległe od zera jak w sytuacji, gdy Y jest K razy większe od X (log-ratios są log(K) i -log(K) w tych dwóch sytuacjach).

Jeśli wartości są naturalnie ograniczone do zakresu od 0 do 1, nie wliczając punktów końcowych, to odpowiednia może być transformacja logitowa: daje ona wartości w zakresie (-∞,∞).

Przekształcenie do normalnościEdit

1. Nie zawsze jest konieczne lub pożądane przekształcenie zbioru danych, aby przypominał rozkład normalny. Jednakże, jeśli symetria lub normalność są pożądane, często można je wywołać poprzez jedną z transformacji potęgowych.

2. lingwistyczna funkcja potęgowa jest dystrybuowana zgodnie z prawem Zipfa-Mandelbrota. Rozkład ten jest bardzo kolczasty i leptokurtyczny, dlatego też badacze musieli się odwrócić do statystyki, aby rozwiązać np. problemy atrybucji autorstwa. Niemniej jednak, wykorzystanie statystyki gaussowskiej jest całkowicie możliwe poprzez zastosowanie transformacji danych.

3. Aby ocenić, czy normalność została osiągnięta po transformacji, można zastosować dowolny ze standardowych testów normalności. Podejście graficzne jest zwykle bardziej pouczające niż formalny test statystyczny i dlatego normalny wykres kwantylowy jest powszechnie stosowany do oceny dopasowania zbioru danych do populacji normalnej. Alternatywnie zaproponowano również reguły kciuka oparte na skośności i kurtozie próbki.

Przekształcenie do rozkładu jednostajnego lub arbitralnegoEdit

Jeśli obserwujemy zbiór n wartości X1, …, Xn bez remisów (tj. istnieje n różnych wartości), możemy zastąpić Xi przekształconą wartością Yi = k, gdzie k jest zdefiniowane tak, że Xi jest k-tą największą wśród wszystkich wartości X. Nazywa się to transformacją rangową i tworzy dane o idealnym dopasowaniu do rozkładu jednostajnego. To podejście ma analogię w populacji.

Używając przekształcenia całki prawdopodobieństwa, jeśli X jest dowolną zmienną losową, a F jest funkcją rozkładu skumulowanego X, to tak długo jak F jest odwracalne, zmienna losowa U = F(X) podąża za rozkładem jednostajnym na przedziale jednostkowym .

Z rozkładu jednostajnego, możemy przekształcić się w dowolny rozkład z odwracalną funkcją rozkładu skumulowanego. Jeżeli G jest odwracalną funkcją rozkładu skumulowanego, a U jest zmienną losową o rozkładzie jednostajnym, to zmienna losowa G-1(U) ma G jako swoją funkcję rozkładu skumulowanego.

Połączenie tych dwóch rzeczy, jeśli X jest dowolną zmienną losową, F jest odwracalną funkcją rozkładu skumulowanego X, a G jest odwracalną funkcją rozkładu skumulowanego to zmienna losowa G-1(F(X)) ma G jako swoją funkcję rozkładu skumulowanego.

Przekształcenia stabilizujące wariancjęEdit

Main article: Variance-stabilizing transformation

Wiele typów danych statystycznych wykazuje „zależność wariancji od średniej”, co oznacza, że zmienność jest różna dla wartości danych o różnych wartościach oczekiwanych. Na przykład, porównując różne populacje na świecie, wariancja dochodu ma tendencję do zwiększania się wraz ze średnim dochodem. Jeśli rozważymy pewną liczbę małych jednostek obszarowych (np. hrabstw w Stanach Zjednoczonych) i otrzymamy średnią i wariancję dochodów w każdym hrabstwie, to często zdarza się, że hrabstwa o wyższym średnim dochodzie mają również wyższe wariancje.

Transformacja stabilizująca wariancję ma na celu usunięcie zależności wariancja-na-średnią, tak aby wariancja stała się stała względem średniej. Przykładami transformacji stabilizujących wariancję są: transformacja Fishera dla współczynnika korelacji próbki, transformacja pierwiastka kwadratowego lub transformacja Anscombe’a dla danych Poissona (dane liczbowe), transformacja Boxa-Coxa dla analizy regresji oraz transformacja pierwiastka kwadratowego arcsine’a lub transformacja kątowa dla proporcji (dane dwumianowe). Chociaż powszechnie stosuje się ją do analizy statystycznej danych proporcjonalnych, nie zaleca się stosowania transformacji pierwiastka łuku, ponieważ regresja logistyczna lub transformacja logitowa są bardziej odpowiednie odpowiednio dla proporcji dwumianowych lub nie dwumianowych, zwłaszcza ze względu na zmniejszony błąd typu II.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.