As transformações de logaritmo e raiz quadrada são normalmente usadas para dados positivos, e a transformação inversa (recíproca) multiplicativa pode ser usada para dados não-zero. A transformação de potência é uma família de transformações parametrizada por um valor não negativo λ que inclui o logaritmo, raiz quadrada e o inverso multiplicativo como casos especiais. Para abordar sistematicamente a transformação de dados, é possível utilizar técnicas de estimação estatística para estimar o parâmetro λ na transformação de energia, identificando assim a transformação que é aproximadamente a mais apropriada num determinado cenário. Como a família de transformação de energia também inclui a transformação de identidade, esta abordagem também pode indicar se seria melhor analisar os dados sem uma transformação. Na análise de regressão, esta abordagem é conhecida como a técnica Box-Cox.
A transformação recíproca, algumas transformações de potência como a transformação Yeo-Johnson, e algumas outras transformações como a aplicação do seno hiperbólico inverso, podem ser significativamente aplicadas a dados que incluem tanto valores positivos como negativos (a transformação de potência é invertível sobre todos os números reais se λ for um número inteiro ímpar). No entanto, quando são observados tanto valores negativos como positivos, às vezes é comum começar por adicionar uma constante a todos os valores, produzindo um conjunto de dados não negativos aos quais qualquer transformação de potência pode ser aplicada.
Uma situação comum onde uma transformação de dados é aplicada é quando um valor de interesse varia em várias ordens de grandeza. Muitos fenômenos físicos e sociais apresentam tal comportamento – rendimentos, populações de espécies, tamanhos de galáxias e volumes de chuva, para citar alguns. Transformações de energia, e em particular o logaritmo, podem frequentemente ser usadas para induzir simetria em tais dados. O logaritmo é frequentemente favorecido porque é fácil de interpretar seu resultado em termos de “mudanças de dobra”
O logaritmo também tem um efeito útil sobre as proporções. Se estamos a comparar quantidades positivas X e Y usando a razão X / Y, então se X < Y, a razão está no intervalo (0,1), enquanto que se X > Y, a razão está na meia linha (1,∞), onde a razão de 1 corresponde à igualdade. Numa análise onde X e Y são tratados simetricamente, o log-ratio log(X / Y) é zero no caso da igualdade, e tem a propriedade de que se X é K vezes maior que Y, o log-ratio é o equidistante de zero como na situação em que Y é K vezes maior que X (os log-ratios são log(K) e -log(K) nestas duas situações).
Se os valores estão naturalmente limitados a estar na faixa de 0 a 1, não incluindo os pontos finais, então uma transformação logit pode ser apropriada: isto produz valores na faixa (-∞,∞).
Transformar em normalidadeEditar
1. Nem sempre é necessário ou desejável transformar um conjunto de dados para se assemelhar a uma distribuição normal. No entanto, se a simetria ou normalidade forem desejadas, elas podem muitas vezes ser induzidas através de uma das transformações de potência.
2. Uma função de potência linguística é distribuída de acordo com a lei Zipf-Mandelbrot. A distribuição é extremamente espinhosa e leptokurtica, esta é a razão pela qual os investigadores tiveram de virar as costas às estatísticas para resolver, por exemplo, problemas de atribuição de autoria. No entanto, o uso de estatísticas Gaussianas é perfeitamente possível pela aplicação de transformação de dados.
3. Para avaliar se a normalidade foi alcançada após a transformação, qualquer um dos testes de normalidade padrão pode ser usado. Uma abordagem gráfica é geralmente mais informativa que um teste estatístico formal e, portanto, um gráfico de quantis normal é comumente usado para avaliar a adequação de um conjunto de dados a uma população normal. Alternativamente, regras de polegar baseadas na obliquidade e curtose da amostra também foram propostas.
Transformação para uma distribuição uniforme ou uma distribuição arbitráriaEditar
Se observarmos um conjunto de n valores X1, …, Xn sem vínculos (ou seja, há n valores distintos), podemos substituir Xi pelo valor transformado Yi = k, onde k é definido de tal forma que Xi é o kth maior entre todos os valores X. Isto é chamado de transformação de classificação, e cria dados com um ajuste perfeito para uma distribuição uniforme. Esta abordagem tem um análogo populacional.
Usando a transformação integral de probabilidade, se X for qualquer variável aleatória, e F for a função de distribuição cumulativa de X, então enquanto F for invertível, a variável aleatória U = F(X) segue uma distribuição uniforme no intervalo de unidades .
De uma distribuição uniforme, podemos transformar para qualquer distribuição com uma função de distribuição cumulativa invertível. Se G é uma função de distribuição cumulativa invertível, e U é uma variável aleatória uniformemente distribuída, então a variável aleatória G-1(U) tem G como sua função de distribuição cumulativa.
Pondo as duas juntas, se X é qualquer variável aleatória, F é a função de distribuição cumulativa invertível de X, e G é uma função de distribuição cumulativa invertível, então a variável aleatória G-1(F(X)) tem G como sua função de distribuição cumulativa.
Transformações estabilizadoras de desviosEditar
Muitos tipos de dados estatísticos exibem uma “relação variância-significante”, o que significa que a variabilidade é diferente para valores de dados com diferentes valores esperados. Como exemplo, ao comparar diferentes populações no mundo, a variância da renda tende a aumentar com a renda média. Se considerarmos um número de unidades de pequena área (por exemplo, condados nos Estados Unidos) e obtivermos a média e variância da renda dentro de cada condado, é comum que os condados com maior renda média também tenham maiores variâncias.
Uma transformação estabilizadora da variância visa remover uma relação variância sobre o rendimento, de modo que a variância se torne constante em relação à média. Exemplos de transformações estabilizadoras de variância são a transformação de Fisher para o coeficiente de correlação da amostra, a transformação da raiz quadrada ou transformação de Anscombe para dados de Poisson (dados de contagem), a transformação de Box-Cox para análise de regressão e a transformação da raiz quadrada arcsina ou transformação angular para proporções (dados binomiais). Embora comumente usada para análise estatística de dados proporcionais, a transformação de raiz quadrada arcsine não é recomendada porque a regressão logística ou uma transformação logit são mais apropriadas para proporções binomiais ou não binomiais, respectivamente, especialmente devido à diminuição do erro tipo II.