Transformação de dados (estatística)

As transformações de logaritmo e raiz quadrada são normalmente usadas para dados positivos, e a transformação inversa (recíproca) multiplicativa pode ser usada para dados não-zero. A transformação de potência é uma família de transformações parametrizada por um valor não negativo λ que inclui o logaritmo, raiz quadrada e o inverso multiplicativo como casos especiais. Para abordar sistematicamente a transformação de dados, é possível utilizar técnicas de estimação estatística para estimar o parâmetro λ na transformação de energia, identificando assim a transformação que é aproximadamente a mais apropriada num determinado cenário. Como a família de transformação de energia também inclui a transformação de identidade, esta abordagem também pode indicar se seria melhor analisar os dados sem uma transformação. Na análise de regressão, esta abordagem é conhecida como a técnica Box-Cox.

A transformação recíproca, algumas transformações de potência como a transformação Yeo-Johnson, e algumas outras transformações como a aplicação do seno hiperbólico inverso, podem ser significativamente aplicadas a dados que incluem tanto valores positivos como negativos (a transformação de potência é invertível sobre todos os números reais se λ for um número inteiro ímpar). No entanto, quando são observados tanto valores negativos como positivos, às vezes é comum começar por adicionar uma constante a todos os valores, produzindo um conjunto de dados não negativos aos quais qualquer transformação de potência pode ser aplicada.

Uma situação comum onde uma transformação de dados é aplicada é quando um valor de interesse varia em várias ordens de grandeza. Muitos fenômenos físicos e sociais apresentam tal comportamento – rendimentos, populações de espécies, tamanhos de galáxias e volumes de chuva, para citar alguns. Transformações de energia, e em particular o logaritmo, podem frequentemente ser usadas para induzir simetria em tais dados. O logaritmo é frequentemente favorecido porque é fácil de interpretar seu resultado em termos de “mudanças de dobra”

O logaritmo também tem um efeito útil sobre as proporções. Se estamos a comparar quantidades positivas X e Y usando a razão X / Y, então se X < Y, a razão está no intervalo (0,1), enquanto que se X > Y, a razão está na meia linha (1,∞), onde a razão de 1 corresponde à igualdade. Numa análise onde X e Y são tratados simetricamente, o log-ratio log(X / Y) é zero no caso da igualdade, e tem a propriedade de que se X é K vezes maior que Y, o log-ratio é o equidistante de zero como na situação em que Y é K vezes maior que X (os log-ratios são log(K) e -log(K) nestas duas situações).

Se os valores estão naturalmente limitados a estar na faixa de 0 a 1, não incluindo os pontos finais, então uma transformação logit pode ser apropriada: isto produz valores na faixa (-∞,∞).

Transformar em normalidadeEditar

1. Nem sempre é necessário ou desejável transformar um conjunto de dados para se assemelhar a uma distribuição normal. No entanto, se a simetria ou normalidade forem desejadas, elas podem muitas vezes ser induzidas através de uma das transformações de potência.

2. Uma função de potência linguística é distribuída de acordo com a lei Zipf-Mandelbrot. A distribuição é extremamente espinhosa e leptokurtica, esta é a razão pela qual os investigadores tiveram de virar as costas às estatísticas para resolver, por exemplo, problemas de atribuição de autoria. No entanto, o uso de estatísticas Gaussianas é perfeitamente possível pela aplicação de transformação de dados.

3. Para avaliar se a normalidade foi alcançada após a transformação, qualquer um dos testes de normalidade padrão pode ser usado. Uma abordagem gráfica é geralmente mais informativa que um teste estatístico formal e, portanto, um gráfico de quantis normal é comumente usado para avaliar a adequação de um conjunto de dados a uma população normal. Alternativamente, regras de polegar baseadas na obliquidade e curtose da amostra também foram propostas.

Transformação para uma distribuição uniforme ou uma distribuição arbitráriaEditar

Se observarmos um conjunto de n valores X1, …, Xn sem vínculos (ou seja, há n valores distintos), podemos substituir Xi pelo valor transformado Yi = k, onde k é definido de tal forma que Xi é o kth maior entre todos os valores X. Isto é chamado de transformação de classificação, e cria dados com um ajuste perfeito para uma distribuição uniforme. Esta abordagem tem um análogo populacional.

Usando a transformação integral de probabilidade, se X for qualquer variável aleatória, e F for a função de distribuição cumulativa de X, então enquanto F for invertível, a variável aleatória U = F(X) segue uma distribuição uniforme no intervalo de unidades .

De uma distribuição uniforme, podemos transformar para qualquer distribuição com uma função de distribuição cumulativa invertível. Se G é uma função de distribuição cumulativa invertível, e U é uma variável aleatória uniformemente distribuída, então a variável aleatória G-1(U) tem G como sua função de distribuição cumulativa.

Pondo as duas juntas, se X é qualquer variável aleatória, F é a função de distribuição cumulativa invertível de X, e G é uma função de distribuição cumulativa invertível, então a variável aleatória G-1(F(X)) tem G como sua função de distribuição cumulativa.

Transformações estabilizadoras de desviosEditar

Artigo principal: Transformações estabilizadoras de variância

Muitos tipos de dados estatísticos exibem uma “relação variância-significante”, o que significa que a variabilidade é diferente para valores de dados com diferentes valores esperados. Como exemplo, ao comparar diferentes populações no mundo, a variância da renda tende a aumentar com a renda média. Se considerarmos um número de unidades de pequena área (por exemplo, condados nos Estados Unidos) e obtivermos a média e variância da renda dentro de cada condado, é comum que os condados com maior renda média também tenham maiores variâncias.

Uma transformação estabilizadora da variância visa remover uma relação variância sobre o rendimento, de modo que a variância se torne constante em relação à média. Exemplos de transformações estabilizadoras de variância são a transformação de Fisher para o coeficiente de correlação da amostra, a transformação da raiz quadrada ou transformação de Anscombe para dados de Poisson (dados de contagem), a transformação de Box-Cox para análise de regressão e a transformação da raiz quadrada arcsina ou transformação angular para proporções (dados binomiais). Embora comumente usada para análise estatística de dados proporcionais, a transformação de raiz quadrada arcsine não é recomendada porque a regressão logística ou uma transformação logit são mais apropriadas para proporções binomiais ou não binomiais, respectivamente, especialmente devido à diminuição do erro tipo II.

Arquidia Mantina

Arquidia Mantina

Transformação de dados (estatística)

Transformar em normalidadeEditar

Transformação para uma distribuição uniforme ou uma distribuição arbitráriaEditar

Transformações estabilizadoras de desviosEditar

Deixe uma resposta Cancelar resposta