sábado, agosto 01, 2015

CUIDADO com as correlações



Numa correlação temos duas variáveis, X e Y, cuja relação ou medida de associação se pretende elucidar. Apesar da influência do acaso, muitas vezes é possível extrair conclusões sobre se existe ou não uma  relação entre elas. Se existir, a relação pode ser causal ou não. O grande desafio da ciência consiste em elucidar a interação entre as condições experimentais e hipóteses alternativas explicativas dos factos. A estatística dá uma contribuição fundamental nesta matéria.

Os trabalho de Charles Darwin sobre a evolução das espécies despertaram grande interesse, em especial no meio de Zoólogos da época. Um deles, Walter Weldon, iniciou um trabalho laborioso de medições das características morfológicas dos animais, fundando, assim, a disciplina da Biometria. Aos estudos de Weldon e Galton juntaram-se os de Karl Pearson, professor de Matemática aplicada em Londres e considerado o fundador da estatística moderna.

Um dos métodos estatísticos mais populares para medir a relação entre duas variáveis é conhecido pelo método correlacional – medida de correlação. Foi Karl Pearson que estabeleceu os critérios para afirmar quando o coeficiente de correlação (também chamado coeficiente de correlação de Pearson) entre dois fenómenos aleatórios é significativo. Quando não há relação entre duas variáveis teremos muitos pares de casos formando como que uma “nuvem de pontos" aproximadamente circular. Quando há relação, os pontos tendem a concentrar-se em torno de uma direção ascendente (ou descendente). Neste último caso é grande a tentação de denominar um dos fenómenos como causa e o outro fenómeno como efeito. Cuidado!

O problema começa com a ideia de que se a correlação entre duas variáveis é nula não há nenhuma relação entre elas. É falso. A correlação é uma medida de associação linear, de modo que pode haver alguma relação entre duas variáveis e a sua correlação (de Pearson) ser nula. Por outro lado, uma correlação elevada pode não implicar uma relação causa-efeito. O próprio termo “correlação” sugere a ideia de uma “relação” profunda entre duas variáveis. Muitas vezes pode existir uma relação profunda de causa-efeito, mas noutros casos não há uma relação direta entre as duas variáveis, apesar de a correlação ser elevada – trata-se de uma correlação espúria.

Vejamos o exemplo: A relação entre o número de gelados vendidos e o número de mortes por afogamento. A correlação entre as duas variáveis é elevada, mas não há uma relação de causa efeito entre elas. É óbvio que não são os gelados que causam as mortes por afogamento; acontece que a sua venda aumenta nos meses mais quentes, que é quando há um maior número de pessoas que vai a banhos, isto é, há uma terceira variável óbvia que são as condições metereológicas e que interfere com os fenómenos em causa. Há que estar atento aos abusos que muitas vezes são cometidos pela análise superficial das correlações. 

Sem comentários: