Fechar X

Notas

Aula 04


Selecione a seta para iniciar o conteúdo

Introdução

Todos os dias nós associamos acontecimentos e situações cotidianas. Frases como “se chover vai diminuir o calor” ou “se meu salário aumentar eu vou viajar no final do ano” são exemplos claros de relação entre duas variáveis e que evidenciam que se uma variável aumentar a outra vai diminuir, ou que se uma variável aumentar a outra vai aumentar na mesma proporção. Essas situações são exemplos de relação entre duas variáveis quantitativas, indicando que o resultado de uma variável pode ser diretamente ou indiretamente proporcional ao resultado da outra.

Nesta aula, veremos as duas medidas estatísticas que permitem este tipo de interpretação. Ao passo que a correlação apenas indica o grau da relação entre duas variáveis, a regressão tenta prever o resultado de uma variável a partir do conhecimento do resultado da outra.

Ao final desta aula, você será capaz de:

  • conhecer os conceitos de correlação e regressão;
  • compreender as formas de interpretação da correlação e da regressão;
  • compreender a aplicação da correlação e da regressão em trabalhos científicos.

Considerações Gerais a Respeito da Correlação e Regressão

Um dos principais interesses quando se estuda duas ou mais variáveis é saber se elas têm algum relacionamento entre si, isto é, se os valores altos ou baixos de uma das variáveis implicam em valores altos ou baixos da outra variável. Por exemplo, pode-se analisar se existe associação entre a taxa de investimento financeiro na saúde e a taxa de mortalidade em um país, ou entre a renda mensal média da população e o gasto mensal familiar com a saúde. Para descobrirmos se tal relação existe, é necessário selecionar um número de famílias e registrar a renda mensal de cada uma delas e o quanto cada família gasta por mês com a saúde.

O estudo deste tipo de associação entre variáveis é denominado correlação e regressão. Quando o estudo possui apenas duas variáveis tem-se a correlação e a regressão simples, ao passo que, quando envolve mais de duas variáveis, tem-se a correlação e a regressão múltiplas. Além disso, a correlação proporciona apenas o grau da relação entre duas variáveis, enquanto a regressão permite a previsão do resultado de uma variável a partir do conhecimento do resultado da outra.

SAIBA MAIS

Assista ao vídeo do link a seguir para ver mais exemplos da utilização da correlação e da regressão: <https://www.youtube.com/watch?v=89M97CWnkik>. Acesso em: 29 abr. 2019.

Correlação

A correlação é uma medida estatística que mede a relação entre duas variáveis e indica a força e a direção do relacionamento linear entre duas variáveis aleatórias, entretanto, esta medida não possibilita dizer se uma variável é causa ou consequência da outra. Quando duas variáveis estão correlacionadas, significa que, quando os valores em uma variável mudam, os valores da outra variável mudam de forma previsível (DANCEY; REIDY, 2019).

A medida que proporciona informações a respeito da força e da direção da relação entre duas variáveis é denominada coeficiente de correlação de Pearson ou correlação linear simples, o qual é representado pela letra “r”. A palavra simples que compõe o nome correlação linear simples indica que estão envolvidas no cálculo somente duas variáveis. O coeficiente de Pearson não possui unidade de medida e indica apenas o grau de proximidade entre as duas observações (BARROS et al., 2012).

Duas variáveis podem estar associadas de forma positiva (direta) ou de forma negativa (inversa), dessa forma, pode-se avaliar o quanto os valores destas variáveis estão correlacionados. A seguir estão elencadas informações importantes a respeito do coeficiente de correlação:

  • O coeficiente de correlação varia entre $-1~e~+1$.
  • Quanto mais próximo de zero o coeficiente de correlação, mais fraca a relação entre as variáveis.
  • Quando o coeficiente de correlação é zero, assume-se que não há relação linear entre as variáveis.
  • Uma correlação positiva indica que as duas variáveis se movem no mesmo sentido, enquanto uma correlação negativa indica que as duas variáveis se movem em sentidos opostos.
  • Quanto mais próximo de \(~+1\) o coeficiente de correlação, mais forte a relação positiva entre as variáveis, enquanto que, quanto mais próximo de \(-1~\) a correlação, mais forte a relação positiva entre as variáveis.
  • Duas variáveis que estão perfeitamente correlacionadas de forma positiva \(\left( r=1 \right)~\) movem-se essencialmente em perfeita proporção na mesma direção.
  • Duas variáveis que estão perfeitamente correlacionados de forma negativa \(\left( r=-1 \right)\) movem-se em perfeita proporção em direções opostas.

Além do coeficiente de correlação \(\left( r \right)\), uma das principais formas de representar a associação entre duas variáveis é o gráfico de dispersão, que se refere a um diagrama no qual os pontos \(x~\) e \(y\) no espaço cartesiano são usados para representar simultaneamente os valores de duas variáveis quantitativas medidas em cada elemento do conjunto de dados. Este gráfico é utilizado para demonstrar a intensidade, o sentido e tipo de correlação entre duas variáveis.

Conforme as informações da Figura 1, percebe-se que, quanto mais próxima de \(1\) (positivo ou negativo), mais linear é a relação entre as variáveis. Embora seja uma medida interessante, não é possível afirmar que o valor do coeficiente de correlação será o mesmo em uma amostra diferente.

Figura 1 - Diagramas de dispersão com diferentes valores de “r”
Fonte: Barros et al. (2012, p.186).

O cálculo do coeficiente de correlação é possível de ser efetuado quando se tem duas variáveis quantitativas de uma amostra com n indivíduos. A equação para o cálculo do coeficiente de correlação linear simples é obtida a partir da seguinte equação.

\[r~=~\frac{\Sigma \left( x~-~M\acute{e}dia~x \right)~\left( y~-~M\acute{e}dia~Y \right)}{\sqrt{\Sigma {{\left( x-~M\acute{e}dia~x \right)}^{2}}~\Sigma {{\left( y~-~M\acute{e}dia~y \right)}^{2}}}}\]

SAIBA MAIS

Assista ao vídeo do link abaixo para saber mais sobre os conceitos apresentados sobre a correlação e para ver exemplo do cálculo do coeficiente de correlação linear de forma manual: <https://www.youtube.com/watch?v=jiK6E5jrjPM>. Acesso em: 29 abr. 2019.

Após calcular o coeficiente de correlação \(\left( r \right)\), é importante analisar a magnitude (intensidade) da associação entre as variáveis. Embora a interpretação deste coeficiente varie na literatura, os resultados podem ser analisados no intervalo \(1~\) até \(+1~\) tomando por base a tabela a seguir:

Valor de \(~r\) Classificação
\(0,01~at\acute{e}~0,39\) Fraca
\(0,40~at\acute{e}~0,69\) Moderada
\(0,70~a~1,00\) Forte

Tabela 1 - Classificação do Coeficiente de Correlação de Pearson
Fonte: Adaptado de Dancey e Reidy (2019).

A Figura 2 ilustra detalhadamente os vários graus dos coeficientes de correlação de acordo com o sentido (positivo ou negativo) da relação entre as variáveis:

Figura 2 - Intensidade dos coeficientes de correlação positivos e negativos
Fonte: Dancey e Reidy (2019, 187).

É importante ressaltar que o valor da correlação \(~\left( r \right)~\) não indica uma relação de causa e efeito entre as variáveis. Outra medida para interpretar o valor do coeficiente de correlação é o coeficiente de determinação \(\left( r2 \right)\), que é a potência ao quadrado do valor de \(r\) multiplicado por \(100\), e que será muito útil nas análises de regressão (DANCEY; REIDY, 2019). O coeficiente de determinação indica o percentual de variação de uma variável que pode ser atribuída à relação com a outra variável.

Atenção

As correlações negativas ao quadrado têm como resultado um valor positivo. Por exemplo, duas variáveis apresentaram uma correlação de \(-0,6\) ao quadrado \(\left( -0,6~x~-0,6 \right)~=~0,36\). Logo, estas variáveis compartilham 16% de variância, resultado semelhante se a correlação fosse positiva \(\left( +0,6 \right)\).

Para ilustrar a explicação do coeficiente de determinação, vamos tomar como exemplo as variáveis massa corporal e estatura de crianças, as quais estão associadas de forma positiva, isto é, quanto maior a estatura, maior a massa corporal das crianças. Sempre que duas variáveis se correlacionam, pode-se dizer que elas compartilham variância. Por exemplo, os círculos do infográfico a seguir representam as variáveis independentes massa corporal e estatura.

Conceito: As variáveis são quantitativas e independentes e vamos verificar a correlação entre elas.

Conceito: As variáveis apresentaram correlação de r =0,70.

Conceito: Ao calcular o coeficiente de determinação  , temos que estas variáveis compartilham   de variância. Ao compartilharem esta variância, os dois círculos ficariam conforme a ilustração do infográfico.

Infográfico Interativo

Para consultar o Infográfico Interativo,
acesse a versão digital deste material

Pode-se dizer que \(49%\) da variância da massa corporal pode ser explicada pela variância da estatura, enquanto que \(49%\) da variância da estatura também pode ser explicada pela variância da massa corporal. Se as variáveis compartilham \(49%\) de variância, temos \(51%~\) de variância não compartilhada, que também é conhecida como variância exclusiva, ou seja, \(25,5%\) é exclusiva da massa corporal e \(25,5%\) é exclusiva da estatura. Isso quer dizer que \(51%\) da variância de cada uma das variáveis se deve a outros fatores. Sempre que a variância compartilhada for maior que a variância exclusiva, o valor do coeficiente de correlação será alto, ao passo que, quando a variância exclusiva for maior que a variância compartilhada, a correlação será baixa. A Tabela 2 apresenta os valores do coeficiente de determinação a partir dos coeficientes de correlação.

Correlação Coeficiente de determinação \(\left( {{r}^{2}} \right)\) Variância compartilhada
\(0,0\) \({{0,0}^{2}}\) \(0,00\)
\(0,1\) \({{0,1}^{2}}\) \(0,01~\left( 1% \right)\)
\(0,2\) \({{0,2}^{2}}\) \(0,04~\left( 4% \right)\)
\(0,3\) \({{0,3}^{2}}\) \(0,09~\left( 9% \right)\)
\(0,4\) 0,4\(^{2}\) \(0,16~\left( 16% \right)\)
\(0,5\) \({{0,5}^{2}}\) \(0,25~\left( 25% \right)\)
\(0,6\) \({{0,6}^{2}}\) \(0,36~\left( 36% \right)\)
\(0,7\) \({{0,7}^{2}}\) \(0,49~\left( 49% \right)\)
\(0,8\) \({{0,8}^{2}}\) \(0,64~\left( 64% \right)\)
\(0,9\) \({{0,9}^{2}}\) \(0,81~\left( 81% \right)\)
\(1,0\) \({{1,0}^{2}}^{{}}\) \(1,0~\left( 100% \right)\)

Tabela 2 - Coeficientes de correlação e respectivos coeficientes de determinação
Fonte: Adaptada de Barros et al. (2012).

SAIBA MAIS

Para ver como efetuar a correlação linear de Pearson para associar duas variáveis no software SPSS, assista ao vídeo do link a seguir: <https://www.youtube.com/watch?v=9a1ova9v03Y>. Acesso em: 29 abr. 2019.

Regressão

Enquanto a análise de correlação permite apenas identificar a intensidade e o sentido da associação entre duas variáveis, a análise de regressão permite verificar o efeito de uma variável sobre a outra. Em outras palavras, a partir da análise de regressão é possível saber quanto o valor de uma variável pode mudar a partir da alteração no valor da outra variável. O tipo mais comum de regressão é a regressão simples, que analisa o efeito de uma variável sobre a outra (DANCEY; REIDY, 2019).

Vamos imaginar que temos dados sobre o preço de um medicamento e a quantidade de venda do produto. Por meio da correlação podemos encontrar que o preço do medicamento e a quantidade de vendas têm uma correlação negativa, entretanto, não é possível afirmar o quanto a venda do produto reduzirá a partir do aumento do preço.

Ao usar a análise de regressão, podemos verificar o efeito que a variável \(x~\) (aumento do preço) causa na variável \(y\) (quantidade de vendas). Na análise de regressão existe uma equação matemática que permite prever quanto o valor da variável \(y\) mudará a partir da mudança no resultado da variável \(x\). Com isso, seria possível prever a seguinte situação fictícia: se o preço do medicamento aumenta \(~30%\), a quantidade vendas cairá \(25%\). Dessa forma, podemos sugerir que o valor de uma variável influenciou o valor da outra variável.

Outros exemplos da utilização da regressão envolvem o efeito do estresse na produtividade no trabalho, o efeito do volume de exercício sobre a redução do percentual de gordura ou a influência da motivação do aluno para os estudos sobre o desempenho nas provas.

SAIBA MAIS

Leia o artigo científico a seguir para ver a aplicação da análise de regressão em uma pesquisa na área da saúde:

RAMOS, A. C. V. et al. Estratégia Saúde da Família, saúde suplementar e desigualdade no acesso à mamografia no Brasil. Revista Panamericana de Salud Pública, v. 42, p. 166, 2018.

Para entender a fórmula da análise de regressão, é importante entender o conceito da linha de regressão, que é uma linha traçada no gráfico de dispersão (já visto quando falamos de correlação) para ver o quanto os pontos de dados estão agrupados ao redor da linha. Quanto mais próximos da linha estão os pontos, maior a previsão de \(x\) em \(y\). A partir do momento que temos uma linha reta representando os dados, é possível afirmar que para cada unidade de mudança em \(x,~y\) muda por uma quantidade específica.

O resultado da análise de regressão é estimado pela seguinte fórmula: \(Y~=~a~+~bx\). Esta fórmula indica a maneira pela qual \(y~)muda como resultado da mudança em \(x\). \(X\) é a variável que está prevendo a outra variável, sendo chamada de preditora ou independente, enquanto a variável \(y\) é a variável que está sendo explicada pela variável\(~x\), sendo chamada de variável critério ou dependente. Já \(a~\)representa o valor de \(y\) quando \(x\) é igual a zero, a qual é chamada de linha de interceptação. A inclinação da linha (chamada de $b$) proporciona uma medida de quanto \(y\) muda a partir da mudança em \(x\) (DANCEY; REIDY, 2019).

Um exemplo seria usar a equação de regressão para tentar prever a nota da prova de um aluno \(\left( y \right)\) a partir da quantidade de horas de estudo \(\left( x \right)\). A partir da análise de dados chegou-se aos resultados da Figura 4. A equação obtida na análise foi a seguinte:

\[y~=~a~+~bx\]

\(y~=~0,74~(a~->~quando~x~\acute{e}~zero,~y~\acute{e}~igual~a~0,74)~+~0,92\left( b \right).\left( hora~de~estudo \right)\) -> Vamos supor que o aluno estudou 8 horas para a prova:

\[y~=~0,74~+~0,92.8\]

\[y~=~0,74~+~7,36\]

\[y~=~8,1\]

Logo, podemos prever que um aluno que estudou \(8\) horas tem uma nota prevista de \(8,1\) na prova. Ao olhar o gráfico, você verá que a equação foi capaz de confirmar essa afirmação. Além disso, percebe-se que foi obtido um coeficiente de determinação de \(0,98~\left( 98% \right)\), indicando que as variáveis compartilham \(98%\) de variância.

Figura 3 - Gráfico de dispersão com a linha de regressão
Fonte: Elaborada pelo autor.

Quando o objetivo é analisar o efeito de mais de uma variável preditora sobre uma variável desfecho, é necessário empregar a regressão linear múltipla. A regressão múltipla possui características semelhantes às da regressão linear simples. A equação da regressão múltipla é uma extensão da regressão simples.

SAIBA MAIS

Leia o artigo científico Regressão múltipla stepwise e hierárquica em Psicologia Organizacional: aplicações, problemas e soluções para saber mais sobre a aplicação da análise de regressão linear múltipla.

Disponível em: <https://bit.ly/2QkWf84>. Acesso em: 29 abr. 2019.

QUESTÃO OBJETIVA

Um pesquisador investigou se o tempo gasto vendo televisão tem alguma relação com o percentual de gordura de adolescentes. Após a análise dos dados, o pesquisador verificou uma correlação linear de 0,75 entre as variáveis. A partir desse resultado, qual foi a conclusão do pesquisador?

O tempo gasto vendo televisão apresentou uma associação forte e positiva com o percentual de gordura. Além disso, as variáveis compartilham 56% de variância.

Justificativa da correta: As variáveis apresentaram uma correlação positiva e forte (r > 0,70) e o coeficiente de determinação é de 56%, indicando que as variáveis compartilham 56% de variância.

O tempo gasto vendo televisão apresentou um efeito forte e positivo com o percentual de gordura.

O tempo gasto vendo televisão apresentou um efeito forte e positivo com o percentual de gordura -> A análise de correlação não permite inferências de causa e efeito.

O tempo gasto vendo televisão apresentou uma associação forte e negativa com o percentual de gordura. Além disso, as variáveis compartilham pequeno percentual de variância.

O tempo gasto vendo televisão apresentou uma associação forte e negativa com o percentual de gordura. Além disso, as variáveis compartilham pequeno percentual de variância -> A correlação foi positiva.

O tempo gasto vendo televisão não tem associação com o percentual de gordura dos adolescentes.

O tempo gasto vendo televisão não tem associação com o percentual de gordura dos adolescentes -> As variáveis apresentaram correlação positiva e forte (r > 0,70).

O tempo gasto vendo televisão apresentou uma associação forte e negativa com o percentual de gordura. Além disso, as variáveis compartilham 56% de variância.

O tempo gasto vendo televisão apresentou uma associação forte e negativa com a percentual de gordura. Além disso, as variáveis compartilham 56% de variância -> A correlação foi positiva.

QUESTÃO OBJETIVA

A análise de correlação e regressão linear simples proporcionam informações a respeito da associação entre duas variáveis, entretanto, ambas possuem particularidades. Qual é a principal diferença entre as duas análises?

A análise de correlação proporciona informações sobre a intensidade e o sentido da associação entre duas variáveis, enquanto a regressão linear simples proporciona informações a respeito do efeito de uma variável sobre a outra.

Justificativa da correta: A correlação aponta apenas o grau e o sentido da relação entre duas variáveis. Já a regressão aponta o quanto a mudança no valor de uma variável influencia a mudança no valor da outra variável.

A análise de correlação proporciona informações sobre a intensidade, o sentido e a causalidade da associação entre duas variáveis, enquanto a regressão linear simples proporciona informações a respeito do efeito de uma variável sobre a outra.

A análise de correlação proporciona informações sobre a intensidade, o sentido e a causalidade da associação entre duas variáveis, enquanto a regressão linear simples proporciona informações a respeito do efeito de uma variável sobre a outra -> A correlação não aponta causalidade.

A análise de correlação proporciona informações sobre a intensidade e o sentido da associação entre duas variáveis, enquanto a regressão linear simples proporciona informações a respeito do efeito de muitas variáveis sobre apenas outra variável.

A análise de correlação proporciona informações sobre a intensidade e o sentido da associação entre duas variáveis, enquanto a regressão linear simples proporciona informações a respeito do efeito de muitas variáveis sobre apenas outra variável -> A regressão linear simples porciona informações a respeito do efeito de apenas uma variável sobre outra variável.

As análises não possuem diferenças e proporcionam as mesmas informações.

As análises não possuem diferenças e proporcionam as mesmas informações -> A correlação aponta apenas o grau e o sentido da relação entre duas variáveis. Já a regressão aponta o quanto a mudança no valor de uma variável influencia a mudança no valor da outra variável.

A análise de regressão linear simples proporciona informações sobre a intensidade e o sentido da associação entre duas variáveis, enquanto a correlação proporciona informações a respeito do efeito de uma variável sobre a outra.

A análise de regressão linear simples proporciona informações sobre a intensidade e o sentido da associação entre duas variáveis, enquanto a correlação proporciona informações a respeito do efeito de uma variável sobre a outra -> A correlação aponta apenas o grau e o sentido da relação entre duas variáveis. Já a regressão aponta o quanto a mudança no valor de uma variável influencia a mudança no valor da outra variável.

Fechamento

Nesta aula vimos que a análise de correlação é útil quando temos como objetivo analisar a associação entre duas variáveis, ao passo que a análise de regressão vai além da correlação e permite verificar o efeito de uma variável sobre a outra. A correlação entre duas variáveis quantitativas é amplamente utilizada quando se deseja saber o grau e o sentido de interdependência no aspecto de variação conjunta que uma variável tem sobre outra. Já a regressão proporciona informações a respeito do quanto o valor de uma variável pode influenciar a mudança no valor da outra variável.

Nesta aula, você teve a oportunidade de:

  • conhecer os conceitos de correlação e regressão linear.
  • compreender as formas de interpretação da correlação e da regressão linear simples.
  • compreender a aplicação da correlação e da regressão linear simples em trabalhos científicos.

Vídeo

Para complementar o seu aprendizado, assista o vídeo a seguir:

Aula Concluída!

Avançar