Fechar X

Notas

Aula 05


Selecione a seta para iniciar o conteúdo

Introdução

Na estatística, a análise da distribuição normal é um dos principais pressupostos para a utilização dos testes inferenciais e, frequentemente, testar as hipóteses que foram estabelecidas. Com isso, uma das principais perguntas quando vamos analisar um conjunto de dados é: o meu conjunto de dados apresenta distribuição normal? Este questionamento é importante, uma vez que esta análise mostra como os dados estão distribuídos ao longo do conjunto de dados. Esta etapa é fundamental para decidir entre os testes paramétricos e não-paramétricos. Nesta aula veremos as características da distribuição normal, as diferentes formas de analisar a distribuição normal e o que fazer quando os dados não apresentam distribuição normal.

Ao final desta aula, você será capaz de:

  • reconhecer as características teóricas da distribuição normal;
  • analisar a normalidade a partir de diferentes medidas estatísticas;
  • identificar as estratégias adotadas quando os dados não apresentam distribuição normal.

Distribuição Normal

A maior parte das inferências em pesquisas médicas e biológicas é baseada em dados com distribuição normal, razão pela qual para muitos pesquisadores uma das suposições mais importantes na estatística é a análise da normalidade dos dados, uma vez que é um pressuposto fundamental para selecionar o teste estatístico que será empregado para a análise dos dados. Muitos dos procedimentos estatísticos são testes paramétricos, os quais requerem que os dados sejam retirados de uma população normalmente distribuída (BARROS et al., 2012).

A análise da normalidade dos dados é um procedimento importante para o pesquisador decidir se vai adotar uma estatística paramétrica ou uma estatística não-paramétrica. Segundo Field (2009), quando um teste paramétrico é utilizado em dados com distribuição não normal, os resultados podem não estar de acordo com a realidade dos dados. Este erro pode afetar as conclusões quanto à aplicabilidade prática e clínica dos resultados, levando a tomadas de decisões imprecisas ou até mesmo catastróficas.

Mas você deve estar se perguntando: o que é distribuição normal? A distribuição normal também é conhecida como curva normal ou distribuição Gaussiana. A curva normal é também conhecida como distribuição Gaussiana devido à suposição de que Gauss foi o primeiro a fazer uso de suas propriedades para aplicações práticas (Figura 1).

Figura 1 - A Curva normal perfeita de Gauss
Fonte: iamnee / 123RF.

A normalidade se refere à distribuição simétrica ou normal dos dados, indicando que a distância entre os valores de uma variável quantitativa deve ser igual em todas as partes ao longo da escala, em que o comportamento de um participante não influencia no comportamento de outro (NASCIMENTO et al., 2015).

SAIBA MAIS

Para saber mais sobre a importância da normalidade em pesquisas nas ciências da saúde, leia o artigo científico abaixo:

Fonte: NASCIMENTO, D. C. et al. Testes de normalidade em análises estatísticas: uma orientação para praticantes em ciências da saúde e atividade física. Revista Mackenzie de Educação Física e Esporte, v. 14, n. 2, 2015. Disponível em: <http://editorarevistas.mackenzie.br/index.php/remef/article/view/6583/6653>. Acesso em: 26 abr. 2019.

A função matemática que representa a distribuição normal envolve dois parâmetros (média e variância), a curva que a descreve tem forma de “sino” e sua principal propriedade é a simetria dos dados em torno da média. De acordo com Barros et al. (2012), algumas das principais características da distribuição normal são as seguintes e que também estão ilustradas na Figura 2:

  • A distribuição normal pode ser completamente descrita pela média e pela variância;
  • A curva tem o formato de um sino;
  • Os dados apresentam distribuição simétrica em relação à média;
  • A média, a moda e a mediana apresentam o mesmo valor;
  • Ao assumir uma variância constante, a distribuição (curva)  se desloca à direita conforme a média aumenta e se desloca à esquerda na medida em que a média diminui;
  • A curva sofre achatamento na medida em que a variância aumenta e sofre alongamento na medida em que a variância diminui;
  • As caudas da curva encontram o eixo x no infinito;
  • 100% dos dados estão simetricamente distribuídos em relação à média;
  • Quando a distribuição é normal (simétrica), a média representa bem os dados, enquanto que quando a distribuição é assimétrica, a mediana é mais representativa.
Figura 2 - Exemplos de curvas de distribuição normal: a) simétrica em relação à média; b) com médias diferentes (m2 > m1) e a mesma variância; c) variâncias diferentes e a mesma média
Fonte: Barros et al. (2012, p.73).

SAIBA MAIS

A distribuição normal é obtida quando a distribuição dos valores do conjunto de dados apresenta um pico na região central, apresentando uma forma de sino. A distribuição normal perfeita acontece quando a média, a mediana e a moda coincidem com o ponto do pico da curva, conforme mostra a Figura 3.

Fonte: Barros et al. (2012).

Figura 3 - Gráfico que representa a distribuição normal dos dados
Fonte: iamnee / 123RF.

Conforme já visto, a curva de Gauss é obtida a partir dos valores da média e da variância (e, consequentemente, o desvio-padrão). Sabendo os valores dessas medidas, torna-se possível desenhar a curva por meio de uma fórmula matemática. Esta fórmula não será apresentada nessa aula, mas é importante saber que a curva pode ser desenhada a partir dos valores da média e do desvio-padrão.

SAIBA MAIS

Para saber mais sobre as características da curva normal, como a distribuição normal padronizada e a utilização do escore Z, leia os artigos científicos:

A Questão da Não Normalidade: uma revisão, disponível em: <http://www.iea.sp.gov.br/ftpiea/publicar/rea2014-2/rea2-2014.pdf>. Acesso em: 26 abr. 2019.

Desvio-padrão ou erro padrão: qual utilizar?, disponível em: <http://www.ufjf.br/ppgsaude/files/2018/11/Desvio-Padra%CC%83o-e-Erro-Padra%CC%83o.-Qual-a-diferenc%CC%A7a.pdf>. Acesso em: 26 abr. 2019.

Desvios à Normalidade

A busca pela distribuição normal é recorrente por pesquisadores, pois os métodos estatísticos mais utilizados na área da saúde e na epidemiologia, como o teste t de Student, as ANOVAS, a correlação linear simples e a regressão linear e intervalos de confiança são testes paramétricos e requerem a distribuição normal dos dados. Quando os dados não apresentam distribuição normal, a estatística não-paramétrica deve ser adotada para os procedimentos estatísticos inferenciais.

No entanto, dificilmente um conjunto de dados apresenta as mesmas características da distribuição normal teórica. Com isso, sempre se procura verificar se a distribuição de um conjunto de dados tem uma distribuição próxima da normalidade. Para tal verificação, a distribuição dos dados é baseada nas medidas de assimetria e curtose da curva dos dados em comparação à curva normal (BARROS et al., 2012).

Assimetria

A assimetria se refere ao grau de afastamento da distribuição dos dados em relação ao seu eixo de referência ou simetria, isto é, na medida em que a distribuição se afasta do eixo, a distribuição fica mais assimétrica. Quando a distribuição não é simétrica, os valores da média, mediana e moda também são diferentes.

Quanto mais o afastamento da curva ocorre para o lado direito, a assimetria é considerada negativa, ao passo que o afastamento da curva para o lado esquerdo é chamado de assimetria positiva. Na assimetria negativa, a média é menor que a mediana que, por sua vez, é menor que a moda. Já na assimetria positiva, a moda é menor que a mediana que, por sua vez, é menor que a média (BARROS et al., 2012). A Figura 4 ilustra a curva normal (média = mediana = moda) e as assimetrias à direita e à esquerda.

Figura 4 - Curva normal e assimetrias negativa (esquerda) e positiva (direita)
Fonte: iamnee / 123RF.

A assimetria é um pressuposto importante para a utilização da média como medida de tendência central, uma vez que na medida que a distribuição é mais assimétrica, os valores dispostos nas caudas podem distorcer o valor da média. Nestes casos, o mais recomendado é utilizar a mediana para representar os dados da amostra.

Atenção

As distribuições assimétricas são aquelas em que o pico da curva está deslocado para a direita ou para a esquerda e a cauda estendida para o lado oposto. Logo, na distribuição assimétrica negativa, o pico está deslocado à direita e a cauda à esquerda, ao passo que na distribuição assimétrica positiva o pico está deslocado à esquerda e a cauda à direita (Figura 4).

Curtose

A curtose corresponde ao grau de achatamento da distribuição dos dados, demonstrando o quanto a curva será achatada em comparação à curva normal. Assim, em relação à curtose (achatamento), a curva pode ser classificada em mesocúrtica, platicúrtica e leptocúrtica. A curva mais fechada ou alongada na parte superior é denominada de leptocúrtica, enquanto que a mais achatada e aberta é conhecida como platicúrtica. Já a curva normal é chamada de mesocúrtica (DANCEY; REIDY, 2019). A Figura 5 apresenta a curva normal, achatada e alongada.

Figura 5 - Curva normal, curva achatada e curva alongada
Fonte: iamnee / 123RF.

Distribuições Bimodais

Em alguns casos é possível que os dados apresentem um tipo diferente de distribuição, com dois picos de curva iguais e, consequentemente, duas modas. Este tipo de distribuição é denominado distribuição bimodal. Quando este tipo de distribuição for encontrado é importante examinar o conjunto de dados, visto que é possível que os dados sejam provenientes de duas populações diferentes (DANCEY; REIDY, 2019). A Figura 6 ilustra um exemplo de distribuição bimodal, com dois picos de curva e duas modas.

Figura 6 - Exemplo de distribuição bimodal
Fonte: Minitab (2019).

Testes de Normalidade

A análise da normalidade dos dados é efetuada de diversas formas, como o cálculo da assimetria e da curtose, métodos gráficos e testes estatísticos. O histograma pode ser utilizado para analisar a distribuição dos dados na medida em que a representação da curva normal sobre os dados do gráfico permite facilmente a identificação de assimetria e curtose, conforme ilustra a Figura 7.

Figura 7 - Curva normal sobre a distribuição dos dados em um histograma
Fonte: iamnee / 123RF.

Para ilustrar a análise da curva de normalidade por meio da distribuição da frequência dos dados da variável idade por meio do histograma, preste atenção no infográfico a seguir.

Conceito: O histograma representa a distribuição de frequências da variável idade.

Conceito: Ao traçar a curva, note que os dados estão concentrados a maior parte no lado esquerdo, caracterizando uma assimetria positiva.

Conceito: Note também que a moda (60,0) é menor que a mediana (67,0) que, por sua vez, é menor que a média (68,6), que é uma característica da assimetria positiva. Este exemplo ilustra claramente uma variável com distribuição não-normal.

Infográfico Interativo

Para consultar o Infográfico Interativo,
acesse a versão digital deste material

Contudo, o histograma não fornece a medida quantitativa da assimetria e da curtose. Para isso, deve-se utilizar equações matemáticas, entretanto, não vamos apresentá-las nessa aula. Tais cálculos podem ser facilmente obtidos nos softwares estatísticos, como o SPSS, o Stata, o R e até o Excel.

SAIBA MAIS

Para saber mais sobre os cálculos padronizados da assimetria e da curtose, além de exemplos de softwares para a análise da normalidade dos dados, leia o livro Análise de Dados em Saúde, de Mauro V. G. Barros et al.

Ainda existem os testes estatísticos que confirmam se um conjunto de dados apresenta distribuição normal. Para amostras pequenas (até 50 indivíduos), o teste de Shapiro-Wilk é mais recomendado, enquanto o teste de Kolmogorov-Smirnov é recomendado para amostras acima de 50 sujeitos. Para que os dados apresentem distribuição normal nesses testes, o valor da significância deve ser maior do que 0,05 (BARROS et al., 2012).

SAIBA MAIS

Para ver como analisar a normalidade dos dados por meio dos testes de normalidade e histograma, assista ao vídeo disponível em: <https://www.youtube.com/watch?v=fkqbycVzSpw&t=33s>. Acesso em: 26 abr. 2019.

No entanto, o resultado destes testes é afetado pelo tamanho da amostra, visto que em grandes amostras os testes tendem a indicar uma distribuição não normal apesar de os dados seguirem uma distribuição simétrica. Dessa forma, em grandes amostras, também é recomendável a verificação da normalidade por meio do histograma e dos valores padronizados da assimetria e da curtose.

SAIBA MAIS

Para saber mais sobre a questão da normalidade dos dados em estudos clínicos e experimentais na área da saúde, leia o artigo disponível em: <https://bit.ly/30EVjQA>. Acesso em: 26 abr. 2019.

QUESTÃO OBJETIVA

Um dos principais pressupostos para decidir entre a estatística paramétrica e não-paramétrica é a distribuição normal dos dados. Esta análise é realizada por meio da curva normal, que também é conhecida como curva de Gauss ou distribuição Gausssiana. Considere as afirmações abaixo sobre as características da distribuição normal:

I. A curva tem forma de sino;

II. A média, mediana e moda apresentam valores diferentes em uma distribuição normal;

III. A curva pode apresentar assimetria para a esquerda ou para a direita;

IV. Os dados apresentam distribuição simétrica em torno da média;

V. As caudas devem se encontrar devem se estender até o infinito.

Agora, assinale a alternativa com as afirmativas corretas:

a) I, IV e V, apenas.

Uma distribuição normal apresenta curva em formato de sino, os dados se distribuem simetricamente em torno da média e as caudas encontram o eixo das abscissas no infinito.

b) I e IV, apenas.

I e IV, apenas: a afirmação V também está correta.

c) II, II e V, apenas.

I, II e V, apenas: a afirmação II está errada, já que na distribuição normal a média, mediana e moda apresentam valores semelhantes.

d) I e V, apenas.

I e V, apenas: a afirmação IV também está correta.

e) I, II e IV, apenas.

I, II e IV, apenas: a afirmação II está errada, já que na distribuição normal a média, mediana e moda apresentam valores semelhantes.

QUESTÃO OBJETIVA

Ao analisar a normalidade dos dados é possível que você perceba que seus dados apresentem uma distribuição não normal, com curva com características diferentes da curva normal, e que apresentam valores extremos. Nesses casos, qual é a medida de tendência central mais adequada para ser utilizada?

a) Mediana

Quando a distribuição é assimétrica ou não normal, os valores dispostos nas caudas podem distorcer o valor da média. Nestes casos, o mais recomendado é utilizar a mediana para representar os dados da amostra.

b) Média

Média: o valor da média é afetado pelos valores extremos em uma distribuição não normal.

c) Moda

Moda: a moda não é uma medida adequada para representar um valor estatístico de um conjunto de dados.

d) Mediana e Média

Mediana e média: o valor da média é afetado pelos valores extremos em uma distribuição não normal.

e) Nenhuma das alternativas anteriores

Nenhuma das alternativas anteriores: quando a distribuição é assimétrica ou não normal, os valores dispostos nas caudas podem distorcer o valor da média. Nestes casos, o mais recomendado é utilizar a mediana para representar os dados da amostra.

Fechamento

Nesta aula vimos um dos principais pressupostos antes de se iniciar a estatística inferencial, que é a análise da distribuição dos dados. Esta análise é realizada por meio da curva normal, que também é conhecida como curva de Gauss ou distribuição Gausssiana. A análise da normalidade se refere ao grau com que os valores de um conjunto de dados se dispersam ao longo da curva. Dados com distribuição normal apresentam diversas características, como: distribuição simétrica dos dados em torno da média, curva em forma de sino e média, mediana e moda com valores semelhantes. As principais formas de analisar a normalidade envolvem o histograma, análise de assimetria e curtose e os testes de normalidade nos softwares estatísticos. A análise da normalidade irá determinar se o caminho a ser percorrido será o da estatística paramétrica ou não-paramétrica.

Nesta aula, você teve a oportunidade de:

  • reconhecer as características teóricas da distribuição normal;
  • analisar a distribuição normal a partir de diferentes medidas estatísticas;
  • identificar as estratégias adotadas quando os dados não apresentam distribuição normal.

Atividade Complementar

Para complementar o aprendizado e aprofundar os conhecimentos em relação aos assuntos estudados na Unidade I, você pode ler os capítulos 1 a 6 do livro Análise de Dados em Saúde, que consta na referência ao final da unidade. Durante a leitura, preste atenção nos principais conceitos estatísticos que você aprendeu e em mais exemplos que são apresentados no livro. Além disso, se atente ao processo de organização de dados e às formas de representação e descrição de dados, com destaque para a distribuição de frequência, as medidas de tendência central e dispersão e a representação gráfica. Por último e não menos importante, preste muita atenção às explicações relacionadas às características da distribuição normal dos dados. Após a leitura, tente responder as questões a seguir:

1 - Qual a diferença entre as variáveis quantitativas e qualitativas? Cite exemplos de cada uma delas.

2 - Descreva a diferença entre a média, a mediana e a moda.

3 - Qual o papel das medidas de dispersão? Quais as principais medidas de dispersão?

4 - Quais os principais tipos de gráficos e quando devemos utilizar cada um deles?

5 - Qual a importância da análise da distribuição normal?

Teoria e Prática

Você sabia que o estresse no casamento afeta mais a saúde física e mental da mulher? “Um estudo desenvolvido nos Estados Unidos demonstrou que mulheres em casamentos problemáticos têm mais chances de sofrer problemas de saúde como obesidade, hipertensão e colesterol alto - sintomas de uma "síndrome do metabolismo" que pode levar a doenças cardíacas, diabetes e derrame. A pesquisa da Universidade de Utah mostra ainda que os homens são menos afetados por estes sintomas, mas têm os mesmos riscos que as mulheres de sofrer de estresse e depressão. Os pesquisadores entrevistaram 276 casais, com idades entre 40 e 70 anos, e que estavam casados há uma média de 20 anos. Eles avaliaram os aspectos positivos e negativos de cada casamento, além de monitorar a saúde dos voluntários” (BBC Brasil, 2009).

Esta situação mostra claramente o papel da estatística para as descobertas e avanços na área da saúde. Para se chegar a esta conclusão, foi necessário selecionar uma amostra a partir de uma população, coletar e organizar os dados, e analisar de forma descritiva e inferencial os dados obtidos.

Estudo de caso

Sabe-se que a taxa de suicídios tem aumentado substancialmente nos últimos anos em todo o mundo. Para traçar estratégias para reduzir a taxa de suicídios, um grupo de pesquisadores procurou compreender as razões das pessoas decidirem acabar com suas vidas. Especificamente, tiveram como meta fazer um levantamento do sexo da pessoa que comete o suicídio e o método escolhido para fazê-lo. Para se chegar a uma conclusão e ter informações para tomada de decisões em relação às estratégias para reduzir as taxas de suicídio, a condução de uma pesquisa utilizando a ferramenta estatística é fundamental.

O pesquisador tem um problema a ser estudado (suicídio) e precisa selecionar instrumentos para obter os dados, como, por exemplo, a elaboração de um questionário ou esquema de uma entrevista, ou até mesmo obtenção de dados de prontuários de pessoas que cometeram suicídio. Em seguida, os dados precisam ser coletados para, assim, se realizar a análise dos dados e chegar às conclusões para as tomadas de decisões.

Vídeo

Para complementar o seu aprendizado, assista o vídeo a seguir:

Aula Concluída!

Avançar