Na estatística, a análise da distribuição normal é um dos principais pressupostos para a utilização dos testes inferenciais e, frequentemente, testar as hipóteses que foram estabelecidas. Com isso, uma das principais perguntas quando vamos analisar um conjunto de dados é: o meu conjunto de dados apresenta distribuição normal? Este questionamento é importante, uma vez que esta análise mostra como os dados estão distribuídos ao longo do conjunto de dados. Esta etapa é fundamental para decidir entre os testes paramétricos e não-paramétricos. Nesta aula veremos as características da distribuição normal, as diferentes formas de analisar a distribuição normal e o que fazer quando os dados não apresentam distribuição normal.
Ao final desta aula, você será capaz de:
A maior parte das inferências em pesquisas médicas e biológicas é baseada em dados com distribuição normal, razão pela qual para muitos pesquisadores uma das suposições mais importantes na estatística é a análise da normalidade dos dados, uma vez que é um pressuposto fundamental para selecionar o teste estatístico que será empregado para a análise dos dados. Muitos dos procedimentos estatísticos são testes paramétricos, os quais requerem que os dados sejam retirados de uma população normalmente distribuída (BARROS et al., 2012).
A análise da normalidade dos dados é um procedimento importante para o pesquisador decidir se vai adotar uma estatística paramétrica ou uma estatística não-paramétrica. Segundo Field (2009), quando um teste paramétrico é utilizado em dados com distribuição não normal, os resultados podem não estar de acordo com a realidade dos dados. Este erro pode afetar as conclusões quanto à aplicabilidade prática e clínica dos resultados, levando a tomadas de decisões imprecisas ou até mesmo catastróficas.
Mas você deve estar se perguntando: o que é distribuição normal? A distribuição normal também é conhecida como curva normal ou distribuição Gaussiana. A curva normal é também conhecida como distribuição Gaussiana devido à suposição de que Gauss foi o primeiro a fazer uso de suas propriedades para aplicações práticas (Figura 1).

A normalidade se refere à distribuição simétrica ou normal dos dados, indicando que a distância entre os valores de uma variável quantitativa deve ser igual em todas as partes ao longo da escala, em que o comportamento de um participante não influencia no comportamento de outro (NASCIMENTO et al., 2015).
Para saber mais sobre a importância da normalidade em pesquisas nas ciências da saúde, leia o artigo científico abaixo:
Fonte: NASCIMENTO, D. C. et al. Testes de normalidade em análises estatísticas: uma orientação para praticantes em ciências da saúde e atividade física. Revista Mackenzie de Educação Física e Esporte, v. 14, n. 2, 2015. Disponível em: <http://editorarevistas.mackenzie.br/index.php/remef/article/view/6583/6653>. Acesso em: 26 abr. 2019.
A função matemática que representa a distribuição normal envolve dois parâmetros (média e variância), a curva que a descreve tem forma de “sino” e sua principal propriedade é a simetria dos dados em torno da média. De acordo com Barros et al. (2012), algumas das principais características da distribuição normal são as seguintes e que também estão ilustradas na Figura 2:

A distribuição normal é obtida quando a distribuição dos valores do conjunto de dados apresenta um pico na região central, apresentando uma forma de sino. A distribuição normal perfeita acontece quando a média, a mediana e a moda coincidem com o ponto do pico da curva, conforme mostra a Figura 3.
Fonte: Barros et al. (2012).


Conforme já visto, a curva de Gauss é obtida a partir dos valores da média e da variância (e, consequentemente, o desvio-padrão). Sabendo os valores dessas medidas, torna-se possível desenhar a curva por meio de uma fórmula matemática. Esta fórmula não será apresentada nessa aula, mas é importante saber que a curva pode ser desenhada a partir dos valores da média e do desvio-padrão.
Para saber mais sobre as características da curva normal, como a distribuição normal padronizada e a utilização do escore Z, leia os artigos científicos:
A Questão da Não Normalidade: uma revisão, disponível em: <http://www.iea.sp.gov.br/ftpiea/publicar/rea2014-2/rea2-2014.pdf>. Acesso em: 26 abr. 2019.
Desvio-padrão ou erro padrão: qual utilizar?, disponível em: <http://www.ufjf.br/ppgsaude/files/2018/11/Desvio-Padra%CC%83o-e-Erro-Padra%CC%83o.-Qual-a-diferenc%CC%A7a.pdf>. Acesso em: 26 abr. 2019.
A busca pela distribuição normal é recorrente por pesquisadores, pois os métodos estatísticos mais utilizados na área da saúde e na epidemiologia, como o teste t de Student, as ANOVAS, a correlação linear simples e a regressão linear e intervalos de confiança são testes paramétricos e requerem a distribuição normal dos dados. Quando os dados não apresentam distribuição normal, a estatística não-paramétrica deve ser adotada para os procedimentos estatísticos inferenciais.
No entanto, dificilmente um conjunto de dados apresenta as mesmas características da distribuição normal teórica. Com isso, sempre se procura verificar se a distribuição de um conjunto de dados tem uma distribuição próxima da normalidade. Para tal verificação, a distribuição dos dados é baseada nas medidas de assimetria e curtose da curva dos dados em comparação à curva normal (BARROS et al., 2012).
A assimetria se refere ao grau de afastamento da distribuição dos dados em relação ao seu eixo de referência ou simetria, isto é, na medida em que a distribuição se afasta do eixo, a distribuição fica mais assimétrica. Quando a distribuição não é simétrica, os valores da média, mediana e moda também são diferentes.
Quanto mais o afastamento da curva ocorre para o lado direito, a assimetria é considerada negativa, ao passo que o afastamento da curva para o lado esquerdo é chamado de assimetria positiva. Na assimetria negativa, a média é menor que a mediana que, por sua vez, é menor que a moda. Já na assimetria positiva, a moda é menor que a mediana que, por sua vez, é menor que a média (BARROS et al., 2012). A Figura 4 ilustra a curva normal (média = mediana = moda) e as assimetrias à direita e à esquerda.

A assimetria é um pressuposto importante para a utilização da média como medida de tendência central, uma vez que na medida que a distribuição é mais assimétrica, os valores dispostos nas caudas podem distorcer o valor da média. Nestes casos, o mais recomendado é utilizar a mediana para representar os dados da amostra.
As distribuições assimétricas são aquelas em que o pico da curva está deslocado para a direita ou para a esquerda e a cauda estendida para o lado oposto. Logo, na distribuição assimétrica negativa, o pico está deslocado à direita e a cauda à esquerda, ao passo que na distribuição assimétrica positiva o pico está deslocado à esquerda e a cauda à direita (Figura 4).

A curtose corresponde ao grau de achatamento da distribuição dos dados, demonstrando o quanto a curva será achatada em comparação à curva normal. Assim, em relação à curtose (achatamento), a curva pode ser classificada em mesocúrtica, platicúrtica e leptocúrtica. A curva mais fechada ou alongada na parte superior é denominada de leptocúrtica, enquanto que a mais achatada e aberta é conhecida como platicúrtica. Já a curva normal é chamada de mesocúrtica (DANCEY; REIDY, 2019). A Figura 5 apresenta a curva normal, achatada e alongada.

Em alguns casos é possível que os dados apresentem um tipo diferente de distribuição, com dois picos de curva iguais e, consequentemente, duas modas. Este tipo de distribuição é denominado distribuição bimodal. Quando este tipo de distribuição for encontrado é importante examinar o conjunto de dados, visto que é possível que os dados sejam provenientes de duas populações diferentes (DANCEY; REIDY, 2019). A Figura 6 ilustra um exemplo de distribuição bimodal, com dois picos de curva e duas modas.

A análise da normalidade dos dados é efetuada de diversas formas, como o cálculo da assimetria e da curtose, métodos gráficos e testes estatísticos. O histograma pode ser utilizado para analisar a distribuição dos dados na medida em que a representação da curva normal sobre os dados do gráfico permite facilmente a identificação de assimetria e curtose, conforme ilustra a Figura 7.

Para ilustrar a análise da curva de normalidade por meio da distribuição da frequência dos dados da variável idade por meio do histograma, preste atenção no infográfico a seguir.
Conceito: O histograma representa a distribuição de frequências da variável idade.
Conceito: Ao traçar a curva, note que os dados estão concentrados a maior parte no lado esquerdo, caracterizando uma assimetria positiva.
Conceito: Note também que a moda (60,0) é menor que a mediana (67,0) que, por sua vez, é menor que a média (68,6), que é uma característica da assimetria positiva. Este exemplo ilustra claramente uma variável com distribuição não-normal.
Contudo, o histograma não fornece a medida quantitativa da assimetria e da curtose. Para isso, deve-se utilizar equações matemáticas, entretanto, não vamos apresentá-las nessa aula. Tais cálculos podem ser facilmente obtidos nos softwares estatísticos, como o SPSS, o Stata, o R e até o Excel.
Para saber mais sobre os cálculos padronizados da assimetria e da curtose, além de exemplos de softwares para a análise da normalidade dos dados, leia o livro Análise de Dados em Saúde, de Mauro V. G. Barros et al.

Ainda existem os testes estatísticos que confirmam se um conjunto de dados apresenta distribuição normal. Para amostras pequenas (até 50 indivíduos), o teste de Shapiro-Wilk é mais recomendado, enquanto o teste de Kolmogorov-Smirnov é recomendado para amostras acima de 50 sujeitos. Para que os dados apresentem distribuição normal nesses testes, o valor da significância deve ser maior do que 0,05 (BARROS et al., 2012).
Para ver como analisar a normalidade dos dados por meio dos testes de normalidade e histograma, assista ao vídeo disponível em: <https://www.youtube.com/watch?v=fkqbycVzSpw&t=33s>. Acesso em: 26 abr. 2019.

No entanto, o resultado destes testes é afetado pelo tamanho da amostra, visto que em grandes amostras os testes tendem a indicar uma distribuição não normal apesar de os dados seguirem uma distribuição simétrica. Dessa forma, em grandes amostras, também é recomendável a verificação da normalidade por meio do histograma e dos valores padronizados da assimetria e da curtose.
Para saber mais sobre a questão da normalidade dos dados em estudos clínicos e experimentais na área da saúde, leia o artigo disponível em: <https://bit.ly/30EVjQA>. Acesso em: 26 abr. 2019.

Um dos principais pressupostos para decidir entre a estatística paramétrica e não-paramétrica é a distribuição normal dos dados. Esta análise é realizada por meio da curva normal, que também é conhecida como curva de Gauss ou distribuição Gausssiana. Considere as afirmações abaixo sobre as características da distribuição normal:
I. A curva tem forma de sino;
II. A média, mediana e moda apresentam valores diferentes em uma distribuição normal;
III. A curva pode apresentar assimetria para a esquerda ou para a direita;
IV. Os dados apresentam distribuição simétrica em torno da média;
V. As caudas devem se encontrar devem se estender até o infinito.
Agora, assinale a alternativa com as afirmativas corretas:
a) I, IV e V, apenas.
Uma distribuição normal apresenta curva em formato de sino, os dados se distribuem simetricamente em torno da média e as caudas encontram o eixo das abscissas no infinito.
b) I e IV, apenas.
I e IV, apenas: a afirmação V também está correta.
c) II, II e V, apenas.
I, II e V, apenas: a afirmação II está errada, já que na distribuição normal a média, mediana e moda apresentam valores semelhantes.
d) I e V, apenas.
I e V, apenas: a afirmação IV também está correta.
e) I, II e IV, apenas.
I, II e IV, apenas: a afirmação II está errada, já que na distribuição normal a média, mediana e moda apresentam valores semelhantes.
Ao analisar a normalidade dos dados é possível que você perceba que seus dados apresentem uma distribuição não normal, com curva com características diferentes da curva normal, e que apresentam valores extremos. Nesses casos, qual é a medida de tendência central mais adequada para ser utilizada?
a) Mediana
Quando a distribuição é assimétrica ou não normal, os valores dispostos nas caudas podem distorcer o valor da média. Nestes casos, o mais recomendado é utilizar a mediana para representar os dados da amostra.
b) Média
Média: o valor da média é afetado pelos valores extremos em uma distribuição não normal.
c) Moda
Moda: a moda não é uma medida adequada para representar um valor estatístico de um conjunto de dados.
d) Mediana e Média
Mediana e média: o valor da média é afetado pelos valores extremos em uma distribuição não normal.
e) Nenhuma das alternativas anteriores
Nenhuma das alternativas anteriores: quando a distribuição é assimétrica ou não normal, os valores dispostos nas caudas podem distorcer o valor da média. Nestes casos, o mais recomendado é utilizar a mediana para representar os dados da amostra.
Nesta aula vimos um dos principais pressupostos antes de se iniciar a estatística inferencial, que é a análise da distribuição dos dados. Esta análise é realizada por meio da curva normal, que também é conhecida como curva de Gauss ou distribuição Gausssiana. A análise da normalidade se refere ao grau com que os valores de um conjunto de dados se dispersam ao longo da curva. Dados com distribuição normal apresentam diversas características, como: distribuição simétrica dos dados em torno da média, curva em forma de sino e média, mediana e moda com valores semelhantes. As principais formas de analisar a normalidade envolvem o histograma, análise de assimetria e curtose e os testes de normalidade nos softwares estatísticos. A análise da normalidade irá determinar se o caminho a ser percorrido será o da estatística paramétrica ou não-paramétrica.
Nesta aula, você teve a oportunidade de:
Para complementar o aprendizado e aprofundar os conhecimentos em relação aos assuntos estudados na Unidade I, você pode ler os capítulos 1 a 6 do livro Análise de Dados em Saúde, que consta na referência ao final da unidade. Durante a leitura, preste atenção nos principais conceitos estatísticos que você aprendeu e em mais exemplos que são apresentados no livro. Além disso, se atente ao processo de organização de dados e às formas de representação e descrição de dados, com destaque para a distribuição de frequência, as medidas de tendência central e dispersão e a representação gráfica. Por último e não menos importante, preste muita atenção às explicações relacionadas às características da distribuição normal dos dados. Após a leitura, tente responder as questões a seguir:
1 - Qual a diferença entre as variáveis quantitativas e qualitativas? Cite exemplos de cada uma delas.
2 - Descreva a diferença entre a média, a mediana e a moda.
3 - Qual o papel das medidas de dispersão? Quais as principais medidas de dispersão?
4 - Quais os principais tipos de gráficos e quando devemos utilizar cada um deles?
5 - Qual a importância da análise da distribuição normal?
Você sabia que o estresse no casamento afeta mais a saúde física e mental da mulher? “Um estudo desenvolvido nos Estados Unidos demonstrou que mulheres em casamentos problemáticos têm mais chances de sofrer problemas de saúde como obesidade, hipertensão e colesterol alto - sintomas de uma "síndrome do metabolismo" que pode levar a doenças cardíacas, diabetes e derrame. A pesquisa da Universidade de Utah mostra ainda que os homens são menos afetados por estes sintomas, mas têm os mesmos riscos que as mulheres de sofrer de estresse e depressão. Os pesquisadores entrevistaram 276 casais, com idades entre 40 e 70 anos, e que estavam casados há uma média de 20 anos. Eles avaliaram os aspectos positivos e negativos de cada casamento, além de monitorar a saúde dos voluntários” (BBC Brasil, 2009).
Esta situação mostra claramente o papel da estatística para as descobertas e avanços na área da saúde. Para se chegar a esta conclusão, foi necessário selecionar uma amostra a partir de uma população, coletar e organizar os dados, e analisar de forma descritiva e inferencial os dados obtidos.
Sabe-se que a taxa de suicídios tem aumentado substancialmente nos últimos anos em todo o mundo. Para traçar estratégias para reduzir a taxa de suicídios, um grupo de pesquisadores procurou compreender as razões das pessoas decidirem acabar com suas vidas. Especificamente, tiveram como meta fazer um levantamento do sexo da pessoa que comete o suicídio e o método escolhido para fazê-lo. Para se chegar a uma conclusão e ter informações para tomada de decisões em relação às estratégias para reduzir as taxas de suicídio, a condução de uma pesquisa utilizando a ferramenta estatística é fundamental.
O pesquisador tem um problema a ser estudado (suicídio) e precisa selecionar instrumentos para obter os dados, como, por exemplo, a elaboração de um questionário ou esquema de uma entrevista, ou até mesmo obtenção de dados de prontuários de pessoas que cometeram suicídio. Em seguida, os dados precisam ser coletados para, assim, se realizar a análise dos dados e chegar às conclusões para as tomadas de decisões.
Aula Concluída!
Avançar