A média não é uma medida confiável para realizar comparações

Os estudos estatísticos estão relacionados às situações que envolvem estratégias e planejamentos, coleta e organização de dados, análise e interpretação clara e objetiva dos dados observados. Para comparação de dois ou mais conjuntos de dados, a estatística utiliza o desvio padrão, desde que esses dados estejam na mesma unidade de medida. Caso os conjuntos de dados sejam medidos em grandezas diferentes (unidades de medida diferentes), a comparação será feita utilizando o coeficiente de variação. O coeficiente de variação é usado para analisar a dispersão em termos relativos a seu valor médio quando duas ou mais séries de valores apresentam unidades de medida diferentes. Dessa forma, podemos dizer que o coeficiente de variação é uma forma de expressar a variabilidade dos dados excluindo a influência da ordem de grandeza da variável.

O cálculo do coeficiente de variação é feito através da fórmula:

Onde,  s → é o desvio padrão X ? → é a média dos dados CV → é o coeficiente de variação Como o coeficiente de variação analisa a dispersão em termos relativos, ele será dado em %. Quanto menor for o valor do coeficiente de variação, mais homogêneos serão os dados, ou seja, menor será a dispersão em torno da média. De uma forma geral, se o CV: For menor ou igual a 15% → baixa dispersão: dados homogêneos For entre 15 e 30% → média dispersão For maior que 30% → alta dispersão: dados heterogêneos Vejamos um exemplo. Exemplo: Em um grupo de moradores de determinada região foram analisadas a idade (em anos) e a altura (em metros) das pessoas. Deseja-se comparar a dispersão em termos relativos em torno da média dos dois conjuntos de dados, a fim de verificar qual deles é mais homogêneo. Na coleta dos dados verificou-se que: Idade das pessoas: X ?=41,6 e s = 0,82 Altura das pessoas: X ?=1,67 e s = 0,2 Qual conjunto de dados apresenta menor dispersão relativa em torno da média?

Solução: O primeiro fato a se observar é que os dados analisados possuem unidades de medida diferentes. Dessa forma, somente o desvio padrão não é suficiente para comparar os dois conjuntos. Nesse caso, é preciso calcular o coeficiente de variação para fazer a comparação da variação em torno da média dos dados.

Assim, teremos:

Cálculo do CV da idade.

Cálculo do CV da altura.

Interpretação dos dados: como o coeficiente de variação da idade foi menor que o coeficiente de variação da altura, pode-se afirmar que os dados relativos à idade são mais homogêneos que os dados da altura.

Por Marcelo Rigonatto
Especialista em Estatística e Modelagem Matemática

Às vezes é difícil decidir qual agregador é melhor usar, especialmente quando se trata de Média e Mediana. Claro, sempre se pode usar os dois -- uma métrica para calcular a média, e outra para a mediana. Isso permitirá ver qual medida será mais útil nesse caso específico. No entanto, a compreensão desses termos estatísticos ajudará você a fazer a escolha certa muito mais rapidamente.

Média e mediana desempenham papel semelhante para compreender a tendência central de um conjunto de números. A média tem sido tradicionalmente uma medida popular de um ponto médio em um conjunto, mas tem a desvantagem de ser influenciada por valores individuais que são muito maiores ou menores do que o resto. É por isso que a mediana é uma medida melhor de ponto médio para casos em que um pequeno número de valores discrepantes poderiam distorcer a média drasticamente.

Média Mediana

Definição

A média é a média aritmética de um conjunto de números.

A mediana é um valor numérico que separa a metade superior de um conjunto da metade inferior.

Quando ela é aplicável?

A média é usada para distribuições numéricas normais, que têm uma baixa quantidade de valores discrepantes.

A mediana é geralmente utilizada para retornar a tendência central para distribuições numéricas distorcidas.

Como calcular?

A média é calculada somando-se todos os valores e dividindo a soma pelo número total de valores.

A mediana pode ser calculada listando-se todos os números em ordem crescente para localizar todos os números em ordem crescente e depois localizá-lo centro dessa distribuição.

Exemplo: Distribuição normal

2, 3, 3, 5, 8, 10, 11

(2+3+3+5+8+10+11)/7= 6

AVG = 6

2, 3, 3, 5, 8, 10, 11

MED = 5

Exemplo: Distribuição distorcida

2, 2, 3, 3, 5, 7, 8, 130

(2+2+3+3+5+7+8+130)/8= 20

AVG = 20

2, 2, 3, 3, 5, 7, 8, 130

(3 +5)/2 = 4

MED = 4

Conclusão

Se os dados que você estiver comparando são geralmente uniformes, você pode usar o agregador Média (M) com segurança. No entanto, se o seu conjunto numérico tiver alguns valores discrepantes, considere usar Mediana (MED) ou filtre os valores que estão distorcendo os resultados.

Exemplos

Alguns exemplos práticos:

  • Para reportar sobre o Tempo Total de Resolução, vou usar a métrica-padrão Tempo Total de Resolução (hrs) [MED]. Vou escolher usar o operador mediana porque sei que temos uma série de tickets que estão sob investigação há algum tempo, e não quero esses tickets distorcendo o meu relatório.
  • Se eu quiser verificar a quantidade média de Respostas publicadas pelos agentes, vou usar a métrica # Replies [MED], porque sei que o número de respostas é mais ou menos constante.
  • Se eu precisar descobrir a velocidade com que a equipe de suporte responde às novas solicitações, posso usar a métrica-padrão Primeiro Tempo de Resposta (hrs) [Mdn]. Contudo, como sei que o primeiro tempo de resposta é normalmente constante, vou optar por criar uma métrica que contará a média do primeiro tempo de resposta. Além disso, vou filtrar do relatório tickets proativos, criados por agentes, pois a maioria deles tem tempo de primeira resposta alto, de maneira irregular.

Eis uma demonstração de como transformar uma métrica de mediana em média no Insights:

Para transformar uma métrica de mediana em média

  1. Acesse um relatório existente ou crie um novo.

  2. Encontre uma métrica média na seção O Quê do Gooddata.

  3. Com a métrica selecionada, clique em View Detail.

  4. Clique em Duplicate na janela aberta, para manter a métrica original inalterada.

  5. Renomeie a nova métrica para algo apropriado, como trocar [MDN] para [AVG].

  6. Clique em Edit, o que o levará ao editor de métrica.

  7. Destaque MEDIAN e digite AVG.

  8. Clique em Save.

  9. Use a nova métrica no seu relatório.

A estatística é o campo da matemática que relaciona fatos e números em que há um conjunto de métodos que nos possibilita coletar dados e analisá-los, assim sendo possível realizar alguma interpretação deles. A estatística é dividida em duas partes: descritiva e inferencial. A estatística descritiva é caracterizada pela organização, análise e apresentação dos dados, enquanto a estatística inferencial tem como característica o estudo de uma amostra de determinada população e, com base nela, a realização de análises e a apresentação de dados.

Leia também: O que é margem de erro de uma pesquisa?

Princípios da estatística

Veremos, a seguir, os principais conceitos e princípios da estatística. Com base neles, será possível definir conceitos mais sofisticados.

A população ou universo estatístico é o conjunto formado por todos elementos que participam de um determinado tema pesquisado.

Exemplos de universo estatístico

a) Em uma cidade, todos os habitantes pertencem ao universo estatístico.

b) Em um dado de seis faces, a população é dada pelo número de faces.

{1, 2, 3, 4, 5, 6}

O dado estatístico é um elemento que pertence ao conjunto da população, obviamente esse dado deve estar envolvido com o tema da pesquisa.

População

Dado estatístico

Dado de seis faces

4

Campeões Brasileiros de Mountain Bike

Henrique Avancini

Chamamos de amostra o subconjunto formado com base no universo estatístico. Uma amostra é utilizada quando a população é muito grande ou infinita. Em casos em que coletar todas as informações do universo estatístico é inviável por motivos financeiros ou logísticos, também se faz necessário a utilização de amostras.

A escolha de uma amostra é de extrema importância para uma pesquisa, e ela deve representar de maneira fidedigna a população. Um exemplo clássico da utilização das amostras em uma pesquisa é na realização do censo demográfico do nosso país.

Em estatística, a variável é o objeto de estudo, isto é, o tema que a pesquisa pretende estudar. Por exemplo, ao estudar-se as características de uma cidade, o número de habitantes pode ser uma variável, assim como o volume de chuva em determinado período ou até mesmo a quantidade de ônibus para o transporte público. Note que o conceito de variável em estatística é dependente do contexto da pesquisa.

A organização dos dados em estatística dá-se em etapas, como em todo processo de organização. Inicialmente é escolhido o tema a ser pesquisado, em seguida, é pensado o método para a coleta dos dados da pesquisa, e o terceiro passo é a execução da coleta. Após o fim dessa última etapa, faz-se a análise do que foi coletado, e assim, com base na interpretação, busca-se resultados. Veremos, agora, alguns conceitos importantes e necessários para a organização dos dados.

Em casos em que os dados podem ser representados por números, ou seja, quando a variável é quantitativa, utiliza-se o rol para organização desses dados. Um rol pode ser crescente ou decrescente. Caso uma variável não seja quantitativa, ou seja, caso seja qualitativa, não é possível utilizar-se o rol, por exemplo, se os dados são sentimentos sobre determinado produto.

Exemplo

Em uma sala de aula, foram coletadas as alturas dos alunos em metros. São elas: 1,70; 1,60; 1,65; 1,78; 1,71; 1,73; 1,72; 1,64.

Como o rol pode ser organizado de maneira crescente ou decrescente, segue que:

rol: {1,60; 1,64; 1,65; 1,70; 1,71; 1,72; 1,73; 1,78}

Observe que, com o rol já montado, é possível encontrar um dado com mais facilidade.

Em casos nos quais há muitos elementos no rol e muitas repetições de dados, o rol torna-se obsoleto, pois a organização desses dados é inviável. Nesses casos, as tabelas e a distribuição de frequências servem como uma excelente ferramenta de organização.

Na tabela de distribuição de frequência absoluta, devemos colocar a frequência em que cada dado aparece, ou seja, a quantidade de vezes que ele aparece.

Vamos construir a tabela de distribuição de frequência absoluta das idades, em anos, dos alunos de uma determinada classe.

Distribuição de frequências absolutas

Idade

Frequência (F)

8

2

9

12

10

12

11

14

12

1

Total (FT)

41

Da tabela podemos obter as seguintes informações: na classe temos 2 alunos com a idade de 8 anos, 12 alunos com 9 anos, e mais 12 alunos com 10 anos, e assim sucessivamente, alcançando o total de 41 alunos. Na tabela de distribuição de frequências acumuladas, devemos somar a frequência da linha anterior (na tabela de distribuição de frequência absoluta).

Vamos construir a tabela de distribuição de frequência acumulada das idades da mesma classe do exemplo anterior, veja:

Distribuição de frequências acumuladas

Idade

Frequência (F)

8

2

9

14

10

26

11

40

12

41

Total (FT)

41

Na tabela de distribuição de frequências relativas, utiliza-se a porcentagem em que cada dado aparece. Novamente faremos os cálculos baseados na tabela de distribuição de frequência absoluta. Sabemos que 41 corresponde a 100% dos alunos da classe, logo, para determinar a porcentagem de cada idade, basta dividirmos a frequência da idade por 41 e multiplicarmos o resultado por 100, para, assim, escrevermos na forma de porcentagem.

2 : 41 = 0,048 · 100 → 4,8%

12 : 41 = 0,292 · 100 → 29,2%

12 : 41 = 0,292 · 100 → 29,2%

14 : 41 = 0,341 · 100 → 34,1%

1 : 41 = 0,024 · 100 → 2,4%

Distribuição de frequências relativas

Idade

Frequência (F)

8

4,8%

9

29,2%

10

29,2%

11

34,1%

12

2,4%

Total (FT)

100%

Leia também: Aplicação de estatística: frequência absoluta e frequência relativa

Em casos em que a variável é contínua, isto é, quando ela possui diversos valores, é necessário agrupá-los em intervalos reais. Na estatística esses intervalos são chamados de classes.

Para construir a tabela de distribuição de frequências em classes, devemos colocar os intervalos na coluna da esquerda, com seu devido título, e na coluna da direita, devemos colocar a frequência absoluta de cada um dos intervalos, ou seja, quantos elementos pertencem a cada um deles.

Exemplo

Altura dos alunos da classe do 3º ano do Ensino Médio de uma escola.

Distribuição de frequência em classes

Altura (metros)

Frequência absoluta (F)

[1,40; 1,50[

1

[1,50; 1,60[

4

[1,60; 1,70[

8

[1,70; 1,80[

2

[1,80; 1,90[

1

Total (FT)

16

Analisando a tabela de distribuição de frequência em classes, podemos ver que, na turma do terceiro ano, temos 1 estudante que possui altura entre 1,40 m e 1,50 m, assim como temos 4 estudantes com altura entre 1,50 e 1,60 m, e assim sucessivamente. Podemos observar também que os estudantes possuem altura entre 1,40 m e 1,90 m, a diferença entre essas medidas, ou seja, entre a maior altura e a menor altura da amostra, é chamada de amplitude.

A diferença entre o limite superior e o limite inferior de uma classe é chamada de amplitude da classe, assim, a segunda, que possui 4 alunos com alturas entre 1,50 metro (inclusos) e 1,60 metro (não inclusos), possui amplitude de:

1,60 – 1,50

0,10 metro

Veja também: Medidas de dispersão: amplitude e desvio

Medidas de posição

As medidas de posição são utilizadas em casos em que é possível construir-se um rol numérico com os dados ou uma tabela de frequência. Essas medidas indicam a posição dos elementos em relação ao rol. As três principais medidas de posição são:

Considere o rol com os elementos (a1, a2, a3, a4, …, an), a média aritmética desses n elementos é dada por:

Exemplo

Em um grupo de dança, as idades dos integrantes foram coletadas e representadas no rol a seguir:

(18, 20, 20, 21, 21, 21, 22, 22, 25, 30)

Vamos determinar a idade média dos integrantes desse grupo de dança.

De acordo com a fórmula, devemos somar todos os elementos e dividir esse resultado pela quantidade de elementos do rol, assim:

Portanto, a idade média dos integrantes é de 22 anos.

Para saber mais sobre essa medida de posição, leia nosso texto: Média.

A mediana é dada pelo elemento central de um rol que possui uma quantidade ímpar de elementos. Caso o rol possua uma quantidade par de elementos, devemos considerar os dois elementos centrais e calcular a média aritmética entre eles.

Exemplo

Considere o rol a seguir.

(2, 2, 3, 3, 4, 5, 6, 7, 9)

Veja que o elemento 4 divide o rol em duas partes iguais, logo, ele é o elemento central.

Exemplo

Calcule a mediana das idades do grupo de dança.

Lembre-se de que o rol das idades desse grupo de dança é dado por:

(18, 20, 20, 21, 21, 21, 22, 22, 25, 30)

Veja que o número de elementos desse rol é igual a 10, logo, não é possível dividir o rol em duas partes iguais. Assim devemos tomar dois elementos centrais e realizar a média aritmética desses valores.

Veja mais detalhes dessa medida de posição em nosso texto: Mediana.

Chamaremos de moda o elemento do rol que possui maior frequência, ou seja, o elemento que mais aparece nele.

Exemplo

Vamos determinar a moda do rol das idades do grupo de dança.

(18, 20, 20, 21, 21, 21, 22, 22, 25, 30)

O elemento que mais aparece é o 21, portanto, a moda é igual a 21.

Medidas de dispersão

As medidas de dispersão são utilizadas nos casos em que a média já não é suficiente. Por exemplo, imagine que dois carros tenham percorrido uma média de 40.000 quilômetros. Somente com conhecimento sobre média podemos afirmar que os dois carros andaram determináveis quilômetros cada um, certo?

No entanto, imagine que um dos carros tenha percorrido 79.000 quilômetros, e o outro, 1.000 quilômetros, veja que somente com as informações sobre média não é possível realizar afirmações com precisão.

As medidas de dispersão nos indicarão o quanto os elementos de um rol numérico estão afastados da média aritmética. Temos duas importantes medidas de dispersão:

Vamos chamar de variância a média aritmética dos quadrados da diferença entre cada elemento do rol e a média aritmética desse rol. A variância é representada por: σ2.

Considere o rol (x1, x2, x3, …, xn) e que ele possua média aritméticax. A variância é dada por:

O desvio-padrão é dado pela raiz da variância, ele nos indica o quanto um elemento está disperso em relação à média. O desvio padrão é denotado por σ.

Exemplo

Determine o desvio-padrão do conjunto de dados (4, 7, 10). Veja que, para isso, é necessário determinar-se primeiro a variância, e que, para tanto, é necessário antes o cálculo da média desses dados.

Substituindo esses dados na fórmula da variância, temos:

Para determinar o desvio-padrão, devemos extrair a raiz da variância.

Leia mais: Medidas de dispersão: variância e desvio-padrão

Para que serve a estatística?

Vimos que a estatística está relacionada a problemas de contagem ou organização de dados. Além disso, ela tem um importante papel no desenvolvimento de ferramentas que possibilitam o processo de organização de dados, com em tabelas. A estatística está presente também em diversos campos da ciência, com base na coleta de dados e em seu tratamento, é possível trabalhar modelos matemáticos que permitem maior desenvolvimento na área estudada. Alguns campos em que a estatística é fundamental: economia, meteorologia, marketing, esportes, sociologia e geociências.

Na meteorologia, por exemplo, os dados são coletados em determinado período, depois de organizados, eles são tratados, e assim, com base neles, constrói-se um modelo matemático que nos permite afirmar sobre o clima de dias anteriores com maior grau de confiabilidade. A estatística é um ramo da ciência que nos permite fazer afirmações com certo grau de confiabilidade, mas nunca com 100% de certeza.

Divisões da estatística

A estatística é dividida em duas partes, descritiva e inferencial. A primeira está relacionada à contagem dos elementos envolvidos na pesquisa, esses elementos são contados um a um. Na estatística descritiva, temos como principais ferramentas as medidas de posição, como média, mediana e moda, assim como as medidas de dispersão, como variância e desvio-padrão, temos também tabelas de frequências e gráficos.

Ainda na estatística descritiva, temos uma metodologia muito bem definida para uma apresentação de dados com grau considerável de confiabilidade que passa por organização e coleta, resumo, interpretação e representação e, por fim, análise de dados. Um exemplo clássico da utilização da estatística descritiva ocorre na realização do censo populacional (de 10 em 10 anos) pelo Instituto Brasileiro de Geografia e Estatística (IBGE).

A estatística inferencial, por sua vez, é caracterizada não por coletar dados dos elementos de uma população um a um, e sim por realizar a análise de uma amostra dessa população, tirando conclusões sobre ela. Na estatística inferencial, deve-se tomar cuidado na escolha da amostra, pois ela deve representar muito bem a população. Alguns resultados iniciais, como calculo de média, na estatística inferencial chamado de esperança, são deduzidos com base nos conhecimentos da estatística descritiva.

A estatística inferencial é utilizada, por exemplo, nas pesquisas eleitorais. Escolhe-se uma amostra da população, de forma que a represente, e assim é realizada a pesquisa. Na escolha de uma amostra que não represente muito bem essa população, dizemos que a pesquisa é tendenciosa e, por consequência, não confiável.

Área da matemática responsável pela contagem e pela organização de dados.

Exercícios resolvidos

Questão 1 – (U. F. Juiz de Fora – MG) Um professor de física aplicou uma prova, valendo 100 pontos, em seus 22 alunos e obteve, como resultado, a distribuição das notas, vista no quadro seguinte:

40

20

10

20

70

60

90

80

30

50

50

70

50

20

50

50

10

40

30

20

60

60

Faça os seguintes tratamentos de dados:

a) Escreva o rol dessas notas.

b) Determine a frequência relativa da maior nota.

Resolução

a) Para fazer o rol dessas notas, devemos escrevê-las de maneira crescente ou decrescente. Assim temos que:

10, 10, 20, 20, 20, 20, 30, 30, 40, 40, 50, 50, 50, 50, 50, 60, 60, 60, 80, 90

b) Observando o rol, podemos ver que a maior nota foi igual a 90 e que sua frequência absoluta é igual a 1, pois ela aparece apenas uma vez. Para determinar a frequência relativa, devemos dividir a frequência absoluta dessa nota pela frequência total, nesse caso, igual a 22. Assim:

Frequência relativa

Para passar esse número para porcentagem, devemos multiplicá-lo por 100.

0,045 · 100

4,5%

Questão 2 – (Enem) Depois de jogar um dado em forma de cubo e de faces numeradas de 1 a 6, por 10 vezes consecutivas, e anotar o número obtido em cada jogada, constituiu-se a seguinte tabela de distribuição de frequências.

Número obtido

Frequência

1

4

2

1

4

2

5

2

6

1

A média, a mediana e a moda dessa distribuição de frequências são, respectivamente:

a) 3, 2 e 1

b) 3, 3 e 1

c) 3, 4 e 2

d) 5, 4 e 2

e) 6, 2 e 4

Resolução

Alternativa B.

Para determinarmos a média, observe que existe repetição dos números obtidos, assim, utilizaremos a média aritmética ponderada.

Para determinar a mediana, devemos organizar o rol de maneira crescente ou decrescente. Lembre-se de que a frequência é a quantidade de vezes que a face aparece.

1, 1, 1, 1, 2, 4, 4, 5, 5, 6

Como o número de elementos do rol é par, devemos calcular a média aritmética dos elementos centrais que dividem o rol ao meio para determinar a mediana, assim:

A moda é dada pelo elemento que mais aparece, ou seja, que possui maior frequência, portanto, temos que a moda é igual 1.

Assim a média, a mediana e a moda são, respectivamente, iguais a:

3, 3 e 1

Por Robson Luiz
Professor de Matemática

Última postagem

Tag