Calculo da amostra como a raiz quadrada da população

Proceda a retirada de 200 amostras aleatórias da variável Renda (primeiramente excluam as linhas com dados perdidos), com os seguintes tamanhos: 4, 8, 16, 30 e 100 elementos. Com base nos resultados encontrados responda os itens a seguir:

media_amostral <- function(populacao, tamanho_amostra) { medias <- c() for(i in 1:200) { medias <- c(mean(sample(populacao, tamanho_amostra)), medias) } medias } populacao <- dados$Renda

a) Pelo teorema central do limite admite-se que o valor esperado da média amostral seja a média populacional que se pretende estimar, e eles serão tão mais próximos à medida que aumenta o tamanho da amostra. Isso é confirmado pelos resultados obtidos nas amostras? JUSTIFIQUE.

Isso é confirmado e pode ser visto claramente na seguinte tabela, que mostra as médias amostrais para cada tamanho de amostra e a média da população:

comp <- matrix(c( 4, mean(media_amostral(populacao, 4)), mean(populacao), 8, mean(media_amostral(populacao, 8)), mean(populacao), 16, mean(media_amostral(populacao, 16)), mean(populacao), 30, mean(media_amostral(populacao, 30)), mean(populacao), 100, mean(media_amostral(populacao, 100)), mean(populacao) ), ncol=3, byrow=TRUE) colnames(comp) <- c("Tamanho", "Média Amostral", "Média populacional") print( xtable(comp), type="html", include.rownames=FALSE, html.table.attributes = "width='100%' style= 'text-align:right !important; margin-top:30px; margin-bottom:30px;' cellpadding=1 cellspacing=1" )
Tamanho Média Amostral Média populacional
4.00 3.86 3.72
8.00 3.71 3.72
16.00 3.73 3.72
30.00 3.77 3.72
100.00 3.72 3.72

b) Além do que foi dito acima, admite-se que o desvio padrão das médias amostrais será igual ao desvio padrão populacional dividido pela raiz quadrada do tamanho da amostra, e eles serão tão mais próximos à medida que aumenta o tamanho da amostra. As amostras retiradas confirmam essa afirmação? JUSTIFIQUE.

comp <- matrix(c( 4, sd(media_amostral(populacao, 4)), sd(populacao) / sqrt(4), 8, sd(media_amostral(populacao, 8)), sd(populacao) / sqrt(8), 16, sd(media_amostral(populacao, 16)), sd(populacao) / sqrt(16), 30, sd(media_amostral(populacao, 30)), sd(populacao) / sqrt(30), 100, sd(media_amostral(populacao, 100)), sd(populacao) / sqrt(100) ), ncol=3, byrow=TRUE) colnames(comp) <- c("Tamanho", "DP das médias amostrais", "DP populacional de Renda/RAIZ(n)") print( xtable(comp), type="html", include.rownames=FALSE, html.table.attributes = "width='100%' style= 'text-align:right !important; margin-top:30px; margin-bottom:30px;' cellpadding=1 cellspacing=1" )
Tamanho DP das médias amostrais DP populacional de Renda/RAIZ(n)
4.00 1.70 1.51
8.00 1.16 1.07
16.00 0.84 0.75
30.00 0.60 0.55
100.00 0.31 0.30

Conforme pudemos observar acima, as amostras confirmam essa afirmação: quanto maior a amostra, a tendência é ficar mais próxima do valor da população.

c) Outra característica muito importante do teorema central do limite é que a distribuição amostral da média será cada vez mais próxima de uma distribuição normal, à medida que o tamanho da amostra aumenta, independentemente da forma da distribuição da variável na população. Sabe-se que a variável Renda não tem distribuição normal na população. Os resultados das amostras corroboram esta afirmação (usem os gráficos apropriados). JUSTIFIQUE.

Sim, os resultados levam a crer que a medida que o tamanho da amostra aumenta, a distribuição amostral da média fica cada vez mais próxima de uma normal.

grafico_medias <- function(populacao, tamanho_amostra) { medias <- media_amostral(populacao, tamanho_amostra) qqnorm(medias, main = paste("Distribuição das Médias (amostras com", tamanho_amostra, "observações)"), xlab = "Quartis Teóricos", ylab = "Quartis Amostrais") qqline(medias) } grafico_medias(populacao, 4)

Calculo da amostra como a raiz quadrada da população

grafico_medias(populacao, 8)

Calculo da amostra como a raiz quadrada da população

grafico_medias(populacao, 16)

Calculo da amostra como a raiz quadrada da população

grafico_medias(populacao, 30)

Calculo da amostra como a raiz quadrada da população

grafico_medias(populacao, 100)

Calculo da amostra como a raiz quadrada da população

2) Há uma grande preocupação em estimar o comportamento da variável Idade dos passageiros, de maneira a caracterizar melhor seu o perfil. Alguém da empresa sugeriu que vocês retirassem uma amostra de 20 clientes e registrassem os valores de Idade. Com base nos resultados encontrados respondam os itens a seguir (lembre-se de excluir inicialmente as linhas com dados perdidos e de que o tamanho da população é conhecido).

intervalo_confianca <- function(amostra, precisao) { media <- mean(amostra) desvio_padrao <- sd(amostra) tamanho <- length(amostra) erro <- qt(precisao, df=tamanho-1) * desvio_padrao/sqrt(tamanho) c(round(media-erro, 2), round(media+erro, 2)) } amostra <- sample(dados$Idade, 20) amostra ## [1] 24 27 36 27 23 31 28 51 24 32 31 41 41 40 45 42 35 18 32 37

a) Encontrem o intervalo de 95% de confiança para a média populacional da Idade dos passageiros. Interpretem o resultado.

intervalo <- intervalo_confianca(amostra, 0.975) intervalo ## [1] 29.31 37.19

O resultado acima indica que a média tem 95% de chance de estar entre 29.31 e 37.19 (um intervalo de 7.88 anos), e 5% de chance de estar acima ou abaixo disso.

b) Se quiséssemos encontrar um intervalo de 99% de confiança para a média populacional da Idade dos passageiros, com uma precisão de 2 anos, a amostra coletada seria suficiente? JUSTIFIQUE.

intervalo <- intervalo_confianca(amostra, 0.99) intervalo ## [1] 28.47 38.03

A amostra coletada sem dúvida não é suficiente: obtivemos um intervalo entre de 9.56 anos. Precisamos de uma amostra maior para obter uma precisão de 2 anos com esse nível de confiança:

estima_tamanho_amostral <- function(amostra, precisao, diferenca) { media <- mean(amostra) desvio_padrao <- sd(amostra) resultado <- 0 for(tamanho in 2:length(amostra)) { erro <- qt(precisao, df=tamanho-1) * desvio_padrao/sqrt(tamanho) intervalo <- round(media+erro, 2) - round(media-erro, 2) if(intervalo <= diferenca) { resultado <- tamanho break } } resultado } tamanho_minimo = estima_tamanho_amostral(dados$Idade, 0.99, 2.00) tamanho_minimo ## [1] 508

c) Você concorda com o plano de amostragem usado (que considerou a população homogênea)? JUSTIFIQUE.

Não, amostrar apenas por idade é super-simplificar a população. Outros fatores sócio-econômicos (como renda e escolaridade) podem ser analisados em conjunto para uma compreensão melhor dos dados.

3) A estimação da média populacional da variável Renda também é muito importante. Retirem uma amostra de 20 clientes e registrem seus valores. Com base nos resultados encontrados respondam os itens a seguir (lembre-se de excluir inicialmente as linhas com dados perdidos e de que o tamanho da população é conhecido).

amostra <- sample(dados$Renda, 20) amostra ## [1] 14.24 5.18 3.14 1.63 4.72 2.39 3.81 1.71 4.88 3.11 5.47 ## [12] 6.19 3.96 4.69 4.01 2.07 1.77 1.15 4.36 1.71

a) Encontre o intervalo de 95% de confiança para a média populacional de Renda. Interpretem o resultado.

intervalo <- intervalo_confianca(amostra, 0.975) intervalo ## [1] 2.68 5.33

O resultado acima indica que a média tem 95% de chance de estar entre 2.68 e 5.33 (um intervalo de 2.65 salários mínimos), e apenas 5% de chance de estar acima ou abaixo disso. Esse intervalo, contudo, é muito largo: preciaríamos de uma amostra maior ou mais bem selecionada (utilizando outros fatores além de Renda).

b) Repitam o item a para 99% de confiança. O intervalo ficou muito “largo”? O que poderia ser feito para torná-lo mais preciso? JUSTIFIQUEM.

intervalo <- intervalo_confianca(amostra, 0.99) intervalo ## [1] 2.40 5.62

Dessa vez o intervalo ficou entre 2.4 e 5.62 (3.22 salários mínimos); para tornar o intervalo menor (deixando o resultado mais preciso), poderíamos (por exemplo) aumentar consideravelmente o tamanho da amostra ou usar mais fatores além de Renda (como Escolaridade).

c) Qual deveria ser o tamanho mínimo de amostra para determinar um intervalo de 99% de confiança e precisão de 1,5 salários mínimos para a Renda mensal dos passageiros?

O tamanho mínimo da amostra para um intervalo com 1,5 salários mínimos de precisão com 99% de confiança seria:

tamanho_minimo = estima_tamanho_amostral(dados$Renda, 0.99, 1.5) tamanho_minimo ## [1] 90

4) Vamos avaliar a Uso principal do smartphone. Retirem uma amostra aleatória de 200 elementos (novamente, primeiramente excluam as linhas com dados perdidos). Registrem a proporção amostral de clientes que usam o smartphone predominantemente para acessar redes sociais e respondam os itens a seguir (lembre-se de que o tamanho da população é conhecido):

amostra <- sample(dados$Uso, 200) proporcao_redes_sociais <- sum(amostra == "Redes sociais") / length(amostra) cat(proporcao_redes_sociais * 100, "%", sep = "") ## 33.5%

a) Encontrem o intervalo de 95% de confiança para a proporção populacional de clientes que usam o smartphone para acessar redes sociais. Interpretem o resultado.

b) Suponha que haja interesse em obter um intervalo de 95% para a proporção populacional de clientes que usam o smartphone para acessar redes sociais, com uma precisão de 2%. A amostra coletada é suficiente? JUSTIFIQUE.

c) Qual deveria ser o tamanho mínimo de amostra para estimar com 95% de confiança e precisão de 2% a proporção populacional de clientes que usam o smartphone para acessar redes sociais, se vocês não pudessem ter tirado a amostra piloto?

5) Outra grande preocupação da ATCHIM é com a Satisfação dos clientes sobre os modelos oferecidos de smartphone. Retirem uma amostra aleatória de 200 elementos (novamente, primeiramente excluam as linhas com dados perdidos). Registrem a proporção amostral de clientes insatisfeitos ou muito insatisfeitos e respondam os itens a seguir (lembre-se de que o tamanho da população é conhecido):

amostra <- sample(dados$Satisfacao, 200) proporcao_ruim <- (sum(amostra == "Insatisfeito") + sum(amostra == "Muito insatisfeito")) / length(amostra) cat(proporcao_ruim * 100, "%", sep = "") ## 28%

a) Encontrem o intervalo de 95% de confiança para a proporção populacional de clientes insatisfeitos ou muito insatisfeitos. Interpretem o resultado.

b) Suponha que haja interesse em obter um intervalo de 95% para a proporção populacional de clientes insatisfeitos ou muito insatisfeitos com uma precisão de 2%. A amostra coletada é suficiente? JUSTIFIQUE.

c) Qual deveria ser o tamanho mínimo de amostra para estimar com 95% de confiança e precisão de 2% a proporção populacional de clientes insatisfeitos ou muito insatisfeitos, se vocês não pudessem ter tirado a amostra piloto?

6) Imaginem que a ATCHIM considera clientes “alvo” aqueles clientes que tem Renda familiar mensal de mais de 4 salários mínimos. Recodifiquem a variável Renda em uma variável qualitativa com dois valores (primeiramente retirem as linhas com dados perdidos): clientes-não alvo e clientes-alvo. Retirem uma amostra aleatória de 250 elementos (posicione a primeira célula do intervalo de população na coluna onde está a variável recodificada). Registrem a proporção amostral de clientes-alvo e respondam os itens a seguir (lembre-se de que o tamanho da população é conhecido):

dados$RendaF <- ifelse(dados$Renda <= 4, "cliente não-alvo", "cliente-alvo") amostra <- sample(dados$RendaF, 250) proporcao_clientes_alvo <- sum(amostra == "cliente-alvo") / length(amostra) cat(proporcao_clientes_alvo * 100, "%", sep = "") ## 29.2%

a) Encontrem o intervalo de 95% de confiança para a proporção populacional de clientes-alvo na variável Renda recodificada. Interpretem o resultado.

b) Suponha que haja interesse em obter um intervalo de 95% para a proporção populacional de Clientes-alvo, com uma precisão de 2%. A amostra coletada é suficiente?

c) Qual deveria ser o tamanho mínimo de amostra para estimar com 95% de confiança e precisão de 2% a proporção populacional de Clientes-alvo, se vocês não pudessem ter tirado a amostra piloto?

d) Se vocês pudessem escolher, o que iriam preferir: estimar o intervalo de confiança da variável Renda diretamente ou após a recodificação em variável qualitativa? JUSTIFIQUEM.

Portanto, peço que considerem a variância (e média) populacional das variáveis quantitativas como DESCONHECIDAS, bem como as proporções populacionais dos atributos de interesse das variáveis qualitativas. Sendo assim, nos casos de média vocês devem usar a variável t de Student.