O que sao modelos aninhados comparação r quadrado

Os modelos lineares podem ser analisados através do método de partição de variância que aprendemos no roteiro de Princípios da Estatística Frequentista. Caso não tenha sedimentado bem o conceito, retorne ao roteiro e reveja a videaula, isso será importante para acompanhar o restante deste roteiro. Assim como na análise de variância clássica, podemos particionar a variação total existente nos dados de uma variável preditora contínua nas porções explicadas e não explicadas pelo modelo linear. Assista ao vídeo abaixo para entender como se dá o particionamento da variação no caso de um modelo linear simples e como essa partição é análoga ao que acontece em uma análise de variância.

Link do vídeo no canal do youtube

O que sao modelos aninhados comparação r quadrado
A nossa próxima atividade usa os dados de crescimento de lagartas submetidas a dietas de folhas com diferentes concentrações de taninos presente no livro The R Book (Crawley, 2012). São apenas duas variáveis, growth, o crescimento da lagarta, e tannins, a concentração de taninos. O objetivo é verificar se há relação entre o crescimento da lagarta e a concentração de taninos da dieta.

  • baixe o arquivo regression.txt;

  • abra o arquivo no Excel, selecionando a separação de campo como tabulação;

  • calcule a média de crescimento das lagartas;

  • calcule o intercepto e a inclinação do modelo linear no próprio excel, usando as funções descritas no quadro abaixo;

Para o cálculo dos parâmetros da reta use as funções do Excel:

  • INCLINAÇÃO 1): veja documentação da função aqui.

  • INTERCEPÇÃO 2): Veja a documetação da função aqui

O que sao modelos aninhados comparação r quadrado

  • calcule o valor de desvio total para cada observação (o crescimento observado menos a média do crescimento ) e eleve ao quadrado para obter os desvios quadráticos;

  • some esses valores para obter os desvios quadráticos total;

  • a partir da inclinação e do intercepto estimado, calcule o valor predito pelo modelo em uma coluna chamada predito

Predito pelo modelo

A predição do modelo é calculada pela equação da reta:

$$ \hat{y_i} = a + b * x_i $$

a = intercepto

b = inclinação

$x_i$ = valor de x da observação i

$\hat{y_i}$ = valor predito para a observação i

  • crie uma outra coluna (residuo^2) com os valores de resíduos quadratico do modelo para cada observação (observado menos o predito pelo modelo ao quadrado);

  • some os desvios quadráticos dos resíduos para calcular a soma dos desvios quadráticos dos resíduos;

  • faça a diferença entre a soma dos desvios quadráticos total pela soma dos desvios quadráticos dos resíduos para calcular a soma dos desvios quadráticos explicada pelo modelo

A partir da partição da variação dos desvios quadráticos explicado pela preditora (tannin) e não explicado (residuos) podemos montar uma tabela de anova da mesma forma que fizemos no tutorial Testes Clássicos: ANOVA

  • construa uma tabela de anova na mesma planiha, contendo:

    • colunas: soma quadrática, graus de liberdade, média quadrática, F e p-valor

    • linhas: Modelo, Resíduo, Total

  • Complete a tabela

$$SS_{TOTAL} = \sum_{i=1}^n (y_{i} - \bar{y})^2$$

$$SS_{res} = \sum_{i=1}^n (y_{i} - \hat{y_i})^2$$

$$SS_{TOTAL} = SS_{regr} + SS_{res} $$

$\bar{y}$ = média da variável resposta

$\hat{y_i}$ = valor estimado pelo modelo para $x_i$

  • Calcule o p-valor associado à estatística F do modelo

Utilize no excel o valor 1- DIST.F(F, df1, df2, VERDADEIRO)3) para o calculo do p-valor sendo F o valor da estatística F calculada, df1 o grau de liberdade da regressão (normalmente 1) e df2 o valor de graus de liberdade do cálculo dos desvios quadráticos médios dos resíduos (n - 2).

  • calcule o $r2$ (coeficiente de determinação) da regressão 4);

  • salve a planilha completa para envio no formulário.

$$ R^2 = \frac{SS_{regr}}{SS_{TOTAL}} $$

Vamos agora fazer a tabela de Anova no R

  • leia os dados lagarta.txt no Rcommander, não esqueça de selecionar Tabs como separador de campo5);

O que sao modelos aninhados comparação r quadrado

  • monte um novo modelo linear, chamado lmLag01, pelo menu ( Statistics > Fit Models > Linear Models), selecione:

    • growth como variável resposta;

    • tannin como variável preditora;

O que sao modelos aninhados comparação r quadrado

  • interprete o resultado desse modelo

  • faça a tabela de ANOVA do modelo gerado (Models > Hipothesis test > Anova table);

  • durante o curso iremos usar a tabela de ANOVA tipo I onde a partição de variância é sequencial na ordem que os fatores são incluídos no modelo6);

  • marque a opção: Sequential (“Type I”);

O que sao modelos aninhados comparação r quadrado

  • compare o resultado obtido na planilha eletrônica com a tabela de ANOVA do modelo linear do Rcmdr, reconheça a partição da variação em ambos.

Com esses mesmos dados podemos construir o modelo denominado mínimo ou nulo. No experimento de crescimento da lagarta, a hipótese nula é que tannin não tem efeito em growth. Podemos construir o modelo que representa esse cenário, criando o modelo em que growth não tem preditoras.

  • garanta que o os dados lagarta estão ativos no Rcmdr;

  • monte um novo modelo linear, chamado lmLag00, pelo menu ( Statistics > Fit Models > Linear Models), selecione:

    • growth como variável resposta;

    • inclua 1,numeral um, como variável preditora7);

O que sao modelos aninhados comparação r quadrado

  • monte a tabela de anova do modelo lmLag00 no menu: Models > Hipothesis tests > ANOVA table

Não há muito a ser interpretado nos resultados do modelo mínimo, mas reconheça os valores que são estimados no resultado do modelo em Coefficients Estimate. Note que neste modelo não há inclinação, pois não existe preditora. Na tabela de ANOVA verifique o valor do Sum Sq Residuals e reconheça onde ele se encontra na tabela de ANOVA montada no planilha eletrônica anteriormente.

O procedimento de partição da variação e razão entre variâncias pode ser utilizada como critério para comparação de modelos aninhados. O modelo é considerado aninhado quando o mais complexo engloba todos as variáveis do mais simples, e por consequência o modelo mais simples não pode explicar mais variação do que o mais complexo. Os nossos modelos lmLag00 é aninhado ao modelo lmLag01 e por isso podemos fazer a comparação entre eles pelo critério de partição da variação como segue.

Comparando modelo com o mínimo (nulo) no Rcmdr

  • confira se na caixa Model: existem os modelos lmLag00 e lmLag01;

  • utilize o menu Models > Hypothesis Test > Compare two models;

  • na caixa que se abre selecione lmLag00 e lmLag01 para comparação;

O que sao modelos aninhados comparação r quadrado

  • compare os valores dessa tabela de comparação entre modelos com a tabela de ANOVA do modelo lmLag01;

  • reconheça os valores das partições de variação em ambos os casos.

Na comparação de modelos a razão de variância é relacionada ao quanto o modelo mais complexo explicou a mais em relação ao modelo mais simples em razão do quanto não foi explicado. Quando fazemos a tabela de ANOVA de um modelo como o lmLag01, a partição é exatamente a mesma do que a tabela de ANOVA de comparação com o modelo nulo ou mínimo8). A tabela de Anova de um modelo isolado é equivalente a comparar o modelo em questão com o modelo nulo correspondente. O entendimento desses conceitos é fundamental para utilizarmos a partição de variação como crítério para a tomada de decisão sobre qual o modelo que melhor explica nossos dados.

Link do vídeo no canal do youtube

Nesse ponto, é desejável que tenha entendido que a partição da variância de um modelo é correspondente a compará-lo com o modelo nulo, ou seja, quanta variância o modelo é capaz de explicar em relação ao modelo nulo. Esse modelo nulo, representa o modelo mais simples com a variação total dos dados e é representado por apenas um parâmetro, a média da variável resposta.

Diagnóstico do Modelo Linear

O diagnóstico do modelo linear é feito baseado nas premissas associadas ao modelo e para verificar a influência de cada observação na estimativa dos parâmetros do modelo. Os nossos dados precisam estar acoplados às premissas do modelo linear e não é desejável que o modelo seja definido apenas por uma ou por poucas observações influentes. As principais premissas dos modelos lineares são:

  • a relação entre a variável preditora e a resposta é linear;

  • a variabilidade tem estrutura de uma variável aleatória normal;

  • a variabilidade na resposta é constante ao longo de toda a amplitude da preditora;

Além disso, avaliamos, para cada observação, sua alavancagem (leverage), definida pelo quanto a observação se afasta da média dos dados, e a sua influência (distância de Cook), definida como o quanto os parâmetros estimados são alterados ao se retirar esta observação dos dados.

Caso ainda tenha dúvidas sobre o diagnóstico dos modelos revisite o tutorial Regressão Linear para sedimentar o diagnóstico dos modelos lineares.

Uma das razões para a unificação do testes clássicos em modelos lineares foi a transformação das variáveis categóricas em variáveis indicadoras, também chamadas de dummies. As variáveis indicadoras são definidas pelas categorias da variável aleatória, indicando 1 quando a observação pertence ao nível e 0 quando não pertence. Para cada nível precisamos de uma indicadora, com exceção do nível que é considerado basal, indicado pelo 0 em todas as variáveis indicadoras dos outros níveis. Portanto, precisamos de:

$$n_{levels} - 1$$

variáveis indicadoras para cada variável categórica em nosso modelo. Dessa forma, para uma variável preditora categórica com 4 níveis teremos 3 variáveis indicadoras no modelo e se tivermos duas variáveis categóricas preditoras, cada uma com 3 níveis, teremos 4 variáveis indicadoras, duas para cada. Com a transformação para variáveis indicadoras, o modelo linear pode tratar as variáveis categóricas como variáveis numéricas binárias e assim, podemos inserir variáveis numéricas e categóricas como preditoras indistintamente no modelo linear. Entretanto, entender que as categorias foram transformadas em indicadoras é essencial para a interpretação destas variáveis nos outputs do modelo. Veja a explicação mais detalhada na videoaula abaixo:

Link do vídeo no canal do youtube

  • baixe o arquivo colheita.csv;

  • abra no excel;

  • note que a variável solo tem agora 4 níveis: arenoso, argiloso, húmico e alagado;

  • transforme a variável solo em variáveis indicadoras criando 3 novas colunas: arenoso, argiloso, húmico. Note que um nível não precisa de indicadora pois será representado pela indicação de 0 em todos as indicadoras 9);

  • Importe essa planilha com as variáveis indicadoras para o Rcommander;

  • Ajuste um modelo com as variáveis indicadoras no menu Estatística > Ajuste de Modelos > Modelo Linear.

  • Use a fórmula abaixo para construir o modelo:

colhe ~ arenoso + argiloso + humico
  • Avalie o modelo com variáveis indicadoras no menu Modelos > Resumir modelo 10) e clique em OK;

  • Para olhar a tabela de partição de variância, vá ao menu Modelos > Testes de hipóteses > Tabela de ANOVA

  • Ajuste um outro modelo chamado lmSolo com a variável solo original, seguindo os mesmo passos anteriores, apenas mudando a fórmula do modelo para:

colhe~solo
  • compare os resultados dos dois modelos (veja os resultados na janela Outputs)

PARA ENTREGAR ANTES DO INÍCIO DA PRÓXIMA AULA

  • Entre em uma conta google e preencha o formulário abaixo.

  • Caso não tenha conta ou não consiga preencher pelo link do formulário, encaminhe as repostas e documentos aos professores (), indicando como “Assunto”: Modelos Lineares Simples II.