Como resolver o problema das multiplas comparações

Depois de usar Ajustar modelo linear generalizado ou Modelo de efeitos mistos de ajuste, use a análise correspondente para obter comparações múltiplas de médias:

Você deve fazer as seguintes opções quando usar comparações múltiplas:

  • As comparações pareadas ou comparação com um controle
  • O método de comparação

Escolha Pareado na subcaixa de diálogo Opções quando você não tem um nível de controle e deseja comparar todas as combinações de médias.

Escolha Com um controle para comparar as médias de nível com a média de um grupo de controle. Quando este método é adequado, é ineficiente para usar comparações de pares, porque os intervalos de confiança de pares são mais amplos e os testes de hipóteses são menos poderosos para um determinado nível de confiança.

Escolha o procedimento de comparação com base nas médias do grupo que você quer comparar, o tipo de nível de confiança que você deseja especificar, e o quão conservadores você quer que os resultados sejam. "Conservadores", neste contexto, indica que o verdadeiro nível de confiança provavelmente é maior do que o nível de confiança que está sendo exibido.

Exceto para o método de Fisher, os vários métodos de comparação têm proteção contra falsos positivos incorporados. Ao proteger contra falsos positivos com múltiplas comparações, os intervalos são mais amplos do que se não houvesse nenhuma proteção.

Algumas características dos vários métodos de comparação estão resumidas a seguir:

Método de comparação Propriedades Nível de confiança especificado por você
Tukey Comparações de todos os pares somente, não conservadoras Simultâneos
Fisher: Nenhuma proteção contra falsos positivos devido a comparações múltiplas Individual
Dunnett Comparação com um controle apenas, não conservadora Simultâneos
Bonferroni A mais conservadora Simultâneos
Sidak Conservador, mas um pouco menos de Bonferroni Simultâneos

Utilização para comparações múltiplas na ANOVA, o valor de p ajustado indica quais comparações de nível de fator em uma família de comparações (testes de hipóteses) são significativamente diferentes. Se o valor de p ajustado for menor que alfa, você rejeita a hipótese nula. O ajuste limita a taxa de erro da família para o nível alfa que você escolher. Se for usado um valor de p regular para várias comparações, a taxa de erro familiar aumenta com cada comparação adicional. O valor de p ajustado representa também a menor taxa de erro familiar em que uma hipótese nula específica será rejeitada.

É importante considerar a taxa de erro de família ao efetuar múltiplas comparações porque as chances de cometer um erro do tipo I para uma série de comparações é maior do que a taxa de erro para uma comparação separada.

Suponha que você compara dureza de 4 misturas diferentes de tinta. Você analisa os dados e obtém a seguinte saída:

Tukey Simultaneous Tests for Differences of Means

Blend 2-Blend 1

Blend 3-Blend 1

Blend 4-Blend 1

Blend 3-Blend 2

Blend 4-Blend 2

Blend 4-Blend 3

Você escolhe um alfa de 0,05 que, em conjunto com o valor de p ajustado, limita a taxa de erro familiar a 0,05. Neste nível, as diferenças entre as misturas 4 e 2 são significativas. Se você baixar a taxa de erro familiar para 0,01, as diferenças entre as misturas 4 e 2 ainda são significativas.

Em estatística , o problema de múltiplas comparações , multiplicidade ou teste múltiplo ocorre quando se considera um conjunto de inferências estatísticas simultaneamente [1] ou se infere um subconjunto de parâmetros selecionados com base nos valores observados. [2] Em certos campos, é conhecido como efeito de olhar para outro lugar .

Quanto mais inferências são feitas, maior a probabilidade de ocorrerem inferências errôneas. Diversas técnicas estatísticas foram desenvolvidas para evitar que isso aconteça, permitindo que os níveis de significância para comparações únicas e múltiplas sejam comparados diretamente. Essas técnicas geralmente requerem um limite de significância mais estrito para comparações individuais, de modo a compensar o número de inferências que estão sendo feitas. Uma revisão de vários testes de comparação pode ajudar os usuários a determinar qual teste é o melhor para sua situação. [3]

O interesse pelo problema das comparações múltiplas começou na década de 1950 com o trabalho de Tukey e Scheffé . Outros métodos, como o procedimento de teste fechado (Marcus et al., 1976) e o método Holm-Bonferroni (1979), surgiram posteriormente. Em 1995, o trabalho sobre a taxa de descobertas falsas começou. Em 1996, a primeira conferência internacional sobre procedimentos de comparação múltipla ocorreu em Israel ; geralmente ocorre a cada dois anos em diferentes países de acolhimento. [4]

Múltiplas comparações surgem quando uma análise estatística envolve vários testes estatísticos simultâneos, cada um dos quais tem o potencial de produzir uma "descoberta" do mesmo conjunto de dados ou conjuntos de dados dependentes. Um nível de confiança declarado geralmente se aplica apenas a cada teste considerado individualmente, mas muitas vezes é desejável ter um nível de confiança para toda a família de testes simultâneos. [5] A falha em compensar as comparações múltiplas pode ter consequências importantes no mundo real, conforme ilustrado pelos seguintes exemplos:

  • Suponha que o tratamento seja uma nova forma de ensinar a escrever para os alunos e o controle seja a forma padrão de ensinar a escrever. Os alunos dos dois grupos podem ser comparados em termos de gramática, ortografia, organização, conteúdo e assim por diante. À medida que mais atributos são comparados, torna-se cada vez mais provável que os grupos de tratamento e controle pareçam diferir em pelo menos um atributo devido apenas ao erro de amostragem aleatória .
  • Suponha que consideremos a eficácia de um medicamento em termos da redução de qualquer um dos vários sintomas da doença. À medida que mais sintomas são considerados, torna-se cada vez mais provável que o medicamento pareça ser uma melhoria em relação aos medicamentos existentes em termos de pelo menos um sintoma.

Em ambos os exemplos, à medida que o número de comparações aumenta, torna-se mais provável que os grupos comparados pareçam diferir em termos de pelo menos um atributo. Nossa confiança de que um resultado será generalizado para dados independentes deve geralmente ser mais fraca se for observada como parte de uma análise que envolve múltiplas comparações, em vez de uma análise que envolve apenas uma única comparação.

Por exemplo, se um teste for executado no nível de 5% e a hipótese nula correspondente for verdadeira, haverá apenas 5% de chance de rejeitar incorretamente a hipótese nula. No entanto, se 100 testes forem realizados e todas as hipóteses nulas correspondentes forem verdadeiras, o número esperado de rejeições incorretas (também conhecidas como falsos positivos ou erros Tipo I ) é 5. Se os testes forem estatisticamente independentes uns dos outros, a probabilidade de pelo menos uma rejeição incorreta é 99,4%.

Observe que, é claro, o problema de comparações múltiplas não surge em todas as situações em que várias hipóteses são testadas empiricamente, seja sequencialmente ou em paralelo (concorrente); [6] grosso modo, o problema de comparações múltiplas surge sempre que várias hipóteses são testadas no mesmo conjunto de dados (ou conjuntos de dados que não são independentes) ou sempre que uma e a mesma hipótese é testada em vários conjuntos de dados.

O problema de comparações múltiplas também se aplica a intervalos de confiança . Um único intervalo de confiança com um nível de probabilidade de cobertura de 95% conterá o parâmetro da população em 95% dos experimentos. No entanto, se considerarmos 100 intervalos de confiança simultaneamente, cada um com 95% de probabilidade de cobertura, o número esperado de intervalos não abrangentes é 5. Se os intervalos forem estatisticamente independentes entre si, a probabilidade de que pelo menos um intervalo não contenha a população parâmetro é 99,4%.

Foram desenvolvidas técnicas para evitar a inflação de taxas de falsos positivos e taxas de não cobertura que ocorrem com vários testes estatísticos.

Classificação de múltiplos testes de hipótese

A tabela a seguir define os resultados possíveis ao testar várias hipóteses nulas. Suponha que temos um número m de hipóteses nulas, denotadas por: H 1 ,  H 2 , ...,  H m . Usando um teste estatístico , rejeitamos a hipótese nula se o teste for declarado significativo. Não rejeitamos a hipótese nula se o teste não for significativo. A soma de cada tipo de resultado sobre todos os H i   produz as seguintes variáveis ​​aleatórias:

  • m é o número total de hipóteses testadas
  • m 0 {\ displaystyle m_ {0}} é o número de hipóteses nulas verdadeiras , um parâmetro desconhecido
  • m - m 0 {\ displaystyle m-m_ {0}} é o número de hipóteses alternativas verdadeiras
  • V é o número de falsos positivos (erro Tipo I) (também chamado de "descobertas falsas")
  • S é o número de verdadeiros positivos (também chamados de "verdadeiras descobertas")
  • T é o número de falsos negativos (erro Tipo II)
  • U é o número de verdadeiros negativos
  • R = V + S {\ displaystyle R = V + S} é o número de hipóteses nulas rejeitadas (também chamadas de "descobertas", verdadeiras ou falsas)

Em m testes de hipóteses dos quais m 0 {\ displaystyle m_ {0}} são verdadeiras hipóteses nulas, R é uma variável aleatória observável e S , T , U e V são variáveis ​​aleatórias não observáveis .

Se m comparações independentes são realizadas, a taxa de erro familiar (FWER), é dada por

α ¯ = 1 - ( 1 - α { por comparação } ) m . {\ displaystyle {\ bar {\ alpha}} = 1- \ left (1- \ alpha _ {\ {{\ text {por comparação}} \}} \ right) ^ {m}.}

Portanto, a menos que os testes sejam perfeitamente dependentes positivamente (ou seja, idênticos), α ¯ {\ displaystyle {\ bar {\ alpha}}} aumenta à medida que o número de comparações aumenta. Se não assumirmos que as comparações são independentes, ainda podemos dizer:

α ¯ ≤ m ⋅ α { por comparação } , {\ displaystyle {\ bar {\ alpha}} \ leq m \ cdot \ alpha _ {\ {{\ text {por comparação}} \}},}

que segue da desigualdade de Boole . Exemplo: 0,2649 = 1 - ( 1 - 0,05 ) 6 ≤ 0,05 × 6 = 0,3 {\ displaystyle 0,2649 = 1- (1-0,05) ^ {6} \ leq 0,05 \ vezes 6 = 0,3}

Existem diferentes maneiras de garantir que a taxa de erro familiar seja no máximo α ¯ {\ displaystyle {\ bar {\ alpha}}} . O método mais conservador, que é livre de dependências e pressupostos distribucionais, é a correção de Bonferroni α { p e r   c o m p uma r eu s o n } = α / m {\ displaystyle \ alpha _ {\ mathrm {\ {por \ comparação \}}} = {\ alpha} / m} . Uma correção marginalmente menos conservadora pode ser obtida resolvendo a equação para a taxa de erro familiar de m {\ displaystyle m} comparações independentes para α { p e r   c o m p uma r eu s o n } {\ displaystyle \ alpha _ {\ mathrm {\ {por \ comparação \}}}} . Isso produz α { por comparação } = 1 - ( 1 - α ) 1 / m {\ displaystyle \ alpha _ {\ {{\ text {por comparação}} \}} = 1 - {(1 - {\ alpha})} ^ {1 / m}} , que é conhecida como correção Šidák . Outro procedimento é o método Holm-Bonferroni , que fornece uniformemente mais potência do que a correção de Bonferroni simples, testando apenas o valor p mais baixo ( eu = 1 {\ displaystyle i = 1} ) contra o critério mais estrito e os valores p mais altos ( eu > 1 {\ displaystyle i> 1} ) em relação a critérios progressivamente menos estritos. [7] α { p e r   c o m p uma r eu s o n } = α / ( m - eu + 1 ) {\ displaystyle \ alpha _ {\ mathrm {\ {por \ comparação \}}} = {\ alpha} / (m-i + 1)} .

Para problemas contínuos, pode-se empregar a lógica Bayesiana para calcular m {\ displaystyle m} da relação de volume anterior para posterior. Generalizações contínuas da correção de Bonferroni e Šidák são apresentadas em. [8]

Correção de teste múltiplo

Correção de teste múltiplo refere-se ao recálculo de probabilidades obtidas a partir de um teste estatístico que foi repetido várias vezes. A fim de reter uma taxa de erro familiar prescrita α em uma análise envolvendo mais de uma comparação, a taxa de erro para cada comparação deve ser mais rigorosa do que  α . A desigualdade de Boole implica que, se cada um dos m testes for realizado para ter uma taxa de erro tipo I  α / m , a taxa de erro total não excederá  α . Isso é chamado de correção de Bonferroni e é uma das abordagens mais comumente usadas para comparações múltiplas.

Em algumas situações, a correção de Bonferroni é substancialmente conservadora, ou seja, a taxa de erro familiar real é muito menor do que o nível α prescrito  . Isso ocorre quando as estatísticas de teste são altamente dependentes (no caso extremo em que os testes são perfeitamente dependentes, a taxa de erro familiar sem ajuste de comparações múltiplas e as taxas de erro por teste são idênticas). Por exemplo, na análise de fMRI, [9] [10] testes são feitos em mais de 100.000 voxels no cérebro. O método de Bonferroni exigiria que os valores de p fossem menores que 0,05 / 100000 para declarar a significância. Como os voxels adjacentes tendem a ser altamente correlacionados, esse limite geralmente é muito restrito.

Como técnicas simples, como o método de Bonferroni, podem ser conservadoras, deu-se muita atenção ao desenvolvimento de técnicas melhores, de modo que a taxa geral de falsos positivos pudesse ser mantida sem aumentar excessivamente a taxa de falsos negativos. Esses métodos podem ser divididos em categorias gerais:

  • Métodos em que o alfa total pode ser provado como nunca excedendo 0,05 (ou algum outro valor escolhido) sob quaisquer condições. Esses métodos fornecem controle "forte" contra o erro Tipo I, em todas as condições, incluindo uma hipótese nula parcialmente correta.
  • Métodos em que o alfa total pode ser comprovado como não excedendo 0,05, exceto sob certas condições definidas.
  • Métodos que dependem de um teste abrangente antes de proceder a múltiplas comparações. Normalmente, esses métodos requerem um ANOVA , MANOVA ou teste de intervalo de Tukey significativo . Esses métodos geralmente fornecem apenas um controle "fraco" do erro Tipo I, exceto para um certo número de hipóteses.
  • Métodos empíricos, que controlam a proporção de erros do Tipo I de forma adaptativa, utilizando características de correlação e distribuição dos dados observados.

O advento de métodos de reamostragem computadorizados , como bootstrapping e simulações de Monte Carlo , deu origem a muitas técnicas nesta última categoria. Em alguns casos em que uma reamostragem de permutação exaustiva é realizada, esses testes fornecem um controle forte e exato das taxas de erro Tipo I; em outros casos, como amostragem por bootstrap, eles fornecem apenas um controle aproximado.

Os métodos tradicionais para ajustes de múltiplas comparações se concentram na correção de números modestos de comparações, geralmente em uma análise de variância . Um conjunto diferente de técnicas foi desenvolvido para "testes múltiplos em grande escala", nos quais milhares ou até um número maior de testes são realizados. Por exemplo, em genômica , ao usar tecnologias como microarrays , os níveis de expressão de dezenas de milhares de genes podem ser medidos e genótipos para milhões de marcadores genéticos podem ser medidos. Particularmente no campo dos estudos de associação genética , tem havido um sério problema com a não replicação - um resultado sendo fortemente estatisticamente significativo em um estudo, mas não pode ser replicado em um estudo de acompanhamento. Essa não replicação pode ter muitas causas, mas é amplamente considerado que a falha em levar em conta totalmente as consequências de fazer comparações múltiplas é uma das causas. [11]

Em diferentes ramos da ciência, vários testes são tratados de maneiras diferentes. Argumentou-se que, se os testes estatísticos forem realizados apenas quando houver uma base sólida para esperar que o resultado seja verdadeiro, não são necessários ajustes de comparações múltiplas. [12] Também foi argumentado que o uso de várias correções de teste é uma forma ineficiente de realizar pesquisas empíricas , uma vez que vários ajustes de teste controlam falsos positivos à custa de muitos mais falsos negativos . Por outro lado, tem-se argumentado que os avanços na medição e na tecnologia da informação tornaram muito mais fácil gerar grandes conjuntos de dados para análise exploratória , muitas vezes levando ao teste de um grande número de hipóteses sem base prévia para esperar que muitas das hipóteses seja verdadeiro. Nessa situação, taxas de falsos positivos muito altas são esperadas, a menos que vários ajustes de comparação sejam feitos.

Para problemas de teste em grande escala em que o objetivo é fornecer resultados definitivos, a taxa de erro familiar continua sendo o parâmetro mais aceito para atribuir níveis de significância a testes estatísticos. Alternativamente, se um estudo é visto como exploratório, ou se resultados significativos podem ser facilmente testados novamente em um estudo independente, o controle da taxa de descoberta falsa (FDR) [13] [14] [15] é freqüentemente preferido. O FDR, vagamente definido como a proporção esperada de falsos positivos entre todos os testes significativos, permite aos pesquisadores identificar um conjunto de "candidatos positivos" que podem ser avaliados com mais rigor em um estudo de acompanhamento. [16]

A prática de tentar muitas comparações não ajustadas na esperança de encontrar uma significativa é um problema conhecido, aplicado de forma não intencional ou deliberada, às vezes é chamada de "p-hacking". [17] [18]

Avaliar se quaisquer hipóteses alternativas são verdadeiras

Uma questão básica enfrentada no início da análise de um grande conjunto de resultados de teste é se há evidências de que alguma das hipóteses alternativas é verdadeira. Um meta-teste simples que pode ser aplicado quando se assume que os testes são independentes um do outro é usar a distribuição de Poisson como um modelo para o número de resultados significativos em um determinado nível α que seriam encontrados quando todas as hipóteses nulas fossem verdadeiro. [ carece de fontes? ] Se o número de positivos observados for substancialmente maior do que o esperado, isso sugere que é provável que haja alguns positivos verdadeiros entre os resultados significativos. Por exemplo, se 1000 testes independentes forem realizados, cada um no nível α = 0,05, esperamos que 0,05 × 1000 = 50 testes significativos ocorram quando todas as hipóteses nulas forem verdadeiras. Com base na distribuição de Poisson com média 50, a probabilidade de observar mais de 61 testes significativos é menor que 0,05, portanto, se mais de 61 resultados significativos forem observados, é muito provável que alguns deles correspondam a situações em que a hipótese alternativa se sustenta. Uma desvantagem dessa abordagem é que ela superestima a evidência de que algumas das hipóteses alternativas são verdadeiras quando as estatísticas de teste são positivamente correlacionadas, o que normalmente ocorre na prática. [ carece de fontes? ] . Por outro lado, a abordagem permanece válida mesmo na presença de correlação entre as estatísticas de teste, desde que se possa mostrar que a distribuição de Poisson fornece uma boa aproximação para o número de resultados significativos. Este cenário surge, por exemplo, ao extrair conjuntos de itens frequentes significativos de conjuntos de dados transacionais. Além disso, uma análise cuidadosa de dois estágios pode limitar o FDR a um nível pré-especificado. [19]

Outra abordagem comum que pode ser usada em situações em que as estatísticas de teste podem ser padronizadas para escores Z é fazer um gráfico de quantil normal das estatísticas de teste. Se os quantis observados são marcadamente mais dispersos do que os quantis normais, isso sugere que alguns dos resultados significativos podem ser verdadeiros positivos. [ citação necessária ]

Conceitos chave
  • Taxa de erro familiar
  • Taxa de falsos positivos
  • Taxa de descoberta falsa (FDR)
  • Taxa de cobertura falsa (FCR)
  • Estimativa de intervalo
  • Análise Post-hoc
  • Taxa de erro experimental
  • Teste de hipótese estatística
Métodos gerais de ajuste alfa para comparações múltiplas
  • Procedimento de teste fechado
  • Correção de Bonferroni
  • Boole– Bonferroni vinculado
  • Novo teste de alcance múltiplo de Duncan
  • Método Holm-Bonferroni
  • Procedimento de valor p médio harmônico
Conceitos relacionados
  • Testar hipóteses sugeridas pelos dados
  • Falácia do atirador de elite do Texas
  • Seleção de modelo
  • Efeito de olhar para outro lugar
  • Dragagem de dados

  1. ^ Miller, RG (1981). Inferência Estatística Simultânea 2ª Ed . Springer Verlag New York. ISBN 978-0-387-90548-8.
  2. ^ Benjamini, Y. (2010). "Inferência simultânea e seletiva: sucessos atuais e desafios futuros". Biometrical Journal . 52 (6): 708–721. doi : 10.1002 / bimj.200900299 . PMID  21154895 .
  3. ^ Midway, Stephen; Robertson, Matthew; Flinn, Shane; Kaller, Michael (2020-12-04). "Comparando comparações múltiplas: orientação prática para escolher o melhor teste de comparações múltiplas" . PeerJ . 8 : e10387. doi : 10.7717 / peerj.10387 . ISSN  2167-8359 .
  4. ^ [1]
  5. ^ Kutner, Michael; Nachtsheim, Christopher; Neter, John ; Li, William (2005). Modelos estatísticos lineares aplicados . pp.  744 -745.
  6. ^ Georgiev, Georgi (22/08/2017). "Teste multivariável - Melhores práticas e ferramentas para testes MVT (A / B / n)" . Blog para análise da Web, estatísticas e marketing na Internet baseado em dados | Analytics-Toolkit.com . Obtido em 2020-02-13 .
  7. ^ Aickin, M; Gensler, H (maio de 1996). "Ajustando para testes múltiplos ao relatar resultados de pesquisa: os métodos Bonferroni vs Holm" . Am J Public Health . 86 (5): 726–728. doi : 10.2105 / ajph.86.5.726 . PMC  1380484 . PMID  8629727 .
  8. ^ Bayer, Adrian E .; Seljak, Uroš (2020). "O efeito de olhar para outro lugar a partir de uma perspectiva bayesiana e frequentista unificada" . Journal of Cosmology and Astroparticle Physics . 2020 (10): 009–009. arXiv : 2007.13821 . doi : 10.1088 / 1475-7516 / 2020/10/009 .
  9. ^ Logan, BR; Rowe, DB (2004). "Uma avaliação das técnicas de limiarização na análise de fMRI". NeuroImage . 22 (1): 95–108. CiteSeerX  10.1.1.10.421 . doi : 10.1016 / j.neuroimage.2003.12.047 . PMID  15110000 .
  10. ^ Logan, BR; Geliazkova, MP; Rowe, DB (2008). "Uma avaliação das técnicas de limiarização espacial na análise de fMRI" . Mapeamento do cérebro humano . 29 (12): 1379–1389. doi : 10.1002 / hbm.20471 . PMC  6870886 . PMID  18064589 .
  11. ^ Qu, Hui-Qi; Tien, Matthew; Polychronakos, Constantin (01-10-2010). "Significância estatística em estudos de associação genética" . Medicina Clínica e Investigativa . 33 (5): E266 – E270. ISSN  0147-958X . PMC  3270946 . PMID  20926032 .
  12. ^ Rothman, Kenneth J. (1990). "Nenhum ajuste é necessário para comparações múltiplas". Epidemiologia . 1 (1): 43–46. doi : 10.1097 / 00001648-199001000-00010 . JSTOR  20065622 . PMID  2081237 .
  13. ^ Benjamini, Yoav; Hochberg, Yosef (1995). "Controlando a taxa de descoberta falsa: uma abordagem prática e poderosa para testes múltiplos". Journal of Royal Statistical Society, Série B . 57 (1): 125–133. JSTOR  2346101 .
  14. ^ Storey, JD; Tibshirani, Robert (2003). "Significância estatística para estudos de todo o genoma" . PNAS . 100 (16): 9440–9445. Bibcode : 2003PNAS..100.9440S . doi : 10.1073 / pnas.1530509100 . JSTOR  3144228 . PMC  170937 . PMID  12883005 .
  15. ^ Efron, Bradley; Tibshirani, Robert; Storey, John D .; Tusher, Virginia (2001). "Análise empírica de Bayes de um experimento de microarray". Journal of the American Statistical Association . 96 (456): 1151–1160. doi : 10.1198 / 016214501753382129 . JSTOR  3085878 .
  16. ^ Noble, William S. (01-12-2009). "Como funciona a correção de testes múltiplos?" . Nature Biotechnology . 27 (12): 1135–1137. doi : 10.1038 / nbt1209-1135 . ISSN  1087-0156 . PMC  2907892 . PMID  20010596 .
  17. ^ Young, SS, Karr, A. (2011). "Deming, dados e estudos observacionais" (PDF) . Significância . 8 (3): 116-120. doi : 10.1111 / j.1740-9713.2011.00506.x .CS1 maint: vários nomes: lista de autores ( link )
  18. ^ Smith, GD, Shah, E. (2002). "Dragagem de dados, polarização ou confusão" . BMJ . 325 (7378): 1437–1438. doi : 10.1136 / bmj.325.7378.1437 . PMC  1124898 . PMID  12493654 .CS1 maint: vários nomes: lista de autores ( link )
  19. ^ Kirsch, A; Mitzenmacher, M ; Pietracaprina, A; Pucci, G; Upfal, E ; Vandin, F (junho de 2012). "Uma abordagem eficiente e rigorosa para identificar conjuntos de itens frequentes estatisticamente significativos". Jornal do ACM . 59 (3): 12: 1–12: 22. arXiv : 1002.1104 . doi : 10.1145 / 2220357.2220359 .

  • F. Betz, T. Hothorn, P. Westfall (2010), Multiple Comparisons Using R , CRC Press
  • S. Dudoit e MJ van der Laan (2008), Multiple Testing Procedures with Application to Genomics , Springer
  • Farcomeni, A. (2008). "Uma revisão dos testes modernos de hipóteses múltiplas, com particular atenção à proporção de falsas descobertas". Métodos Estatísticos em Pesquisa Médica . 17 : 347–388. doi : 10.1177 / 0962280206079046 .
  • Phipson, B .; Smyth, GK (2010). "Os valores P de permutação nunca devem ser zero: Cálculo dos valores P exatos quando as permutações são desenhadas aleatoriamente". Aplicações estatísticas em genética e biologia molecular . doi : 10.2202 / 1544-6155.1585 .
  • PH Westfall e SS Young (1993), Resampling-based Multiple Testing: Examples and Methods for p-Value Adjustment , Wiley
  • P. Westfall, R. Tobias, R. Wolfinger (2011) Comparações múltiplas e testes múltiplos usando SAS , 2ª ed., SAS Institute
  • Uma galeria de exemplos de correlações implausíveis originadas por dragagem de dados

Como resolver o problema das multiplas comparações