Uma avaliaçÃo do uso de procedimentos estatísticos na ciência do solo



Baixar 67,13 Kb.
Encontro23.08.2017
Tamanho67,13 Kb.
UMA AVALIAÇÃO DO USO DE PROCEDIMENTOS ESTATÍSTICOS NA CIÊNCIA DO SOLO
RESUMO
Os procedimentos da estatística experimental são fundamentais para uma melhor interpretação de resultados de experimentos nas ciências agrárias, estando presentes na quase totalidade dos trabalhos científicos. No entanto, o uso incorreto desses procedimentos pode conduzir o experimentador a fazer conclusões equivocadas ou incompletas. Diante disso, objetivou-se, com este trabalho, avaliar o perfil dos experimentos e a qualidade de uso dos procedimentos estatísticos utilizados na ciência do solo, visando subsidiar a discussão para um melhor uso de procedimentos estatísticos em trabalhos futuros. Foram escolhidos, de forma aleatória, 200 artigos publicados entre os anos de 2010 e 2014, envolvendo experimentação e estudos por amostragem nas áreas de fertilidade, química, física, biologia, uso e manejo do solo. Um questionário com 28 perguntas foi utilizado para avaliação do perfil dos experimentos, dos procedimentos estatísticos utilizados e da qualidade de escolha e uso desses procedimentos. A maior parte dos artigos apresentava dados de estudos conduzidos em condições de campo, sendo que 27 % consistiam de estudos por amostragens. A maioria dos trabalhos não mencionou a realização de testes para verificação da normalidade e homocedasticidade e a maioria utilizou o teste de Tukey para comparações de médias. Dentre os trabalhos cujos tratamentos possuíam estrutura fatorial, boa parte teve sua estrutura ignorada e os dados foram comparados como se não houvesse estrutura, ou realizaram o desdobramento da interação sem apresentar ou mencionar a significância da interação. Quase todos os trabalhos que apresentavam estrutura fatorial em faixas consideraram não haver estrutura ou a consideraram como parcelas subdivididas. Dos trabalhos que realizaram análise de regressão, poucos testaram o ajuste a modelos não polinomiais e nenhum informou a verificação da falta de ajuste da regressão. Os trabalhos avaliados refletem uma generalização deficiente e, em alguns casos equivocada, no planejamento experimental e na escolha dos procedimentos de análises estatísticas.
Palavras-chave: análises estatísticas, testes de médias, mau uso da estatística.

INTRODUÇÃO

Os procedimentos de análises estatísticas são técnicas quantitativas para ciência experimental e observacional que permitem avaliar as incertezas e os seus efeitos na interpretação de experiências e de observações de fenômenos na natureza (Steel et al., 1997; Zimmermann, 2004). Os procedimentos da estatística experimental são fundamentais para uma melhor interpretação de resultados de experimentos nas ciências agrárias, estando presentes na quase totalidade dos trabalhos científicos atuais. No entanto, os usos incorretos de procedimentos estatísticos aplicados na análise de dados experimentais podem conduzir o experimentador a fazer conclusões errôneas ou incompletas. Isto, por sua vez, pode dificultar a revisão de temas na literatura científica e, consequentemente, promover maior lentidão no avanço do conhecimento científico.

Apesar da importância da estatística experimental nas ciências agrárias, existe ainda uma grande dificuldade na escolha dos procedimentos estatísticos (Bertoldo et al., 2007). Poucos trabalhos avaliaram estas dificuldades em diferentes áreas das ciências agrárias, sendo observado, por exemplo, que 35 % dos trabalhos da revista Horticultura Brasileira e 57 % dos artigos da revista Pesquisa Agropecuária Brasileira foram classificados como “incorretos ou parcialmente corretos” e “inadequados”, respectivamente, quanto ao uso de testes de comparação de médias (TCM) (Bezerra Neto et al., 2002; Santos et al., 1998).

Esses trabalhos apontam também a importância de se diagnosticar e discutir outras dificuldades recorrentes, não apenas no uso de TCM, de modo a subsidiar um melhor uso de procedimentos estatísticos em trabalhos futuros. Assim, é preciso evidenciar e discutir também problemas ligados à compreensão dos tipos de fatores envolvidos no estudo, à natureza e estrutura dos tratamentos, à escolha do delineamento e da estrutura experimental, à utilização de testes para detecção de outliers, à escolha adequada dos modelos de regressão, entre outros. Estes e outros aspectos são decisões teóricas essenciais no planejamento experimental que poderão conduzir a trabalhos com melhor sustentação metodológica.

Considerando que boa parte da geração de conhecimento acadêmico parte de informações obtidas de experimentos, a correta interpretação dos dados obtidos torna-se indispensável. Para Alvarez e Alvarez (2013), a validade e a confiabilidade da redação científica fundamentam-se na utilização correta da inferência estatística. Logo, o conhecimento do pesquisador desde o planejamento até as análises estatísticas dos dados é crucial para o sucesso da experimentação e para a credibilidade de suas conclusões. Neste sentido, o objetivo desse trabalho foi avaliar o perfil dos experimentos e a qualidade dos procedimentos estatísticos utilizados, na ciência do solo, visando subsidiar o uso correto de procedimentos estatísticos.

MATERIAL E MÉTODOS

Foram escolhidos, de forma aleatória, 200 artigos publicados entre os anos de 2010 e 2014 de cinco revista brasileiras (Acta Scientiarum – Agronomy, Bioscience Journal, Ciência Rural, Pesquisa Agropecuária Brasileira e Revista Brasileira de Ciência do Solo), sendo 40 artigos de cada revista. Foram considerados válidos para integrar a amostra apenas artigos que envolviam experimentação ou estudos por amostragem nas áreas de fertilidade, química, física, biologia, uso e manejo do solo. As revistas escolhidas possuem índice Qualis-CAPES B1 ou superior e forte tradição na publicação de trabalhos ligados à área de solos. Como os artigos foram escolhidos, dentro de cada revista, de forma aleatória, os anos de publicação não foram igualmente representados. O método adotado na avaliação foi semelhante ao utilizado por Lúcio et al. (2003), Bertoldo et al. (2008a) e Lucena et al. (2013), com uso de questionário. Um questionário foi elaborado com 28 perguntas, divididas em questões ligadas ao perfil dos experimentos, aos procedimentos estatísticos utilizados e à qualidade de escolha e uso desses procedimentos. Nos trabalhos em que nem todas as variáveis resposta foram submetidas aos mesmos procedimentos de análise estatística foi considerada apenas a(s) variável(is) resposta mais importantes de acordo com o objetivo de cada trabalho. Após a avaliação dos artigos procedeu-se à tabulação dos dados, que consistiu no cálculo das frequências das respostas das questões.

As questões referentes ao diagnóstico do perfil dos experimentos envolviam o ambiente experimental (campo, casa de vegetação ou laboratório), a estruturação dos tratamentos (experimentos fatoriais), o tipo de delineamento e estrutura experimental (inteiramente casualizado, blocos casualizados, estudos por amostragem, parcelas subdivididas ou faixas), o número e a natureza dos tratamentos (qualitativos ou quantitativos), o número de repetições, o uso de réplicas analíticas e a duração dos experimentos. Empregou-se a expressão “estudo por amostragem” como uma simplificação da expressão “trabalhos baseados em amostragem” empregada por Lira Júnior et al. (2012) ou da expressão “desenho por amostragem” e “delineamento por amostragem” empregados por Alvarez & Alvarez (2013). Entendeu-se como réplica analítica a obtenção de mais de uma medida da variável resposta por unidade experimental. Nos trabalhos com estrutura fatorial, o número de tratamentos foi calculado pelo produto entre o número de níveis de cada fator em estudo.

As questões relativas ao diagnóstico dos procedimentos estatísticos utilizados envolveram as descrições da verificação da condição de normalidade dos resíduos e homogeneidade das variâncias, da transformação de variáveis, da perda de dados e da realização da análise de variância (ANOVA). Envolviam ainda a menção do software utilizado, das medidas de dispersão apresentadas, dos testes de comparação múltipla de médias utilizados e da realização de análises de regressão e de correlação.

Em relação ao diagnóstico da qualidade de escolha e uso dos procedimentos estatísticos, as questões envolveram a avaliação da coerência na análise de tratamentos estruturados, a apresentação de critérios para o desdobramento de experimentos fatoriais, a indicação do nível de significância na análise de regressão, a avaliação do uso de testes para comparação múltipla de médias e a avaliação da coerência na análise de experimentos em parcelas subdivididas e em faixas.

RESULTADOS



Perfil dos experimentos

Grande parte dos artigos analisados apresentavam dados de estudos conduzidos em condições de campo (73 %), seguidos por estudos conduzidos em casa de vegetação e em outros ambientes (Quadro 1). Na maioria dos trabalhos os autores mencionaram o uso do delineamento em blocos casualizados (DBC), sendo a maioria dos estudos em campo implantados em blocos. Em casa de vegetação, por outro lado, a maioria dos experimentos foi montado no delineamento inteiramente casualizado (DIC). Dos 200 artigos analisados, 7,5 % foram conduzidos em casa de vegetação e em blocos e 17,5 % foram conduzidos em campo em delineamento inteiramente casualizado (Quadro1).

Parte expressiva dos trabalhos avaliados (27 %) eram estudos de campo que assumiam situações pré-existentes como “tratamentos” (estudos por amostragem ou “delineamento” por amostragem, estudo por amostragem sistemática ou “estudo observacional”), não havendo, portanto, repetições verdadeiras dos tratamentos ou casualização entre eles (Quadro1). Além disso, a maioria dos trabalhos (60,5 %) correspondia a estudos de curto prazo, com efeitos de tratamentos avaliados até, no máximo, 12 meses. Dentre os estudos de longo prazo (três anos ou mais), a maior parte deles correspondia a estudos por amostragem (Quadro1).

A grande maioria dos trabalhos apresentavam dados de experimentos relativamente pequenos, com até 12 tratamentos e com até quatro repetições (72 %). Apenas 6,5 % dos artigos mencionaram estudos com mais de 36 tratamentos (Quadro 2). Apenas 1 % dos trabalhos foram realizados com experimentos com apenas duas repetições e somente 4,5 % dos trabalhos mencionaram a utilização de mais de oito repetições (Quadro 2). Uma parcela importante dos trabalhos (6,5 %) não informou o número de repetições utilizado. Além disso, apenas 2 % mencionaram a utilização de replicatas (réplicas analíticas) para determinações de um ou mais atributos avaliados (dados não mostrados).

A metade dos trabalhos avaliados (50,5 %) não possuía ou não considerava a existência de uma estrutura fatorial (Quadro 2). Após uma análise dos resultados apresentados nestes trabalhos, no entanto observou-se que a frequência de tratamentos não estruturados caiu para 40,5 %. Dentre os estruturados, a maior parte deles (52,5 % em 59,5 %) foi considerada fatoriais duplos ou triplos sem tratamentos adicionais, com uma pequena parcela dos experimentos estruturados em fatoriais com tratamentos adicionais (como por exemplo os 3 x 5 + 1).
Procedimentos estatísticos utilizados e qualidade da escolha e uso desses procedimentos

A maioria dos trabalhos analisados mencionou a realização da análise de variância (ANOVA) (Quadro 3), embora apenas 19,5 % tenham apresentado algum resultado da ANOVA (Quadro 4). Além disso, na maioria dos trabalhos não foi mencionado ou não foram realizados testes para verificação das pressuposições de normalidade dos resíduos (92,5 %) e de homocedasticidade das variâncias (93,5 %). A transformação de dados das variáveis para atender à estas pressuposições foi mencionada em apenas 4 % dos trabalhos.

Dos artigos estudados, 66 % mencionaram o software utilizado, sendo o SISVAR o mais citado, seguido pelo SAS, SAEG e ASSISTAT. Todos os trabalhos avaliados não relataram a perda de dados ou o uso de testes para detecção de outliers (Quadro 3). Grande parte dos trabalhos utilizou apenas o teste de Tukey para comparações múltiplas de médias (46 %), seguido pelo teste de Scott-Knott, pelo teste da DMS de Fisher ou LSD e pelo teste de Duncan. Apenas 0,5 % dos trabalhos fizeram uso do teste de Student-Newman-Keuls (SNK) (Quadro 3). Uma pequena parte utilizou contrastes envolvendo mais de duas médias (5 %) (dados não mostrados). Em 70 % dos casos o uso de TCM foi classificado como apropriado, 9 % como parcialmente apropriado e 21 % como inapropriado (Quadro 4). A maioria dos casos enquadrados como inapropriados envolviam o uso dos testes de Duncan e da DMS de Fisher ou LSD. Uma menor parte dos trabalhos foi referente ao uso de TCM em casos nos quais uma análise de regressão seria mais apropriada (quatro ou mais níveis de natureza quantitativa).

Apesar de 50,5 % dos trabalhos não serem considerados pelos autores como possuidores de estrutura fatorial, cerca de 10 % deles possuíam na realidade algum tipo de estrutura (Quadro 2). Os casos mais comuns envolviam a estrutura bifatorial, em situações em que épocas de avaliação, camadas do solo, tempos de avaliação, dentre outros, foram analisados como tratamentos nos resultados, mas não foram descritos como tal nos métodos relatados nos artigos. Dentre os trabalhos cujos tratamentos possuíam estrutura fatorial, 12,5 % tiveram sua estrutura ignorada, sendo todas as médias dos tratamentos comparadas contra todas (Quadro 4). Em todos estes casos, estes trabalhos não mencionaram informações da ANOVA, como a significância dos valores de F para os quadrados médios dos tratamentos ou dos fatores em estudo. Além disso, 20,5 % dos trabalhos sempre desdobraram a interação entre os fatores mesmo sem apresentar ou mencionar a significância da interação. Houve divergência nas estruturas experimentais nominal (que foi descrita no trabalho) e real (que de fato havia nos tratamentos). Dentre essas divergências, destaca-se que apenas 1 % dos trabalhos considerou ter conduzido seus experimentos em faixas quando, na realidade, 14 % dos trabalhos tiveram este tipo de estrutura experimental (Quadro 4).

Análises de regressão e correlação foram utilizadas por 36,5 e 17,5 % dos trabalhos avaliados, respectivamente (Quadro 4). Dentre os trabalhos que realizaram análise de regressão, 11,5 % não testaram a significância global da regressão ou a significância dos parâmetros da regressão, 14,5 % indicaram a significância apenas no R2 (como um indicativo da significância global da regressão) e 10,5 % apresentaram a significância em cada parâmetro da equação (Quadro 4). Nenhum trabalho descreveu a observância da não-significância do resíduo da regressão (falta de ajuste da regressão) como critério para escolha de modelos de regressão e a grande maioria dos trabalhos testaram apenas ajustes a modelos lineares ou quadráticos.

DISCUSSÃO




Perfil dos experimentos


A grande quantidade de experimentos no campo que foram montados em blocos casualizados está relacionada à maior heterogeneidade deste ambiente experimental, principalmente ligada à declividade do terreno que, comumente provoca diferenças na fertilidade do solo, na umidade, na composição mineralógica, dentre outros. Tal fato foi também relatado por Lúcio et al. (2003), que avaliaram trabalhos da área vegetal na Revista Ciência Rural. É necessário, no entanto, que o pesquisador conheça o sentido de uma ou mais fontes de variação do ambiente experimental para que o princípio do controle local seja adotado corretamente (variabilidades decorrentes de gradientes de umidade, fertilidade, composição mineralógica, históricos e usos). Conhecendo o(s) efeito(s) do que se pretende controlar é possível ainda uma avaliação teórica sobre a possibilidade de interação entre os blocos e os tratamentos, a qual poderia inviabilizar a montagem do experimento naquela área ou ambiente. Dessa forma, é interessante que os autores informem brevemente, ao relatar a montagem em blocos, o que está sendo controlado (comumente a declividade) e não optem pela montagem em blocos pelo simples fato do experimento ser conduzido em condições de campo. Apesar disso, é importante considerar que, em alguns casos, a opção pelo DBC em experimentos à campo, mesmo sob relevo plano, pode ser justificada por questões operacionais. Nesses casos, atividades de plantio, colheita ou outras podem ser realizadas por pessoas diferentes para cada bloco ou em dias diferentes para cada bloco.

Parte expressiva dos trabalhos avaliados foram baseados em estudos por amostragem. Este tipo de estudo tem gerado conflito de opinião entre editores e revisores de revistas científicas na área de solos, pois embora haja repetições dentro de cada área ou talhão amostrado, estas áreas não são repetidas, sendo consideradas como pseudorrepetições (Ferreira et al., 2012; Lira Júnior et al., 2012). Não há sequer um consenso sobre o termo a ser empregado para definir este tipo de estudo.

Embora esta questão seja tratada apenas como um problema de pseudorrepetição (Hurlbert, 1984), o princípio básico da casualização entre tratamentos não é respeitado. Este desrespeito é o ponto crítico, uma vez que não há independência entre as repetições de cada tratamento e nem a garantia de homogeneidade prévia entre as áreas onde os tratamentos são aplicados. Dessa forma, considerando tais limitações, fica claro que esses estudos não podem ser considerados como experimentos. Para Ferreira et al. (2012), o revisor, nessas situações, deve verificar apenas se as pressuposições de normalidade e homocedasticidade foram atendidas e, em caso negativo, recomendar métodos não-paramétricos de análise estatística. Ainda segundo Ferreira et al. (2012) e Lira Júnior et al. (2012), trabalhos dessa natureza não deveriam ser rejeitados apenas por este fato, embora isto não seja consensual entre os revisores. Na área de ecologia esse tipo de estudo é também muito comum e representa cerca de 27 % dos trabalhos realizados em condições de campo (Hurlbert, 1984). É importante, no entanto, que haja uma correta descrição da estratégia de investigação destes trabalhos, sendo necessário informar claramente que se trata de um estudo por amostragem. Este tipo de estudo não possui, por princípio, delineamento experimental, mas isso não os impede de serem analisados com procedimentos estatísticos paramétricos, como análises de variância, testes de médias, regressão, etc., desde que atendam os requisitos para tal (normalidade, homocedasticidade, etc.). Vale lembrar que tais procedimentos estatísticos também são utilizados em estudos nas áreas sociais e de ecologia onde os princípios básicos da experimentação também não podem ser cumpridos (Hurlbert, 1984; Marôco, 2011).

É importante considerar ainda que, segundo os dados do presente trabalho, a maioria dos trabalhos de longa duração realizados (três anos ou mais) são estudos por amostragem. Dessa forma, e entendendo as limitações das conclusões destes trabalhos, que se restringem às áreas/talhões específicas em estudo, pode-se considerá-los como estudos de casos. Um certo volume de estudos de caso, que apontam para um mesmo fato pode, por fim, permitir conclusões mais generalizadas sobre um tema específico, tal como já é comum na área das ciências médicas (An e Coughi, 2004). De acordo com a frequência dos estudos por amostragem nas áreas de uso e manejo do solo, há uma tendência na aceitação destes trabalhos restrita às situações com clara inviabilidade técnica ou econômica de avaliação por experimentos.

Estudos de longo prazo permitem aos pesquisadores avaliar melhor os efeitos dos tratamentos sobre as variáveis resposta importantes para o estudo e sobre outras variáveis complementares, que podem ser úteis na avaliação de efeitos não esperados. A grande frequência dos estudos de curto prazo (< 12 meses), no entanto, sugere que as pesquisas na área de solos podem estar dando pouca importância aos experimentos de longa duração. Isso pode estar relacionado, provavelmente, ao maior custo destes estudos, mas também à pressão por volume de publicações sofrido por boa parte dos pesquisadores brasileiros.

A dominância dos experimentos de pequeno tamanho (< 12 tratamentos) pode estar relacionada à economia de tempo e recursos. No entanto, pode estar ligada também à compreensão da frequente melhor qualidade que estes experimentos permitem, principalmente no que se refere à melhor padronização das condições experimentais e das atividades de condução e avaliação (Vieira, 2006). Entre os artigos estudados, apenas nove mencionaram o uso de mais de oito repetições. A grande maioria (72 %) tratava de ensaios com até quatro repetições. Zimmermann (2004) argumenta que, na maior parte das vezes, o número de repetições é escolhido pelo pesquisador em função da disponibilidade financeira, do tempo requerido para as avaliações, da área ou da mão de obra disponível. O número de repetições de um experimento é extremamente importante, pois o erro experimental tende a ser inversamente proporcional ao número de repetições. Esta relação, no entanto, não é linear, havendo reduções nos erros experimentais cada vez menores na medida em que se eleva o número de repetições. Quando o pesquisador necessita reduzir a variabilidade de uma variável resposta mas sem elevar excessivamente o número de repetições, uma opção é proceder as medições ou determinações analíticas com replicatas de cada repetição verdadeira, estratégia ainda pouco explorada como evidenciado no presente trabalho.

Segundo Alvarez e Alvarez (2013) o número adequado de repetições deve permitir, no mínimo, 15 graus de liberdade para o resíduo. Segundo Pimentel-Gomes (1987), no entanto, este número mínimo seria de apenas dez. Não há uma base teórica para tal número, apenas o entendimento de que a sensibilidade dos testes estatísticos está diretamente ligada aos graus de liberdade (GL) do resíduo. Quanto maior o GL do resíduo menor tende a ser o quadrado médio do resíduo (estimativa do erro experimental) e maior será o poder dos testes estatísticos aplicados. Dessa forma, quando se apoia as conclusões sobre uma “semelhança” entre tratamentos é muito importante que o número de GL do resíduo tenha sido elevado para permitir sensibilidade aos testes, ou seja, uma menor taxa possível de erro tipo II. Entretanto, segundo Dutcosky (2013) quando as conclusões se apoiam em diferenças entre tratamentos, não necessariamente essa exigência é importante. Quando os testes estatísticos não apontam diferenças, havendo elevado número de GL para o resíduo, a inferência de que os tratamentos não diferem será aceitável. Por outro lado, quando se espera diferenças de grande magnitude entre tratamentos, um baixo GL do resíduo pode permitir sensibilidade suficiente para que os testes detectem a diferença entre os tratamentos. Portanto, um experimento pode ser montado, por limitações técnicas e, ou econômicas, com GL para o resíduo inferior a 15 e, ainda assim, ser válido do ponto de vista de suas conclusões, desde que essas se baseiem nas diferenças encontradas e não nas “semelhanças”.

A grande utilização de experimentos fatoriais na ciência do solo (Quadro 2) deve estar relacionada à necessidade de se conhecer as interações entre diversos fatores envolvidos nas respostas aos tratamentos no complexo ambiente do solo. Além disso, a estruturação de tratamentos permite com mais facilidade a descoberta de padrões de comportamento dos fenômenos, evidenciados pela ausência de interação entre os fatores em estudo. No entanto, a inclusão de muitos fatores dificulta, sobremaneira, os procedimentos de análise estatística e a visão geral dos efeitos dos tratamentos e das interações entre os fatores, sendo recomendável não incluir mais que três fatores em estudo (Vieira, 2006). Tal recomendação parece estar sendo seguida nos artigos avaliados no presente trabalho.


Procedimentos estatísticos utilizados e qualidade da escolha e uso desses procedimentos

A maioria dos artigos avaliados não apresentou resultados da ANOVA, o que pode reduzir a confiabilidade das inferências estatísticas (Quadro 4). Nesse sentido, algumas revistas têm, inclusive, exigido informações da ANOVA, especialmente os GL, valor de F calculado ou o valor p, na tentativa de aumentar a credibilidade das análises estatísticas (Volpato, 2010). Tais artifícios, no entanto, não garantem credibilidade, ainda mais quando se restringem à simples, e cada vez mais frequente, notação do tipo “(F4,22 = 0,021)”, que indica o valor p para o F correspondente à soma de quadrados dos tratamentos e os respectivos GL para tratamentos e resíduo. É simples perceber como esta notação será pouco informativa em experimentos fatoriais, por exemplo. Mais importante do que estas informações é, simplesmente, informar corretamente a estrutura e o delineamento experimental, o número de repetições e alguma estimativa do erro experimental (como o coeficiente de variação ou o quadrado médio do resíduo). Com isso, revisores e leitores podem, eventualmente, conferir as diferenças estatísticas apontadas.

Ao avaliarem a utilização de TCMs em trabalhos publicados na área de Zootecnia, Cardellino e Siewerdt (1992) observaram uma frequência expressiva de trabalhos que compararam médias marginais de um experimento fatorial sem mencionar as possíveis interações entre os fatores. Tal situação é um exemplo claro da importância de se apresentar alguns resultados da ANOVA. Segundo Bertoldo et al. (2008b), ao avaliar 226 trabalhos científicos publicados na revista Ciência Rural na área de fitotecnia, a maior parte dos erros encontrados na análise de experimentos fatoriais estava relacionada a trabalhos nos quais os autores não consideraram a interação entre os fatores, testando apenas as médias marginais. Segundo esses autores, esses resultados só serão válidos se as interações não forem significativas, pois, caso contrário, será preciso trabalhar dentro de níveis de cada fator.

A significância da interação é uma valiosa informação uma vez que permite e valida generalizações sobre o efeito dos fatores em estudo (Perecin e Cargnelutti Filho, 2008). Tais generalizações são especialmente úteis no entendimento de fenômenos e “padrões gerais”, em oposição à concepção de sempre se buscar desdobramentos que dificultam a percepção destes padrões. As generalizações são obtidas com as comparações somente entre as médias marginais. No entanto, é fácil perceber que em algumas situações, mesmo a interação sendo não significativa a 5 %, o desdobramento da interação evidencia a existência de efeitos diferenciados dos níveis do fator B para cada nível do fator A, ou vice e versa. Visando contornar este problema, o critério para se considerar a significância da interação (comumente p < 0,05) pode ser alterado para um valor maior, como 0,25, conforme sugerido por Perecin e Cargnelutti Filho (2008). Adotando este critério, o desdobramento somente não será realizado em situações com grande evidência de inexistência de interação, aumentando a confiabilidade das generalizações.

A elevada frequência de trabalhos que não mencionaram a verificação das pressuposições de homocedasticidade e normalidade é preocupante, uma vez que conclusões erradas podem ser tomadas caso essas condições não sejam atendidas. Frequentemente, as condições de independência e aditividade são previamente assumidas quando os princípios básicos da experimentação são respeitados, o que se torna crítico em estudos por amostragem. No entanto, é consensual que os testes paramétricos são válidos apenas quando os dados atendem aos pressupostos básicos de independência dos erros, aditividade dos efeitos admitidos no modelo, homocedasticidade e normalidade. De fato, não havendo o cumprimento dessas pressuposições, os testes posteriores podem, mas não necessariamente irão, apresentar resultados diferentes daqueles que seriam gerados caso os dados fossem transformados para atender a tais pressuposições ou caso os dados fossem submetidos à testes não-paramétricos. Segundo Lucena et al. (2013), em uma avaliação de trabalhos na área de odontologia, o uso de testes não paramétricos para dados cujos resíduos não seguiam a distribuição normal, mas que tinham sido analisados nos trabalhos como normais, alterou as conclusões dos artigos em 19 % dos casos.

Uma hipótese explicativa para o elevado número de trabalhos que não verificaram o atendimento à estas pressuposições é o fato de os softwares estatísticos não testarem, de modo automático, estas pressuposições ao realizarem a ANOVA (Vieira, 2006). É importante considerar também que existem diferenças entre os testes utilizados para avaliação destas pressuposições (Jarque e Bera, 1987; Lim e Loh, 1996; Santos e Ferreira, 2003). Estas diferenças, que incluem diferenças de poder, robustez e adequabilidade à estrutura experimental adotada, podem implicar em algum nível de subjetividade na escolha destes testes. Nesse contexto de incertezas ainda existentes, ferramentas gráficas para análise de pressupostos podem ser úteis e permitir decisões acertadas apesar de seu provável maior nível de subjetividade.

A não verificação do atendimento às condições para a ANOVA pode estar ligada, também, à frequência com que outliers dificultam o ajuste dos dados a estas condições. A presença de outliers não foi descrita ou testada em nenhum dos trabalhos avaliados, indicando uma clara tendência à omissão dessa informação. Segundo Barnett e Lewis (1996) é relativamente frequente a falta de critérios para detecção de outliers, o que pode levar a seleção tendenciosa de pontos discrepantes.

Apesar de haver diversos testes para detecção de outliers, é comum a recomendação de que um outlier somente deverá ser excluído quando existir uma razão conhecida para tal, ou seja, quando se possa confirmar o que causou a discrepância (Vieira, 2006; Pimentel-Gomes, 2009). Existem situações, no entanto, em que essa verificação é impraticável, sendo o uso de um teste estatístico, imparcial e rigoroso, uma ferramenta de grande utilidade prática ainda pouco explorada. Dentre os testes para outliers merece destaque a Distância de Cook (mais apropriado para dados pareados em análise de correlação), o teste de Grubbs, o teste de Dixon, o critério de Chauvenet e as derivações deste critério, com destaque para o ESD generalizado (generalized extreme Studentized deviate) (Rosner, 1983).

O critério de Chauvenet, um dos primeiros critérios desenvolvido para este fim, por vezes referido como “critério do desvio padrão padronizado máximo” (Vieira, 2006), é um critério conservador simples e com boas qualidades quando aplicado considerando os desvios padronizados calculados em relação ao quadrado médio do resíduo experimental e não do resíduo médio de cada tratamento. Suas derivações posteriores, no entanto, revisaram os valores críticos tabelados, tornando este teste ainda mais rigoroso e possibilitando a detecção de mais de um outlier em um mesmo grupo (Rosner, 1983). Este procedimento, conhecido como “generalized ESD”, embora bastante rigoroso, é considerado um dos melhores procedimentos para este fim por Walfish (2006) e Manoj e Senthamarai-Kannan (2013), podendo ser utilizado inclusive para analisar desvios em relação a modelos de regressão ajustados (Paul e Fung, 1991).

Por fim, é possível ainda que testes para identificação de outliers sejam pouco utilizados pela indisponibilidade dos mesmos nos softwares estatísticos mais populares ou pelo fato de a exclusão de outliers resultar em desbalanço dos dados. Dados desbalanceados geram diversas complicações nas análises estatísticas, em especial nos experimentos fatoriais e em delineamentos em blocos casualizados (Wechsler, 1998). Softwares estatísticos como o SISVAR e o ASSISTAT não analisam dados desbalanceados em seus procedimentos de rotina (Ferreira, 2008), o que pode induzir a substituição errônea dos dados perdidos por valores médios.

Uma parcela significativa dos trabalhos avaliados citou o software utilizado sem, no entanto, descrever corretamente os procedimentos realizados. É importante frisar que os testes estatísticos empregados é que precisam ser mencionados e não as ferramentas utilizadas para realizá-los (Volpato, 2010). Além disso, a opção frequente pelo SISVAR, SAEG ou ASSISTAT pode ser um indicativo da interface pouco amigável dos renomados SAS e R. A maioria dos aplicativos estatísticos oferecem uma ampla lista de procedimentos úteis aos usuários das mais diversas áreas do conhecimento, o que os torna carregados de opções e comandos, fazendo com que estes tenham uma interface pouco intuitiva. Nesta gama de opções, procedimentos específicos aplicáveis a algumas poucas áreas misturam-se aos procedimentos gerais e dificultam o acesso aos procedimentos clássicos mais comuns da estatística experimental (como os testes de normalidade, homocedasticidade, análise de variância, testes de comparação múltiplas, contrastes e análise de regressão). Além disso, frequentemente os procedimentos são apresentados em linguagem estatística pouco acessível à não estatísticos (como “PROC GLM” no SAS), de modo que podem resultar em uma interface complexa e pouco dedutiva para estudantes de pós-graduação (Volpato, 2010). Neste sentido, o conhecimento do perfil experimental dos trabalhos publicados na ciência do solo poderá ser útil para o desenvolvimento de aplicativos mais simples e específicos para esta área do conhecimento, contribuindo para uma interface mais amigável e uma linguagem estatística mais acessível aos usuários.

A maior frequência de utilização do teste Tukey de comparação múltipla de médias corrobora com os resultados apresentados por Santos (1998), Bezerra Neto et al. (2002) e Lucio et al. (2003). Este é um teste rigoroso, mas com menor poder (sensibilidade) que os demais TCM (Vieira, 2006). Na maioria das situações possuir maior rigor não é vantajoso, pois quanto mais conservador um teste é, menor é a sua sensibilidade ou capacidade de detectar as diferenças existentes, elevando o erro tipo II. O fato é que a utilização de um TCM pela sua popularidade e não pela adequação ao tipo de hipótese que se pretende testar pode tornar as análises simplistas ou incompletas, levando, consequentemente, à perda de informações relevantes.

A utilização dos testes Duncan e DMS de Fisher ou LSD foram responsáveis pela maioria dos casos onde os TCM foram classificados como inapropriados. Estes testes não controlam minimamente o erro tipo I real (experiment wise), como demonstrado por Carmer e Swanson (1973), Perecin e Barbosa (1988) e Sousa et al. (2012) e deveriam estar em desuso (Pimentel-Gomes, 2009). O teste Student-Newman-Keuls (SNK), embora criticado por Einot e Gabriel (1975) pela sua maior complexidade, equilibra poder elevado com boa capacidade de controle do erro tipo I real na medida em que se eleva o número de tratamentos (Carmer e Swanson, 1973; Perecin e Barbosa, 1988; Borges e Ferreira, 2003). Por estes motivos seu uso deveria ser incentivado (Perecin e Barbosa, 1988), tal como já ocorre em outras áreas do conhecimento (Curran-Everett, 2000). A popularidade do teste de agrupamento de Scott-Knott (Quadro 3) pode estar ligada à sua robustez e à não ambiguidade nos resultados gerados por este teste, o que facilita muito a interpretação dos resultados (Borges e Ferreira, 2003). Além disso, este teste possui um poder bastante superior ao SNK e ao Tukey quando o número de tratamentos a serem comparados é grande (Silva et al., 1999). No entanto, a escassez de trabalhos sobre este teste na literatura e as elevadas taxas de erro tipo I sob condição de nulidade parcial, observadas por Borges e Ferreira (2003), ainda deixam dúvidas sobre suas características.

É importante lembrar, ainda, que um poder mais elevado que os TCM e com bom controle do erro tipo I real é conseguido com o uso de contrastes ortogonais, testados com teste F ou teste t (Gill, 1973). Eles podem ser especialmente úteis em experimentos fatoriais incompletos ou quando as comparações de interesse são poucas ou envolvem mais de duas médias (Baker, 1980; Alvarez e Alvarez, 2006). Suas limitações, no entanto, envolvem o número limitado de comparações ortogonais entre médias, a dificuldade de realização manual dos cálculos uma vez que a maioria dos aplicativos não oferece suporte para testá-los. Pode-se acrescentar à estas limitações a maior dificuldade de interpretação dos resultados, o que é acentuado pela menor popularidade desse procedimento.

Uma pequena parcela de trabalhos classificados como inapropriados correspondeu a fatores de natureza quantitativa, com quatro ou mais níveis, no qual se aplicou TCM quando o mais apropriado seria comparar os dados por meio de uma análise de regressão. Este resultado contrasta com os apresentados por Cardellino e Siewerdt (1992), Santos et al. (1998), Bezerra Neto et al. (2002) e Bertoldo et al. (2008b), nos quais esta situação foi relatada como muito comum. Esta divergência sugere uma melhoria observada quanto ao uso de TCMs em experimentos com tratamentos de natureza quantitativa. Esta melhoria pode ser atribuída ao subsídio dado por esses e outros trabalhos, de mesma natureza, à discussão do uso de procedimentos estatísticos na experimentação agrícola. Neste sentido, fica evidente a importância desses trabalhos não apenas para ciências agrárias mais para outras áreas do conhecimento, uma vez que podem contribuir para uma melhoria da qualidade de escolha dos procedimentos estatísticos usados na análise de experimentos.

Uma considerável porcentagem de trabalhos (10 %) descreveu, ao apresentar as técnicas experimentais, o experimento como sendo desprovido de estrutura, embora nos resultados os dados foram comparados como se possuíssem estrutura fatorial. Tal fato compreende a situação em que o leitor é surpreendido ao descobrir nos resultados que se trata de um fatorial. Esse resultado pode estar ligado à dificuldade de compreensão plena dos pesquisadores sobre os fatores envolvidos em sua pesquisa (uni ou multifatorial), ou mesmo, do que se pretende estudar, pois a estrutura é planejada de acordo com os objetivos propostos na pesquisa.

Se por um lado houve trabalhos desprovidos de estrutura sendo analisados como fatoriais nos resultados, por outro constatou-se que dentre os trabalhos que apresentavam estrutura fatorial, uma percentagem relevante deles (7,5 %) ignorou esta estrutura. Nestes casos, os TCM perdem sensibilidade já que os GL deixam de ser desdobrados pelos níveis de cada fator em estudo. Nos trabalhos cujos tratamentos apresentavam estrutura fatorial, evidenciou-se ainda a observação pouco cuidadosa da interação entre os fatores em estudo, dado que mais de 30 % desses trabalhos realizaram o desdobramento da interação sem mesmo apresentar ou mencionar a significância da interação. Tal fato também evidencia a importância da apresentação de alguns resultados da ANOVA, como já discutido anteriormente.

As divergências entre as estruturas experimentais nominais e reais concentram-se nas situações onde a estrutura era em faixas, mas foi considerada pelos autores como fatorial simples ou como parcelas subdivididas. Segundo diversos manuais estatísticos fatores em estudo como camadas de solo, tempo ou anos sucessivos de avaliação podem ser analisados como parcelas subdivididas (Cochran e Cox, 1957; Steel et al., 1997, Banzatto e Kronka, 2008; Dias e Barros, 2009; Barbin, 2013), exemplificadas como parcelas subdivididas no tempo e no espaço. Outros autores, no entanto, enfatizam que a existência de restrições à aleatorização dos tratamentos nas subparcelas implica a necessidade de análise como em faixas (Pimentel-Gomes, 2009; Alvarez e Alvarez, 2013). Portanto, as incoerências demonstradas no Quadro 4 quanto à forma de analisar situações experimentais como estas podem estar ligadas às discordâncias sobre o tema encontradas nos principais manuais estatísticos.

Duas situações comuns na ciência do solo merecem destaque nesse sentido, os fatores cujos níveis envolvem horas, anos ou ciclos de produção sucessivos de avaliação e os fatores cujos níveis envolvem camadas, profundidades ou posições de amostragem de solo (linha e entrelinha ou perto e longe, por exemplo). Segundo Vivaldi (1999) e Alvarez e Alvarez (2013) em ambas situações os níveis não podem ser perfeitamente casualizados às subparcelas, uma vez que o primeiro ano ou ciclo sempre será precedido do segundo, o segundo do terceiro, e assim sucessivamente. No caso das camadas de amostragem de solo avaliadas a situação seria análoga, sendo a camada superficial sempre disposta, evidentemente, acima das camadas subsuperficiais. Além disso, a pressuposição de independência dos erros entre os níveis precisaria ser negligenciada nestes casos, uma vez que tempos sucessivos e camadas sucessivas estão fortemente correlacionadas e, frequentemente, são avaliadas sobre as mesmas unidades experimentais (Vieira, 2006). O problema da independência torna-se ainda mais grave, portanto, quando não há unidades experimentais independentes para os diferentes tempos ou para as diferentes camadas avaliadas. Nenhuma atenção é dada por Vivaldi (1999) e Alvarez e Alvarez (2013), no entanto, para as raras situações em que os dados são tomados ao longo do tempo ou do espaço em unidades experimentais independentes.

Segundo Vivaldi (1999) a estrutura em parcelas subdivididas somente é adequada para medidas repetidas, na mesma unidade experimental ao longo do tempo ou espaço, quando as condições de H-F (condição de não-esfericidade) são satisfeitas. Caso contrário técnicas multivariadas, de menor sensibilidade e com maior complexidade que as univariadas, deveriam ser utilizadas. Por esses motivos, a solução mais simples para esses casos é a não inclusão de tratamentos desta natureza nos experimentos, considerando os tempos sucessivos e as diferentes camadas de solo como variáveis resposta diferentes e não como níveis de um fator em estudo. A comparação entre elas ficaria restrita à estatística descritiva.

Em situações em que valores de taxas de crescimento ou pontos de máximo ou mínimo precisarem ser comparados, o que poderia justificar a inclusão do fator tempo como tratamentos, estes poderiam, simplesmente, ser obtidos para cada repetição (ao longo do tempo) e comparados como uma nova variável resposta (Vivaldi, 1999). Em alguns poucos casos, no entanto, a depender dos objetivos do pesquisador, estes níveis não poderão ser retirados da estrutura dos tratamentos. Nesses casos, uma opção melhor que o uso de parcelas subdivididas seria, segundo Alvarez e Alvarez (2013), a análise em faixas. Numa análise em faixas a sensibilidade das comparações entre os tratamentos principais é reduzida para níveis semelhantes aos que existiriam caso as variáveis fossem tratadas como variáveis resposta distintas.

As análises de regressão apresentadas nos trabalhos avaliados evidenciam a ausência de um padrão de representação da significância das equações, com pouco consenso sobre como e o que precisa ser testado para ajuste dos modelos apropriados. A análise de regressão é utilizada para diversas finalidades mas, na estatística experimental, ela envolve não apenas verificar quais modelos matemáticos se ajustam aos dados mas também envolve uma avaliação da qualidade explicativa desse ajuste (sentido teórico), da significância do modelo ajustado e da não significância da fração não explicada pela regressão (termo independente da regressão ou resíduo da regressão ou falta de ajuste da regressão) (Alvarez e Alvarez, 2003).

Reconhecidos livros textos de estatística experimental não mencionam a necessidade de se testar e indicar a significância de cada parâmetro da equação pelo teste t (Pimentel-Gomes, 1987; Zimmermann, 2004; Banzatto e Kronka, 2008; Pimentel-Gomes, 2009; Barbin, 2013). Outros autores, no entanto, defendem este procedimento (Nunes, 1998; Alvarez e Alvarez, 2003). É importante lembrar que o termo de menor grau de uma equação polinomial de segundo grau, por exemplo, ainda que tenha significância somente acima de 5 % não deve ser excluído do modelo (Pimentel-Gomes, 1987). Tal recomendação também é defendida por Alvarez e Alvarez (2003), ainda que estes autores argumentem que a significância deste termo de menor grau deva ser também indicada, mesmo quando acima de 5 %. Isso gera dúvidas sobre a real necessidade de indicar a significância de cada parâmetro da regressão, uma vez que a simples indicação da significância do modelo como um todo e a verificação da não-significância da falta de ajuste (testadas pelo teste F na ANOVA da regressão) conduzem à mesma decisão quanto à escolha do modelo.

É importante considerar ainda que, em geral, quanto menor o número de parâmetros melhor será o equilíbrio entre simplicidade e qualidade do modelo ajustado (modelo mais parcimonioso). Raramente um comportamento explicável e isolado pelas condições experimentais necessitará de modelos matemáticos complexos que envolvam mais de dois parâmetros dependentes. Apesar disso, é importante lembrar também que, com certa frequência, os fenômenos naturais não seguem modelos polinomiais (Pimentel-Gomes, 2009). A avaliação dos modelos de regressão ajustados nos trabalhos avaliados evidencia que muitos fenômenos não lineares ou não quadráticos estão sendo ignorados. Modelos exponenciais, Mitscherlich, sigmoidais, dentre outros, que são padrões relativamente simples envolvendo modelos matemáticos de apenas dois parâmetros (Pimentel-Gomes e Conagin, 1991), estão sendo pouco utilizados. A dificuldade na realização de uma ANOVA da regressão com estes modelos na maioria dos softwares pode estar contribuindo para esta situação.

Os trabalhos avaliados refletem uma generalização deficiente e, em algumas situações equivocada, no planejamento experimental e na escolha dos procedimentos de análises estatísticas. Em parte esta situação está relacionada a falta de consenso sobre o uso de alguns procedimentos. Em alguns casos, no entanto, procedimentos estatísticos de grande utilidade tem sido pouco divulgados e em outros casos os aplicativos mais conhecidos não oferecem alguns procedimentos ou os oferecem em uma interface complexa e pouco intuitiva. Além dos procedimentos estatísticos abordados neste trabalho, vários outros também demandam uma discussão mais aprofundada, como por exemplo, a questão das medidas de dispersão a serem apresentadas, a questão do uso de variáveis respostas não contínuas, dos critérios para transformação de dados, dos modelos de regressão não lineares, da adequabilidade dos diferentes testes para avaliação dos pressupostos para análise de variância, entre outras.


CONCLUSÕES

Os desenhos experimentais na área da ciência do solo são tipicamente pequenos, de curta duração e com grande frequência de estudos de casos por amostragem.



Os aspectos que mais frequentemente comprometem a qualidade dos trabalhos na ciência do solo, quanto aos procedimentos estatísticos, estão ligados à não verificação das pressuposições para a análise de variância, à omissão de resultados da análise de variância em experimentos fatoriais, à escolha dos modelos de regressão e apresentação de suas significâncias, à descrição incorreta do delineamento experimental em estudos por amostragem e ao uso incorreto dos experimentos em parcelas subdivididas.



©bemvin.org 2016
enviar mensagem

    Página principal