Perceptron de múltiplas camadas otimizado para a classificação geográfica e genotípica de quatro genótipos de café arábica



Baixar 470.99 Kb.
Página1/2
Encontro29.10.2017
Tamanho470.99 Kb.
  1   2

Perceptron de múltiplas camadas otimizado para a classificação geográfica e genotípica de quatro genótipos de café arábica


Optimized Multilayer perceptron for the geographical and genotypic classification of four genotypes of arabica coffee
Resumo. As condições climáticas específicas de cada região de cultivo do café fornecem atributos especiais para a bebida e podem assim aumentar seu valor agregado. No entanto, é essencial provar a origem geográfica e genotípica do cultivar por meio de métodos confiáveis. Vários métodos estatísticos foram desenvolvidos na tentativa de reproduzir a capacidade humana de reconhecimento de padrões. Os perceptrons de múltiplas camadas (MLP) são um tipo de rede neural artificial (RNA) com aprendizagem supervisionada que são muito utilizados para classificação de padrões. Este estudo objetivou o desenvolvimento de uma RNA para a classificação geográfica e genotípica de café arábica. Para esse fim os espectros obtidos no equipamento de espectroscopia no infravermelho com transformada de Fourier (FTIR) foram analisados através do emprego de MLPs otimizados através do simplex sequencial. As redes que utilizaram a faixa de 1900-800 cm-1 do espectro FTIR obtiveram menor erro quadrado médio e maior porcentagem de classificação correta para a segmentação das amostras de café arábica tanto por região de cultivo (100%) quanto por genótipo (77,78%). Os MLPs otimizados foram capazes de classificar geograficamente as amostras de café arábica. Entretanto, para a classificação genotípica o desempenho não foi totalmente satisfatório. Além disso, o MLP desenvolvido para classificação genotípica apresenta um número muito elevado de pesos sinápticos, não proporcionando número suficiente de graus de liberdade para que a rede neural possa aprender de maneira confiável. Portanto, para melhorar o desempenho da classificação genotípica, os autores sugerem a utilização de outro tipo de RNA e informações do infravermelho próximo.
Abstract. The climatic conditions of the coffee crop give special attributes to the beverage and could increase its value. However, it is essential to prove the geographical and genotype origin of the cultivar using reliable methods. Several statistical methods have been developed in an attempt to reproduce the human capability of pattern recognition. The multilayer perceptron (MLP) is an artificial neural network (ANN) with supervised learning that is widely used for pattern classification. This study aimed to develop a MLP to classify the geographic origin and the genotypic of the arabica coffee. For this purpose, spectra obtained in the Fourier transform infrared (FTIR) were analyzed using MLPs optimized by sequential simplex. The networks that used the range 1900-800 cm-1 of the raw spectrum had lower mean squared error (MSE) and a higher percentage of correct classification for geographical (100%) and genotypic (77,74%) segmentation. After the results it was concluded that the optimized multilayer perceptrons were able to classify the samples of arabica coffee geographically. However, for genotypic classification the performance was not satisfactory. Also, the MLP developed for genotypic classification has a high number of synaptic weights, thus a large degrees of freedom database is necessary to produce a network with generalization capability. Therefore, to improve the genotype classification performance the authors suggest the use of other type of ANN and information from the near infrared.
Palavras-chave: café verde, espectro infravermelho, perceptron de múltiplas camadas, redes neurais artificiais

Keywords: green coffee, infrared spectrum, multilayer perceptron, artificial neural networks

1. Introdução


O reconhecimento de padrões é um processo pelo qual um sinal recebido é atribuído a uma classe dentre um número predeterminado de categorias. Os seres humanos possuem excelência nata para a aprendizagem e reconhecimento de padrões. Nesse sentido, os métodos estatístico-matemáticos têm sido desenvolvidos na tentativa de mimetizar, mesmo de maneira rudimentar, tal aptidão humana (BISHOP, 1995; HAYKIN, 2001). As redes neurais artificiais (RNAs) são um conjunto de técnicas baseadas em princípios estatísticos, que vem crescentemente ganhando espaço para realizar tarefas de regressão e reconhecimento de padrões. As RNAs são extremamente versáteis para realizar o mapeamento de relações complexas e não-lineares entre múltiplas variáveis de entrada e saída (BISHOP, 1995). Originalmente as RNAs foram projetadas para ser um esquema, tão preciso quanto possível, do modelo da atividade do cérebro humano. O córtex cerebral é capaz de armazenar padrões de comportamento, mesmo em presença de dados ruidosos, tornando-o mais poderoso do que qualquer computador existente (MARINI, 2009). Para alcançarem bom desempenho, as redes neurais empregam uma interligação maciça de células computacionais simples denominadas neurônios. Ela se assemelha ao cérebro em dois aspectos principais; o primeiro é que o conhecimento é adquirido pela rede a partir de seu ambiente através de um processo de aprendizagem. O segundo aspecto que assemelha as RNAs com o cérebro são as forças de conexão entre os neurônios, conhecidas como pesos sinápticos, as quais armazenam o conhecimento e servem para ponderar a entrada recebida de cada neurônio. Tal estrutura conduz a uma capacidade de generalização, ou seja, uma RNA pode produzir saídas adequadas para entradas que não estavam presentes durante o treinamento. Esses atributos tornam possível a aplicação das RNAs em problemas complexos. Os perceptrons de múltiplas camadas (MLP) são um tipo de rede neural artificial (RNA) com aprendizagem supervisionada que são muito utilizados para classificação de padrões (HAYKIN, 2001; LUCIA e MINIM, 2006).

A importância do café na economia mundial é indiscutível, é um dos mais valiosos produtos primários comercializados no mundo. Existem cerca de 72 países produtores do grão no mundo, essa multiplicidade de produtores, deve-se à extensa faixa apta à produção do cafeeiro, graças à sua versatilidade. Os principais países produtores concentram-se na América do Sul (Brasil e Colômbia), América Central e Ásia (Vietnã) (SINDICAFÉ, 2011). O consumo brasileiro de café aumenta a cada ano, no período entre maio de 2011 e abril de 2012 foi registrado o consumo de 19,975 milhões de sacas, representando um acréscimo de 3,05% em relação ao período anterior correspondente (ABIC, 2012). Além do mercado interno, as exportações de café verde do Brasil somaram 116,63 mil toneladas em março de 2012, baixa de 19,2% em relação ao mesmo mês de 2011 (CECAFÉ, 2012).

O café tem procedência de uma árvore do gênero Coffea e pertence à família das rubiáceas englobando mais de 500 gêneros e 6.000 espécies. Dentro do gênero Coffea existem duas espécies principais, o Coffea arabica variedade Arábica e o Coffea canephora variedade Robusta (RUBAYIZA e MEURENS, 2005). As espécies Coffea arabica e Coffea canephora (robusta) apresentam uma composição química muito distinta e o café arábica fornece um bebida com qualidade e aroma superior ao café robusta (FARAH, 2009). A mistura de grãos de alto valor com outros de menor valor comercial e adição de substitutos são formas de adulteração em cafés (BRIANDET et al., 1996). Além disso, o Brasil apresenta diversidade de clima e solo, assim os mais variados tipos de cafés podem ser produzidos. Essas condições climáticas conferem atributos especiais para a bebida do café (corpo, acidez e sabor). Quando a qualidade do produto pode ser atribuída ao seu local de produção, ocorre um aumento do valor agregado do café. No entanto, neste processo, devem haver mecanismos confiáveis que comprovem a origem geográfica e genotípica do café (BORSATO et al., 2011). Assim, torna-se imperativo a utilização de técnicas analíticas rápidas e de baixo custo que permitam a diferenciação e certificação da composição e qualidade dos cafés comercializados. Uma metodologia que reúne tais atributos é a espectroscopia com transformada de Fourier na região do infravermelho médio (FTIR). O FTIR permite a detecção dos componentes de maior importância na caracterização de alimentos, sendo uma metodologia que origina rapidamente uma informação sumária sobre o produto (30s/amostra). Outra vantagem reside no fato do preparo da amostra, geralmente, não requerer a extração com solventes diminuindo assim o tempo de análise e o impacto ambiental (KAROUI et al., 2010). Ressalta-se ainda que o FTIR já foi utilizado com sucesso para autenticar misturas de cafés arábica e robusta ou adição de adulterantes (KEMSLEY et al., 1995; BRIANDET et al., 1996; DOWNEY et al., 1997; WANG et al., 2009; WANG et al., 2011).

Este estudo objetivou o desenvolvimento de uma rede neural artificial para a classificação geográfica e genotípica de café arábica. Para esse fim os espectros obtidos no FTIR foram analisados através do emprego de perceptrons de múltiplas camadas otimizados através do simplex sequencial.



2. Materiais e Métodos

2.1. Amostras de café arábica


Foram utilizados 4 genótipos de café arábica catalogados pelo Instituto Agronômico do Paraná - Londrina (IAPAR) da safra de 2010. No IAPAR, as amostras foram imediatamente colocadas em caixas de madeira com uma malha de fundo e movidas oito vezes por dia até que a umidade dos grãos chegou a 11-12% e logo após as amostras foram beneficiadas (remoção da casca e pergaminho) (BRASIL, 2011). Os grãos verdes, moídos, peneirados e embalados dos genótipos de café arábica fornecidos pelo IAPAR, foram recebidos e armazenados em um freezer a -18ºC e utilizados posteriormente para análise. Foram utilizados cafés cultivados em 4 diferentes regiões (Cornélio Procópio, Paranavaí, Mandaguari e Londrina) totalizando 18 amostras (Tabela 1).
Tabela 1 - Genótipos de café arábica utilizados.

Genótipo

Local

Total Amostras

IPR 99

Cornélio Procópio

1

Paranavaí

Mandaguari

Londrina


1

1

1



IPR 105

Cornélio Procópio

1

Paranavaí

Mandaguari

Londrina


1

1

1



IPR 106

Cornélio Procópio

1

Paranavaí

Mandaguari

Londrina


1

1

1



IA 59

Cornélio Procópio

2

Paranavaí

Mandaguari

Londrina


2

1

1





2.2. Espectroscopia de infravermelho com transformada de Fourier (FTIR)


Para preparar as pastilhas foram adicionados em torno de 100 mg de KBr seco (padrão cromatográfico) e aproximadamente 1 mg de amostra finamente moída. A mistura foi, então, prensada em uma prensa hidráulica (Bovenau, P15 ST) usando um molde (ICL, ICL’s Macro/Micro KBr die) empregando aproximadamente 360 kgf/cm2 de pressão. Produziu-se, assim, uma pastilha transparente. Antes da análise de cada amostra, o FTIR (Shimadzu, FTIR - 8300) foi programado para realizar um espectro de background do ar, sendo o mesmo utilizado para descontar a influência dos componentes do ar no espectro. Na sequência, a pastilha foi posicionada no feixe do instrumento e os espectros foram obtidos na faixa de 4000 a 400 cm-1. Foram usadas 32 varreduras acumuladas para formar o espectro final e realizadas 5 repetições (pastilhas) para cada amostra, totalizando assim 90 espectros. Foram utilizados 72 desses espectros (80%) como amostras de treinamento das redes neurais artificiais empregadas e 18 espectros (20%) como amostras de teste (uma repetição de cada um dos cafés estudados).


2.3. Pré-processamento


Após obtenção dos espectros foi realizado um pré-processamento que consistiu de várias etapas. Primeiramente, foi realizada a normalização do espectro (a maior banda obteve absorbância 1 e a menor 0), correção da linha de base, a suavização do espectro (17 smooting points) e uma remoção da banda referente a concentração de CO2, desprezando assim as variações de CO2 entre as amostras. Para a ACP e a RNA foi considerado o uso da região entre 3750 e 750 cm-1 do espectro desconsiderando ruídos que se apresentavam além desta região. Também foi avaliada a região entre 1900 e 800 cm-1 do espectro pois a mesma contem as bandas de absorção devidas a deformação axial simétrica da carbonila (ésteres, aldeídos e cetonas), deformação angular simétrica do metileno, deformações axiais e angulares simétricas do C-O (ésteres e alcoóis). Portanto, essa região contem a informação de fingerprint para discriminação de diferentes amostras de cafés (BRIANDET et al., 1996; LYMAN et al., 2003; WANG et al., 2009; WANG et al., 2011).

Após estes pré-processamentos foi utilizada a análise de componentes principais (ACP) para a redução da dimensionalidade dos dados (SÁ, 2007). A ACP foi realizada nos dados normalizados assim como na 1ª e 2ª derivada dos espectros. A quantidade de componentes principais empregadas foi um dos parâmetros otimizados através do simplex sequencial.



2.4. Normalização


Os vetores de entrada (as componentes principais escolhidas) foram pré-processados antes de serem alimentados na rede neural para que as funções de ativação dos neurônios artificiais não sejam facilmente saturadas ou ocorra um erro de overflow (HAYKIN, 2001). Os métodos de pré-processamento utilizados foram: máximo e mínimo (minimax), transformação para uma escala entre -1 e 1; autoescalonamento, vetor de entrada com média zero e variância unitária (PÉREZ-MAGARIÑO et al., 2004).

2.5. Perceptron de múltiplas camadas (MLP)


Foi empregada uma rede neural artificial do tipo Perceptron de Múltiplas Camadas (MLP - Multi Layer Perceptron) que é muito utilizada para classificação de padrões (BONA et al., 2011; BORSATO et al., 2011; GALÃO et al., 2011). A arquitetura desta rede é constituída por uma camada de entrada com n neurônios (um para cada componente principal utilizada), uma camada oculta (responsável pela separação dos padrões através da formação de fronteiras de decisão) contendo uma quantidade de neurônios a ser definida e uma camada de saída com 4 neurônios, um para cada região ou genótipo de café, que constrói combinações lineares das fronteiras de decisão formadas pelos neurônios ocultos. Assim, o vetor de resposta desejada apresenta dimensão igual a 4, para uma amostra pertencente a classe k o k-ésimo valor é igual a 1 e todos os outros são zerados. A Figura 1 apresenta um esquema representativo de um perceptron de múltiplas camadas (HAYKIN, 2001).

Figura 1 - Representação de um perceptron de múltiplas camadas (MLP).



Para cada conexão entre os neurônios (Figura 1) existe um peso associado, sendo o índice do neurônio de entrada do sinal, o neurônio de saída do sinal e a camada onde está localizado o neurônio de entrada. Em cada um dos NI neurônios das L camadas da rede MLP é realizado um somatório ponderado pelos pesos sinápticos dos sinais provenientes dos neurônios da camada anterior. Esta soma, chamada de campo local induzido (1), é aplicada a uma função de ativação não linear (2) que irá produzir a saída do neurônio (HAYKIN, 2001).
(1)
(2)

Nas equações (1) e (2) é o campo local induzido do neurônio na camada , é o peso sináptico associado ao sinal de saída do neurônio da camada anterior , é o número de entradas associadas ao neurônio . Para , temos e é chamado de termo de polarização, ou bias, que tem o efeito de aumentar ou diminuir a entrada líquida da função de ativação, dependendo se ele é positivo ou negativo. Para a rede MLP desenvolvida foram testadas para a camada oculta de neurônios artificiais as funções do tipo logística e tangente hiperbólica sigmoide que são definidas, respectivamente, por,
(3)
(4)
Para a função logística (3) o símbolo representa a inclinação e pode ser considerado como um parâmetro a ser otimizado pelo projetista da rede, embora em muitos casos é utillizado um valor unitário para este parâmetro (HUANG et al., 2007). Para a camada de saída além destas também a função de ativação linear foi testada (HAYKIN, 2001).

Uma rede neural extrai seu poder computacional através de sua habilidade de aprender e, portanto de generalizar. A generalização se refere ao fato de a rede neural produzir saídas adequadas para entradas que não estavam presentes durante o treinamento (aprendizagem). O processo utilizado para realizar o processo de aprendizagem é chamado de algoritmo de aprendizagem, cuja função é modificar os pesos sinápticos da rede de uma forma ordenada para alcançar um objetivo de projeto desejado (HAYKIN, 2001; LUCIA e MINIM, 2006). Para a rede neural artificial construída foi utilizado o algoritmo de Levenberg-Marquardt. De maneira geral, o algoritmo propõe uma solução de compromisso entre o algoritmo do gradiente descendente (retropropagação) e o método de Gauss-Newton, que utiliza uma expansão da série de Taylor para aproximar o modelo de regressão não linear com termos lineares e, então, aplica mínimos quadrados para estimar os parâmetros. No algoritmo de Levenberg-Marquardt existe um parâmetro que regula o tamanho do passo das correções de peso. Para valores muito pequenos desse parâmetro a regra da atualização de pesos leva em consideração o método Gauss-Newton, mas para valores grandes a regra da atualização de pesos leva em consideração o gradiente descendente (BISHOP, 1995).



O processo de aprendizagem é mantido até os pesos sinápticos e os níveis de bias se estabilizarem e o erro quadrado médio (equação 5) convergir para um valor mínimo (HAYKIN, 2001).

Na equação (5), N é igual ao tamanho do conjunto de treinamento e C igual ao número de neurônios na camada de saída. Tendo como objetivo uma boa generalização, foi utilizado o método de treinamento com parada antecipada para evitar que a rede acabe sendo excessivamente ajustada aos dados de treinamento. É possível identificar o início do excesso de treinamento através do uso de amostras de validação (11 amostras ou 15% das amostras de treinamento), onde além dos dados de treinamento é usado um segundo conjunto de dados que após cada época (uma apresentação completa do conjunto de treinamento) é submetido à rede para verificar a capacidade de generalização desta com dados não utilizados para o ajuste de pesos. Normalmente, o modelo não funciona tão bem sobre o conjunto de validação quanto sobre o de treinamento, em relação ao qual foi baseado. A curva de aprendizagem, ou curva do erro quadrado médio, decresce monotonamente para um número crescente de épocas. Diferentemente, para as amostras de validação, a curva do erro quadrado médio decresce para um mínimo e então começa a crescer conforme o treinamento continua, ou seja, o que a rede aprende após este ponto é essencialmente o ruído contido nos dados de treinamento. Esta heurística sugere que o ponto mínimo na curva de aprendizagem de validação seja usado como critério de parada da sessão de treinamento da rede (HAYKIN, 2001).

2.6. Média de ensemble


Um modo de melhorar a capacidade de generalização de uma rede neural é a combinação das respostas de várias RNAs, também chamada de máquinas de comitê, as quais foram treinadas de maneira semelhante de modo que o resultado final é a fusão das respostas de várias redes e é superior àquele alcançável apenas por uma única RNA. Um dos métodos de implementar o comitê de máquinas é a média de ensemble, que consiste em combinar linearmente as respostas de um certo número de redes treinadas através de uma média. O uso de um ensemble diminui o erro final devido a bias, pois há um ajuste excessivo proposital de cada rede e também devido a variância pelo uso de diferentes condições iniciais de treinamento de cada rede (HAYKIN, 2001). Neste trabalho foi utilizada uma média de ensemble com 50 redes, sendo que para cada rede um novo conjunto de pesos iniciais e de exemplos de treinamento era gerado aleatoriamente.

2.7. Otimização dos parâmetros da rede


Antes da escolha da melhor rede neural para o problema proposto, alguns parâmetros foram otimizados através do simplex sequencial (Tabela 2). A otimização foi realizada visando minimizar o erro quadrado médio para o conjunto de amostras utilizadas para teste (BONA et al., 2011). O princípio do simplex básico foi deslocar uma figura regular, por exemplo um triângulo equilátero sobre uma superfície, quando duas variáveis estavam sendo consideradas (SPLENDLEY et al., 1962). Os parâmetros escolhidos para a otimização foram:
Tabela 2 - Parâmetros otimizados através do simplex sequencial.

Rede

Parâmetros

Variação

Perceptron de Múltiplas Camadas

Quantidade de neurônios na camada oculta

5 a 15

Função de pré-processamento das entradas

Minimax ou Autoescalonamento

Função de ativação utilizada na camada oculta

Logística ou Tangente hiperbólica sigmoide

Função de ativação utilizada na camada de saída

Logística, Tangente hiperbólica sigmoide e Linear

Quantidade de variáveis independentes

5 a 20

O algoritmo utilizado nesse trabalho está descrito em maiores detalhes em Gao e Han (2010) e no APÊNDICE 2. A otimização segue até que o valor do erro quadrado médio varie apenas dentro da tolerância estabelecida que foi de 0,001 ou pela avaliação gráfica que tem por finalidade auxiliar na visualização da otimização, que está representada como uma suavização na variação das respostas e variáveis independentes.




2.8. Implementação computacional


Todos os pré-processamentos dos espectros foram realizados no software IRsolution 1.5 (Shimadzu Corporation, Kyoto, Japão) que acompanha o equipamento. As análises matemáticas e/ou estatísticas, assim como a ACP, as redes neurais artificiais e o simplex sequencial foram realizadas no software MATLAB R2007b (The MathWorks Inc., Natick, USA).


Catálogo: files old -> files -> journals
journals -> AvaliaçÃo das características físico-químicas da cachaça industrial e artesanal comercializadas no centro norte paranaense
journals -> AvaliaçÃo das características físico-químicas da cachaça industrial e artesanal comercializadas no centro norte paranaense
journals -> Apis mellifera do nordeste brasileiro em funçÃo do tempo de armazenamento em entreposto para exportaçÃo resumo
journals -> ANÁlise físico-química de leite cru do município de nanuque – mg nery, A. M.;* Moura Jr., M. R; Locatelli, G.; Vilas Boas, L. A.; Moura Martins, D. P. Resumo
journals -> Evolution of acidity of milk in different methods of conservation
journals -> Conservação de salsichas utilizando biofilme de quitosana Conservation of sausages utilizing chitosan biofilm Resumo
journals -> Escherichia coli Microbiological analysis of milk unfermented kefir produced with milk contaminated by
journals -> Conservação de salsichas utilizando biofilme de quitosana Conservation of sausages utilizing chitosan biofilm Resumo
journals -> Perceptron de múltiplas camadas otimizado para a classificação geográfica de quatro genótipos de café arábica
journals -> Atualidades sobre a química e a utilização do urucum

Baixar 470.99 Kb.

Compartilhe com seus amigos:
  1   2




©bemvin.org 2020
enviar mensagem

    Página principal
Prefeitura municipal
santa catarina
Universidade federal
prefeitura municipal
pregão presencial
universidade federal
outras providências
processo seletivo
catarina prefeitura
minas gerais
secretaria municipal
CÂmara municipal
ensino fundamental
ensino médio
concurso público
catarina município
Dispõe sobre
reunião ordinária
Serviço público
câmara municipal
público federal
Processo seletivo
processo licitatório
educaçÃo universidade
seletivo simplificado
Secretaria municipal
sessão ordinária
ensino superior
Relatório técnico
Universidade estadual
Conselho municipal
técnico científico
direitos humanos
científico período
espírito santo
pregão eletrônico
Curriculum vitae
Sequência didática
Quarta feira
prefeito municipal
distrito federal
conselho municipal
língua portuguesa
nossa senhora
educaçÃo secretaria
segunda feira
Pregão presencial
recursos humanos
Terça feira
educaçÃO ciência
agricultura familiar