Using syntactic methods and LSTM to the recognition of ......Using syntactic methods and LSTM to the recognition of objects visual patterns Gilberto Astolﬁ1,2, Vanessa Aparecida

Using syntactic methods and LSTM to therecognition of objects visual patterns

Gilberto Astolfi1,2, Vanessa Aparecida de Moares Weber3, Adair da Silva Oliveira Junior1,Geazy Vilharva Menezes1, Nícolas Alessandro de Souza Belete3, Everton Castelão Tetila3, Hemerson Pistori1,3

1College of Computing, Federal University of Mato Grosso do Sul (UFMS)2Federal Institute of Education, Science and Technology of Mato Grosso do Sul (IFMS)

3Dom Bosco Catholic University (UCDB)[email protected]

Resumo—In this paper, we have designed a new approach torepresent and recognize objects visual patterns using syntacticmethods. We capture relevant information from an object andassociate them with symbols of an alphabet. After that, we derivea string from the object and input it to LSTM. The idea is to trainLSTM with objects visual patterns encapsulated in the strings.We conducted an experiment using soybean crops aerial imagescaptured by an Unmanned Aerial Vehicle (UAV), and we reachedan average F-measure of 91%.

Index Terms—Aerial images, precision crop protection, un-manned aerial vehicle (UAV), syntactic methods, LSTM.

I. INTRODUÇÃO

Os métodos sintáticos são derivados das disciplinas delinguagens formais para reconhecimento de padrões visuais.Eles foram muito explorados em visão computacional na áreade reconhecimento de padrões estruturais na década de setenta[1]. O uso de técnicas derivadas das linguagens formais é umcampo clássico da visão computacional que pode ser traçadodesde o início dos anos sessenta com tentativas de usar lin-guagens de cadeias de caracteres lineares para descrever ima-gens [2]. Recentemente, essas técnicas têm sido amplamenteutilizadas em abordagens híbridas para representar relaçõeshierárquicas de alto nível em imagens, como por exemplo,tarefas de compreensão de cenas [3], de reconhecimento deações sequenciais [4] e análise de estruturas urbanas [5].

A principal questão na exploração de métodos sintáticosem visão computacional é representar os padrões visuais deimagens. Desde o início dos anos sessenta muitas abordagensforam propostas, especialmente após os anos dois mil [6],[7]. Nesse sentido, [8] propõem uma abordagem que combinadetecção de pontos de interesse e inferência gramatical. Nestetrabalho eles representam uma imagem como uma cadeia decaracteres e inferem gramáticas para cada classe de objetosa partir dessas cadeias. Adicionalmente, [9] introduz umaabordagem baseada em métodos sintáticos para representarações e poses de pessoas. Neste, a imagem é dividida emretângulos com tamanhos e aspectos diferentes, organizadoscomo primitivas em um grafo And-Or. Também usando grafosAnd-Or, [10] propõem um método para representar relaciona-mentos de contextos visuais de objetos. Ainda, [11] apresentou

Agradeçemos a Capes, CNPq e FUNDECT pelo apoio financeiro. ANVIDIA Corporation pela doação da GPU TITAN XP usada por esta pesquisa.

um modelo híbrido baseado em reconhecimento estrutural depadrões e SVM que permite que pessoas sejam detectadas emimagens. Finalmente, [12] usaram bag-of-visual-words paratarefas de compreensão de imagem.

Neste trabalho, propomos uma abordagem híbrida, onde,primeiramente representamos os padrões visuais de objetosusando métodos sintáticos a fim de mapear um padrão visualde um objeto para uma cadeia de caracteres. Posteriormente,usamos uma Long Short-Term Memory (LSTM) para aprenderos padrões visuais dos objetos encapsulados nas cadeias decaracteres. Experimentamos nossa abordagem usando imagensaéreas de lavouras de soja capturadas por um Veículo AéreoNão Tripulado (VANT). O objetivo foi detectar problemas nalavoura da soja, como ervas daninhas e indícios de doenças.Comparamos nossa abordagem com quatro algoritmos rasosde aprendizagem de máquina e duas arquiteturas de redeneural profunda. Nossa abordagem apresentou resultados pro-missores, atingindo uma Medida-F média de 91%. A principalcontribuição deste trabalho é mostrar a possibilidade de tratarpadrões visuais de objetos de maneira sintática usando cadeiasde caracteres, transformando o problema de reconhecimento depadrões em objetos, normalmente realizado por similaridadeentre vetores de características ou tensores, em um problemade reconhecimento de padrões em cadeias de caracteres.

II. FUNDAMENTAÇÃO TEÓRICA

A. Reconhecimento sintático de padrões

A abordagem sintática de representação de padrões lida comos padrões sob uma perspectiva hierárquica e composicional.Um dado padrão complexo é composto por subpadrões maissimples, os quais são compostos por outros mais simples. Nonível mais baixo dessa composicionalidade estão os padrõesnão divisíveis, que são chamados de primitivas [13]. Normal-mente as primitivas são usadas para representar contornos,linhas ou texturas. Por outro lado, os padrões/subpadrões sãousados para representar estruturas que dão forma a padrõesvisuais percebíveis. Esse modelo hierárquico e composicionalde representação de padrões permite que primitivas e subpa-drões sejam repetidos em diferentes padrões visuais, dando apossibilidade de representar vários padrões visuais a partir deum conjunto finito de dados. Além disso, ele provém uma des-crição de como o padrão visual foi gerado. Em analogia a uma

Using syntactic methods and LSTM to the recognition of ......Using syntactic methods and LSTM to the recognition of objects visual patterns Gilberto Astolﬁ1,2, Vanessa Aparecida

Documents