MINISTÉRIODADEFESA EXÉRCITOBRASILEIRO ... · e visa permitir maior interoperabilidade entre máquinas e humanos (SOUZA; ALVA- RENGA, 2004). Em 2001, seu idealizador Tim Berners-Lee,

MINISTÉRIO DA DEFESAEXÉRCITO BRASILEIRO

DEPARTAMENTO DE CIÊNCIA E TECNOLOGIAINSTITUTO MILITAR DE ENGENHARIA

CURSO DE GRADUAÇÃO EM ENGENHARIA DE COMPUTAÇÃO

1o Ten AMON RHANIERY BRITO MACHADO1o Ten LUCAS CAWAI JULIÃO PEREIRANATÁLIA FERREIRA GODOT SOUZA

ADAPTAÇÃO DE FERRAMENTA DE RECONHECIMENTO EEXTRAÇÃO DE ENTIDADES EM TEXTOS PARA A WEB SEMÂNTICA

BRASILEIRA

Rio de Janeiro2019

INSTITUTO MILITAR DE ENGENHARIA

1o Ten AMON RHANIERY BRITO MACHADO1o Ten LUCAS CAWAI JULIÃO PEREIRANATÁLIA FERREIRA GODOT SOUZA

ADAPTAÇÃO DE FERRAMENTA DE RECONHECIMENTOE EXTRAÇÃO DE ENTIDADES EM TEXTOS PARA A WEB

SEMÂNTICA BRASILEIRA

Projeto de Fim de Curso apresentado ao Curso de Graduação emEngenharia de Computação do Instituto Militar de Engenharia,como requisito parcial para a obtenção do título de Engenheiro deComputação.

Orientadora: Profa. Maria Claudia Reis Cavalcanti - D.Sc.Co-Orientador: Diego Campos Moussallem - D.Sc.Co-Orientadora: CF Kelli de Faria Cordeiro - D.Sc.

Rio de Janeiro2019

c2019

INSTITUTO MILITAR DE ENGENHARIAPraça General Tibúrcio, 80 - Praia VermelhaRio de Janeiro - RJ CEP 22290-270

Este exemplar é de propriedade do Instituto Militar de Engenharia, que poderá incluí-loem base de dados, armazenar em computador, microfilmar ou adotar qualquer forma dearquivamento.

É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecasdeste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha aser fixado, para pesquisa acadêmica, comentários e citações, desde que sem finalidadecomercial e que seja feita a referência bibliográfica completa.

Os conceitos expressos neste trabalho são de responsabilidade do(s) autor(es) e do(s)orientador(es).

Machado, Amon Rhaniery BritoAdaptação de Ferramenta de Reconhecimento e Ex-

tração de Entidades em Textos para a Web Semân-tica Brasileira / Amon Rhaniery Brito Machado, Lu-cas Cawai Julião Pereira, Natália Ferreira Godot Souza,orientado por Maria Claudia Reis Cavalcanti , DiegoCampos Moussallem e Kelli de Faria Cordeiro - Rio deJaneiro: Instituto Militar de Engenharia, 2019.

58p.: il.

Projeto de Fim de Curso (graduação) - InstitutoMilitar de Engenharia, Rio de Janeiro, 2019.

1. Curso de Graduação em Engenharia de Compu-tação - projeto de fim de curso. 1. Processamento deLinguagem Natural. 2. Reconhecimento de EntidadeNomeada. 3. Extração de Informação. 4. Web Semân-tica. I. Cavalcanti, Maria Claudia Reis . II. Mous-sallem, Diego Campos. III. Cordeiro, Kelli de Faria .IV. Título. V. Instituto Militar de Engenharia.

1

2

A todos que nos ajudaram nessa trajetória e permitiram que cons-truíssemos nosso futuro.

3

AGRADECIMENTOS

Agradeço a todas as pessoas que nos incentivaram, apoiaram e possibilitaram esta

oportunidade de ampliar nossos horizontes.

Nossos familiares e mestres, especialmente aos nossos orientadores pelo tempo e de-

dicação empregados em auxiliar na confecção desse trabalho.

Em especial, gostaria de reconhecer todo o esforço e dedicação do grande amigo Amon.

É de notável importância o companheirismo e motivação que ele foi capaz de nos dar du-

rante todo o processo de construção desse trabalho. Foi um enorme prazer ter estado esse

trabalho todo com você. E além, do meu grupo de amigos imaculados, Samuel, Gabi e

Octavio, por todo o apoio psicológico e moral até o presente momento. Teria sido muito

mais difícil sem vocês.

4

“Quanto mais aumenta nosso conhecimento, mais evidente fica nossa

ignorância. ”

JOHN F. KENNEDY

5

SUMÁRIO

LISTA DE ILUSTRAÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

LISTA DE SIGLAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.3 Proposta de solução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.4 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.5 Estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 CONTEXTUALIZAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.1 Web Semântica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2 Processamento de Linguagem Natural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.1 Reconhecimento de Entidades Nomeadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 FERRAMENTAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1 NER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1.1 OpenNLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1.2 Stanford CoreNLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1.3 DBPedia Spotlight . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.1.4 Federated Knowledge Extraction Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2 Benchmarking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.2.1 Gerbil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.3 Análise de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3.1 Pentaho Data Integration - PDI vs Python Jupyter . . . . . . . . . . . . . . . . . . . . . . 30

3.3.2 Tableau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4 CONJUNTOS DE REFERÊNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.1 BENGAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.2 HAREM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.3 SUMM-IT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6

5 DESENVOLVIMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.1 Pré treino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.2 Treinamento da rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.3 Conversão de arquivos NIF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.4 Rede treinada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.5 Desenvolvimento da visualização dos experimentos . . . . . . . . . . . . . . . . . . . . . . . 44

6 RESULTADOS E DISCUSSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

7 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

8 REFERÊNCIAS BIBLIOGRÁFICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

9 APÊNDICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

9.1 APÊNDICE 1: Resultados das avaliações com a ferramenta GERBIL . . . . . . 57

7

LISTA DE ILUSTRAÇÕES

FIG.1.1 Solução proposta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

FIG.1.2 Pipeline de execução da solução proposta. . . . . . . . . . . . . . . . . . . . . . . . . . . 16

FIG.2.1 Exemplo de tripla RDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

FIG.2.2 Nuvem da Linked Open Data. Fonte: (MCCRAE, 2019) . . . . . . . . . . . . . . 21

FIG.2.3 Tabela de rotulação usando codificação IOB e IO. Fonte: (JU-

RAFSKY; MARTIN, 2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

FIG.3.1 Arquitetura do sistema Stanford CoreNLP. Fonte: (MANNING

et al., 2014) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

FIG.3.2 Visão geral da ferramenta FOX. Fonte: (SPECK; NGOMO, 2014) . . . . . 27

FIG.3.3 Interface da ferramenta FOX ao realizar a tarefa de reconhecimento

de entidades nomeadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

FIG.3.4 Organização da ferramenta GERBIL. Fonte: (USBECK, 2015). . . . . . . . . 29

FIG.3.5 A interface da ferramenta GERBIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

FIG.3.6 Interface da Tableau em planilha, com conjunto de métricas . . . . . . . . . . . 32

FIG.3.7 Interface da Tableau em planilha, com datasets selecionados . . . . . . . . . . 32

FIG.4.1 Visão geral da abordagem do BENGAL. Fonte: (NGOMO et al.,

2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

FIG.4.2 Quantidade de entidades nomeadas por categorias do Primeiro e

Segundo HAREM. Fonte: (DO AMARAL et al., 2014) . . . . . . . . . . . . . . 35

FIG.5.1 Interface do ambiente de desenvolvimento das visualizações . . . . . . . . . . . 45

FIG.5.2 Esquema estrela simplificado da saída dos experimentos da GER-

BIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

FIG.5.3 Interface do ambiente de desenvolvimento das visualizações . . . . . . . . . . . 46

FIG.6.1 Comparação entre as ferramentas de NER com diversos conjunto

de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

FIG.6.2 Comparação entre os resultados da FOX nos conjuntos de dados . . . . . . . 50

FIG.9.1 Avaliação de Reconhecimento de Entidade com anotação fraca. . . . . . . . . 57

FIG.9.2 Avaliação de Reconhecimento de Entidade com anotação forte. . . . . . . . . 58

8

LISTA DE TABELAS

TAB.5.1 Matriz de confusão da rede treinada com o Corpus Primeiro HA-

REM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

TAB.5.2 Métricas do treinamento da rede com o Corpus Primeiro HAREM. . . . . 44

9

LISTA DE SIGLAS

API Application Programming Interface

BENGAL Automatic Generation of Benchmarks for Entity Recognition and Lin-

kingDTD Document Type Definition

EI Extração da Informação

EL Entity Linking

ETL Extração, Transformação e Carregamento

FN Falso Negativo

FOX Federated Knowledge Extraction Framework

FP Falso Positivo

GERBIL General Entity Annotation Benchmark Framework

LOD Linked Open Data

MVC Model-view-controller

NED Named Entity Desambiguation

NER Named-entity recognition

NIF NLP Interchange Format

NLP Natural Language Processing

PDF Portable Document Format

RDF Resource Description Framework

RE Relation Extraction

URI Uniform Resource Identifers

VP Verdadeiro Positivo

VN Verdadeiro Negativo

XML eXtensible Markup Language

10

RESUMO

Com o surgimento dos computadores veio a necessidade de se implementar tarefas

que envolvam a linguagem humana, principalmente através do processamento de textos.

Esse tratamento é útil ao realizar traduções de diversas fontes de conhecimento na Web

para outros idiomas e question-answering (em que há a busca por frases completas, di-

ferentemente das buscas por palavras chave). Para processar as informações é necessário

fazer o uso de tarefas como Extração de Informação (EI) e Desambiguação.

O Portal Brasileiro de Dados Abertos, atualmente, possui cerca de 803 conjuntos de

dados dispostos no formato PDF com textos corridos e informações não estruturadas.

Nesse contexto, é fundamental, dentre as atividades da EI, realizar o Reconhecimento de

Entidades Nomeadas (NER) com o fim de permitir a estruturação de textos.

Atualmente, a ferramenta FOX (Federated Knowledge Extraction Framework) tem

conseguido bons resultados ao combinar, através de técnicas de aprendizado de máquina,

outras quatro ferramentas NER para a língua inglesa. Embora já existam trabalhos para

sua adaptação para outros idiomas, ainda não foi feito um esforço no sentido de adaptá-la

para o português.

O objetivo do presente trabalho é implementar a FOX na língua portuguesa. Utilizou-

se nela ferramentas já existentes nesse idioma, assim como um leitor responsável por rece-

ber os conjuntos de dados para treino. Além disso, visando a tarefas futuras converteu-se

os dados que serão usados na avaliação para o formato adequado. Por fim, realizou-se

testes através da ferramenta de benchmarking GERBIL e com o intuito de facilitar a com-

preensão dos resultados obtidos, foram empregadas formas de visualização feitas com as

ferramentas Jupyter e Tableau.

11

ABSTRACT

With the emergence of computers came the need to implement tasks that involve hu-

man language, especially through word processing. This treatment is useful when trans-

lating from various sources of knowledge on the Web into other languages and question-

answering (where full sentences are searched, unlike keyword searches). To process the

information it is necessary to make use of tasks such as Information Extraction (IE) and

Disambiguation.

The Brazilian Open Data Portal currently has about 803 datasets arranged in PDF

format with flowing text and unstructured information. In this context, it is essential,

among the activities of IE, to perform the Recognition of Named Entities (NER) to allow

the structuring of texts.

Currently, the FOX (Federated Knowledge Extraction Framework) tool has achieved

good results by combining, through machine learning techniques, four other NER tools

for the English language. Although there are already works for its adaptation to other

languages, no effort has yet been made to adapt it to Portuguese.

This paper aims to implement FOX in Portuguese. It used tools that already exist

in that language, as well as a reader responsible for receiving the data sets for training.

Also, for future tasks, the data that will be used in the evaluation has been converted

to the appropriate format. Finally, tests were performed through the benchmarking tool

GERBIL. And to facilitate the understanding of the results obtained, visualization forms

made with the tools Jupyter and Tableau were used.

12

1 INTRODUÇÃO

No início dos anos 90, surgiu a World Wide Web no intuito de permitir a troca de infor-

mações entre computadores através de uma interface intuitiva (SOUZA; ALVARENGA,

2004). Contudo, com o acúmulo de dados disponíveis nas páginas da web e sua gama

de aplicações viu-se a necessidade de que programas também pudessem interagir com

as páginas da web (SOUZA; ALVARENGA, 2004), desenvolvendo-se a World Wide Web

para o que passou a ser a Web Semântica. A fim de promover essa interoperabilidade, os

pesquisadores se esforçam em estruturar informações seguindo padrões, tais como o uso

do formato RDF (Resource Description Framework).

Recentemente, o Brasil tem se juntado a outras iniciativas mundiais no sentido de

estabelecer políticas de dados abertos, apoiando trabalhos que facilitem o compartilha-

mento de informação (POSSAMAI, 2016). Nesse intuito, a Secretaria de Logística e

Tecnologia da Informação desenvolveu o Portal Brasileiro de Dados Abertos1 baseado em

um conjunto de padrões e tecnologias existentes.

O campo do Processamento da Linguagem Natural (NLP) se insere nesse contexto

ajudando a estruturar as informações embutidas em textos e dispô-las nos formatos es-

perados. Em um dos seus processos, a Extração da Informação, faz-se uso do Reconhe-

cimento de Entidades Nomeadas (NER) para encontrar objetos do mundo real em textos

não estruturados, tais como pessoas, localizações e organizações (JURAFSKY; MARTIN,

2014).

1.1 MOTIVAÇÃO

Atualmente, o Portal Brasileiro de Dados Abertos encontra-se com aproximadamente

5273 conjuntos de dados, sendo que apenas 24 conjuntos encontram-se estruturados nos

formatos adequados para a Web Semântica (SECRETARIA DE TECNOLOGIA DA IN-

FORMAÇÃO, 2017). A fim de facilitar a estruturação desses conjuntos de dados deve-se

desenvolver ferramentas que ofereçam suporte automatizado a esse processo e possam ser

utilizadas no português, uma vez que a maior parte das ferramentas existentes não estão

adaptadas para a esta língua.

Além disso, para o desenvolvimento dessas ferramentas é necessário haver um processo1http://dados.gov.br

13

de avaliação dos resultados por elas produzidos a fim de que se possa entender melhorias

a serem realizadas para aumentar a qualidade dos resultados. A complexidade desse

processo está na grande quantidade de dados produzidos pela avaliação do desempenho

da ferramenta. Baseado nisso, se torna necessário à realização dessas avaliações de acordo

com diferentes ênfases, permitindo, assim, um avanço mais detalhado e profundo dessas

análises (WAITELONIS et al., 2016).

1.2 OBJETIVO

Uma ferramenta com bons resultados nesse processo de Reconhecimento de Entidades

Nomeadas é a FOX2 (Federated Knowledge Extraction Framework). Ela combina, em sua

última versão, outras quatro ferramentas de NER através de abordagens de aprendizado

de máquina, com o uso de comitês3. A FOX, no entanto, não está disponível para a

língua portuguesa, embora existam esforços no sentido de adaptá-la para outros idiomas.

Esse trabalho objetivou, portanto, implementar na FOX ferramentas com o suporte ao

português, especificamente as das organizações OpenNLP (BALDRIDGE, 2017), Stanford

(MANNING et al., 2014) e Spotlight (MENDES et al., 2011).

Tendo em vista a grande quantidade de informações normalmente obtidas ao avaliar

ferramentas de Extração de Informações, o trabalho também deve realizar o tratamento

de dados advindo dos experimentos de avaliação da FOX utilizando as técnicas de ETL

(Extração, Transformação e Carregamento) implementadas na ferramenta Jupyter 4. A

versão português foi avaliada através da ferramenta GERBIL (General Entity Annotator

Benchmark). Foram então ser estudadas as melhores formas de visualização para analisar

os resultados utilizando a ferramenta Tableau5. Por fim, realizou-se a comparação entre

as versões inglês/português.

1.3 PROPOSTA DE SOLUÇÃO

Tendo em vista o objetivo de fornecer o tratamento do idioma Português na ferramenta

FOX, apresenta-se a proposta de solução do trabalho na figura 1.1, a qual está estruturada

de acordo com as etapas. Foram adicionadas na FOX6 três ferramentas que já possuem2https://github.com/dice-group/FOX3Os algoritmos de comitês possuem o objetivo de conseguir uma performance de predição melhor que

seus membros (SPECK; NGOMO, 2014)4https://jupyter.org/5https://www.tableau.com/pt-br6https://github.com/AmonRhaniery/FOX/tree/FOXPT

14

o suporte ao português. A fim de efetivar isso, teve que ser selecionado um conjunto

de dados nesse idioma para treinamento e, ainda, outro conjunto para avaliação. Tais

conjuntos foram preparados a partir de Corpora já conhecidos, como o HAREM7 e o

SUMM-IT8.

Parte desse conjunto teve de ser convertido para o formato NIF, utilizado pela ferra-

menta de benchmarking GERBIL (General Entity Annotator Benchmark) na qual realizou-

se os experimentos de avaliação tendo como parâmetro os conjuntos de avaliação elabora-

dos manualmente (HAREM) assim como aqueles adquiridos automaticamente (advindos

da ferramenta BENGAL9). Além disso desenvolveu-se uma ferramenta para possibilitar

uma melhor visualização dos dados obtidos nos experimentos a fim de facilitar sua análise

e discussão.

FIG. 1.1: Solução proposta.

1.4 METODOLOGIA

De início, estudou-se as ferramentas de NER implementadas na FOX original que possuem

suporte à língua portuguesa (OpenNLP, Stanford, Spotlight), assim como a ferramenta

de avaliação GERBIL e suas métricas. No que tange ao tratamento e análise de dados,

instalou-se e comparou-se as ferramentas Pentaho Data Integration e Jupyter 10.

Feitos os estudos iniciais, buscou-se implementar as ferramentas que dão suporte ao

português e trabalhar nos dados responsáveis por gerar um modelo em português da rede

neural utilizada pela FOX. A fim de treinar a ferramenta foi necessário implementar um7https://www.linguateca.pt/HAREM/8https://www.inf.pucrs.br/linatural/wordpress/recursos-e-ferramentas/summ-it/9https://github.com/dice-group/BENGAL

10https://jupyter.org/

15

leitor capaz de receber as informações dos conjuntos de dados de referência (Corpora já

anotados).

Além disso, buscou-se converter o Corpus do conjunto de dados de referência para o

formato NIF (NLP Interchange Format) a fim de alimentar a GERBIL com ele. Foram

apresentados o protótipo e seus resultados parciais. Resultados anteriores de experimen-

tos na GERBIL também tiveram seus dados estudados nas ferramentas de visualização

propostas a fim de que os resultados finais pudessem ser melhor vistos.

Nos passos finais, foi executada a ferramenta de avaliação GERBIL a fim de comparar

a FOX com outros anotadores como Babelfy11 e Spotlight12, um de seus anotadores base.

Além disso, fez-se testes de Reconhecimento de Entidades Nomeadas entre os conjuntos

de dados gerados pela ferramenta BENGAL (NGOMO et al., 2018) (anotados automati-

camente) e o Segundo HAREM (anotados manualmente por profissionais da área através

da Linguateca13). Foi feito o tratamento e visualização desses dados recebidos pela GER-

BIL para que se pudesse analisar os resultados e entender os pontos fortes e fracos da

ferramenta FOX.

FIG. 1.2: Pipeline de execução da solução proposta.

1.5 ESTRUTURA

Essa dissertação se organiza da seguinte forma: O capítulo 2 contém conceitos teóricos

importantes de Web Semântica e Processamento de Linguagem Natural que devem ser

compreendidos para o melhor entendimento do trabalho realizado.

O capítulo 3 apresenta as ferramentas de reconhecimento de entidades nomeadas com

suporte ao português que estarão presentes na FOX, assim como a ferramenta de ben-11http://babelfy.org/12https://www.dbpedia-spotlight.org/13https://www.linguateca.pt/

16

chmarking responsável por medir a qualidade do produto final. Apresenta também as

ferramentas de tratamento e visualização de dados usadas sobre os resultados das avalia-

ções.

O capítulo 4 discorre sobre os conjuntos de dados utilizados como referência tanto

no treinamento quanto na avaliação das ferramentas. São utilizados conjuntos de dados

anotados manualmente e automaticamente (BENGAL e HAREM, respectivamente).

O capítulo 5 expõe o desenvolvimento do trabalho através da codificação de um lei-

tor de arquivos na ferramenta, da elaboração dos conjuntos de referência assim como do

treinamento da ferramenta FOX.

O capítulo 6 traz os resultados obtidos através dos testes da ferramenta FOX versão

português e a discussão acerca deles.

O capítulo 7 expõe a conclusão do trabalho realizado.

17

2 CONTEXTUALIZAÇÃO

2.1 WEB SEMÂNTICA

A iniciativa World Wide Web nos anos 90 foi responsável por regular a publicação de do-

cumentos na Internet com a proposta de fornecer acesso global à informação (BERNERS-

LEE et al., 1992). Contudo, com o passar dos anos, cresceu o número de dados expostos,

assim como diversificou-se a forma de os manusear, originando uma nova forma de se

empregar a Web. Essa extensão da antiga Web tem sido chamada de Web Semântica

e visa permitir maior interoperabilidade entre máquinas e humanos (SOUZA; ALVA-

RENGA, 2004). Em 2001, seu idealizador Tim Berners-Lee, publicou uma visão que

o acompanhava desde 1994 com a primeira World Wide Web Conference. Na Scientific

American, escreveu um artigo demonstrando a evolução dos documentos para se ter infor-

mação derivada dos dados através de uma teoria semântica de interpretação dos símbolos

(BERNERS-LEE et al., 2001).

O cerne da Web Semântica é composto de padrões a fim de permitir a organização

e recuperação de informações. Trata-se principalmente de formar ligações com os dados

descritos semanticamente a fim de que tanto pessoas quanto máquinas possam comparti-

lhar conhecimento de forma não ambígua. Dessa forma, tem-se a escolha do XML como

recomendação (SOUZA; ALVARENGA, 2004). Esta linguagem permite que o DTD (Do-

cument Type Definition) seja definido pelo usuário, no qual ele expõe o padrão utilizado,

permitindo maior flexibilidade na construção da semântica dos dados e compartilhamento

mais relevante entre os sistemas de informação.

No âmbito da Web Semântica, a W3C recomenda o uso do formato RDF para a

publicação dos dados. Nele, utiliza-se a infra-estrutura XML com um padrão de triplas

contituídas de sujeito, predicado e objeto para descrever as informações. Por sujeito, se

compreende o recurso - qualquer objeto que possa ser descrito - a receber propriedades,

sendo o predicado responsável por especificar esta propriedade cujo valor vai ser definido

no objeto. Os recursos são explicitados através de URIs, conjunto de caracteres respon-

sáveis por endereçar, de forma única, recursos da web. A interligação destes recursos

forma uma rede de grafos direcionada. Tem-se na figura 2.1 um exemplo de grafo RDF,

18

o qual representa a informação de que o sujeito http://www.ime.eb.br/ime possui a pro-

priedade http://www.w3.org/2000/01/rdf-schema#label cujo valor é Instituto Militar de

Engenharia. A propriedade label indica que seu objeto é um nome do sujeito legível para

humanos.

FIG. 2.1: Exemplo de tripla RDF

Os nós do grafo podem conter URIs - para sistemas de Inteligência Artificial, tudo

que existe e puder ser representado (STAAB, 2010) -, ou valores literais. A importância

na utilização de um identificador de recurso uniforme consiste em seu uso global que pode

ser interpretado de forma consistente em diversos contextos.

A sintaxe padronizada do RDF permite que aplicações possam interagir de maneira

mais inteligente e automatizada, tendo em vista que os dados são manipulados através dos

descritores usando referências já compartilhadas (SOUZA; ALVARENGA, 2004). Além

disso, este formato permite a utilização de diversos padrões de metadados - namespaces.

Usualmente estes domínios são relacionados a prefixos e os vocábulos definidos por eles

atuam como sufixo na forma prefixo:sufixo. No caso da figura 2.1, tem-se a propriedade

label, parte do namespace RDFs, tornando sua identificação rdfs:label.

Neste sentido, há algumas notações de linguagens para expor as triplas RDF. A mais

comum é baseada no XML e denominada RDF/XML. O código 2.1 descreve através desta

notação o grafo exposto na figura 2.1. Como pode-se observar, há pouca legibilidade nesta

escrita, o que pode ter sido um fator inibidor para a rápida adoção da linguagem RDF

(SHADBOLT et al., 2006). Entretanto, outras notações da linguagem permitem maior

clareza na interpretação como a N3 (ou Turtle), exemplificada no código 2.2. Atualmente,

portais como LiveJournal e Opera Community publicam seus dados no formato RDF na

Web (SHADBOLT et al., 2006).

19

Código 2.1: Excerto de código em RDF/XML

<?xml version="1.0" encoding="UTF-8"?>

<rdf:RDF

xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

<rdf:Description rdf:about="http://www.ime.eb.br/ime.html">

<rdfs:label>Instituto Militar de Engenharia</rdfs:label>

</rdf:Description>

</rdf:RDF>

Código 2.2: Excerto de código na notação N3

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

<http://www.ime.eb.br/ime.html> rdfs:label "Instituto␣Militar␣de␣

↪→ Engenharia" .

Iniciativas ao redor do mundo se esforçam no processo de recuperação da informação.

Destaca-se a LOD14 (Linked Open Data), cujo cerne está em promover práticas15 para

publicação e interligação de dados de forma a produzir uma rede global de dados acessível a

todos, conforme demonstra a figura 2.2. A vantagem dessa associação está em constituir

um grafo, ferramenta matemática poderosa na resolução de problemas. Os princípios

dessa iniciativa consistem em utilizar URIs na nomeação de recursos, sendo ainda na

forma HTTP a fim de permitir posterior consulta com retorno em um arquivo RDF

válido (AUER et al., 2014).14https://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData15https://www.w3.org/DesignIssues/LinkedData.html

20

FIG. 2.2: Nuvem da Linked Open Data. Fonte: (MCCRAE, 2019)

2.2 PROCESSAMENTO DE LINGUAGEM NATURAL

No contexto de Web Semântica, é de suma importância o conhecimento de técnicas para

estruturação da informação. Uma área bastante estudada nos últimos anos é a de Pro-

cessamento de Linguagem Natural. Através da qual máquinas são capazes de processar a

língua humana de forma a permitir maior interoperabilidade. Uma de suas importantes

atividades consiste em extrair informações semânticas a partir de textos. Esta tarefa é

chamada de Extração da Informação e inicia-se através do Reconhecimento de Entidades

Nomeadas ou Named Entity Recognition (NER) (AMARAL et al., 2013).

Entidades nomeadas podem ser consideradas de forma grosseira tudo aquilo que é

referenciado por nome próprio (JURAFSKY; MARTIN, 2014). São classificadas em ti-

pos como Organizações, Pessoas, Lugares, Genes, Nomes proteicos (COHEN; DEMNER-

FUSHMAN, 2014), e com algumas extensões nas entidades, tem-se datas e outras ex-

pressões temporais. São muito importantes nas tarefas de Web-based question answering

tendo em vista que para responder questões mais complexas as ferramentas de busca pre-

cisam extrair informações embutidas nos textos ou até mesmo realizar inferências. Além

disso, possuem papel importante em fontes de conhecimento estruturado como Wikipédia

21

(JURAFSKY; MARTIN, 2014).

O processo inicial na Extração da Informação consiste no Reconhecimento de Enti-

dades Nomeadas, ou seja extrair nomes próprios ou entidades nomeadas do texto para

que depois seja feita uma vinculação entre elas de forma a corresponder a entidades do

mundo real. Essa vinculação é resultado dos processos de Entity Linking (EL) e corefe-

rence resolution. Feito isso, é possível ainda realizar o passo de Relation Extraction (RE),

em que são procuradas e classificadas as relações semânticas entre as entidades do texto.

Geralmente estas relações são binárias, como declara a Web Semântica em seu formato

sujeito-predicado-objeto.

2.2.1 RECONHECIMENTO DE ENTIDADES NOMEADAS

Dentre as áreas de estudo da Extração de Informação, uma das mais importantes é a de

Reconhecimento de Entidades Nomeadas. É significativa para o desempenho das demais

atividades do ramo, como para a resolução de correferências (MORAES et al., 2010).

Possui finalidade de identificar entidades nomeadas e classificá-las em categorias antes

estabelecidas.

A tarefa recebe como entrada um texto e retorna um conjunto de palavras anotadas. A

dificuldade está nas ambiguidades, tanto em ser ou não uma entidade como na classificação

dos seus tipos. Um exemplo seria o fato da palavra JFK se referir a pessoa John F.

Kennedy ou ao aeroporto em Nova Iorque, por exemplo. Pode haver casos em que não

há contexto suficiente para auxiliar na desambiguação (FONSECA et al., 2015).

Além disso, identificar os limites iniciais e finais das entidades dentro do texto pode ser

difícil de acordo a rotulação utilizada (JURAFSKY; MARTIN, 2014). Considere o texto

”American Airlines, a unit of AMR Corp., immediately matched the move, spokesman

Tim Wagner said.” que sai do processo de NER classificado com duas formas de rotulação

diferentes, conforme mostra a figura 2.3. IO indica rótulos I e O como inside e outsite,

respectivamente. Ou seja, O quando está em categoria nenhuma e I é usado para quando

a palavra está nas demais categorias predefinidas. Já IOB tem o acréscimo de B como

beginning, usada como rótulo se é a primeira palavra da entidade, indicando seu início. A

desvantagem ao se usar a rotulação IO é caso haja duas entidades de mesma categoria,

tendo em vista que não dá para se diferenciar entre o fim da primeira e início da segunda.

Além disso, pode ser empregada a rotulação BILOU (utilizada pela ferramenta FOX).

Neste caso, acrescenta-se as tags L e U correspondentes a last e unit. Elas indicam

quando o token é o último em uma entidade nomeada de várias palavras e quando ela é

22

composta por apenas uma, respectivamente.

FIG. 2.3: Tabela de rotulação usando codificação IOB e IO. Fonte: (JURAFSKY; MAR-TIN, 2014).

23

3 FERRAMENTAS

3.1 NER

Diversas ferramentas reconhecidas na área de Reconhecimento de Entidades Nomeadas

e que possuem ampla contribuição científica por serem de código aberto são a FOX,

OpenNLP, Stanford CoreNLP e DBPedia Spotlight. Destas, apenas a FOX não possui

suporte para a língua portuguesa.

3.1.1 OPENNLP

A iniciativa OpenNLP (BALDRIDGE, 2017) busca oferecer suporte ao processamento

de linguagem natural através das atividades de tokenização, segmentação de sentenças,

etiquetagem morfossintática (part-of-speech tagging), extração de entidades nomeadas

(NER), extração de sintagmas (chunking), análise sintática (parsing), detecção de idi-

oma e resolução de referências pronominais. É uma ferramenta baseada em aprendizado

de máquina cuja biblioteca está escrita em Java (FONSECA et al., 2015).

O projeto conta com o auxílio da comunidade científica através de sua biblioteca

open source, e busca oferecer um conjunto de ferramentas maduro o suficiente para as

atividades de NLP.

3.1.2 STANFORD CORENLP

O conjunto de ferramentas Stanford CoreNLP é uma estrutura de anotação baseada em

Java e que contém diversos passos de processamento de linguagem natural. É amplamente

utilizada em meios governamentais, comerciais, e principalmente na comunidade científica

por ser um projeto de código aberto (MANNING et al., 2014). O objetivo desse projeto

nos últimos anos tem sido tornar o uso desta estrutura de anotação mais simples. Quanto

mais acessível e menos código de configuração for necessário, mais fácil é de se utiliza-la

como componente de sistemas maiores.

Sua arquitetura pode ser vista na figura 3.1. Através de uma sequência de anotadores,

o texto bruto, sem processamento prévio, é passado por cada objeto resultando em um

arquivo com todas as informações adicionadas por eles. Esta saída pode ser dada em

24

XML ou texto simples. A execução pode ser feita através de uma interface da linha de

comando ou pela API. Além de ser acessível para Java, atualmente outros esforços já

permitem que diversas linguagens façam uso da estrutura de anotadores como Python,

Ruby, Perl, etc (MANNING et al., 2014).

FIG. 3.1: Arquitetura do sistema Stanford CoreNLP. Fonte: (MANNING et al., 2014)

3.1.3 DBPEDIA SPOTLIGHT

A ferramenta16 desenvolvida pela equipe do projeto DBPedia17 também consiste num

sistema de anotadores automáticos para documentos de texto. A diferença para outras

ferramentas consiste principalmente no fato de usar URIs da própria DBPedia para seus

recursos. Foi desenvolvida com a finalidade de vincular os documentos de texto com a

Linked Open Data18. Esta ferramenta contribui para o desenvolvimento da Web de Dados

na medida em que permite usá-la como conhecimento básico em aplicativos orientados a

documentos, como faceted browsing (MENDES et al., 2011).

O mecanismo tem a finalidade maior de identificar as entidades dos textos corridos

através de URIs. Apresenta passos de NER além de possuir recursos para desambiguação.

Além disso, permite que o usuário forneça as configurações necessárias para cada anotador,

tornando-a assim uma ferramenta mais flexível. É possível definir o domínio de interesse,

assim como a tolerância de erro esperada. Por outro lado, ainda contribui com 272 classes

de entidades nomeadas dentro de sua ontologia DBPedia diferente das classes mais comuns

como pessoas, organizações e lugares (MENDES et al., 2011). Pode ser utilizada através16https://www.dbpedia-spotlight.org/17https://wiki.dbpedia.org/18https://lod-cloud.net/

25

de Serviço ou Aplicação Web e está licenciada através da licença Apache V2.

3.1.4 FEDERATED KNOWLEDGE EXTRACTION FRAMEWORK

O projeto FOX19 (Federated Knowledge Extraction Framework) foi criado a fim de moti-

var a transformação de dados não estruturados. Através do comitê, busca aperfeiçoar o

resultado de outras ferramentas de Reconhecimento de Entidades Nomeadas. Ao verificar

quinze algoritmos diferentes de aprendizado de máquina, obteve uma redução de erros em

quarenta por cento em sua melhor tentativa (SPECK; NGOMO, 2014). Em sua última

versão, quatro destes instrumentos estavam integrados a fim de traduzir conteúdos da

linguagem natural em informações estruturadas na língua inglesa.

O uso de comitê consiste em tornar a ferramenta FOX em um anotador com alta

performance preditiva através de outros anotadores base. Existem estratégias simples,

como a de votação, na qual as classificações finais geradas são baseadas na maioria obtida

dos anotadores base. E ainda, realizar uma votação ponderada, cujos anotadores possuem

peso e a classificação final é aquela de maior peso predita. Contudo, essas abordagens não

são confiáveis (DIETTERICH, 2000). Se todos os anotadores retornarem resultados erra-

dos, de modo consequente a classificação final estaria incorreta. Além disso, as diferentes

precisões dos anotadores para cada tipo de entidade não são levadas em consideração

na votação ponderada. A ferramenta FOX implementa portanto, a votação no nível das

categorias. Desta forma, é possível utilizar diferentes pesos para cada par ferramenta-

categoria. Os algoritmos estão implementados através do framework WEKA (Waikato

Environment for Knowledge Analysis) (HALL et al., 2009) com os parâmetros padrões

definidos em Speck e Ngomo (2014). Além disso, pode se utilizar uma abordagem de

votação no nível de categoria e uma votação simples. A primeira consiste em escolher a

ferramenta de NER com maior desempenho de previsão para cada tipo e então utilizá-la

para classificar dada categoria. A segunda combina o resultado dessas ferramentas com a

Regra de Votação por Maioria (KITTLER et al., 1998).

Na figura 3.2 é possível ter uma percepção da arquitetura da ferramenta e de seu

modelo de comitê. Em sua parte inicial ocorre um pré processamento dos arquivos dados

como entrada, a fim de que os textos possam ser extraídos. Estes textos podem ser

utilizados nas ferramentas de NER ou como conjuntos de treino, se já estiverem anotados.

Neste caso extrai-se as entidades classificadas. As saídas das ferramentas de NER são

postas na forma de matrizes. Os elementos da matriz correspondem as predições Pmn,t da

19https://github.com/dice-group/FOX

26

m-ésima ferramenta que o n-ésimo token é do t-ésimo tipo e são passadas como entrada

para o algoritmo de comitê escolhido. Para validação do modelo, elas são aleatoriamente

divididas em k conjuntos distintos a fim de que seja feita uma validação cruzada de k-fold.

Os resultados finais são gerados após os algoritmos de comitê.

FIG. 3.2: Visão geral da ferramenta FOX. Fonte: (SPECK; NGOMO, 2014)

A ferramenta ainda conta com suporte para cinco idiomas sendo que possui perfor-

mance melhor em todos esses idiomas do que outros sistemas de NER (SPECK; NGOMO,

2017). Contudo, a ferramenta não possui modelos treinados na língua portuguesa. Além

de integrar recursos de NER, conta também com abordagens de desambiguação de entida-

des (Named Entity Desambiguation - NED). Seus serviços já recebem mais de um milhão

de chamadas por mês por diversas organizações tendo em vista que a ferramenta possui

resultados melhores do que os estados da arte. Na figura 3.3 é possível ver a interface

Web da ferramenta e seu resultado ao analisar a simples frase "Jhon goes to school". É

bastante intuitiva com os campos Lang, Input Format, Extraction Type, Input, Output

Format e Fox Light descritos abaixo.

27

Lang Escolha do idioma do texto a ser anotado.

Input Campo para colocar o texto a ser anotado.

Input Format Formato do texto a ser anotado.

Extraction Type Tipo de experimento a ser executado podendo ser de RE ou NER

Output Format Formato de saída da ferramenta, podendo ser RDF/XML, Turtle, RDF/J-

SON, JSON-LD, TriG ou N-Quads.

Fox Light Campo para escolha das ferramentas implementadas, caso se queira utilizá-las

individualmente.

FIG. 3.3: Interface da ferramenta FOX ao realizar a tarefa de reconhecimento de entidadesnomeadas.

3.2 BENCHMARKING

3.2.1 GERBIL

A ferramenta GERBIL20 é um software para avaliar anotações de entidades semânticas.

Tem por finalidade permitir de maneira fácil e rápida esse tipo de análise, de forma

detalhada em um âmbito grande de conjuntos de dados. Dessa forma, a partir dessas

avaliações, o intuito é obter visualizações significativas com relação à integração e uso de20http://aksw.org/Projects/GERBIL.html

28

aplicativos de anotações. A GERBIL provê resultados que comparam ferramentas a fim de

que os usuários finais descubram onde são os pontos fortes e os fracos das implementações.

Como saída, apresenta as métricas F1, precisão e abrangência tanto micro quanto macro.

A micro é calculada através da soma de todos os verdadeiros positivos e negativos de

todos os documentos, enquanto a métrica macro é a média da métrica dos documentos

individuais.

A figura 3.4 representa a arquitetura da GERBIL, a qual é orientada a serviços e segue

o padrão MVC (model-view-controller). Possui configurações nos tipos de experimentos

com opções de escolha de sistemas de anotação de entidade e conjunto de dados. A saída

dos experimentos, assim como as descrições dos componentes, são todos colocados num

banco de dados sem servidor, para uma rápida implementação. Por fim, o componente

de exibição oferece algumas opções para visualizar as interfaces dos resultados. Pode-se

notar, pela figura, como o software utiliza um banco de dados para usar os conjuntos

de dados para os testes e anotadores, e com chamadas de serviços web. E, dadas as

configurações selecionadas pelos usuários, os experimentos são executados.

FIG. 3.4: Organização da ferramenta GERBIL. Fonte: (USBECK, 2015).

Na figura 3.5, é possível ver a interface da GERBIL. Nota-se que ela possui umausabilidade limpa e intuitiva de ser utilizada dados os conhecimentos básicos necessáriospara o que a ferramenta se propõe a fazer, tais como Experiment type e datasets. Alémdisso, ela conta com uma documentação didática que ajuda bastante o entendimento doseu funcionamento.

29

FIG. 3.5: A interface da ferramenta GERBIL

3.3 ANÁLISE DE DADOS

3.3.1 PENTAHO DATA INTEGRATION - PDI VS PYTHON JUPYTER

O Pentaho Data Integratino (PDI) é uma ferramenta de ETL (Extraction, Transformation,

Loading), conhecida simplesmente como Pentaho, tem como objetivo: ”Permitir que os

usuários inovem, combinem, limpem e preparem diversos dados de qualquer fonte [...]”

Ventara (2019). Assim, o PDI facilita a manipulação de dados através de interfaces

amigáveis e diminui a complexidade tentando eliminar a utilização de códigos fornecendo

o conhecido drag-and-drop software.

Já a Jupyter é um projeto sem fins lucrativos e com código aberto, bem moderno,

nascido em 2014, para dar apoio à ciência de dados interativa e toda a computação cien-

tífica no âmbito de todas as linguagens de programação. A comunidade desenvolvedora

da Jupyter tem o consenso de deixar o software sob os termos liberais da licença BSD

30

modificada.

Foi realizado um estudo em cima das duas ferramentas para decidir qual seria a mais

adequada para realizar a captação dos dados e preparação para a então sua utilização

na etapa de visualização dos resultados dos experimentos. Após a comparação, levando

em consideração a facilidade de se utilizar, a conduta de código aberto, a facilidade de

compartilhar o trabalho foi então escolhido a Jupyter. Ele oferece desenvolvimento na

linguagem Python que é muito conhecida e fácil de manipular, além de possuir ambientes

computacionais para ajudar a ver o desenvolvimento do tratamento de dados, antes da

fase de visualização.

3.3.2 TABLEAU

A Tableau21 está focada em ajudar a ver e entender os dados. A ideia é que em 2020 o

mundo irá gerar quantidades absurdas de dados, e assim o avanço para as oportunidades

do homem, através do poder dos dados, são enormes. A Tableau é um software capaz

de entregar esse poder com maior facilidade para as pessoas. Ele permite usar os dados

para resolver problemas com maior dinamismo, tornando a análise de dados rápida, fácil

e útil. É um software bem amigável em questões de usabilidade e diversidade.

É um software pago, que permite a conexão com diversas fontes de dados tanto

estáticas como arquivos texto (.txt, .csv, .tsv) quanto planilhas do excel (.xlsx, .xls), entre

outras. Além da diversidade em conexões locais, é possível também conexão a banco de

dados dos mais diversos como Oracle, MongoDB, MySQL e SparkSQL. Além disso, há

facilidade em manipular as diversas tabelas dentro da sua interface a fim de realizar joins

(left, right, inner e outer), ordenar, renomear e outras operações.

Também é possível manipular a visualização da conexão de outras diversas maneiras

na aba de planilhas, na qual é possível escolher as colunas ou linhas que se quer visualizar.

As formas de visualização são das mais variadas possíveis: pizza, barras, mapa e bolas.

É permitido o acréscimo de comentários e agrupamentos e filtros nas rows selecionadas.

Além disso, pode-se agregar diversas planilhas criadas anteriormente num dashboard para

melhor análise. Permite-se ainda publicar os resultados possibilitando um tratamento das

análises em grupo.

21https://www.tableau.com/

31

A figura 3.6 mostra a interface da ferramenta. Ela demonstra a aba de planilha onde

é possível montar a visualização através dos dados de alguma fonte realizando alguns

filtros, colorindo colunas e linhas e fazendo agregações.

FIG. 3.6: Interface da Tableau em planilha, com conjunto de métricas

FIG. 3.7: Interface da Tableau em planilha, com datasets selecionados

32

4 CONJUNTOS DE REFERÊNCIA

4.1 BENGAL

Devido aos altos custos de tempo e trabalho envolvidos na obtenção de um conjunto de

dados anotados para avaliação de ferramentas de reconhecimento de entidades nomea-

das, é difícil encontrar conjuntos amplos de benchmarking para este tipo de ferramenta

(NGOMO et al., 2018). Nesse contexto aparece um esforço para desenvolver-se uma forma

automática de geração de benchmarking para soluções de NER e EL: o BENGAL.

Conjuntos de benchmarking para NER e EL gerados manualmente apresentam algu-

mas desvantagens como a possível existência de erros humanos por falta de atenção ou

conhecimento, sua pequena extensão devido a dificuldade de serem gerados, o que torna-se

um problema quando se deseja avaliar a escalabilidade de uma ferramenta, por exemplo, e

a tendência que pode surgir em torno de recursos mais populares. A geração automática

de benchmarking para NER e EL, ou seja, o BENGAL, visa a contornar estes proble-

mas dos conjuntos de testes gerados manualmente. Ele se baseia na ampla quantidade

de dados em formato RDF que podem ser encontrados na web e então convertidos de

forma automática para textos anotados, seguindo o sentido inverso do fluxo que converte

texto não estruturado em triplas RDF que podem ser lidas por máquinas (NGOMO et al.,

2018).

A ferramenta BENGAL, como apresentada na figura 4.1, tem como entrada grafos

formados por triplas RDF e inicia sua abordagem com a escolha de quais triplas do

grafo são relevantes para a informação que se deseja obter por meio de uma consulta

SPARQL SELECT. Gera-se então um subgrafo RDF com os dados obtidos pela consulta,

selecionando-se a topografia do subgrafo a ser formado a partir de qual tipo de informação

se deseja extrair. O subgrafo de estrela, por exemplo, é utilizado quando se deseja o

máximo de dados possíveis a respeito de uma determinada entidade. Utiliza-se então um

processo de verbalização derivado do SPARQL2NL (NGONGA NGOMO et al., 2013) que

transforma cada tripla em uma sentença. Por fim há uma etapa de paráfrase visando a

gerar um texto de benchmarking mais diverso. Isso é feito através de duas técnicas: a

troca de termos repetidos por sinônimos e a alteração de estruturas de sentenças que se

repitam com frequência.

33

A diferença entre os dados da BENGAL consiste justamente na maneira em que foram

gerados automaticamente, correspondentes aos tipos de subgrafos star e path, sendo que

a combinação destes ocorre através do hybrid. Os dados sym representam grafos estrela

simétricos (NGOMO et al., 2018).

FIG. 4.1: Visão geral da abordagem do BENGAL. Fonte: (NGOMO et al., 2018)

4.2 HAREM

Para avaliação e desenvolvimento de ferramentas de Entidades Nomeadas é necessário

fazer uso de Corporas capazes de nos auxiliar como referência. O Corpus do HAREM é

um projeto público da Linguateca22 cujos esforços estão no processamento computacional

para a língua portuguesa. Já foram publicados dois conjuntos desde 2006 com anotações

gold, ou seja, anotações manuais revisadas por profissionais da área. (FONSECA et al.,

2015)

A avaliação conjunta disposta como segundo HAREM tem a vantagem de possuir

meios para detectar o sucesso na identificação, classificação tanto de entidades nomeadas

como das relações entre elas. Além disso, permite o reconhecimento e normalização de

entidades temporais (FREITAS et al., 2010). Já lançadas em duas versões, o segundo HA-

REM, de menor tamanho, possui 129 textos sendo 89.241 palavras anotadas e distribuídas

em categorias de entidades nomeadas conforme a figura 4.2 mostra.22https://www.linguateca.pt/

34

FIG. 4.2: Quantidade de entidades nomeadas por categorias do Primeiro e Segundo HA-REM. Fonte: (DO AMARAL et al., 2014)

4.3 SUMM-IT

Além dos corpus HAREM e BENGAL, o corpus SUMM-IT quando foi elaborado tinha a

intenção de embasar pesquisas de discurso envolvendo relações anafóricas e retóricas, e a

sumarização automática (COLLOVINI et al., 2007).

A sua construção foi anotada com o intuito de fornecer contribuições para melhorar

a Sumarização Automática, isso tudo com informações discursivas. A fim de aprimorar a

coerência e o grau de informatividade dos sumários automáticos.

Os processos de correferência e de relações retóricas são divididos em alguns passos.

O primeiro dos processos tem como objetivo reconhecer entidades do discurso menciona-

das sejam elas retomadas em um texto ou não. O próximo processo concede a formulação

de um texto por meio de suas unidades discursivas através das relações RST (Rheori-

cal Structure Theory), gerando uma estrutura em formato de árvore, chamada árvore

RST (COLLOVINI et al., 2007). Então, o corpus SUMM-IT constitui-se de 50 textos

jornalísticos do caderno de Ciências da Folha de São Paulo retirados do corpus PLN-BR.

35

5 DESENVOLVIMENTO

5.1 PRÉ TREINO

Para que fosse possível o treinamento da rede neural a ser utilizada na FOX, foi necessário

adaptar a ferramenta com um código leitor23, responsável por receber o arquivo de entrada,

identificar os anotadores utilizados e passar essas informações para a rede a ser treinada.

Os leitores utilizados em outras linguagens da ferramenta não puderam ser utilizados uma

vez que os conjuntos de dados em português possuíam uma estrutura diferente daquela

esperada por esses leitores.

O código do leitor foi escrito como uma classe em Java. A função initF iles era

responsável por receber como entrada todos os arquivos da pasta cujo nome era atribuído

à variável folder. Esses arquivos foram aqueles usados para realizar o treinamento da

rede.23https://github.com/AmonRhaniery/FOX/blob/FOXPT/src/main/java/org/aksw/fox/

nerlearner/reader/HaremPtTrainerReader.java

36

Código 5.1: Função de leitura de arquivos no código do leitor para treinamento da rede

public void initFiles(String folder) throws IOException {

List<String> files = new ArrayList<>();

File file = new File(folder);

if (!file.exists()) {

throw new IOException("Can’t␣find␣directory.");

} else {

if (file.isDirectory()) {

for (File fileEntry : file.listFiles()) {

if (fileEntry.isFile() && !fileEntry.isHidden()) {

files.add(fileEntry.getAbsolutePath());

}

}

} else {

throw new IOException("Input␣isn’t␣a␣valid␣directory.");

}

}

initFiles(files.toArray(new String[files.size()]));

}

Uma função parse era responsável por identificar as entidades nomeadas anotadas do

texto e suas respectivas classificações, e então armazená-las adequadamente para servir

como entrada para a rede. Inicialmente a função descartava tags que não se tratassem de

entidades nomeadas, como advérbios e adjetivos.

37

Código 5.2: Descarte de tags não usadas no código do leitor para treinamento da rede

input = taggedInput.toString();

input = input.replaceAll("<adv>", "");

input = input.replaceAll("<adj>", "");

input = input.replaceAll("<art>", "");

input = input.replaceAll("<conj-c>", "");

input = input.replaceAll("<conj-s>", "");

input = input.replaceAll("<n>", "");

input = input.replaceAll("<num>", "");

input = input.replaceAll("<pp>", "");

input = input.replaceAll("<prop>", "");

input = input.replaceAll("<pron-det>", "");

input = input.replaceAll("<pron-indp>", "");

input = input.replaceAll("<pron-pers>", "");

input = input.replaceAll("<prp>", "");

input = input.replaceAll("<punc>", "");

input = input.replaceAll("<v-fin>", "");

input = input.replaceAll("<v-ger>", "");

input = input.replaceAll("<v-inf>", "");

input = input.replaceAll("<v-pcp>", "");

A seguir se percorria todo o texto buscando por tags , que representavam o início

de entidades nomeadas, e que representavam seu final. A propriedade "CA-

TEG"dentro da tag , que tinha como valor o tipo de categoria em que a entidade

nomeada havia sido classificada.

38

Código 5.3: Identificação de tags de entidades nomeadas no código do leitor para treina-

mento da rede

int openTagStartIndex = input.indexOf("<EM");

if (openTagStartIndex == -1) break;

int openTagCategStartIndex = input.indexOf("CATEG=\"", openTagStartIndex)

↪→ ;

int openTagCategCloseIndex = input.indexOf("\"", openTagCategStartIndex+"

↪→ CATEG=\"".length()+1);

int openTagCloseIndex = input.indexOf(">", openTagStartIndex);

int closeTagIndex = input.indexOf("");

String taggedWords = input.substring(openTagCloseIndex + 1, closeTagIndex

↪→ );

String categoriesString = input.substring(openTagCategStartIndex + "CATEG

↪→ =\"".length(), openTagCategCloseIndex);

Por fim, limpava-se o texto das propriedades TIPO e ID dentro das tags de

entidade nomeadas, uma vez que essas informações não seriam usadas posteriormente para

o treinamento da rede, mas estavam presentes no conjunto de dados de treino disponível.

39

Código 5.4: Descarte de propriedades não usadas no código do leitor para treinamento da

rede

while (true) {

int openTagStartIndex = input.indexOf("TIPO=\"");


else {

int openTagCloseIndex = input.indexOf("\"␣␣>", openTagStartIndex+"

↪→ TIPO=\"".length()+1);

String tipo = input.substring(openTagStartIndex + "TIPO=\"".length

↪→ (), openTagCloseIndex);

input = input.replaceFirst("TIPO=\"" + tipo + "\"␣␣>", "");

}

}

while (true) {

int openTagStartIndex = input.indexOf("ID=\"");


else {

int openTagCloseIndex = input.indexOf("\"", openTagStartIndex+"ID

↪→ =\"".length()+1);

String id = input.substring(openTagStartIndex + "ID=\"".length(),

↪→ openTagCloseIndex);

input = input.replaceFirst("ID=\"" + id + "\"", "");

}

}

5.2 TREINAMENTO DA REDE

Dentre os algoritmos avaliados em Speck e Ngomo (2014), obteve-se melhores resultados

com a rede perceptron com multicamadas (MLP). Desta forma, utilizou este método de

comitê para a versão português. A ferramenta FOX recebe como entrada um arquivo

t e o encaminha para as n ferramentas implementadas. Cada ferramenta Ti então tem

como saída o texto anotado ti. Desta forma, cada palavra tem um vetor associado a

ela com as n classificações que são encaminhadas para a rede MLP. Em sua camada de

entrada, existe um neurônio para cada combinação possível de ferramenta e categoria

40

pré definida enquanto na saída da rede MLP são geradas as palavras classificadas nas

categorias predefinidas na FOX. São as classificações definitivas a serem dadas pela FOX.

Desta forma, essa rede perceptron é a responsável por definir as classificações finais a serem

dadas e, portanto, precisa ser treinada. Cabe ressaltar que as ferramentas individuais

usadas como anotadores base do comitê não foram treinadas novamente.

O conjunto de referência a ser usado para treino foram coletados do Corpus Primeiro

HAREM e lidos conforme o código apresentado na seção 5.1. A divisão em conjunto

de treino e conjunto de teste foi realizada conforme do Amaral et al. (2014), com o

Segundo HAREM utilizado no processo de avaliação. Na figura 4.2 estão expostas as

informações recebidas para o aprendizado da rede, contendo 1258 entidades classificadas

como localização, 946 como organização e 1040 como pessoas, o restante considera-se na

categoria nula (Null).

5.3 CONVERSÃO DE ARQUIVOS NIF

Após o treinamento da rede, é necessário avaliar seu desempenho na tarefa de reco-

nhecimento e classificação de entidade nomeadas. Para isso utiliza-se a ferramenta de

benchmarketing GERBIL, que deve receber como entrada um conjunto de dados previ-

amente anotado no formato NIF. O conjunto disponível para a tarefa encontrava-se em

formato de texto corrido, portanto foi necessário realizar sua conversão para o formato

NIF. Converteu-se dados dos Corpus First HAREM, Second HAREM e SUMM-IT24.

Para isso realizou-se o desenvolvimento de um código em Java que era responsável

por ler o texto anotado, reconhecer os rótulos identificadores de início () e final

() das entidades nomeadas. A intenção foi de reconhecer os tipos nas quais elas

foram classificadas através de diversas propriedades dentro desses rótulos, para assim

montar a estrutura do arquivo NIF correspondente. Além disso, os arquivos anotados

disponíveis contavam com um número maior de tipos para classificação de entidades no-

meadas do que aqueles tratados pela ferramento desenvolvida, por tanto, na elaboração

dos arquivos NIF ignorou-se entidades nomeadas que não fossem do tipo pessoa, lugar ou

organização.

Por exemplo, no caso da frase: "A Legião da Boa Vontade comemora amanhã o 10o

aniversário da sua implantação em Portugal.". De forma simplificada, no texto anotado

as informações relevantes eram:24https://github.com/AmonRhaniery/FOX/blob/FOXPT/evaluation/portuguese_nif_datasets.zip

41

A Legião da Boa Vontade comemora

amanhã o 10o. aniversário da sua implantação em

Portugal .

Enquanto o arquivo NIF correspondente gerado a partir desse texto é:

@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

@prefix itsrdf: <http://www.w3.org/2005/11/its/rdf#> .

@prefix nif: <http://persistence.uni-leipzig.org/nlp2rdf/ontologies/nif-core#> .

<http://linguateca.pt/harem#offset_2_23>

a nif:Phrase , nif:OffsetBasedString ;

nif:anchorOf "LegiÃ£o da Boa Vontade" ;

nif:beginIndex "2"^^xsd:nonNegativeInteger ;

nif:endIndex "23"^^xsd:nonNegativeInteger ;

nif:referenceContext <http://linguateca.pt/harem#offset_0_1102> ;

itsrdf:taAnnotatorsRef <http://linguateca.pt/human> ;

itsrdf:taClassRef <http://dbpedia.org/ontology/Organisation> ;

itsrdf:taIdentRef [] .

<http://linguateca.pt/harem#offset_81_89>

a nif:Phrase , nif:OffsetBasedString ;

nif:anchorOf "Portugal" ;

nif:beginIndex "81"^^xsd:nonNegativeInteger ;

nif:endIndex "89"^^xsd:nonNegativeInteger ;

nif:referenceContext <http://linguateca.pt/harem#offset_0_1102> ;

itsrdf:taAnnotatorsRef <http://linguateca.pt/human> ;

itsrdf:taClassRef <http://dbpedia.org/ontology/Country ,

<http://dbpedia.org/ontology/Place> ,

<http://dbpedia.org/ontology/PopulatedPlace> ,

<http://dbpedia.org/ontology/Location> ;

itsrdf:taIdentRef [] .

42

5.4 REDE TREINADA

Ao fim do treinamento com o conjunto primeiro HAREM é possível observar na tabela

5.1 a quantidade de instâncias classificadas corretamente e incorretamente. O resumo das

classificações pode ser encontrado na Matriz de Confusão (confusion matrix ) do treina-

mento da rede.

A Matriz de Confusão está disposta de acordo com as categorias e a rotulação pre-

definida na ferramenta FOX (BILOU), sendo a primeira linha composta pelas categorias

em suas rotulações previstas e a primeira coluna como as realmente classificadas, segundo

a ordem de Localização, Organização, Pessoa para cada rótulo. O campo Null para as

tabelas 5.1 e 5.2 indicam os tokens sem categoria classificada dentre as três anteriores. Os

valores da tabela portanto são da quantidade de instâncias classificadas de acordo com

esses parâmetros.

A partir da Matriz de Confusão, tem-se os valores necessários para o cálculo das

instâncias segundo a classificação de serem Verdadeiras Positivas (VP), Falsas Positivas

(FP), Verdadeiras Negativas (VN) e Falsas Negativas (FN). Uma instância é classificada

como Positiva se pertence a uma respectiva categoria, e Negativa caso contrário. Ainda,

será denominada Verdadeira se essa classificação estiver correta e senão, Negativa. Por

exemplo, caso a instância IME esteja na categoria Localização será considerada uma FN

para Organização e FP para Localização. Essa rotulagem é necessária para se calcular as

métricas responsáveis por avaliar o treinamento da rede, seguindo as fórmulas 5.1, 5.2 e

5.3 (JURAFSKY; MARTIN, 2014). Essas métricas são calculadas para cada categoria e

seus respectivos rótulos BILOU e apresentada na tabela 5.2.

A precisão indica dentre os classificados como corretos quantos de fato são, enquanto

abrangência indica o quão frequente se classifica como determinada categoria, quando

realmente o é. Na tabela 5.1 percebe-se que a Categoria Localização possui uma precisão

inferior a organização e pessoa. Equilibrar precisão e abrangência tende a exigir muito

trabalho, tendo em vista que ao ser mais exigente em acertar (melhorar a precisão), menos

se está disposto a errar (aumentar abrangência). Estas métricas podem ser combinadas

para se ter uma visão geral do modelo através da medida F1 (JURAFSKY; MARTIN,

2014).

Recall =V P

V P + FN(5.1)

Precisao =V P

V P + FP(5.2)

43

F1 =2 ∗ precisao ∗ recallprecisao+ recall

(5.3)

B-LOC B-ORG B-PER I-LOC I-ORG I-PER L-LOC L-ORG L-PER U-LOC U-ORG U-PER NULLB-LOC 163 16 28 1 1 0 0 0 0 1 1 0 171B-ORG 22 132 12 0 1 1 1 0 0 0 8 2 212B-PER 4 3 314 0 1 0 0 0 0 0 2 2 261I-LOC 5 4 4 93 13 10 2 0 0 0 1 0 138I-ORG 1 5 1 26 218 6 1 13 0 0 3 0 328I-PER 0 1 27 0 7 135 0 0 1 0 0 1 132L-LOC 0 0 0 1 0 0 175 8 33 0 10 0 149L-ORG 0 0 0 0 1 1 19 126 12 3 19 0 204L-PER 0 0 0 0 0 0 3 4 361 2 4 5 205U-LOC 0 0 0 1 2 0 1 1 0 8 6 6 1902U-ORG 0 3 0 0 0 0 0 0 0 3 210 2 245U-PER 0 0 5 0 1 2 0 1 3 0 13 62 938NULL 20 15 36 14 18 13 18 7 36 0 122 8 71656

TAB. 5.1: Matriz de confusão da rede treinada com o Corpus Primeiro HAREM.

B-LOC B-ORG B-PER I-LOC I-ORG I-PER L-LOC L-ORG L-PER U-LOC U-ORG U-PER NULLF1 0,546 0,463 0,619 0,458 0,504 0,572 0,587 0,462 0,701 0,008 0,487 0,111 0,965

Precisão 0,758 0,737 0,735 0,683 0,828 0,803 0,795 0,787 0,809 0,470 0,526 0,704 0,936Abrangência 0,426 0,337 0,534 0,344 0,362 0,444 0,465 0,327 0,618 0,004 0,453 0,060 0,995

TAB. 5.2: Métricas do treinamento da rede com o Corpus Primeiro HAREM.

5.5 DESENVOLVIMENTO DA VISUALIZAÇÃO DOS EXPERIMENTOS

Além de trabalho envolvendo a tradução da ferramenta FOX versão português, foi-se

criado em paralelo uma forma de visualizar os resultados de maneira mais clara e objetiva

para realizar uma análise mais precisa dos resultados dos experimentos

A partir disso, utilizou-se a ferramenta Jupyter Notebook 5.1 para escrever os códigos

em Python3 para com o intuito de automatizar e tornar mais rápido e fácil a produção

dos gráficos para a posterior análise.

44

FIG. 5.1: Interface do ambiente de desenvolvimento das visualizações

Foram criados filtros para que fosse possível o melhor controle no momento de criar

os gráficos. Filtros esses como selecionar gráfico tipo barra ou espalhamento (como na

figura 5.3), ou comparar conjunto de dados com relação a uma ferramenta em específico

ou comparar o desempenho das ferramentas dado o mesmo conjunto de dados.

A ideia para o desenvolvimento partiu da análise das tabelas geradas pela GERBIL.

Elas possuíam uma estrutura de conjunto de métricas sempre agrupadas, eram elas: mé-

trica F1, precisão e abrangência; sejam elas fossem macro ou micro. Além disso, a tabela

possuía colunas de Anotadores e Conjunto de dados, essas seriam usadas como índices

para principal comparação.

A partir disso, é possível ver que a tabela possuía uma estrutura de um cubo multi-

dimensional e a tarefa dessa visualização seria gerar cortes, tendo como índices os Ano-

tadores ou Conjunto de dados, que fossem capaz de representar as métricas de forma a

comparar esses mesmo índices. Dessa forma, as possibilidades que seriam mais viáveis

seria agrupar esses campos em: anotadores, conjunto de dados, micro métricas, macro

métricas, e diante disso permitir a geração de uma espécie de gráfico. Encontra-se abaixo

um esquema estrela (figura 5.2) que ilustra como seria essa visão na forma de diagrama.

45

FIG. 5.2: Esquema estrela simplificado da saída dos experimentos da GERBIL

Esse tipo de gráfico poderia ser de espalhamento, onde o conjunto de métricas esco-

lhidas ficaria representado no centro, e no círculo ao redor seria um dos índices como os

Conjunto de dados (vide 5.3).

FIG. 5.3: Interface do ambiente de desenvolvimento das visualizações

46

Ademais, ainda estudando as tabelas geradas pela GERBIL, vê-se necessário uma

limpeza em certas células, pois podem ocorrer erros nesses experimentos gerados. E

então foi-se feito esse filtro. E como não era possível saber exatamente como todos os

experimentos eram feitos, viu-se a necessidade também de permitir a inserção de mais e

experimento para a produção das visualizações. Então a extração de dados é feita via

web por meio da URI produzida pela ferramenta GERBIL.

47

6 RESULTADOS E DISCUSSÕES

Através da ferramenta de benchmarking GERBIL foi possível realizar experimentos

com outras ferramentas de NER que contêm suporte ao português, a fim de se comparar os

resultados com o modelo obtido da FOX por esse trabalho. Os valores estão na seção 9.1.

Foram utilizados os conjuntos de dados de padrões Gold na obtenção desses resultados.

As tabelas apresentadas são multidimensionais podendo ser representadas por cubos e

para melhor compreensão construiu-se gráficos com filtros considerados relevantes para as

análises.

Em um primeiro momento é feita a comparação da FOX versão português com ou-

tras como: Babelfy, Spotlight, Stanford e OpenNLP. Tendo em vista que a ferramenta

Spotlight é o estado da arte com relação à Stanford e a OpenNLP, os gráficos 6.2 e 6.1

gerados para a comparação de resultados com a FOX versão português considerou ape-

nas as ferramentas Spotlight e Babelfy (DAIBER et al., 2013). Para as análises gráficas

levou-se em consideração os valores micro, em que somam-se todos os verdadeiros posi-

tivos e negativos dos documentos para os cálculos das métricas. Ainda, considerou os

experimentos com anotação fraca, em que correspondências parciais, entre as palavras de

entidades que contenham mais de uma, são consideradas corretas.

No gráfico 6.1 pode-se observar que a precisão da FOX é superior às demais ferra-

mentas em todos os conjuntos de dados testados. Especificamente, no Segundo Harem,

ela obteve um aumento de 55,44% com relação ao melhor classificador base utilizada em

sua composição. Isso mostra que entre as entidades reconhecidas pela FOX houve um

número baixo de falsos positivos. Por outro lado, a FOX apresentou uma abrangência

relativamente baixa em relação às demais ferramentas, significando que houve uma grande

quantidade de falsos negativos. Perdeu-se 25,18% de sua abrangência comparada ao me-

lhor valor. Vê-se então que é necessário utilizar de mais conjuntos de treino de forma

a melhorar abrangência da ferramenta. Ao observar a medida F1 observa-se que nos

conjuntos anotados manualmente, a FOX foi capaz de superar as ferramentas em seus

resultados individuais assim como outras disponíveis no mercado (vantagem de 12,16%

no caso da Babelfy no HAREM). Contudo, obteve resultados inferiores nos conjuntos

anotados automaticamente da ferramenta BENGAL. Nestes casos, o uso de MLP como

comitê para as ferramentas se mostrou não vantajoso com relação aos resultados obtidos

pela ferramenta Spotlight.

48

FIG. 6.1: Comparação entre as ferramentas de NER com diversos conjunto de dados

O gráfico 6.2 gerado compara o resultado da FOX versão português para diferentes

conjuntos de dados: Segundo HAREM, SUMM-IT, Bengal Hybrid, Bengal Path, Bengal

Star e Bengal Sym.

Observa-se no gráfico que os resultados para precisão foram parecidos entre os dife-

rentes conjuntos de dados, com uma diferença máxima de 9,6% que ocorreu entre o Bengal

Sym e o Segundo HAREM. Para abrangência e consequentemente para F1 a ferramenta

obteve melhor desempenho nos conjuntos SUMM-IT e Bengal Path. No entanto, obtém

pior desempenho em todas as medidas nos dados do Bengal Star. Desta forma, entende-

se que não é possível determinar a partir dos experimentos qual tipo de conjunto de

dados (automaticamente ou manualmente anotados) apresenta melhores resultados com

a ferramenta. .

Por fim, podemos avaliar os resultados obtidos para a implementação da versão em

português da FOX em comparação à versão em inglês. Observa-se que essa comparação

não é precisa pois os textos usados tanto no treinamento quanto para realizar os testes

foram diferentes. No entanto essa comparação é útil para se ter noção da confiabilidade

e da utilidade esperada para a ferramenta em relação a ela em outros idiomas.

A FOX em inglês apresenta uma precisão de 81,33% (SPECK; NGOMO, 2017) en-

49

quanto a versão em português no Segundo HAREM obteve 87,82%. Logo, em ambos os

idiomas temos uma alta precisão. Por outro lado, a medida F1 da FOX em inglês foi

de 79,01% enquanto a FOX em português apresentou apenas 48,58%, uma defasagem de

cerca de 33,67%. O que contribui para isso é o fato do conjunto de dados usado para

o treinamento da rede ter sido muito pequeno, uma vez que poucos dados previamente

anotados estavam disponíveis em português.

FIG. 6.2: Comparação entre os resultados da FOX nos conjuntos de dados

50

7 CONCLUSÃO

Dados brasileiros estão em sua maioria publicados de forma não estruturada, dificul-

tando a interoperabilidade do seu conteúdo. Nesse contexto de estruturar informações,

é de suma importância o campo do Processamento de Linguagem Natural. O presente

trabalho, inserido nessa conjuntura, teve por objetivo implementar o idioma Português na

ferramenta de Reconhecimento de Entidades Nomeadas FOX, reconhecida por seus bons

resultados ao aplicar técnicas de comitê pela comunidade científica.

Foram inseridas no código da FOX original outras ferramentas que já possuíam su-

porte ao português e fez-se a elaboração de um código leitor para que se pudesse treinar

sua rede neural através do Corpus Primeiro HAREM. Além disso, visando a futuros a

trabalhos de avaliação da ferramenta, converteu-se conjuntos de dados para o formato

NIF, utilizado pela ferramenta de benchmarking GERBIL. Desta forma, obteve-se como

resultado do trabalho a versão para o português da ferramenta FOX para o reconheci-

mento de entidades nomeadas assim como os Corpus HAREM e SUMM-IT no formato

adequado para serem usados em tarefas de benchmarking.

Após analisar os resultados obtidos pela ferramenta implementada, com ajuda das vi-

sualizações desenvolvidas com a ferramenta Jupyter, percebeu-se que a mesma apresenta

boa precisão em relação a outras ferramentas de mesmo fim, mas baixa abrangência, o

que indica que o treinamento da rede foi realizado com um conjunto de dados pequeno. O

resultado é útil, porém, em projetos nos quais apenas a precisão seja um fator fundamen-

tal. Trabalhos futuros podem exercer esforços no sentido de melhorar a abrangência da

ferramenta sem abrir mão de sua boa precisão, a fim de se poder bons valores em ambas

as métricas em relação a demais ferramentas do mercado, como a própria versão original

da FOX já obtém.

51

8 REFERÊNCIAS BIBLIOGRÁFICAS

AMARAL, D. O. F. D.; OTHERS. O reconhecimento de entidades nomeadas por

meio de conditional random fields para a língua portuguesa. 2013. Dissertação

(Mestrado em Sistemas e Computação) – Programa de Pos-Graduacao em Ciencia da

Computacao, Porto Alegre, 2013. Acesso em: Faculdade de Informatica.

AUER, S.; BRYL, V. ; TRAMP, S. Linked Open Data–Creating Knowledge Out

of Interlinked Data: Results of the LOD2 Project. [S.l.]: Springer, 2014.

BALDRIDGE, JASON. The opennlp project. Disponível em:

<http://opennlp.apache.org/index.html>. Acesso em: 08 mai. de 2019.

BERNERS-LEE, T.; CAILLIAU, R.; GROFF, J.-F. ; POLLERMANN, B. World-wide

web: The information universe. Internet Research, v. 2, n. 1, p. 52–58, 1992.

BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. ; OTHERS. The semantic web.

Scientific american, v. 284, n. 5, p. 28–37, 2001.

COHEN, K. B.; DEMNER-FUSHMAN, D. Biomedical natural language processing.

[S.l.]: John Benjamins, 2014.

COLLOVINI, S.; CARBONEL, T. I.; FUCHS, J. T.; COELHO, J. C.; RINO, L. ; VI-

EIRA, R. Summ-it: Um corpus anotado com informaç oes discursivas visandoa

sumarizaç ao automática. In: PROCEEDINGS OF TIL, 27., 2007. Anais... [S.l.:

s.n.], 2007, p. 1605–1614.

DAIBER, J.; JAKOB, M.; HOKAMP, C. ; MENDES, P. N. Improving efficiency and

accuracy in multilingual entity extraction. In: PROCEEDINGS OF THE 9TH IN-

TERNATIONAL CONFERENCE ON SEMANTIC SYSTEMS, 1., 2013. Anais...

[S.l.: s.n.], 2013, p. 121–124.

DIETTERICH, T. G. Ensemble methods in machine learning. In: INTERNATIONAL

WORKSHOP ON MULTIPLE CLASSIFIER SYSTEMS, 1., 2000. Anais... [S.l.:

s.n.], 2000, p. 1–15.

DO AMARAL, D. O.; FONSECA, E.; LOPES, L. ; VIEIRA, R. Comparing nerp-crf with

publicly available portuguese named entities recognition tools. In: INTERNATIONAL

52

CONFERENCE ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE

LANGUAGE, 1., 2014. Anais... [S.l.: s.n.], 2014, p. 244–249.

FONSECA, E. B.; CHIELE, G. C. ; VANIN, A. A. Reconhecimento de entidades no-

meadas para o português usando o opennlp. Anais do Encontro Nacional de

Inteligência Artificial e Computacional (ENIAC 2015), s. pp, v. 1, p. 1, 2015.

FREITAS, C.; CARVALHO, P.; GONÇALO OLIVEIRA, H.; MOTA, C. ; SANTOS,

D. Second harem: advancing the state of the art of named entity recognition

in portuguese. In: QUOT; IN NICOLETTA CALZOLARI; KHALID CHOUKRI;

BENTE MAEGAARD; JOSEPH MARIANI; JAN ODIJK; STELIOS PIPERIDIS;

MIKE ROSNER; DANIEL TAPIAS (ED) PROCEEDINGS OF THE INTERNATIO-

NAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION (LREC

2010)(VALLETTA 17-23 MAY DE 2010) EUROPEAN LANGUAGE RESOURCES

ASSOCIATION, 1., 2010. Anais... [S.l.: s.n.], 2010, p. 1.

HALL, M.; FRANK, E.; HOLMES, G.; PFAHRINGER, B.; REUTEMANN, P. ; WIT-

TEN, I. H. The weka data mining software: an update. ACM SIGKDD explora-

tions newsletter, v. 11, n. 1, p. 10–18, 2009.

JURAFSKY, D.; MARTIN, J. H. Speech and language processing. [S.l.]: Pearson

London, 2014.

KITTLER, J.; HATEF, M.; DUIN, R. P. ; MATAS, J. On combining classifiers. IEEE

transactions on pattern analysis and machine intelligence, v. 20, n. 3, p.

226–239, 1998.

MANNING, C.; SURDEANU, M.; BAUER, J.; FINKEL, J.; BETHARD, S. ; MC-

CLOSKY, D. The stanford corenlp natural language processing toolkit. In: PRO-

CEEDINGS OF 52ND ANNUAL MEETING OF THE ASSOCIATION FOR COM-

PUTATIONAL LINGUISTICS: SYSTEM DEMONSTRATIONS, 1., 2014. Anais...

[S.l.: s.n.], 2014, p. 55–60.

JOHN PHILIP MCCRAE. The Linked Open Data Cloud. Disponível em: <https://lod-

cloud.net/>. Acesso em: 08 mai. de 2019.

MENDES, P. N.; JAKOB, M.; GARCÍA-SILVA, A. ; BIZER, C. Dbpedia spotlight:

shedding light on the web of documents. In: PROCEEDINGS OF THE 7TH INTER-

53

NATIONAL CONFERENCE ON SEMANTIC SYSTEMS, 1., 2011. Anais... [S.l.:

s.n.], 2011, p. 1–8.

MORAES, T. C.; OTHERS. Resolução de correferência e categorias de entidades nome-

adas. 0, v. 1, p. 1, 2010.

NGOMO, A.-C. N.; RÖDER, M.; MOUSSALLEM, D.; USBECK, R. ; SPECK, R. Ben-

gal: An automatic benchmark generator for entity recognition and linking. In: PRO-

CEEDINGS OF THE 11TH INTERNATIONAL CONFERENCE ON NATURAL

LANGUAGE GENERATION, 1., 2018. Anais... [S.l.: s.n.], 2018, p. 339–349.

NGONGA NGOMO, A.-C.; BÜHMANN, L.; UNGER, C.; LEHMANN, J. ; GERBER,

D. Sorry, i don’t speak sparql: translating sparql queries into natural language. In:

PROCEEDINGS OF THE 22ND INTERNATIONAL CONFERENCE ON WORLD

WIDE WEB, 1., 2013. Anais... [S.l.: s.n.], 2013, p. 977–988.

POSSAMAI, A. J. Dados abertos no governo federal brasileiro: desafios de trans-

parência e interoperabilidade. 2016. 313 f. Tese (Programa de Pós-Graduação em

Ciência Política) – Universidade Federal do Rio Grande do Sul, Porto Alegre, 2016.

SECRETARIA DE TECNOLOGIA DA INFORMAÇÃO, MINISTÉRIO DO PLANEJA-

MENTO, DESENVOLVIMENTO E GESTÃO. Conjunto de dados - Portal Brasileiro

de Dados Abertos. Disponível em: <http://dados.gov.br/dataset>. Acesso em: 09

fev. de 2019.

SHADBOLT, N.; BERNERS-LEE, T. ; HALL, W. The semantic web revisited. IEEE

intelligent systems, v. 21, n. 3, p. 96–101, 2006.

SOUZA, R. R.; ALVARENGA, L. A web semântica e suas contribuições para a ciência

da informação. Ciência da Informação, v. 33, n. 1, p. 1, 2004.

SPECK, R.; NGOMO, A.-C. N. Ensemble learning for named entity recognition. In:

INTERNATIONAL SEMANTICWEB CONFERENCE, 1., 2014.Anais... [S.l.: s.n.],

2014, p. 519–534.

SPECK, R.; NGOMO, A.-C. N. Ensemble learning of named entity recognition algorithms

using multilayer perceptron for the multilingual web of data. In: PROCEEDINGS OF

THE KNOWLEDGE CAPTURE CONFERENCE, 1., 2017.Anais... [S.l.: s.n.], 2017,

p. 26.

54

RICARDO USBECK. GERBIL - Agile Knowledge Engineering and Semantic Web

(AKSW). Disponível em: <http://aksw.org/Projects/GERBIL.html>. Acesso em:

08 mar. de 2019.

HITACHI VENTARA. Pentaho Data Integration - Accelerate Data Pipeline. Dis-

ponível em: <https://www.hitachivantara.com/en-us/products/big-data-integration-

analytics/pentaho-data-integration.html>. Acesso em: 08 mar. de 2019.

WAITELONIS, J.; JÜRGES, H. ; SACK, H. Don’t compare apples to oranges: Exten-

ding gerbil for a fine grained nel evaluation. In: PROCEEDINGS OF THE 12TH

INTERNATIONAL CONFERENCE ON SEMANTIC SYSTEMS, 1., 2016. Anais...

[S.l.: s.n.], 2016, p. 65–72.

55

9 APÊNDICES

56

APÊNDICE 1: RESULTADOS DAS AVALIAÇÕES COM A FERRAMENTA GERBIL

FIG. 9.1: Avaliação de Reconhecimento de Entidade com anotação fraca.

57

FIG. 9.2: Avaliação de Reconhecimento de Entidade com anotação forte.

58

MINISTÉRIODADEFESA EXÉRCITOBRASILEIRO ... · e visa permitir maior interoperabilidade entre máquinas e humanos (SOUZA; ALVA- RENGA, 2004). Em 2001, seu idealizador Tim Berners-Lee,

Documents