Top Banner
Modelagem de linguagens naturais para a captura Modelagem de linguagens naturais para a captura de relacionamentos sintático-semânticos de relacionamentos sintático-semânticos Bruno Menegola Bruno Menegola [email protected] [email protected] Orientadora: Aline Villavicencio Orientadora: Aline Villavicencio Colaboradoras: Maria Alice Pimenta Parente e Maity Siqueira Colaboradoras: Maria Alice Pimenta Parente e Maity Siqueira Grupo de Processamento de Linguagem Natural Grupo de Processamento de Linguagem Natural Instituto de Informática / UFRGS Instituto de Informática / UFRGS
43

Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Nov 10, 2018

Download

Documents

truonganh
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Modelagem de linguagens naturais para a captura Modelagem de linguagens naturais para a captura de relacionamentos sintático-semânticosde relacionamentos sintático-semânticos

Bruno MenegolaBruno [email protected]@inf.ufrgs.br

Orientadora: Aline VillavicencioOrientadora: Aline VillavicencioColaboradoras: Maria Alice Pimenta Parente e Maity SiqueiraColaboradoras: Maria Alice Pimenta Parente e Maity Siqueira

Grupo de Processamento de Linguagem NaturalGrupo de Processamento de Linguagem NaturalInstituto de Informática / UFRGSInstituto de Informática / UFRGS

Page 2: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Modelagem de linguagens naturais para a captura de relacionamentos sintático-semânticos

Organização:Introdução e motivaçãoArquitetura propostaConclusões e trabalhos futuros

Page 3: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Introdução

Como as pessoas encontram as palavras que querem usar?

Page 4: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Introdução

Como as pessoas encontram as palavras que querem usar?As palavras estão armazenadas no léxico mental

Page 5: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Introdução

Como as pessoas encontram as palavras que querem usar?As palavras estão armazenadas no léxico mentalEntretanto o número e a organização das palavras é diferente de um dicionário

Page 6: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Introdução

Como as pessoas encontram as palavras que querem usar?As palavras estão armazenadas no léxico mentalEntretanto o número e a organização das palavras é diferente de um dicionárioCrianças e adultos organizam e recuperam as palavras da mesma forma?Diferentes culturas organizam e recuperam as palavras da mesma forma?

Page 7: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Introdução

O objetivo é criar modelos computacionais

Page 8: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Introdução

O objetivo é criar modelos computacionaisFoco no desenvolvimento de modelos que capturem relacionamentos sintático-semânticos:

SinonímiaEx.: criar ↔ produzir

HiperonímiaEx.: voar ↔ locomover andar ↔ locomover

HiponímiaEx.: cortar ↔ picar cortar ↔ serrar

Page 9: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Metodologia

Dados provém de pesquisas feitas com crianças e adultos do Brasil e da China realizadas por colaboradores do Instituto de Psicologia da UFRGS

Page 10: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Metodologia

Dados provém de pesquisas feitas com crianças e adultos do Brasil e da China realizadas por colaboradores do Instituto de Psicologia da UFRGSCada pessoa realizou duas tarefas:

Descrever a ação exibida (primeira resposta)Sugerir outro verbo que pudesse substituir o primeiro (segunda resposta)

Page 11: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Metodologia

Dezessete filmes foram exibidos

Page 12: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Metodologia

Dezessete filmes foram exibidosFilme: ballon

resposta adultos resposta crianças1 Estourar(35) 1 Estourar(34)1 Dar(2) 1 Quebrar(2)1 Bater(1) 1 Esmagar(1)1 Furar(1) 1 Fazer(1)2 furar(11) 1 Pegar(1)2 explodir(9) 2 bater(2)2 dar(5) 2 estourar(9)2 bater(3)2 estourar(2)2 pressionar(2)2 tirar(2)2 esmagar(1)2 esvaziar(1)2 fazer(1)2 rasgar(1)2 romper(1)

Page 13: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Grafos

Pain3resposta adultos

1 Esfarelar(12)1 Quebrar(11)1 Esmigalhar(6)1 Despedaçar(4)1 Partir(2)1 Desfarelar(1)1 Desmanchar(1)1 Destruir(1)1 Tirar(1)1 Triturar(1)

Page 14: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Grafos

Pain3resposta adultos

1 Esfarelar(12)1 Quebrar(11)1 Esmigalhar(6)1 Despedaçar(4)1 Partir(2)1 Desfarelar(1)1 Desmanchar(1)1 Destruir(1)1 Tirar(1)1 Triturar(1)

Page 15: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Grafos

12

Pain3resposta adultos

1 Esfarelar(12)1 Quebrar(11)1 Esmigalhar(6)1 Despedaçar(4)1 Partir(2)1 Desfarelar(1)1 Desmanchar(1)1 Destruir(1)1 Tirar(1)1 Triturar(1)

Page 16: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Grafos

1211

6

41 2

1

1

11

Pain3resposta adultos

1 Esfarelar(12)1 Quebrar(11)1 Esmigalhar(6)1 Despedaçar(4)1 Partir(2)1 Desfarelar(1)1 Desmanchar(1)1 Destruir(1)1 Tirar(1)1 Triturar(1)

Page 17: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Grafos

Pain3resposta adultos

1 Esfarelar(12)1 Quebrar(11)1 Esmigalhar(6)1 Despedaçar(4)1 Partir(2)1 Desfarelar(1)1 Desmanchar(1)1 Destruir(1)1 Tirar(1)1 Triturar(1)

Page 18: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Grafos

Page 19: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Grafos

Page 20: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Grafos

Page 21: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Grafos

Page 22: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Tabelas

Verbo Citações ...Amassar 15 2 45 7Arrancar 3 3 5 2Bater 2 2 2 1 1Botar 1 1 1 1Comer 1 1 1Cortar 17 5 58Cozinhar 1 1 1Dar 3 3 6 3 2Desabotoar 1 1 2Descascar 32 4 105 13Descosturar 1 1 5Desencaixar 1 1 1Desfarelar 1 1 1Desmanchar 2 2 3...

Número de ligações

Freq. Total (670)

Freq. tomato (36)

Freq. arbre (36)

Freq. ballon (39)

Page 23: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Tabelas

Verbo Citações ...Amassar 15 2 45 7Arrancar 3 3 5 2Bater 2 2 2 1 1Botar 1 1 1 1Comer 1 1 1Cortar 17 5 58Cozinhar 1 1 1Dar 3 3 6 3 2Desabotoar 1 1 2Descascar 32 4 105 13Descosturar 1 1 5Desencaixar 1 1 1Desfarelar 1 1 1Desmanchar 2 2 3...

Número de ligações

Freq. Total (670)

Freq. tomato (36)

Freq. arbre (36)

Freq. ballon (39)

Page 24: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Tabelas

Verbo Citações ...Amassar 15 2 45 7Arrancar 3 3 5 2Bater 2 2 2 1 1Botar 1 1 1 1Comer 1 1 1Cortar 17 5 58Cozinhar 1 1 1Dar 3 3 6 3 2Desabotoar 1 1 2Descascar 32 4 105 13Descosturar 1 1 5Desencaixar 1 1 1Desfarelar 1 1 1Desmanchar 2 2 3...

Número de ligações

Freq. Total (670)

Freq. tomato (36)

Freq. arbre (36)

Freq. ballon (39)

Page 25: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Tabelas

Verbo Citações ...Amassar 15 2 45 7Arrancar 3 3 5 2Bater 2 2 2 1 1Botar 1 1 1 1Comer 1 1 1Cortar 17 5 58Cozinhar 1 1 1Dar 3 3 6 3 2Desabotoar 1 1 2Descascar 32 4 105 13Descosturar 1 1 5Desencaixar 1 1 1Desfarelar 1 1 1Desmanchar 2 2 3...

Número de ligações

Freq. Total (670)

Freq. tomato (36)

Freq. arbre (36)

Freq. ballon (39)

Page 26: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Tabelas

Verbo Citações ...Amassar 15 2 45 7Arrancar 3 3 5 2Bater 2 2 2 1 1Botar 1 1 1 1Comer 1 1 1Cortar 17 5 58Cozinhar 1 1 1Dar 3 3 6 3 2Desabotoar 1 1 2Descascar 32 4 105 13Descosturar 1 1 5Desencaixar 1 1 1Desfarelar 1 1 1Desmanchar 2 2 3...

Número de ligações

Freq. Total (670)

Freq. tomato (36)

Freq. arbre (36)

Freq. ballon (39)

Page 27: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Generalidade

Indica o quanto uma palavra é freqüente e utilizável

Page 28: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Generalidade

Indica o quanto uma palavra é freqüente e utilizável

Onde x e y são nós do grafo G, P(x) indica a freqüência de x independente de filme e con(x) indica o grau de x

P x =freq x

∑y∈Gfreq y

con x =∑y∈G x , y

gen x =P x ∗con x

Page 29: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Generalidade

Verbo gen(x) Citações

tirar 0,8450 7 10 81cortar 0,6781 7 7 65dividir 0,4769 8 8 40fazer 0,2504 7 7 24separar 0,2399 7 7 23partir 0,1610 4 5 27abrir 0,1386 3 4 31...

Número de ligações

Freq. Total (671)

Verbo gen(x) Citações

...desmembrar 0,0030 1 1 2desmontar 0,0030 1 1 2estilhaçar 0,0030 1 1 2prensar 0,0030 1 1 2achatar 0,0015 1 1 1afinar 0,0015 1 1 1danificar 0,0015 1 1 1desagregar 0,0015 1 1 1...

Número de ligações

Freq. Total (671)

P x =freq x

∑y∈Gfreq y

con x =∑y∈G x , y

gen x =P x ∗con x

Page 30: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Generalidade

Verbo gen(x) Citações

tirar 0,8450 7 10 81cortar 0,6781 7 7 65dividir 0,4769 8 8 40fazer 0,2504 7 7 24separar 0,2399 7 7 23partir 0,1610 4 5 27abrir 0,1386 3 4 31...

Número de ligações

Freq. Total (671)

Verbo gen(x) Citações

...desmembrar 0,0030 1 1 2desmontar 0,0030 1 1 2estilhaçar 0,0030 1 1 2prensar 0,0030 1 1 2achatar 0,0015 1 1 1afinar 0,0015 1 1 1danificar 0,0015 1 1 1desagregar 0,0015 1 1 1...

Número de ligações

Freq. Total (671)

P x =freq x

∑y∈Gfreq y

con x =∑y∈G x , y

gen x =P x ∗con x

Page 31: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Generalidade

Verbo gen(x) Citações

tirar 0,8450 7 10 81cortar 0,6781 7 7 65dividir 0,4769 8 8 40fazer 0,2504 7 7 24separar 0,2399 7 7 23partir 0,1610 4 5 27abrir 0,1386 3 4 31...

Número de ligações

Freq. Total (671)

Verbo gen(x) Citações

...desmembrar 0,0030 1 1 2desmontar 0,0030 1 1 2estilhaçar 0,0030 1 1 2prensar 0,0030 1 1 2achatar 0,0015 1 1 1afinar 0,0015 1 1 1danificar 0,0015 1 1 1desagregar 0,0015 1 1 1...

Número de ligações

Freq. Total (671)

P x =freq x

∑y∈Gfreq y

con x =∑y∈G x , y

gen x =P x ∗con x

Page 32: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Convencionalidade

Indica quanto uma palavra é preferida entre outras para descrever um determinado evento

Page 33: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Convencionalidade

Indica quanto uma palavra é preferida entre outras para descrever um determinado eventoSendo x|f a palavra x considerando apenas suas ocorrências no filme f:

conv x∣ f =freq x∣ f

∑y∈Gfreq y∣ f

Verbo

abrir 13estragar 6descosturar 6rasgar 6destruir 2inutilizar 2arrancar 1romper 1partir 1fazer 1

Freq. Chemise (39)

Verbo

Desmontar 35Dividir 10Desmanchar 2Desencaixar 1Tirar 1

Freq. legos (49)

Page 34: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Arquitetura Proposta

Dados de entrada

Geração de grafos

XML

Geração de visualização Análises Geração de planilhas

Arquivos de visualização Resultados de cálculos Planilhas

Tradução

Page 35: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Conclusões

O modelo possibilita realizar pesquisas sobre aquisição da linguagem

Page 36: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Conclusões

O modelo possibilita realizar pesquisas sobre aquisição da linguagemEsta pesquisa permite um melhor entendimento dos mecanismos e algoritmos de aprendizado necessários para a aquisição da linguagem

Page 37: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Conclusões

Os resultados preliminares até então obtidos sugerem que:

Page 38: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Conclusões

Os resultados preliminares até então obtidos sugerem que:

Adultos utilizam muito mais palavras específicas que as crianças

Page 39: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Conclusões

Os resultados preliminares até então obtidos sugerem que:

Adultos utilizam muito mais palavras específicas que as criançasOs falantes de Mandarim possuem um léxico maior que os de Português

Page 40: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Conclusões

Os resultados preliminares até então obtidos sugerem que:

Adultos utilizam muito mais palavras específicas que as criançasOs falantes de Mandarim possuem um léxico maior que os de PortuguêsPor essa razão as crianças chinesas também utilizam verbos mais específicos que as brasileiras.

Page 41: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Conclusões – Trabalhos futuros

Dar continuidade com dados coletados de crianças de ambas as comunidades dois anos após o estudo inicial

Page 42: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Conclusões – Trabalhos futuros

Dar continuidade com dados coletados de crianças de ambas as comunidades dois anos após o estudo inicialEsse modelo deve capturar a mudança gradual da organização lexical

Page 43: Modelagem de linguagens naturais para a captura de ...linatural/englishversion/Docs/Int_PLN_UFRGS_2.pdfGrupo de Processamento de Linguagem Natural ... As palavras estão armazenadas

Bruno [email protected]

Obrigado!