Top Banner
Classificação de Documentos Classificação baseada em Inteligência Artificial
22

Classificação de documentos

Jan 21, 2017

Download

Software

Dextra
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Classificação de documentos

Classificação de Documentos

Classificação baseada em Inteligência Artificial

Page 2: Classificação de documentos

Agenda

1. Introdução

2. Ferramentas

3. Exercício prático

4. Case

Page 3: Classificação de documentos

Por que classificar documentos?

Page 4: Classificação de documentos

Como fazer isso?

Page 5: Classificação de documentos

Classificação de documentos

1. Exemplos de documentos (arquivos) de cada classe;

2. Criar dicionários de dados e extrair características;

3. Separar amostras para treino e teste;

4. Treinar classificador;

5. Testar classificador treinado.

Page 6: Classificação de documentos

Isso é fácil?

Page 7: Classificação de documentos

Ferramentas

Page 8: Classificação de documentos

Ferramentas

● O processamento distribuído do Hadoop permite escalar;

● O Mahout encapsula a complexidade matemática dos algoritmos de ML;

● Embora o Mahout seja uma API Java, é possível utilizá-la com outras

tecnologias.

Page 9: Classificação de documentos

Ambiente

Page 10: Classificação de documentos

Ambiente

● Virtualização Docker;

● Apache Hadoop;

● Apache Mahout;

● Exemplos de textos divididos em 4 categorias (esporte, medicina, politica e

religião);

Referência: https://github.com/evertongago/text-mining

Page 11: Classificação de documentos

Prática :)

Page 12: Classificação de documentos

Case

Page 13: Classificação de documentos

Case - Contexto

Uma acessoria jurídica separa, classifica e encaminha convocações judiciais aos advogados associados.

Seu processo de trabalho inclui:

● 200+ diários oficiais publicados entre 06h e 11h da manhã

● Converter arquivos PDF para recortes em arquivos texto

● Classificar manualmente cada convocação (80% = ~ 14M / mês)

Page 14: Classificação de documentos

Case - Dificuldades

● O volume de trabalho dificulta a evolução do processo

● “Afoga” o departamento de TI e os analistas

● Sobra pouco tempo e recurso para evoluções

Page 15: Classificação de documentos

Case - Objetivo

Os principais objetivos deste trabalho são:

● Melhorar a classificação automática (hoje ~ 20%)

● Minimizar a classificação crítica e spam

● Diferencial de mercado em relação aos outros players

Page 16: Classificação de documentos

Case - Solução

Page 17: Classificação de documentos

Case - Resultados

APROVADOS DESCARTADOS ACERTOS %

APROVADOS 64.934 667 98.98%

DESCARTADOS 40.300 192.388 82.68%

DESCARTES ERRADOS 1.02%

APROVAÇÕES ERRADAS 17.3%

Page 18: Classificação de documentos

Case - Resultados

Foram criados dois cenários de análise:

● Analisar manualmente as aprovações (-64% de trabalho)

○ Benefício: Minimizar o número de spam

○ Risco: Assume 1.02% de notificações não recebidas

● Analisar manualmente os descartes (-35% de trabalho)

○ Benefício: Minimizar o número de notificações não recebidas

○ Risco: Assume 17.3% de spam

Page 19: Classificação de documentos

Próximos passos

Page 20: Classificação de documentos

DecisãoAlgoritmo de Classificação

Naive Bayes

Page 21: Classificação de documentos

Decisão● Simples de manter● Agilidade de replicação● Integração multiplataforma

Solução baseada em infraestrutura

Page 22: Classificação de documentos

Perguntas?