Marcelo Marinho Lacerda Andrade (Sem Bolsa) Mariana Belmar da Costa B. de Mello (Sem Bolsa) Thiego Batalha Nunes (Sem Bolsa) XXX Jornada de Iniciação Científica Orientadores: Luis Paulo Vieira Braga Instituto de Matemática Departamento de Métodos Estatísticos Fernando Portela Instituto de Microbiologia Departamento de MINERAÇÃO DE DADOS APLICADA AOS DADOS DA EPIDEMIA DE DENGUE 2001-2002
12
Embed
Marcelo Marinho Lacerda Andrade (Sem Bolsa) Mariana Belmar da Costa B. de Mello (Sem Bolsa) Thiego Batalha Nunes (Sem Bolsa) XXX Jornada de Iniciação Científica.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Marcelo Marinho Lacerda Andrade (Sem Bolsa)
Mariana Belmar da Costa B. de Mello (Sem Bolsa)
Thiego Batalha Nunes (Sem Bolsa)
XXX Jornada de Iniciação Científica
Orientadores:
Luis Paulo Vieira Braga
Instituto de Matemática
Departamento de Métodos Estatísticos
Fernando Portela
Instituto de Microbiologia
Departamento de Virologia
MINERAÇÃO DE DADOS APLICADA AOS DADOS DA EPIDEMIA DE DENGUE 2001-2002
MINERAÇÃO DE DADOS APLICADA AOS DADOS DA EPIDEMIA DE DENGUE 2001-2002
A Dengue é um problema abordado em termos ambientais e populacionais;
Não há uma abordagem do problema em termos dos perfis ou padrões de atributos clínicos de pacientes expostos ao vírus da dengue.
Dificuldade na predição, a partir de um conjunto de atributos clínicos, de qual ou quais indivíduos serão alvos para a infecção pelo vírus da dengue, se expostos ao mesmo.
IntroduçãoIntrodução
ConsequênciaConsequência
Ajustar um modelo preditivo para o diagnóstico de dengue;
Usar o modelo ajustado para diagnosticar novos casos a partir somente dos dados clínicos;
Reduzir os custos com exame de sangue para diagnóstico positivo ou negativo de dengue.
ObjetivosObjetivos
Antes do cálculo do modelo, foi necessário tratar os dados fornecidos pelo Sistema de Informação de Agravos de Notificação (SINAN) do Ministério da Saúde.
Etapas do tratamento:
1) Exclusão de variáveis;2) Dados errados;3) Dados faltantes (missings); 4) Significância das variáveis.
Após o tratamento, houve redução na quantidade de variáveis de 75,86% nos casos de 2001 e 2002 (redução de 87 para 21 variáveis).
Tratamento dos dadosTratamento dos dados
DENGUE
ANO
VACINADO
FEBRE
LAÇO
CEFALEIA
EXANTEMA
PROSTRAÇÃO
MIALGIA
NAUSEAS
ARTRALGIA
EPISTAXE
PETEQUIAS
GENGIVO
PLEURAL
ABDOMINAL
HEPATO
CHOQUE
ASCITE
DOR
Variável resposta: ID_DG_NOT (Diagnóstico Dengue)
Variáveis preditivas (dados clínicos):
Variáveis dos bancos de dados 2001-2002 após o tratamentoVariáveis dos bancos de dados 2001-2002 após o tratamento
Modelo criado através da Mineração de Dados (Data Mining) usando o banco de dados de 2001;
Aplicação do método da Árvore de Classificação;
Criação de 2 árvores de classificação a partir dos dados clínicos;
1ª árvore: predizer se o indivíduo possui dengue ou não;
2ª árvore: dado que diagnosticou-se dengue, qual tipo ele possui;
Validação do modelo através de amostras dos bancos de dados dos anos de 2001 e 2002, pois conhece-se a real situação do paciente.
MetodologiaMetodologia
Nó 1N=7590
Nó 2N=4326
Resposta: 2Diagnóstico: em aberto
Nó 3N=3264
Resposta: 1 ou 9 Diagnóstico: tem dengue
Nó 4N=1544
Resposta: 9Diagnóstico: em aberto
Nó 5N=2782
Resposta: 1, 2 ou 3 Diagnóstico: em aberto
Nó 6N=947
Resposta: 2Diagnóstico: em aberto
Nó 7N=597
Resposta: 1 ou 9Diagnóstico: em aberto
Nó 532N=227
Resposta: 9Diagnóstico: em aberto
Nó 533N=2555
Resposta: 1 ou 2Diagnóstico: em aberto
Laço
Prostração Choque
Exantema
Vacinado Dor Abdominal Febre
Visualização parcial da 1ª árvore de classificação (possui dengue ou não)
Visualização parcial da 1ª árvore de classificação (possui dengue ou não)
Respostas:
1 – Sim
2 – Não
3 – Não Realizada
9 - Ignorado
Respostas:
1 – Sim
2 – Não
3 – Não Realizada
9 - Ignorado
Resultados do modeloResultados do modelo
Cálculo do modelo foi prejudicado pelo alto índice de missings existentes;
A maioria dos casos de dengue foram preditos corretamente;
A diferença entre os padrões de epidemia nos anos de 2001 e 2002 prejudicou a previsão dos resultados em 2002;
Por esse motivo, e pelo fato da amostra de treinamento utilizada ser do banco de dados de 2001, optou-se pela validação do modelo com os dados do mesmo ano.