Top Banner
Universidade Federal do Paraná Mineração de Dados e Aprendizado de Máquinas. Aurora Trinidad Ramírez Pozo
64

Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Dec 24, 2018

Download

Documents

lekien
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Universidade Federal do Paranaacute

Mineraccedilatildeo de Dados e Aprendizado de Maacutequinas

Aurora Trinidad Ramiacuterez Pozo

Roteiro Overview a Descoberta de

Conhecimento em Bases de Dados

Descoberta de Conhecimento em Bancos de Dados

um crescimento explosivo nos bancos de dados

como interpretar e examinar estes dados

necessidade de novas ferramentas e teacutecnicas para anaacutelise automaacutetica e inteligente de bancos de dados

Descoberta de Conhecimento

Dados

InformaccedilatildeoConhec

$

Volume Valor

agreguem valor aos seus negoacutecios

Posicionamento

Transformar dados

em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle

de produccedilatildeo anaacutelise de mercado ao projeto de

engenharia e exploraccedilatildeo cientiacutefica

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 2: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Roteiro Overview a Descoberta de

Conhecimento em Bases de Dados

Descoberta de Conhecimento em Bancos de Dados

um crescimento explosivo nos bancos de dados

como interpretar e examinar estes dados

necessidade de novas ferramentas e teacutecnicas para anaacutelise automaacutetica e inteligente de bancos de dados

Descoberta de Conhecimento

Dados

InformaccedilatildeoConhec

$

Volume Valor

agreguem valor aos seus negoacutecios

Posicionamento

Transformar dados

em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle

de produccedilatildeo anaacutelise de mercado ao projeto de

engenharia e exploraccedilatildeo cientiacutefica

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 3: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Descoberta de Conhecimento em Bancos de Dados

um crescimento explosivo nos bancos de dados

como interpretar e examinar estes dados

necessidade de novas ferramentas e teacutecnicas para anaacutelise automaacutetica e inteligente de bancos de dados

Descoberta de Conhecimento

Dados

InformaccedilatildeoConhec

$

Volume Valor

agreguem valor aos seus negoacutecios

Posicionamento

Transformar dados

em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle

de produccedilatildeo anaacutelise de mercado ao projeto de

engenharia e exploraccedilatildeo cientiacutefica

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 4: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Descoberta de Conhecimento

Dados

InformaccedilatildeoConhec

$

Volume Valor

agreguem valor aos seus negoacutecios

Posicionamento

Transformar dados

em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle

de produccedilatildeo anaacutelise de mercado ao projeto de

engenharia e exploraccedilatildeo cientiacutefica

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 5: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Posicionamento

Transformar dados

em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle

de produccedilatildeo anaacutelise de mercado ao projeto de

engenharia e exploraccedilatildeo cientiacutefica

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 6: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Transformar dados

em informaccedilatildeo e conhecimento uacuteteis para o suporte agrave decisatildeo gerenciamento de negoacutecios controle

de produccedilatildeo anaacutelise de mercado ao projeto de

engenharia e exploraccedilatildeo cientiacutefica

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 7: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

KDD

Descoberta de Conhecimento em Bases de Dados

Knowledge Discovery in Databases ferramentas e teacutecnicas empregadas

para anaacutelise automaacutetica e inteligente destes imensos repositoacuterios

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 8: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Etapas do Processo

O processo de KDD eacute interativo iterativo cognitivo e exploratoacuterio envolvendo vaacuterios passos

muitas decisotildees sendo feitas pelo analista ( especialista do domiacutenio dos dados)

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 9: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Conhecimento

1 Definiccedilatildeo do tipo de conhecimento a descobrir o que pressupotildee uma compreensatildeo do

domiacutenio da aplicaccedilatildeo bem como do tipo de decisatildeo que tal

conhecimento pode contribuir para melhorar

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 10: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Seleccedilatildeo

2 Criaccedilatildeo de um conjunto de dados alvo (Selection) selecionar um conjunto de dados ou

focar num subconjunto onde a descoberta deve ser realizada

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 11: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Limpeza de Dados

3 Preacute-processamento operaccedilotildees baacutesicas tais como remoccedilatildeo de ruiacutedos quando

necessaacuterio coleta da informaccedilatildeo necessaacuteria para

modelar ou estimar ruiacutedo escolha de estrateacutegias para manipular

campos de dados ausentes formataccedilatildeo de dados de forma a

adequaacute-los agrave ferramenta de mineraccedilatildeo

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 12: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Reduccedilatildeo de dados

4 Projeccedilatildeo (Transformation) localizaccedilatildeo de caracteriacutesticas uacuteteis para representar os dados dependendo do objetivo da tarefa

visando a reduccedilatildeo do nuacutemero de variaacuteveis eou instacircncias a serem consideradas para o conjunto de dados

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 13: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Mineraccedilatildeo de dados

5 Datamining selecionar os meacutetodos a serem

utilizados para localizar padrotildees nos dados

seguida da efetiva busca por padrotildees de interesse numa forma particular de representaccedilatildeo ou conjunto de representaccedilotildees

busca pelo melhor ajuste dos paracircmetros do algoritmo para a tarefa em questatildeo

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 14: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Interpretaccedilatildeo

Interpretaccedilatildeo dos padrotildees minerados (Interpretation Evaluation) com um possiacutevel retorno aos passos 1-6 para posterior iteraccedilatildeo

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 15: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Implantaccedilatildeo

Implantaccedilatildeo do conhecimento descoberto (Knowledge)

incorporar este conhecimento agrave performance do sistema

ou documentaacute-lo e reportaacute-lo agraves partes interessadas

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 16: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Etapas de KDD [Fayyad et al 1996]

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 17: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Teacutecnicas e Algoritmos

Bases de dados satildeo altamente suscetiacuteveis a dados ruidosos

erros e valores estranhos incompletos (valores de atributos

ausentes) e inconsistentes (discrepacircncias

semacircnticas)

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 18: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Teacutecnicas de preacute-processamento e transformaccedilatildeo de dados satildeo aplicadas para aumentar a qualidade e o poder de expressatildeo dos dados a serem minerados

Estas fases tendem a consumir a maior parte do tempo dedicado ao processo de KDD (aproximadamente 70)

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 19: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Preacute-processamento de Dados Rotinas de limpeza de dados

tentam suprir valores ausentes reduzir discrepacircncias de valores

ruidosos e corrigir inconsistecircncias

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 20: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Teacutecnicas Valores Ausentes

1Ignorar a tupla2Suprir valores ausentes

a) manualmenteb) atraveacutes de uma constante globalc) utilizando a meacutedia do atributod) utilizando a meacutedia do atributo para

todas as instacircncias da mesma classee) com o valor mais provaacutevel (regressatildeo

inferecircncia etc)

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 21: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

As teacutecnicas 2b 2c 2d e 2e podem viciar os dados

A teacutecnica 2e eacute uma estrateacutegia interessante pois em comparaccedilatildeo com outros meacutetodos utiliza um maior nuacutemero de informaccedilotildees dos dados disponiacuteveis

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 22: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Ruiacutedos nos dados

Ruiacutedos nos dados satildeo erros aleatoacuterios ou variacircncias numa variaacutevel mensurada

A eliminaccedilatildeo de ruiacutedos pode ser realizada atraveacutes de1 - Interpolaccedilatildeo2 - Agrupamento3 - Inspeccedilatildeo humana e computacional

combinadas4 ndash Regressatildeo

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 23: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Inconsistecircncias

corrigidos manualmente atraveacutes de referecircncias externas

Rotinas de consistecircncia evitam a inserccedilatildeo de dados incorretos

Discrepacircncias podem ser combatidas atraveacutes de dependecircncias funcionais

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 24: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

O que eacute mineraccedilatildeo de dados

Mineraccedilatildeo de Dados eacute um passo no processo de KDD que consiste na aplicaccedilatildeo de anaacutelise de dados e algoritmos de descobrimento que produzem uma enumeraccedilatildeo de padrotildees (ou

modelos) particular sobre os dadosUsama Fayyad Ai Magazine 1996

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 25: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Mineraccedilatildeo de dados

Extrair informaccedilotildees uacuteteis de bilhotildees de bits de dados

O processo natildeo-trivial de identificar padrotildees vaacutelidos novos potencialmente uacuteteis e compreensiacuteveis em dados

Teacutecnicasferramentas para apresentar e analisar dados

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 26: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Mineraccedilatildeo de dados

descobre padrotildees tendecircncias infere regras suporta revisa e examina decisotildees

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 27: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Exemplo de conhecimento extraiacutedo

Banco de dados de lojas de produtos eletrocircnicos

OLAP Quantos videogames do tipo XYZ foram vendidos para o

cliente ABC na data ddmmaa

Mineraccedilatildeo Se (idade lt 18) E (profissatildeo = estudante) Entatildeo

(compra= videogame) (90) Utilidade estrateacutegias de marketing

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 28: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Aacutereas de pesquisa relacionadas

Aprendizagem de maacutequina reconhecimento de padrotildees bancos de dados estatiacutestica e Visualizaccedilatildeo de dados

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 29: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Machine Learning Abordagens

Baseado em loacutegica Algoritmos geneacuteticos Programaccedilatildeo geneacutetica Redes neurais

Tarefas Associaccedilatildeo Agrupamento (Clustering) Classificaccedilatildeo

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 30: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Taxonomia do processo de KDD

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 31: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Tarefa de Classificaccedilatildeo Cada exemplo pertence a uma

classe preacute-definida Cada exemplo consiste de

Um atributo classe Um conjunto de atributos preditores

O objetivo eacute predizer a classe do exemplo dado seus valores de atributos preditores

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 32: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Exemplo Extraiacutedo de Freitas amp Lavington 98

Uma editora internacional publica o livro ldquoGuia de Restaurantes Franceses na Inglaterrardquo em 3 paiacuteses Inglaterra Franccedila e Alemanha

A editora tem um banco de dados sobre clientes nesses 3 paiacuteses e deseja saber quais clientes satildeo mais provaacuteveis compradores do livro (para fins de mala direta direcionada) Atributo meta comprar (simnatildeo)

Para coletar mais dados enviar material de propaganda para uma amostra de clientes registrando se cada cliente que recebeu a propaganda comprou ou natildeo o livro

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 33: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Exemplo de Classificaccedilatildeo

Natildeo55FranccedilaM

Natildeo34FranccedilaF

Natildeo18AlemanhaF

Natildeo20AlemanhaM

Natildeo21AlemanhaM

Natildeo30FranccedilaF

Sim34InglaterraF

Sim23FranccedilaF

Sim21InglaterraM

Sim25FranccedilaM

CompraIdadePaiacutesSexo

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 34: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Aacutervores de Decisatildeo

Alemanha Inglaterra

Franccedila

Paiacutes

Natildeo Sim

Sim Natildeo

Idade

gt 25lt 25

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 35: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Regras de associaccedilatildeo 90 das mulheres com carros

esporte vermelhos e catildees pequenos usam Chanel 5

O nuacutemero de regras de associaccedilatildeo que podem ser encontrados em um banco de dados eacute quase infinito

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 36: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Supermercado Itens de compras de clientes

Leite patildeo manteiga Arroz feijatildeo Leite cafeacute patildeo Patildeo manteiga

Leite =gt Patildeo Arroz =gt Feijatildeo Patildeo =gt Manteiga

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 37: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Associaccedilatildeo vs Classificaccedilatildeo [Freitas 2000]

Associaccedilatildeo problema eacute simeacutetrico todos os items podem aparecer ou no antecedente ou no consequente de uma regra

qualidade de uma regra eacute avaliada por fatores de Conf e Sup definidos pelo usuaacuterio

definiccedilatildeo do problema eacute determiniacutestica o sistema deve encontrar todas regras com Sup e Conf maior ou igual a limiares preacuteshydefinidos

Na maioria da literatura o desafio eacute projetar algoritmos eficientes

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 38: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Classificaccedilatildeo

problema eacute assimeacutetrico um uacutenico atributo meta a ser previsto dados demais atributos

regras satildeo avaliadas em dados de teste natildeo vistos durante treinamento (prever o futuro)

qualidade de uma regra eacute muito mais difiacutecil de avaliar logo natildeo eacute muito claro quais regras deveriam ser descobertas pelo sistema

eficiecircncia ainda eacute importante mas o desafio principal eacute projetar algoritmos eficazes

problema eacute natildeoshydeterminiacutestico (induccedilatildeo)

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 39: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

ldquoClusteringrdquo (Agrupamento)

O sistema ldquoinventardquo classes agrupando registros semelhantes (isto eacute com valores de atributos semelhantes) em uma mesma classe

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 40: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Clusters

Antes Depois

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 41: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Cluster Apoacutes clustering podeshyse aplicar

meacutetodos de classificaccedilatildeo e sumarizaccedilatildeo para descobrir regras de classificaccedilatildeo (que discriminem registros de diferentes classes) e regras de sumarizaccedilatildeo (que produzem descriccedilotildees caracteriacutesticas de cada classe)

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 42: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Classificaccedilatildeo versus clustering

Classificaccedilatildeo haacute um uacutenico atributo meta e os demais

atributos satildeo previsores parte do problema consiste em

determinar automaticamente a importacircncia dos atributos previsores

haacute medidas objetivas para medir a qualidade da classificaccedilatildeo (ex taxa de acerto)

classificaccedilatildeo eacute usada principalmente para previsatildeo

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 43: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Classificaccedilatildeo versus clustering Clustering natildeo haacute um atributo especial a importacircncia de cada atributo eacute

geralmente considerada equivalente agrave dos demais

eacute difiacutecil medir a qualidade de clustering

Clustering eacute usado principalmente para exploraccedilatildeo e sumarizaccedilatildeo de dados

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 44: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Taxonomia do processo de KDD

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 45: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Software Weka

Waikato 2004 Witten amp Frank 2000

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 46: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Ferramenta algoritmos de

preparaccedilatildeo de dados aprendizagem de maacutequina

(mineraccedilatildeo) validaccedilatildeo de resultados

publicsoftlinuxweka Java ndashjar wekajar

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 47: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Interface e Funcionalidades

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 48: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

(A) Open File Open URL Open DB (B) No botatildeo filter eacute possiacutevel efetuar

sucessivas filtragens de atributos e instacircncias na base de dados previamente carregada Seleccedilatildeo Discretizaccedilatildeo Normalizaccedilatildeo Amostragem

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 49: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Formato arff (header) 1 Title Iris Plants Database 2 Sources (a) Creator RA Fisher (b) Donor Michael Marshall (MARSHALLPLUioarcnasagov) (c) Date July 1988 RELATION iris

ATTRIBUTE sepallength NUMERIC ATTRIBUTE sepalwidth NUMERIC ATTRIBUTE petallength NUMERIC ATTRIBUTE petalwidth NUMERIC ATTRIBUTE class Iris-setosaIris-versicolorIris-virginica

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 50: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Formato arff (corpo)

DATA 51351402Iris-setosa 49301402Iris-setosa 47321302Iris-setosa 46311502Iris-setosa 50361402Iris-setosa

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 51: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Regras de Associaccedilatildeo

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 52: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Descoberta de Regras de Associaccedilatildeo

Definiccedilatildeo original tipo especial de dados chamado ldquobasket datardquo (dados de cesta)[Agrawal et al 96]

Cada registro corresponde a uma transaccedilatildeo de um cliente com itens assumindo valores binaacuterios (simnatildeo) indicando se o cliente comprou ou natildeo o respectivo item

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 53: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Exemplo [Freitas amp Lavington 98]

leite cafeacute cerveja patildeo manteiga arroz feijatildeo

1 natildeo sim natildeo sim sim natildeo natildeo

2 sim natildeo sim sim sim natildeo natildeo

3 natildeo sim natildeo sim sim natildeo natildeo

4 sim sim natildeo sim sim natildeo natildeo

5 natildeo natildeo sim natildeo natildeo natildeo natildeo

6 natildeo natildeo natildeo natildeo sim natildeo natildeo

7 natildeo natildeo natildeo sim natildeo natildeo natildeo

8 natildeo natildeo natildeo natildeo natildeo natildeo sim

9 natildeo natildeo natildeo natildeo natildeo sim sim

10 natildeo natildeo natildeo natildeo natildeo sim natildeo

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 54: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Descoberta de Regras de Associaccedilatildeo

Uma regra de associaccedilatildeo eacute um relacionamento SE (X) ENTAtildeO (Y) onde X e Y satildeo conjuntos

de itens com interseccedilatildeo vazia A cada regra satildeo atribuiacutedos 2 fatores

Suporte (Sup) = No de registros com X e Y No Total de registros

Confianccedila (Conf) = No de registros com X e Y No de registros com X

Tarefa descobrir todas as regras de associaccedilatildeo com um miacutenimo Sup e um miacutenimo Conf

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 55: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Conjunto de Items Frequente cafeacute patildeo Sup = 03

Regra SE (cafeacute) ENTAtildeO (patildeo) Conf = 1 Conjunto de Items Frequente cafeacute manteiga

Sup = 03 Regra SE (cafeacute) ENTAtildeO (manteiga) Conf = 1 Conjunto de Items Frequente patildeo manteiga

Sup = 04 Regra SE (patildeo) ENTAtildeO (manteiga) Conf = 08

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 56: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Sup = No de registros com X e Y No Total de registrosConf = No de registros com X e Y No de registros com X

Regra SE (manteiga) ENTAtildeO (patildeo) Conf = 08 Conjunto de Items Frequente

cafeacutepatildeomanteiga Sup=03 Regra SE (cafeacute E patildeo) ENTAtildeO (manteiga)

Conf=1 Regra SE (cafeacute E manteiga) ENTAtildeO (patildeo)

Conf=1 Regra SE (cafeacute) ENTAtildeO (manteiga E patildeo)

Conf=1

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 57: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Descobrindo regras de associaccedilatildeo Algoritmo tem 2 fases Fase I Descobrir conjuntos de itens

frequentes Descobrir todos os conjuntos de itens com suporte maior ou igual ao miacutenimo suporte especificado pelo usuaacuterio

Fase II Descobrir regras com alto fator de confianccedila A partir dos conjuntos de itens frequentes descobrir regras de associaccedilatildeo com fator de confianccedila maior ou igual ao especificado pelo usuaacuterio

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 58: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Calculando o suporte de conjuntos de itens

Suporte = No de transaccedilotildees contendo o conjunto de itens dividido pelo No total de transaccedilotildees

Fase I Passo 1 Calcular suporte de conjuntos com 1 item leite Sup = 02 cafeacute Sup = 03 cerveja

Sup = 02 patildeo Sup = 05 manteiga Sup = 05 arroz Sup = 02 feijatildeo Sup = 02

Itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 59: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Calcular suporte de conjuntos com 2 itens

Passo 2 Calcular suporte de conjuntos com 2 itens

Otimizaccedilatildeo Se um item I natildeo eacute frequente um conjunto com 2 itens um dois quais eacute o item I natildeo pode ser frequente Logo conjuntos contendo item I podem ser ignorados Conjunto de itens cafeacute patildeo Sup = 03 Conjunto de itens cafeacute manteiga Sup = 03 Conjunto de itens manteiga patildeo Sup = 04 Conjuntos de itens frequentes (Sup gt = 03)

cafeacute patildeo cafeacute manteiga manteiga patildeo

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 60: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Calcular suporte de conjuntos com 3 itens

Passo 3 Calcular suporte de conjuntos com 3 itens OtimizaccedilatildeoSe o conjunto de itens I J natildeo

eacute frequente um conjunto com 3 itens incluindo os itens I J natildeo pode ser frequente Logo conjuntos contendo itens I J podem ser ignorados

Conjunto de itens cafeacute patildeo manteiga Sup = 03

Conjuntos de itens frequentes (Sup gt= 03) cafeacute patildeo manteiga

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 61: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Fator de confianccedila de regras Calculando fator de confianccedila de regras

candidatas geradas a partir de conjuntos de itens frequentes Conf da regra ``SE X ENTAtildeO Y eacute No de

transaccedilotildees contendo X e Y dividido pelo No de transaccedilotildees com X

Conjunto de itens cafeacute patildeo SE cafeacute ENTAtildeO patildeo Conf = 10 SE patildeo ENTAtildeO cafeacute Conf = 06

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 62: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Conjunto de itens cafeacute manteiga SE cafeacute ENTAtildeO manteiga Conf = 10 SE manteiga ENTAtildeO cafeacute Conf = 06

Conjunto de itens manteiga patildeo SE manteiga ENTAtildeO patildeo Conf = 08 SE patildeo ENTAtildeO manteiga Conf = 08

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 63: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Confianccedila de regras Conjunto de itens cafeacute manteiga

patildeo SE cafeacute patildeo ENTAtildeO manteiga Conf = 10 SE cafeacute manteiga ENTAtildeO patildeo Conf = 10 SE manteiga patildeo ENTAtildeO cafeacute Conf = 075 SE cafeacute ENTAtildeO patildeo manteiga Conf = 10 SE patildeo ENTAtildeO cafeacute manteiga Conf = 06 SE manteiga ENTAtildeO cafeacute patildeo Conf = 06

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)

Page 64: Mineração de Dados e Aprendizado de Máquinas. Aurora ... · O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise

Confianccedila de regras Finalmente selecionashyse regras

com Conf maior ou igual ao valor miacutenimo especificado pelo usuaacuterio (ex 08)