NH Consultoria www.NHConsultoriaTI.com Data Mining Definição • Gartner Group: – “Data mining is the process of discovering meaningful new correlations, patterns and trends by shifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques.” • Descobrimento de conhecimento em BD – Extração de padrões de informação de interesse : 1. Não trivial 2. Implícita 3. Previamente desconhecida 4. Potencialmente útil
33
Embed
NH Consultoria Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
NH Consultoria www.NHConsultoriaTI.com
Data MiningDefinição
• Gartner Group: – “Data mining is the process of discovering
meaningful new correlations, patterns and trends by shifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques.”
• Descobrimento de conhecimento em BD– Extração de padrões de informação de interesse :
1. Não trivial2. Implícita3. Previamente desconhecida4. Potencialmente útil
NH Consultoria www.NHConsultoriaTI.com
Data MiningDefinições
• O que é :– Descoberta de conhecimento em BD (KDD),
extração de conhecimento, análise de padrões em dados, information harvesting, business intelligence, etc.
• O que não é :– Processamento dedutivo de consultas; – Sistemas especialistas e pequenos
programas estatísticos e de aprendizagem de máquina.
NH Consultoria www.NHConsultoriaTI.com
Data MiningDefinições
• O Data Mining trabalha com grandes quantitades de dados.
• O Data Mining é diferente da análise de dados e da estatística :– Não precisa establecer uma hipótese a priori para testá-la em
seguida.– É dos próprios dados que devem surgir as hipóteses
(desconhecidas a priori) que o usuário validará depois.– Necessita uma arbitragem entre a validade científica, a
interpretabilidade dos resultados e a facilidade de utilização em ambiante profissional onde os usuários não são especialistas de estatística.
• O Data Mining é EMPÍRICO
NH Consultoria www.NHConsultoriaTI.com
Data MiningDefinições
EstatísticasBases de
Dados
Inteligência Artificial
Data Mining
NH Consultoria www.NHConsultoriaTI.com
Data Mining : Aplicações• Analisar
– Comportamento de consumidores– Vendas cruzadas– Similaridades de comportamentos– Cartões de fidelidade
• Prever– Respostas a uma mala direita ou operação Marketing (Ex : OPA).– Probabilidade de um cliente se separar do seu fornecedor (banco, telefone
móvel, etc.)– Necessidades de manutenção preventiva.
• Detectar– Comportamentos anormais ou fraudulento
• Desvios financeiros, Fraude com seguros, Energia, etc.– Problemas de qualidade (pós-venda).
• Procurar– Critérios para avaliar os "bons" clientes sem risco e propor para eles umas
– Uma resposta adequada durante uma chamada num call-center.
NH Consultoria www.NHConsultoriaTI.com
Data Mining : Anedotas• Wal-Mart :
– Primeiros ensaios de KDD com os dados dos "Tickets" de caixa dos supermercados.
– Detecção de forte correlação entre compra de fraldas e cervejas nos sábados pela tarde...
• Os esposos eram mandados pelas esposas para fazer compras volumosas.
• Re-organização das gôndolas deixando as fraldas perto da cerveja : Aumento significativo das vendas de cerveja !
• Coca-Cola :– Baixa de 5% do preço da bebida => aumento de 15% das
vendas.– DM : as vendas de biscoitos aperitivos vão aumentar na mesma
proporção que as de bebida.– Conclusão : baixar o preço da bebida permite aumentar as
vendas de biscoitos aperitivos (margem fraca na bebida e importante nos biscoitos).
NH Consultoria www.NHConsultoriaTI.com
Data mining & BI
Increasing potentialto supportbusiness decisions End User
Business Analyst
DataAnalyst
DBA
MakingDecisions
Data Presentation
Visualization Techniques
Data MiningInformation Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data SourcesPaper, Files, Information Providers, Database Systems, OLTP
NH Consultoria www.NHConsultoriaTI.com
Data Mining : O Processo• Formalizar
– O problema que deve ser resolvido a partir de dados.• Coletar
– Os dados adequados onde eles forem.• Preparar
– Os dados para os cálculos futuros. (a etapa é então SUBJETIVA).• Processar
– Os dados aplicando algoritmos de análise. • Avaliar e validar
– Os conhecimentos resultantes do processamento.• Desdobrar
– As análises na Empresa para uma utilização eficaz.
• O Processo é Cíclico !• O DM não é uma soma de vários pequenos estudos, mas sim um método
de capitalização de conhecimentos adquiridos e explícitos.• O DM deve permitir a estruturação dos conteúdos necessários à
engenharia do conhecimento.
NH Consultoria www.NHConsultoriaTI.com
Data Mining : Os Algoritmos• Não Supervisionado
– Nenhum dado ou variável têm mais importância que os outros.– Nenhuma variável é considerada individualmente como o alvo da análise.– Utilizações típicas :
• Extrair grupos homogêneos a partir de indivíduos• Extrair normas de comportamento e desvios em relação com estas normas (ex :
deteção de novas fraudes)• Compressão de informação
• Supervisionado– Objetivo : prever e/ou explicar um ou vários fenômenos observáveis e medidos.– Algumas variáveis são os alvos.– Utilizações típicas :
• Por que um individuo compra A mais que B ?• Por que um individuo pegou uma doença ?• Por que um individuo visitou muito uma página WEB ?• Etc.
• Redução de dados– Eliminação de ruído.– Redução do volume de dados.– Utilizações típicas :
• Em pré-processamento dos dados.• Complementares das técnicas prévias.
NH Consultoria www.NHConsultoriaTI.com
Data MiningPré-processamento
• Dados reais são “sujos”:– Incompletos: falta de valores de atributos, falta de
atributos de interesse ou existência de atributos agregados;
– Ruidosos: contem erros e desvios;– Inconsistentes: contêm discrepâncias em nomes e na
codificação.• Sem dados de qualidade, sem resultados de
qualidade em DM:– Decisões de qualidade devem estar baseadas em
dados de qualidade;– DWH necessita da integração consistente de dados
de qualidade.
NH Consultoria www.NHConsultoriaTI.com
Data MiningPré-processamento
NH Consultoria www.NHConsultoriaTI.com
Pré-processamentoLimpeza de dados
• Valores Faltantes– Ignorar a tupla– Preencher o valor manualmente– Usar uma constante global– Usar o valor médio do atributo na base– Usar o valor mais provável
• Atenuação de ruido– Discretização– Agrupamento– Interação humana– Regressão
NH Consultoria www.NHConsultoriaTI.com
Limpeza da dadosExemplo : Regressão linear
• Estatística :– Y e X são correlacionados pela
relação Y = a.X + b– Achar a e b de tal maneira que a
soma seja mínima
– Y = a0 + a1.X1 + ... + an.Xn : regressão linear múltipla
• Redução de dimensionalidade– Ex : Análise em componentes principais
• Compressão de dados
• Redução de instâncias
• Geração de hierarquias de conceitos– Ex : Classificação Ascendente Hierárquica
NH Consultoria www.NHConsultoriaTI.com
Redução de dadosExemplo : ACP
-4
-2
0
2
4
6
8
10
12
0 2 4 6 8 10 12
O objetivo da ACP é de determinar os eixos que melhor explicam a dispersão dos pontos disponíveis.
Com N dimensões, a ACP vai determinar N eixos ordenados por inércia explicada.Projetando nos dois primeiros eixos (de maior inércia) os indivíduos, conseguimos uma visualização em duas dimensões das observações.
A ACP também é um meio de :• Descorrelacionar os dados (na nova base os pontos têm correlação 0)• Reduzir o ruído (considerando que os eixos descartados contêm o ruído).• Comprimir os dados (descartando as coordenadas dos eixos excluídos).
NH Consultoria www.NHConsultoriaTI.com
ACPvariáveis
Individuos(realizações)
Reduzida
Centrada no centro de gravidade
1/K * tM * M_ _
Matriz das covariâncias~
1/K * tM * M~
Matriz das correlações
Matrizes quadradas, simétricas e reais.Podem ser diagonalizadas numa base ortogonal e normalizada.
Os vetores próprios da matriz de covariância (ou da matriz de correlação) são aqueles que explicam a maior inércia dos pontos e são ordenados. O problema é então resolvido diagonalizando as matrizes.
•Covariância : uma variável com muita variância vai "atrair" todo resultado par ela.•Correlações : uma variável que é somente ruído será considerada igual que as outras variáveis informativas.
Exemplo das "abstrações simbólicas"Discretização, redução, agrupamento, generalização, etc.
com dados temporais e em tempo real
• Clancey W., Heuristic classification, Artificial Intelligence, vol. 27, pp. 289-350, 1985.
• Ramaux N., Fontaine D., Dojat M., Temporal scenario recognition for Intelligent patient monitoring, in Proc. 6th AIME 97, Lecture notes in Artificial Intelligence vol 1211, E. Keravnou, C. Garbay, R. Baud; J. Wyatt Eds, Springer, pp. 331-343, Grenoble, 1997.
• Shahar Y., A framework for knowledge-based temporal abstraction, Artificial Intelligence, vol 90, pp. 79-133, 1997.