®2012 dp6 - todos os direitos reservados ®2012 dp6 - todos os direitos reservados
Text Mining Técnicas, Algoritmos e outras nerdices
Apresentação
• Leonardo Naressi – CIO da dp6 – Presidente do Comitê de Digital
Analy9cs da IAB Brasil – Professor na ESPM São Paulo
– @LeoNaressi – Linkedin.com/in/LeoNaressi – facebook.com/LeoNaressi – [email protected]
®2012 dp6 - todos os direitos reservados
O que fazer com Text Mining?
Categorização / Classificação
Matriz de Conceitos
Linkagem de conceitos
Extração de entidades
Análise de Sentimentos Sumarização
Identificação de autoria
®2012 dp6 - todos os direitos reservados
Coloquem seus óculos...
®2012 dp6 - todos os direitos reservados
OK! Ready!
®2012 dp6 - todos os direitos reservados
Algoritmos mais utilizados
k-Means Naive Bayes Árvores de decisão
Singular Value Decomposition
(SVD)
Support Vector Machines
(SVM) TF-IDF
Semântica latente
®2012 dp6 - todos os direitos reservados
Onde podemos fazer isso?
®2012 dp6 - todos os direitos reservados
R
" A ferramenta estatística mais famosa do mundo
" http://www.r-project.org
®2012 dp6 - todos os direitos reservados
Weka
" Ferramenta Open-Source de Modelagem e Mineração
" www.cs.waikato.ac.nz/ml/weka/
®2012 dp6 - todos os direitos reservados
Orange
" Ferramenta Open-Source de Data Mining
" http://orange.biolab.si
®2012 dp6 - todos os direitos reservados
Google Prediction
" A caixa preta de análise preditiva do Google
" https://developers.google.com/prediction/
®2012 dp6 - todos os direitos reservados
O que podemos fazer com Google Prediction?
®2012 dp6 - todos os direitos reservados
Cai como uma luva para nossas análises de conteúdo nas redes sociais!
®2012 dp6 - todos os direitos reservados
Vamos ver como se faz?
®2012 dp6 - todos os direitos reservados
Coloquem seus óculos...
®2012 dp6 - todos os direitos reservados
OK! Ready!
®2012 dp6 - todos os direitos reservados
Uma nuvem de palavras “simples” em R
®2012 dp6 - todos os direitos reservados
Análise de Frequência e Associações em R
®2012 dp6 - todos os direitos reservados
Matriz de Conceitos em R
®2012 dp6 - todos os direitos reservados
Text Mining no SAS Enterprise Miner
®2012 dp6 - todos os direitos reservados
Classificação / Categorização automática com Google Prediction
®2012 dp6 - todos os direitos reservados
O que queremos fazer?
Coleta de dados de redes sociais
Amostragem aleatória
Classificação humana da
amostra
Criação de Modelo Preditivo
Treinamento do modelo com os
dados classificados
Validação da performance do
Modelo
Análise preditiva baseada no
modelo
®2012 dp6 - todos os direitos reservados
Coleta de dados através de monitoramento de redes sociais
®2012 dp6 - todos os direitos reservados
Amostragem aleatória usando Data Analysis Toolpak do Excel
®2012 dp6 - todos os direitos reservados
Classificação Humana da amostra
®2012 dp6 - todos os direitos reservados
Criação do modelo preditivo
®2012 dp6 - todos os direitos reservados
Ixi...
®2012 dp6 - todos os direitos reservados
E agora quem poderá me ajudar?
®2012 dp6 - todos os direitos reservados
Não priemos cânico!
http://dp6.bi/google-prediction
®2012 dp6 - todos os direitos reservados
Treinamento do modelo preditivo usando Google Prediction
®2012 dp6 - todos os direitos reservados
Ixi...
®2012 dp6 - todos os direitos reservados
Para facilitar existe uma integração entre Google Prediction e Google Spreadsheets J
http://dp6.bi/prediction-planilha
®2012 dp6 - todos os direitos reservados
De novo: Treinamento do modelo preditivo usando Google Prediction
®2012 dp6 - todos os direitos reservados
Vamos analisar o aprendizado da máquina...
{ "trainingComplete": "2013-09-23T14:48:05.007Z", "kind": "prediction#training", "id": "fastfood_tag1", "created": "2013-09-23T14:13:18.321Z", "modelInfo": { "numberLabels": "18", "numberInstances": "1260", "classificationAccuracy": "0.62", "modelType": "classification" }, "trainingStatus": "DONE" }
Meu Modelo
Precisão alcançada
®2012 dp6 - todos os direitos reservados
E o que fazemos com isso agora?
®2012 dp6 - todos os direitos reservados
Realizamos a classificação preditiva automágica!
®2012 dp6 - todos os direitos reservados
Vamos escrever posts aleatórios e checar o que a bola de cristal nos diz...
®2012 dp6 - todos os direitos reservados
®2012 dp6 - todos os direitos reservados
Confiram comigo no replay...
{ "outputLabel": "Saúde", "outputMulti": [{ "score": "0.000179", "label": "Atendimento"}, { "score": "0.006472", "label": "Atribuição Prod."}, { "score": "0.000018", "label": "Atribuição prod."}, { "score": "0.002146", "label": "BigMac"}, { "score": "0.000010", "label": "Bob's"}, { "score": "0.001280", "label": "Burguer King"}, { "score": "0.003126", "label": "Campanha"}, { "score": "0.343566", "label": "Comparativo"}, { "score": "0.015228", "label": "Consumo"}, { "score": "0.018360", "label": "Desejo"}, { "score": "0.002519", "label": "Funcionário"}, { "score": "0.012200", "label": "Institucional"}, { "score": "0.000385", "label": "Lovebrand"}, { "score": "0.000010", "label": "Mc Donalds"}, { "score": "0.000009", "label": "Outros Lanches"}, { "score": "0.002906", "label": "PDV"}, { "score": "0.591548", "label": "Saúde"}, { "score": "0.000039", "label": "Whooper" }], "kind": "prediction#output", "id": "fastfood_tag1" }
Maior probabilidade
estatística
®2012 dp6 - todos os direitos reservados
Leiam!
" Mineração de Dados da Web
Social
" http://dp6.bi/mining-social
®2012 dp6 - todos os direitos reservados
Não tenham medo!
Obrigado!
• Leonardo Naressi – CIO da dp6 – Presidente do Comitê de Digital
Analy9cs da IAB Brasil – Professor na ESPM São Paulo
– @LeoNaressi – Linkedin.com/in/LeoNaressi – facebook.com/LeoNaressi – [email protected]