Top Banner
Sentiment Analysis en Twitter Javier Correa A. Valentina Poblete C. Alumnos Jorge Villalón Profesor Guía Aplicación de para el análisis de redes sociales en Bond. Propuesta de memoria para optar al Título de Ingeniero Civil Industrial Enero 2015
39

Defensa memoria UAI Sentiment Analysis

Feb 14, 2017

Download

Data & Analytics

Javier Correa
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Defensa memoria UAI Sentiment Analysis

Sentiment Analysis en Twitter

Javier Correa A.

Valentina Poblete C.

Alumnos

Jorge Villalón

Profesor Guía

Aplicación de

para el análisis de redes sociales en Bond.

Propuesta de memoria para optar al Título de Ingeniero Civil Industrial Enero 2015

Page 2: Defensa memoria UAI Sentiment Analysis

Consultoría – Medios sociales – Comercio electrónico – Medios online – Marketing de contenidos

2

“Resolver los desafíos del negocio de los clientes, utilizando estrategias digitales integrales”.

Holanda 100 - Providencia

Page 3: Defensa memoria UAI Sentiment Analysis

Basados en algunas estadísticas

92% de los consumidores da mayor importancia a los

comentarios y opiniones de la gente cercana que a la información de otros medios.

90% de los clientes reconoce que un comentario positivo

influye en la elección del producto.

3

Fuente:

Page 4: Defensa memoria UAI Sentiment Analysis

Según una encuesta realizada por

Deloitte

Decisiones estratégicas

Empresas de Prestación de

servicios y Retail

Incrementar la reputación de la

marca

Generar marketing “boca

a boca”

Crear ventajas competitivas

Fuente:

Page 5: Defensa memoria UAI Sentiment Analysis

Redes sociales más utilizadas

Fuente:

96%

66%

56%

34%

31%

Facebook

Youtube

Twitter

Google +

Linkedin

Page 6: Defensa memoria UAI Sentiment Analysis

Actividades realizadas por los usuarios…

Fuente:66%

58%

52%

39%

37%

34%

Ver que hacen sus contactos

Ver videos, música

Enviar mensajes

Publicar contenidos

Chatear

Comentar la actualidad

Page 7: Defensa memoria UAI Sentiment Analysis

Según la Fucqua School of Business de la Universidad de Duke

15% de las empresas tiene las herramientas necesarias para medir el

impacto de las redes sociales en su negocio

100% de aumento de inversión en temas de social media como

herramienta de comunicación en los próximos cinco años

66% de crecimiento en la inversión de tecnologías de análisis de

información

7

Fuente:

Page 8: Defensa memoria UAI Sentiment Analysis

Considerando que las opiniones están

cargadas de sentimiento.

Page 9: Defensa memoria UAI Sentiment Analysis

Incremento en comentarios analizados

2000

Tweets/Mes

150.000 Tweets/Mes

Actual Propuesto

Page 10: Defensa memoria UAI Sentiment Analysis

Hablando de costos…

$840.000

Mensual

$3.375.000

Mensual

$4.215.000

Mensual

Inversión en la herramienta: $48.000.000

Recuperada en 1 AÑO

Analistas Información

Page 11: Defensa memoria UAI Sentiment Analysis

VALORVentajaCompetitivaNecesidad

Información en Tiempo REALDISMINUCIÓN DE COSTOS

Page 12: Defensa memoria UAI Sentiment Analysis

VALORComprender al cliente

Tendencias

Información en tiempo REAL

Visualización

Detección de problemas

Page 13: Defensa memoria UAI Sentiment Analysis

Objetivo

Desarrollar una herramienta de extracción y clasificación de comentarios de Twitter asociados a una marca o producto específico, determinando si el

comentario tiene orientación positiva, neutra o negativa

13

Page 14: Defensa memoria UAI Sentiment Analysis

Sentiment Analysis

“ El servicio de movistar es muy bueno, me encanta”.

Servicio movistar muy bueno encanta

𝑽𝟏 = (𝒔𝒆𝒓𝒗𝒊𝒄𝒊𝒐,𝒎𝒐𝒗𝒊𝒔𝒕𝒂𝒓,𝒎𝒖𝒚_𝒃𝒖𝒆𝒏𝒐, 𝒆𝒏𝒄𝒂𝒏𝒕𝒂)

Page 15: Defensa memoria UAI Sentiment Analysis

Sentiment Analysis

Tweets

NaiveBayes

Léxico

Positivo Neutro Negativo

Page 16: Defensa memoria UAI Sentiment Analysis

Algoritmo Naive Bayes

𝐶𝑚𝑎𝑝 = 𝐴𝑟𝑔𝑐𝜖𝐶𝑀𝑎𝑥 𝑃 𝐶 ∙ ෑ

1≤𝑘≤𝑛

𝑃 𝑤1, … , 𝑤𝑛|𝐶

𝐶𝑚𝑎𝑝 = 𝐴𝑟𝑔𝑐𝜖𝐶𝑀𝑎𝑥 𝑃 𝐶|𝑤1, … , 𝑤𝑛

Criterio de Máximo Posteriori

Probabilidad que sea un comentario

negativo o positivo

Probabilidad que dado una palabra W sea un comentario

positivo o negativo

Page 17: Defensa memoria UAI Sentiment Analysis

" Prefiero Movistar, es mejor que peor"

Algoritmo Naive Bayes

Palabra Polaridad

Prefiero Positivo

Mejor Positivo

Peor Negativo

Cmap(positivo)=P(positivo)* P(prefiero | positivo)*P(mejor | positivo)*P(peor | positivo) = 0,0213

Cmap(negativo)= P(negativo)*P(prefiero | negativo)*P(mejor | negativo)*P(peor | negativo) = 0,0104

Cmap(positivo)=0,0213> Cmap(negativo)= 0,0104

POSITIVO

Page 18: Defensa memoria UAI Sentiment Analysis

Metodología CRISP-DM

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelado

Evaluación

ImplantaciónDatos

Page 19: Defensa memoria UAI Sentiment Analysis

Comprensión del negocio Comprensión del negocio

+10.000.000 Clientes

Servicios móviles y fijos

Banda Ancha

Tv digital

Page 20: Defensa memoria UAI Sentiment Analysis

Extracción de los datos Comprensi

ón de los

datos

TwitteR

Page 21: Defensa memoria UAI Sentiment Analysis

Extracción de los datos

21

Comprensión de los

datos

Page 22: Defensa memoria UAI Sentiment Analysis

Comprensión de los datos

Problemas…

Comprensión de los

datos

Page 23: Defensa memoria UAI Sentiment Analysis

Preparación de los datos Preparac

ión de los datos

1ra Extracción

Filtro: Idioma Español

Comentarios en varios idiomas

Fes possible el cap d'any tarragoní votant(és només UN CLICK) el projectehttp://t.co/Du2gaGArSj #MovistarArtsyespa…

I posted 9 photos on Facebook in thealbum"Gran Premio Movistar de Aragón 2015" http://t.co/WwtBDP6SuM

Page 24: Defensa memoria UAI Sentiment Analysis

Preparación de los datos Preparac

ión de los datos

2da Extracción

Filtro: Eliminación de Retweets

Retweetsredundantes

Tweet: Si tienes una emergencia comunícate desde tu Movistar al *911 #SeguridadVial

RT @MaquinaDelAire: Si tienes una emergencia comunícate desde tu Movistar al *911 #SeguridadVial #LaMáquina

Page 25: Defensa memoria UAI Sentiment Analysis

Preparación de los datos Preparac

ión de los datos

3ra Extracción

Filtro: Eliminación de palabras claves

Palabras como “Chévere” , “Concierto”,etc.

Guayaquil, la tercera ciudad con 4G LTE de Movistar: En sectores comoSamborondón(Guayas), la Alborada,Kenne... http://t.co/KoqnLvvzOC

Libera tu lumia de Argentina (Personal, Claro o Movistar), mensaje alwhatsapp+5493764725434

Chama vieron que en Venezuela ya se va Movilnet y movistar, ese día será mi muerte por si no lo sabían

Page 26: Defensa memoria UAI Sentiment Analysis

Preparación de los datos Preparac

ión de los datos

Limpieza

Filtro: Eliminación de Stopwords y Puntuación

Palabras y signos que no aportan al análisis.

Maldita sea Movistar que no me deja mandar mensajes al extranjero

Maldita movistar no deja mandar mensajes extranjero

Page 27: Defensa memoria UAI Sentiment Analysis

Modelamiento

Léxico

NaiveBayes

Tweets

Positivo Neutro Negativo

Modelado

Page 28: Defensa memoria UAI Sentiment Analysis

Data para evaluación

+0

-

404

143

513

1060 tweets

Page 29: Defensa memoria UAI Sentiment Analysis

Primer Modelo

Léxico español

NaiveBayes

Tweets

Modelado

Page 30: Defensa memoria UAI Sentiment Analysis

Resultados 1er Modelo

658

94

308

404

143

513

0

100

200

300

400

500

600

700

Positivo Neutro Negativo

Co

men

tari

os

Modelo 1 Manual

Precisión

46,98%

Evaluación

Page 31: Defensa memoria UAI Sentiment Analysis

Segundo Modelo

Léxico modificado

NaiveBayes

Tweets

Modelado

Page 32: Defensa memoria UAI Sentiment Analysis

Resultados 2do Modelo

492

71

497

404

143

513

0

100

200

300

400

500

600

Positivo Neutro Negativo

Co

men

tari

os

Modelo 2 Manual

Precisión

60,94%

Evaluación

Page 33: Defensa memoria UAI Sentiment Analysis

Resultados 2do Modelo

Real

Predicción

Precisión 60,94%

Evaluación

NEGATIVO NEUTRO POSITIVO

NEGATIVO 365 36 112 513

NEUTRO 30 7 106 143

POSITIVO 102 28 274 404

497 71 492 1060

Page 34: Defensa memoria UAI Sentiment Analysis

NEGATIVO NEUTRO POSITIVO

NEGATIVO 365 36 112

NEUTRO 30 7 106

POSITIVO 102 28 274

Pasos a seguir…

Real

Predicción

Page 35: Defensa memoria UAI Sentiment Analysis

Código Rstudio + Léxico + Plantilla Excel

Implementación Implementación

DESARROLLAR PRESENTAR

Page 36: Defensa memoria UAI Sentiment Analysis

Implementación Implementación

• Capacitaciones

•Manual de utilización

• Encargado: Analista con conocimientos en programación

Page 37: Defensa memoria UAI Sentiment Analysis

Producto final

Page 38: Defensa memoria UAI Sentiment Analysis

Conclusiones & Recomendaciones

• Se entrega un producto con un precisión en la sentimentalización de un 61%, escalable y adaptable a las necesidades del usuario.(validado con el encargado de Bond)

• El producto permite incrementar la cantidad de información analizada de 2.000 a 150.000 tweets al mes.

• Se logra un ahorro inmediato en tiempo liberado de analista de 840.000 CLP al mes, y la utilización del código creado para generar una plataforma de análisis de datos de

redes sociales tiene un ahorro potencial de 135 UF/mes, cuyo costo de inversión se

recupera después de 12 meses.

• Se recomienda ampliar dicho análisis a los comentarios que se puedan extraer de

cualquier red social, como por ejemplo los comentarios del fun page de la marca en Facebook.

Page 39: Defensa memoria UAI Sentiment Analysis

Sentiment Analysis en TwitterAplicación de

para el análisis de redes sociales en Bond.