Diego Caro / Eduardo Graells-Garrido Instituto de Data Science (IDS), Facultad de Ingeniería Universidad del Desarrollo Versión 2017.2 Taller de Data Science Clase # 1 http://datagramas.cl/cursos/taller-ds
Diego Caro / Eduardo Graells-GarridoInstituto de Data Science (IDS), Facultad de IngenieríaUniversidad del DesarrolloVersión 2017.2
Taller de Data ScienceClase # 1http://datagramas.cl/cursos/taller-ds
Meta-datos del Curso
Prof.: Diego Caro (dcaro@udd)
Temporal networks + Compression
Prof: Eduardo Graells-Garrido (egraells)Transportation(Smart Cards:
bip!)(Bus GPS)
How can IUIs encourage users to perform
conscious decisions in biased contexts?
(Twitter)(Wikipedia)
Data Science for Transportation & Mobility(Mobile Phone Network Data)
かものはし の いこちゃん
Objetivo
Este curso práctico tiene como finalidad que les alumnes sean capaces de utilizar herramientas tecnológicas para:
● Trabajar con datos complejos provenientes de distintas fuentes.● Elaborar y corroborar hipótesis relevantes para la sociedad.● Explorar espacios de información.● Modelar procesos y estructuras utilizando técnicas del estado del arte.● Apoyar la toma de decisiones.
Contenidos
¿Qué es Data Science?
Diagnóstico y Programación en Python (lo básico para comenzar. ¡El resto es autoformación!)
Análisis de Datos
Visualización de Información
Ciencia de Redes} Estas unidades no serán vistas de manera
secuencial, sino que fomentaremos un aprendizaje en espiral.
Videos Motivacionales
Hans Rosling: The Joy of Statshttps://www.youtube.com/watch?v=V8lbiiTF2P0
Albert-Laszlo Barabasi: El poder de la ciencia de redeshttps://www.youtube.com/watch?v=51qeM7-YFIs
Evaluaciones
● Participación (individual) 15%○ para cada clase deben realizar al menos dos preguntas escritas en la plataforma Piazza○ Deben entregar en papel un comentario sobre la lectura obligatoria
● Ejercicios (individual) 15%○ Cada clase dejaremos un ejercicio propuesto que deben resolver y entregar por Dropbox.
● Proyecto (grupal): durante el curso se desarrollará un Proyecto de Data Science○ Certamen I (15%): primera entrega del proyecto.○ Certamen II (15%): segunda entrega del proyecto.○ Opcional: presentar un póster del trabajo en la Feria Científica permitirá subir puntos en la peor
nota de certámenes.○ Examen (40%): entrega final, con presentación pública○ ¡Al final de semestre, tanto Certamen I como Certamen II deben ser mayores a 4 para
aprobar!
Participación
Preguntas sobre la clase en Piazza (también cuentan preguntas hechas personalmente al levantar la mano, pero de todos modos hay que escribirlas en Piazza). Piazza: http://piazza.com/udd.cl/spring2017/iei551 (activa tu cuenta!)
El contenido de la lectura debe ser comentado en un informe de una página cada semana. El informe debe:
● Resumir el artículo. ● Interpretarlo. ● Describir sus propias dudas respecto a lo que menciona el artículo.● Comentar puntos de mejora.● Comentar cómo se podría aplicar en nuestro contexto, o cuáles son sus implicancias
para la sociedad.
Participación
La entrega del informe de lectura en papel es obligatoria.
La asistencia no es obligatoria.
Sin embargo, queremos que asistan a clases. Si no pueden asistir:
● Avisen con antelación, indicando el por qué. ● Envíen su informe de lectura antes de la clase como archivo adjunto en el aviso de
inasistencia. No se aceptan informes después.● Si están enfermos(as), avisen cuándo se mejoren :)
Evaluación de los proyectos
● Presentación: elección de título, descripción, y planteamiento del resumen.● Elaboración de Plan y Preguntas de investigación.● Elección de datos a utilizar y su análisis y procesamiento con las herramientas
enseñadas en el curso.● Completitud de resultados y descubrimientos, y la comunicación de éstos.● Eficiencia y claridad del código generado, así como su potencial de reusabilidad.
La próxima clase les entregaremos la rúbrica para estos puntos y las exigencias/ponderaciones que tendrán en cada entrega del proyecto (certámenes y examen).
Alumnes
Preguntas
● ¿Qué temas les interesa explorar en el taller?● ¿Por qué tomaron el curso?● ¿Cuál es su background?● ¿Vieron el afiche?● ¿Saben programar?● ¿Están dispuestos a programar mucho? :)
¿ESTÁN DISPUESTOS A PROGRAMAR MUCHÍSIMO? :)
Data Science
Data Science: Definición
La Ciencia de Datos es un nuevo campo transdisciplinario que abarca y sintetiza un número de disciplinas relevantes y campos de conocimiento, incluyendo estadística, informática, computación, comunicación, administración y sociología, para estudiar datos a través de un proceso conocido como “pensamiento de ciencia de datos”.
Longbin Cao. Data Science: Challengues and Directionshttps://cacm.acm.org/magazines/2017/8/219605-data-science/fulltext
Data Science: Definición
Data Science se enfoca en un entendimiento sistemático de datos complejos y problemas aplicados. La DS aborda estos problemas a través de un proceso que transforma datos en “insights” e inteligencia que apoya la toma de decisiones.
Hablamos de problemas que antes no existían, o que no se podían resolver, o bien cuyas soluciones no eran satisfactorias, o que antes eran más sencillos que ahora y, al volverse más complejos, los métodos tradicionales no son adecuados.
Ejemplo: las ciudades son cada vez más grandes y complejas, y la disciplina de Ingeniería de Transporte no es capaz de responder a las demandas que tienen las ciudades.
Longbin Cao. Data Science: Challengues and Directionshttps://cacm.acm.org/magazines/2017/8/219605-data-science/fulltext
Robert D. Peng, Elizabeth Matsui. The Art of Data Sciencehttps://bookdown.org/rdpeng/artofdatascience/
Data Scientist
Hillary Mason describe a un(a) data scientist como un(a) “awesome nerd” que mezcla tres habilidades:
Código
EstadísticaComunicación
nerd
nerd
nerd
¡awesomenerd!
Código: hay que meter las manos en la masa
Iterar. Experimentar.Pensar Computacionalmente. Manejar múltiples herramientas. Generar procedimientos y procesos reproducibles.
Cameron Hoween Halt and Catch Fire
Estadísticas: Formalidad en Procesos
Hay que realizar análisis exploratorio y descriptivo de los datos. Entender cuándo un modelo es mejor que otro. Cuando es necesario usar regresión, clasificación, o clustering. Los tamaños de muestra necesarios. Identificar de sesgos en los datos.
Katherine Johnson en Hidden Figures
Comunicación: Expresar y Escuchar
Hay que saber escuchar lo que les demás tienen que decir. Comprender y adoptar su lenguaje. No se está resolviendo un problema propio sino el de alguien más.
Hay que saber expresar y explicar los resultados obtenidos.
DS se adapta a otros contextos, y los augmenta a través del uso de herramientas y técnicas. No al revés. Amy Adams
en Arrival
Data Scientist(s)
Data Science cubre muchas áreas. Una persona que tenga las tres habilidades descritas no es suficiente (ni frecuente).
Data Science resuelve problemas a través de un proceso que se aborda en equipo.
Se necesita un equipo diverso en género, experiencias, habilidades, contextos, ambiciones.
De izq. a derecha: Diego Caro (IDS), Eduardo Graells-Garrido (IDS), Fernando Rojas (Decano Ing.), Loreto Bravo (IDS), Francisca Varela
(IDS), Leo Ferres (IDS), Pelayo Covarrubias (Fundación País Digital).
Ejemplos de Cosas que Hemos Hecho en IDS
Proyecto: Identificar los sesgos de género en Wikipedia
Wikipedia es una enciclopedia abierta y colaborativa que provee un punto de vista neutral sobre su contenido, que debe ser relevante para su preservación.
Sin embargo, la comunidad de editores está compuesta principalmente por hombres blancos.
¿Existe sesgo en cómo se caracteriza a las mujeres en Wikipedia?
¿Existen sesgos sistemáticos que afectan dicha caracterización?
Eduardo Graells-Garrido, Filippo Menczer, Mounia Lalmas. First Women, Second Sex: Gender Bias on Wikipedia.
Distribución temporal de biografías de mujeresPalabras asociadas a biografías de mujeres
Palabras asociadas a biografías de hombres
Proyecto: Incentivar información diversa en TwitterChile es un país centralizado geográfica, económica y políticamente. Esta centralización incide en cómo los algoritmos de redes sociales evalúan el contenido, de modo de decir si un tweet es relevante o no.
Esto influye en el ranking en las búsquedas, en las recomendaciones de contenido, e incluso en el cálculo de trending topics. ¿Cómo mejorar esto?
Eduardo Graells-Garrido, Mounia Lalmas, Ricardo Baeza-Yates. Encouraging diversity-and representation-awareness in geographically centralized content
Proyecto: Matriz Origen-Destino (IDS)
La movilidad de una ciudad es un factor crucial en la calidad de vida de sus habitantes.
Para entender los patrones de movilidad en una ciudad, lo habitual es efectuar Encuestas de Viajes (Origen-Destino) en la ciudad.
Pero encuestas son caras, toman mucho tiempo (se hacen cada 10 años), y la ciudad cambia y crece a una velocidad en constante aumento.
Encuestadores antes de visitar miles de hogares en Santiago para preguntarles a los habitantes ¿Qué viajes realizó ayer?
La encuesta permite saber muchas características de los viajes “en un día promedio”: a qué hora se inicia el viaje, cuánto dura, desde dónde, hacia dónde, para qué (propósito), cómo (modo de transporte), etc.
Sin embargo, no vivimos en un día promedio.¿Qué podemos hacer para entender la movilidad de una ciudad?
Yves-Alexandre de Montjoye et. al, "Unique in the Crowd: The privacy bounds of human mobility." Scientific Reports
¡Podemos usar los datos de telefonía para entender movilidad!
Al inferir viajes individuales anonimizados, se pueden crear agregaciones que estimen distribuciones de tiempo de viaje o matrices origen-destino a nivel diario. No de un día promedio.
Soccer Match between Chile and Uruguay in
Copa América
Transportation Strike
Ejemplo de Proyecto:Lectura #1
Primera Lectura
Neal Lathia & Licia Capra, Mining mobility data to minimise travellers' spending on public transport, KDD’11
● Paper de conferencia académica sobre Knowledge Discovery and Data mining● Preguntas de investigación relevantes para la sociedad, con un usuario identificado
para la potencial solución● Trabaja con un set de datos complejo, moderno, y grande (Oyster card - similar a Bip!
Pero en Londres)● Descompone el problema a resolver en problemas más pequeños● Define un pipeline de procesamiento, limpieza, análisis y modelamiento de los datos
para resolver los problemas pequeños, y luego los ensambla● Evalúa los resultados utilizando métricas formales y análisis relevante para los usuarios
Preguntas planteadas en la lectura
● ¿Cuál es la relación entre movilidad y la compra de tickets de transporte público?(contexto: en Londres hay distintas tarifas dependiendo de la distancia recorrida, la hora, el medio de pago, el tipo de usuario, etc.)
● ¿Estamos gastando eficientemente nuestro dinero?● ¿Cómo podemos hacer que las personas usen su dinero eficientemente en el
transporte público?
Datos
Datasets Públicos
¡El sitio web del curso tiene un listado de diversos datasets públicos!
Datos de deporte, de ciudades, de Chile, de animé, de música, de economía, de transporte...
Datasets Privados
Telefónica I+D nos ha provisto de datos privados. Consisten en:
● Dos semanas de Noviembre 2016 de registros anonimizados de uso telefónico en Santiago y comunas colindantes.
● Datos auxiliares de clima, logística, etc., para el mismo período temporal.
Quienes deseen utilizar estos datos para su proyecto deben comunicarse con los profesores y firmar un Non-Disclosure Agreement (NDA).
Diagnóstico
Queremos saber su nivel de conocimiento en programación
Ahora haremos un diagnóstico :) (está en el sitio web)
Herramientas
Anaconda
Distribución de Python con entorno científico, ya instalada en los computadores del laboratorio. Pueden bajarla para instalarla en sus propias máquinas en https://www.continuum.io/downloads
Jupyter
Entorno de computación científica que funciona con Python y otros lenguajes (R entre otros).
Es lo que usamos en nuestro trabajo diario en el Instituto de Data Science!
Visiten https://try.jupyter.org/ y prúebenlo ahora mismo :)
Python
Curso Express Básico de Python
Ver notebooks vinculados en la página del curso :)
Ejercicio Propuesto
Distancias en la Ciudad
Hemos entregado un notebook que permite estimar la ruta y distancia más corta entre dos puntos en Las Condes.
Utilizando OpenStreetMap y la biblioteca OSMnx, que carga la red de OSM y permite hacerle consultas.
Los puntos son especificados como pares (latitud, longitud).
Ejercicio
Deben hacer lo siguiente:
● Configurar como punto de origen las coordenadas de su hogar (puede ser una esquina cercana para no invadir su privacidad)
● Calcular la distancia de las rutas más cortas para llegar a los hogares de las cinco personas más importantes que no vivan con ustedes
● Estimar el promedio de esas distancias.
Próxima Clase
Siguiente Clase
● Traer comentarios de la lectura● Hacer el ejercicio propuesto● Contenido: Análisis numérico de datos en Python. ¡Practiquen!
つづく