Ciencia de datos: Aprendiendo lo básico Roberto Muñoz, PhD Astronomer and Data Scientist Pontificia Universidad Católica de Chile github.com/rpmunoz
Ciencia de datos: Aprendiendo lo básico
Roberto Muñoz, PhDAstronomer and Data ScientistPontificia Universidad Católica de Chile
github.com/rpmunoz
Roberto Muñoz github.com/rpmunoz
Evolución procesamiento de datos
• 1890: Se usa la máquina tabuladora de Hollerith para procesar los datos del censo de EE.UU.
• 1951: Se diseña el primer computador electrónico con fines comerciales, UNIVAC I.
CómputoManual
CómputoAutomático
CómputoAutomático
CómputoElectrónico
Roberto Muñoz github.com/rpmunoz
Costo del cómputo• Desde la invención de los computadores electrónicos, tanto el precio como el tamaño han disminuido sostenidamente.
Roberto Muñoz github.com/rpmunoz
Tsunami de datos
• Durante las últimas décadas la sociedad en suconjunto se ha digitalizado.
• Mayor capacidad de cómputo y tecnología másasequible han permitido un crecimiento explosivode los datos.
Fuente: Oracle, 2012
Los datos crecen a unatasa anual del 40%.
Se estima una producciónde 45 ZB para el 2020.
Roberto Muñoz github.com/rpmunoz
Comunidad Open Source
• Una mayor variedad y cantidad de datos traeconsigo nuevos desafíos.
• Desarrollo continuo de herramientas y métodospara analizar los datos.
• Transición de software empaquetado y comerciala uno desarrollado por comunidad open source.
Roberto Muñoz github.com/rpmunoz
Casos notables
nyc-taxi-datauber-tlc-foil-response
Análisis de uso de Taxis y Uber en NYCOpen Data+Open Source
Fuente: FiveThirtyEight
Roberto Muñoz github.com/rpmunoz
Casos notables
datausa
Análisis de datos públicos de USAOpen Data+Open Source
Fuente: The New York Times
Roberto Muñoz github.com/rpmunoz
Evolución del Analytics
1968 1973 1974 1981
1991199320062015Release 0.17
Roberto Muñoz github.com/rpmunoz
¿Qué es la Ciencia de datos?
• La Ciencia de datos o Data Science es un campointerdisciplinario que se ocupa de los procesos ysistemas usados en la extracción de conocimientoa partir del análisis de datos.
• Se dice interdisciplinario pues requiereconocimientos de los campos de la computación,matemáticas y estadística.
Programación Estadística Data Science
Roberto Muñoz github.com/rpmunoz
¿Cambio de paradigma?
• Los datos digitales y las tecnologías hancambiado la manera en cómo vivimos y cómoentendemos el mundo.
• Jim Gray, investigador deMicrosoft y pionero en bases dedatos introdujo el concepto delcuarto paradigma.
• Era experimental, teórica,computacional y últimamente laEra del dato.
Roberto Muñoz github.com/rpmunoz
Carácter interdisciplinario
Diagrama de Venn para Data ScienceDrew Conway (2010)
HabilidadesProgramaciónExploración de datosSoluciones creativas
ConocimientosMatemáticasEstadística
ExperticiaEspecializaciónConocimiento de campo
Roberto Muñoz github.com/rpmunoz
¿Qué hace un Data Scientist?
• Profesional que posee las herramientas y losconocimientosnecesarios para:– Recolectar y filtrar datos de diversas fuentes– Explorar de manera efectiva un set de datos– Obtener información valiosa oculta en los datos– Construirmodelos que permitan tomar decisionesinformadas.
Data Scientist: Persona que es mejor en estadística quecualquier ingeniero de software y que es mejor eningeniería de software que cualquier estadístico.
Roberto Muñoz github.com/rpmunoz
Conocimientos y Habilidades
• Formación universitaria en las áreas deIngeniería y Ciencias Naturales. Idealmentetienen Magister y PhD.
• Poseen conocimientos de Matemáticas,Estadística y Programación computacional.
• Se caracterizan por su curiosidad intelectual,son capaces de diseñar experimentos ycomunicar de manera efectiva los resultados.
Roberto Muñoz github.com/rpmunoz
Tipos de datos
• Los datos son el punto de partida para todoanálisis.
• Tipos de datos de acuerdo a organización– Estructurados: Están altamente organizados.Se almacenan en una base de datos relacional.
BD
Roberto Muñoz github.com/rpmunoz
Tipos de datos
– No estructurados: Son datos crudos y no estánorganizados. Deben ser procesados ytransformados para luego ser almacenados enuna base de datos.
Roberto Muñoz github.com/rpmunoz
Lenguajes de programación
• Los lenguajes más usados por la comunidad deData Science son Python y R. Se estima quePython tiene más de 30M de usuarios y R más de16M.
• R es más funcional y los módulos de análisisestadísitico vienen incorporados.
• Python es más orientado a objetos y debencargarse módulos para hacer análisis.
Roberto Muñoz github.com/rpmunoz
Visualizaciones
• Las visualizaciones juega un rol importante entodo el proceso de análisis de datos. Permitenexplorar los datos, examinar resultados ycomparar cualitativamente los modelos.
Edad
Númeropersonas
Anscombe’s quartet
Roberto Muñoz github.com/rpmunoz
Construcción de modelos
• La construcción y validación de modelos sones clave para los objetivos.
• Permiten entender el comportamiento delsistema, definir cantidades de interés, buscaroutliers en los datos y últimamente haceranálisis predictivo.
Roberto Muñoz github.com/rpmunoz
Recursos en Internet
http://www.datasciencecentral.com
http://blog.kaggle.com
http://www.kdnuggets.com
https://www.quora.com/topic/Data-Science
Roberto Muñoz github.com/rpmunoz
Tutorial análisis de datos
• Usaremos un notebook de Jupyter y Python 3 para mostrar parte del proceso que se hace en Data Science.
• El notebook de Python se puede descargar desde la carpeta CIO2016 en github.com/rpmunoz/datascience