Top Banner
CLASE 4 “Periodismo de base de datos: búsqueda, extracción, procesamiento y visualización de grandes volúmenes de información” Lics. en Periodismo y Comunicación Social FCH-UNSL (Año 2014) MATERIAL ELABORADO EN BASE AL CURSO “HERRAMIENTAS DIGITALES PARA EL PERIODISMO DE DATOS” DEL NIGHT CENTER DE LA UNIVERSIDAD DE TEXAS, A CARGO DE LA PERIODISTA ARGENTINA SANDRA CRUCIANELLI ( http://open.journalismcourses.org/course/view.php?id=20 )
57

Clase 4 periodismo de base de datos

Jul 26, 2015

Download

Education

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Clase 4  periodismo de base de datos

CLASE 4“Periodismo de base de datos:

búsqueda, extracción, procesamiento y visualización

de grandes volúmenes de información”

Lics. en Periodismo y Comunicación SocialFCH-UNSL (Año 2014)

MATERIAL ELABORADO EN BASE AL CURSO “HERRAMIENTAS DIGITALES PARA EL PERIODISMO DE DATOS” DEL NIGHT CENTER DE LA UNIVERSIDAD DE TEXAS, A CARGO DE LA PERIODISTA ARGENTINA SANDRA CRUCIANELLI (

http://open.journalismcourses.org/course/view.php?id=20)

Page 2: Clase 4  periodismo de base de datos

¿QUÉ ES EL PERIODISMO DE BASE DE DATOS (PBD)?

Es una disciplina o modalidad periodística que hace uso de los datos informativos existentes en la WWW para crear o complementar noticias (también conocidas como New Apps: New Applications o Aplicaciones de Noticias).

Page 3: Clase 4  periodismo de base de datos

¿QUÉ ES EL PERIODISMO DE BASE DE DATOS (PBD)?

PDB= incluye el PI (periodismo de investigación para revelar una verdad social desconocida); el PP (periodismo de precisión) cuando aplica métodos de la investigación social, el PA (periodismo analítico) porque analiza una realidad compleja para lograr la comprensión del público y el PAC (periodismo asistido por computadora para el análisis estadístico de los datos).

PBD= PI + PP + PA + PAC

Page 4: Clase 4  periodismo de base de datos

PRINCIPALES CARACTERÍSTICAS DEL PBD

•Utiliza algún tipo de visualización interactiva para poder encontrar noticias detrás de los datos.•Incorpora la figura del programador como parte del equipo de redacción y en conjunto con él se realiza la elaboración y producción de las noticias.

Page 5: Clase 4  periodismo de base de datos

EJEMPLOS DE PBDArtículos basados en datosSon cortos y se originan en los datos de las bases de datos (http://www.lanacion.com.ar/1484852-los-millones-de-la-ape-como-se-repartio-en-2011-la-caja-que-era-de-moyano)

Page 6: Clase 4  periodismo de base de datos

EJEMPLOS DE PBDArtículos basados en datos

Page 8: Clase 4  periodismo de base de datos

EJEMPLOS DE PBD

Visualizaciones interactivas

Page 9: Clase 4  periodismo de base de datos

EJEMPLOS DE PBD

Visualizaciones interactivas

Page 10: Clase 4  periodismo de base de datos

EJEMPLOS DE PBDConjuntos de datos abiertosSon recopilados por los propios periodistas debido a la ausencia de acceso abierto por parte de las organizaciones (http://data.lanacion.com.ar/dashboards/5068/inflacion-y-precios)

Page 11: Clase 4  periodismo de base de datos

EJEMPLOS DE PBDAplicaciones de noticiasSon el fruto de la labor de periodistas más programadores (http://gastopublicobahiense.org). Se acompaña de aplicaciones que permite agrupar y analizar variables.

Page 12: Clase 4  periodismo de base de datos

EJEMPLOS DE PBDAplicaciones de noticias

Page 13: Clase 4  periodismo de base de datos

EJEMPLOS DE PBDAplicaciones de noticias

Page 14: Clase 4  periodismo de base de datos

EJEMPLOS DE PBDBlogs de datosPublican la información en blogs (http://soloopendata.blogspot.com.ar/)

Page 15: Clase 4  periodismo de base de datos

EJEMPLOS DE PBDCanales de datosSe encuentran dentro de una sección de un medio digital (http://www.lanacion.com.ar/data)

Page 16: Clase 4  periodismo de base de datos

OPERACIONES QUE IMPLICA EL PBD

•Búsqueda•Extracción•Procesamiento•Visualización

Page 17: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•BÚSQUEDA DE DATOS:

Puede ser realizada… -mediante buscadores de la Web Invisible (Google Búsqueda Avanzada, Google Scholar, Scielo, Wayback Machine, Socialmention, Twitterfall, etc.)

Page 18: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•BÚSQUEDA DE DATOS:

Puede ser realizada… -mediante buscadores internos de sitios web que almacenan bases de datos (por ej. del sitio del Boletín Oficial del Gobierno de la Provincia de San Luis, del Ministerio de Educación de San Luis, etc.)

Page 19: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•EXTRACCIÓN o SCRAPING DE

DATOS:Cuando los datos no son abiertos, es decir, no permiten la descarga y/o copias de la información (por ej. se encuentran en un formato .pdf y no .xls o .csv) se puede hacer uso de herramientas que nos permitan acceder a los datos abiertos, antes de tener que producirla de forma manual. Las herramientas que se utilizan son:-OCR -ZAMZAR-NITRO PDF, -TABULA, etc.

Page 20: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•EXTRACCIÓN MEDIANTE OCR

Page 21: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•EXTRACCIÓN MEDIANTE OCR

Su propósito es extraer texto de una imagen, pero puede usarse para extraer el texto de la primera página de un documento.En la actualidad se está perfeccionando para convertir hasta las primeras 10 páginas de un documento.

Page 22: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•EXTRACCIÓN MEDIANTE ZAMZAR

Permite extraer el contenido textual y gráfico de un documento y el envío de la conversión se realiza por email. Actualmente es uno de los sitios en línea gratuito cuyo proceso de conversión funciona.

Page 23: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•EXTRACCIÓN MEDIANTE NITRO

PDF

Permite extraer el contenido textual y gráfico de un documento y el envío de la conversión se realiza por email. La conversión no es siempre gratuita, debiendo los usuarios acceder a su versión de prueba y finalmente su compra si desean seguirlo utilizando. Es muy completo y funciona muy bien.

Page 24: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•EXTRACCIÓN MEDIANTE TABULA

La conversión se realiza mediante un programa que debe ser instalado en la computadora. Textos y gráficos pueden ser extraídos de forma exitosa, aunque el proceso debe ser realizado por partes. Al instalarse en la computadora nos independiza de una conexión a Internet y nos garantiza su durabilidad en el tiempo.

Page 25: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO

Implica la creación y/o procesamiento de los datos. La creación puede efectuarse en diversas herramientas:-Google Drive (gratuita y de rápido acceso)-Socrata, Document Cloud y Junar (son de código abierto o pagas, especializadas, profesionales, y exigen condiciones antes de permitirnos usar el servicio).

Page 26: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO CON GOOGLE

DRIVE

Permite a cualquier usuario y mediante una hoja de cálculo la administración de gran cantidad de datos que pueden ser procesados mediante diversos tipos de fórmulas. Además, es de rápido acceso y permite la integración con aplicaciones en línea que permiten su visualización de forma gráfica.

Page 27: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO CON DOCUMENT

CLOUD

Es de código abierto y puede ser utilizada por periodistas u otro usuario que realice periodismo de base de datos. Exige muestra de informes y permiso para añadirlo como contribuyente. Tarda al menos dos semanas para la otorgación de una cuenta.

Page 28: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO CON SOCRATA Y

JUNAR

Son utilizadas por importantes medios de comunicación del mundo que abogan por el acceso abierto a los datos. Permiten la descarga de una versión de demostración antes de decidirse pagar por el servicio. Son muy completas, potentes y poseen ayuda y soporte en línea.

Page 29: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO

Cualquiera sea la plataforma, el procesamiento implica la realización de una o más operaciones matemáticas que se efectúan con fórmulas.(https://docs.google.com/spreadsheet/ccc?key=0AgX1zNUFm5hcdEVPNjY0cUpWVGVQYl9jQ2pNQlUwc0E&usp=drive_web#gid=7)

Page 30: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO

Con los datos de una planilla pueden efectuarse diversos cálculos. Los más comunes son: A B C

1 2010 20112 Ecuador 372,163 409,1253 El Salvador 2,918 3,5744 Guatemala 1,738 1,9595 Honduras 10,252 14,6516 Nicaragua 4,415 6,2467 Panamá 1,172 1,2918 Paraguay 30,212 38,1549 Perú 136,919 141,44

10 República Dominicana 84,721 90,278

MÁXIMO VALOR 372,163 409,125MÍNIMO VALORPROMEDIO

MAXPermite obtener el mayor valor de un conjunto de datos. En su sintaxis pide que se coloque el primer y último valor del rango de datos separado por el símbolo “:”

=MAX (B2:B10)

=MAX (C2:C10)

Page 31: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO

Con los datos de una planilla pueden efectuarse diversos cálculos. Los más comunes son: A B C

1 2010 20112 Ecuador 372,163 409,1253 El Salvador 2,918 3,5744 Guatemala 1,738 1,9595 Honduras 10,252 14,6516 Nicaragua 4,415 6,2467 Panamá 1,172 1,2918 Paraguay 30,212 38,1549 Perú 136,919 141,44

10 República Dominicana 84,721 90,278

MÁXIMO VALOR 372,163 409,125MÍNIMO VALOR 1,172 1,291PROMEDIO

MINPermite obtener el mínimo valor de un conjunto de datos. En su sintaxis pide que se coloque el primer y último valor del rango de datos separado por el símbolo “:”

=MIN (B2:B10)

=MIN (C2:C10)

Page 32: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO

Con los datos de una planilla pueden efectuarse diversos cálculos. Los más comunes son: A B C

1 2010 20112 Ecuador 372,163 409,1253 El Salvador 2,918 3,5744 Guatemala 1,738 1,9595 Honduras 10,252 14,6516 Nicaragua 4,415 6,2467 Panamá 1,172 1,2918 Paraguay 30,212 38,1549 Perú 136,919 141,44

10 República Dominicana 84,721 90,278

MÁXIMO VALOR 372,163 409,125MÍNIMO VALOR 1,172 1,291PROMEDIO 71,6122222 78,5242222

PROMEDIOPermite obtener el valor promedio de un conjunto de datos. En su sintaxis pide que se coloque el primer y último valor del rango de datos separado por el símbolo “:”

=AVERAGE (B2:B10)

=AVERAGE (C2:C10)

Page 33: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD

•PROCESAMIENTOExisten además otras fórmulas que nos permiten realizar diversas operaciones con los datos, entre ellas:-Mode (Moda): devuelve el valor que más se repite dentro de un conjunto de datos.-Median: devuelve el valor que deja el mismo número de datos antes y después que él.-Varianza: devuelve la dispersión entre datos.-Pricedisc: para analizar precios con descuentos, etc.

Page 34: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD

•PROCESAMIENTOPara el procesamiento de datos numéricos existen además numerosas herramientas en línea, entre ellas:-Calculadoras virtuales (comunes, científicas, de porcentaje, etc.)-Conversores de unidades (de área, volumen, longitud, etc.)

Page 35: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO CON

CALCULADORAS VIRTUALES

Page 36: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO CON

CALCULADORAS VIRTUALES

Page 37: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO CON

CALCULADORAS VIRTUALES

Page 38: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO CON

CONVERSORES VIRTUALES

Page 39: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO CON

CONVERSORES VIRTUALES

Page 40: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•PROCESAMIENTO CON

CONVERSORES VIRTUALES

Page 41: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD

•VISUALIZACIÓNImplica representar los datos en una forma gráfica que facilite su interpretación por parte de los lectores.Aquí se utilizan herramientas como Tableau Public, Datawrapper y Google Fusion Tables.

Page 42: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON TABLEU PUBLIC

Es complejo en su manejo porque requiere de un minucioso y controlado proceso a la hora de subir los conjuntos de datos y obtener su visualización. Su uso es gratuito.

Page 43: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON TABLEU PUBLIC

Otorga un código en Java Script que permite su inserción dentro de un sitio web. Es importante tener instalado en la PC la última versión de Java disponible para poder no solo operar correctamente con el programa, sino también visualizar los datos.

Page 44: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON DATAWRAPPER

Es más sencillo y posee menores restricciones. Requiere registro al igual que Tableau Public y brinda código de programación para su inserción en sitios web.

Page 45: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON DATAWRAPPER

Al igual que en Tableau Public las planillas pueden ser generadas en el mismo sitio o bien importadas en formato .xls o .csv (estándares para los grandes volúmenes de datos).

Page 46: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Se encuentra aún en fase de experimentación, no posee un proceso de trabajo sencillo, pero permite la interacción con otras aplicaciones de Google, en particular las planillas de cálculo creadas en la hoja de cálculo (Spreadsheets) de Drive.

Page 47: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Al crear una nueva fusión de tablas, el programa nos solicita la hoja de datos que podrá estar almacenada en la computadora, en línea, o bien, deberá ser creada desde cero. En este caso particular los datos ya se encuentran en línea (opción Spreadsheets).

Page 48: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Cuando los datos están en línea deben ser seleccionados y posteriormente autorizados para poder dar inicio al proceso de fusión de los datos.

Page 49: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Si los datos importados son correctos y se visualizan correctamente entonces se puede proceder al siguiente paso.

Page 50: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

El título del gráfico, autor, enlaces relacionados (si posee) y descripción son importantes previo a la generación de la visualización.

Page 51: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Finalmente, la visualización admite diversas posibilidades: mapa, gráficos, resumen, etc. Las más utilizadas son las dos primeras.

Page 52: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Cualquier modo de visualización admite su configuración y posterior visualización en la web.

Page 53: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Cualquier modo de visualización admite su configuración y posterior visualización en la web.

Page 54: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION TABLES

(todos los países en todos los años)

En la visualización Gráfica el gráfico de columnas o barras es uno de los mas utilizados para representar diversos países en diversos años.

Page 55: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•VISUALIZACIÓN CON GOOGLE FUSION

TABLES

Los gráficos circulares o también conocidos como diagramas de torta son útiles para representar muchos países en un único año o un solo país en muchos años… La cuestión es elegir el tipo de gráfico que mejor se adecue según el caso!!!

(todos los países en un año en particular)

Page 56: Clase 4  periodismo de base de datos

OPERACIONES DEL PBD•OTRAS FORMAS DE VISUALIZACIÓN

(CARDS)

Es útil para pocos datos porque permite concentrar en una sola vista toda la información de la que se dispone.

Page 57: Clase 4  periodismo de base de datos

FIN DE PRESENTACIÓN…Elaborado por Prof. Viviana M.

[email protected]

MATERIAL ELABORADO EN BASE AL CURSO “HERRAMIENTAS DIGITALES PARA EL PERIODISMO DE DATOS” DEL NIGHT CENTER DE LA UNIVERSIDAD DE TEXAS, A CARGO DE LA PERIODISTA ARGENTINA SANDRA CRUCIANELLI (http://open.journalismcourses.org/course/view.php?id=20)