Top Banner
ETL per portali Open Data Cul.T.A. Open Data Summer School Ravenna 14/06/2017
32

Etl per portali open data

Jan 22, 2018

Download

Technology

Franco Morelli
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Etl per portali open data

ETL per portali Open Data

Cul.T.A. Open Data Summer SchoolRavenna 14/06/2017

Page 2: Etl per portali open data

Il processo di valorizzazione dei dati

http://www.dati.gov.it/sites/default/files/LG2016_0.pdf

Page 3: Etl per portali open data

ETL

Page 4: Etl per portali open data

Architettura

http://informaticatuts.blogspot.it/2014/07/etl-process-flow.html

Page 5: Etl per portali open data

Un esempio di ETL open source - Pentaho Data Integration

Page 6: Etl per portali open data

Un esempio di ETL - Pentaho Data Integration

● Open source

● Multipiattaforma

● GUI based

● Estensibile

Page 7: Etl per portali open data

Un esempio di ETL - Pentaho Data Integration

Documentazione

Page 8: Etl per portali open data

Un esempio di ETL - Pentaho Data Integration

Transformations vs Jobs

- Transformations are about moving and transforming rows from source to

target.

- Jobs are more about high level flow control: executing transformations, sending

mails on failure, transferring files via FTP, ...

- Another key difference is that all the steps in a transformation execute in

parallel, but the steps in a job execute in order.

Page 9: Etl per portali open data

Un esempio di ETL - Pentaho Data Integration

Componenti

Spoon - GUI per progettare job e trasformazioni

Kitchen - CL per eseguire e orchestrare jobs

Pan - CL per eseguire trasformazioni

Carte - CL per gestire esecuzione di trasformazioni in cluster

Page 10: Etl per portali open data

Cosa può fare per noi un tool ETL

Automatizzare i task necessari alla pubblicazione di un dataset

● Harvesting da fonti eterogenee

● Enrichment-mashup

● Pulizia e quality assurance

● Alimentazione del portale open data

Page 11: Etl per portali open data

Harvesting

Page 12: Etl per portali open data

Enrichment - Mashup

Page 13: Etl per portali open data

Qualità dei dati● Accuratezza

Grado di aderenza alla realtà

● CompletezzaQuantità di informazione presente nel dato

● AttualitàGrado di rappresentatività nel momento in cui si usa il dato

● ConsistenzaCoerenza nella rappresentazione

Page 14: Etl per portali open data

Metodi per il miglioramento della qualità

Page 15: Etl per portali open data

Pulizia e quality assurance

● Data profiling

● Definizione del workflow di validazione e pulizia

● Implementazione su ETL dei controlli e notifica al processo

NO QUALITY => NO VALUE

Page 16: Etl per portali open data

Pulizia e quality assurance - Data profiling

http://wiki.pentaho.com/display/EAI/Kettle+Data+Profiling+with+DataCleaner

Page 17: Etl per portali open data

Pulizia e quality assurance - Data validator

http://wiki.pentaho.com/display/EAI/Data+Validator

Page 18: Etl per portali open data

Pulizia e quality assurance - Data validator

http://wiki.pentaho.com/display/EAI/Data+Validator

Page 19: Etl per portali open data

Pulizia e quality assurance - Lookup

http://wiki.pentaho.com/display/EAI/Data+Validator

Page 20: Etl per portali open data

Pulizia e quality assurance - Notifica

Page 21: Etl per portali open data

Alimentazione del portale

Page 22: Etl per portali open data

Alimentazione di una staging area

Harvest

Clean - Enrich

Stage

Publish

Page 23: Etl per portali open data

Esempi di utilizzo - Chicago

Page 24: Etl per portali open data

Esempi di utilizzo - Chicago

Page 25: Etl per portali open data

Esempi di utilizzo - Chicago

Page 26: Etl per portali open data

Esempi di utilizzo - Valencia

https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf

Page 27: Etl per portali open data

Esempi di utilizzo - Valencia

https://s3.amazonaws.com/files.ckan.org/ckancon-2016/slides/ckancon-2016-juan-carlos-egido-2.pdf

Page 28: Etl per portali open data

Esempi di utilizzo - Regione Lombardia

http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf

Page 29: Etl per portali open data

Esempi di utilizzo - Regione Lombardia

http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf

Page 30: Etl per portali open data

Esempi di utilizzo - Regione Lombardia

http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf

Page 31: Etl per portali open data

Esempi di utilizzo - Regione Lombardia

http://www.pim.mi.it/corsi-formazione/opendata-27.10.2016/01_Crespi-Ferrari_Regione%20Lombardia.pdf

Page 32: Etl per portali open data

Dove trovarmiFranco Morelli

Il mio blog www.opendatabassaromagna.it

Twitter https://twitter.com/eccoilmoro

Associazione OnData http://ondata.it/

Facebook

https://www.facebook.com/groups/opendataemiliar

omagna

Spaghetti Open Data

http://www.spaghettiopendata.org/

Linkedin

https://it.linkedin.com/in/francomorellisoftware