Top Banner
Angelica Lo Duca Laboratorio Progettazione Web Open Refine
14

Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere

Aug 04, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere

Angelica Lo Duca

Laboratorio Progettazione Web

Open Refine

Page 2: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere

Cos’è

● Open Refine è un tool per la pulizia, la trasformazione e l’estensione dei dati.

● E’ disponibile a questo indirizzo○ http://openrefine.org○ Scaricare la versione Google Refine

(stable)● Per la manipolazione dei dati si usa il

linguaggio GREL○ https://github.

com/OpenRefine/OpenRefine/wiki/General-Refine-Expression-Language

Page 3: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere

Per iniziare

● Scaricare/Installare Open Refine● Lanciare il programma● Dal browser (Chrome, Safari ecc) andare su

○ http://127.0.0.1:3333

Page 4: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere

Per iniziare

● Scaricare dal didawiki il file Libri.csv● Caricarlo in Open Refine

○ Selezionare Create Project○ Selezionare il file Libri.csv○ Premere Next○ In basso selezionare○ In alto selezionare

■ create project

Page 5: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere
Page 6: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere

Manipolazione Stringhe

● Nel campo autore separare il nome e il cognome e creare una colonna per il nome e una per il cognome ○ Cliccare sulla

freccia corrispondente al titolo della colonna Autore

Page 7: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere

Manipolazione Stringhe

● Uso substring(miastringa, posizione_iniziale, posizione_finale) per estrarre una sottostringa contenente il nome e il cognome○ Esempio Charles Dickens

■ il nome si trova a partire dalla posizione 0 fino allo spazio escluso

■ il cognome si trova dalla posizione spazio+1 fino alla fine

■ per identificare la posizione del carattere spazio uso la funzione indexOf(miastringa, carattere_da_cercare)

Page 8: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere
Page 9: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere
Page 10: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere

Esercizio

● Separare il titolo in inglese dal titolo in italiano○ Come soluzione si può usare anche l’opzione split

in several columns.■ La differenza con l’approccio che abbiamo

usato consiste nel fatto che attraverso l’uso della split in several columns la colonna originale è cancellata

Page 11: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere

Soluzione

● Esempio stringa:○ A tales of two cities (Racconto di due città)

● Titolo in Inglese○ substring(value,0, indexOf(value, "("))

● Titolo in Italiano○ substring(value,indexOf(value, "(")+1, indexOf

(value, ")"))

Page 12: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere

Arricchimento Dati● Aggiungere data di nascita

e morte degli autori○ usare add Column by

fetching url■ usare DBpedia per

recuperare i dati● http://dbpedia.

org è la versione Linked Data di Wikipedia

Page 13: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere

Query a DBpedia

● "http://dbpedia.org/sparql?query=" + escape("select distinct ?subject, ?birth, ?death where { ?subject foaf:name \"" + value + "\"@en; dbp:birthDate ?birth; dbp:deathDate ?death} LIMIT 100", "url") + "&format=JSON"

● Per recuperare la data di nascita value.parseJson()["results"]["bindings"][0]["birth"]["value"]

Page 14: Open Refine - unipi.itdidawiki.cli.di.unipi.it/.../16._lpw-_open_refine.pdf · 2016-04-26 · Caricarlo in Open Refine Selezionare Create Project Selezionare il file Libri.csv Premere