Top Banner
Tecnologie semantiche per il giornalismo W eb semantico e complessità della conoscenza Matteo Brunati SpazioDati | @dagoneye Alessio Cimarelli dataninja.it | @jenkin27
77

Tecnologie semantiche per il giornalismo @ SISSA

Jul 14, 2015

Download

Technology

Matteo Brunati
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Tecnologie semantiche per il giornalismo @ SISSA

Tecnologie semanticheper il giornalismo

Web semantico e complessità della conoscenza

Matteo Brunati SpazioDati | @dagoneye

Alessio Cimarellidataninja.it | @jenkin27

Page 2: Tecnologie semantiche per il giornalismo @ SISSA

Come affrontiamo il discorso

Contesto tra Contesto tra Web of Data e Web of Data e

Web as ContentWeb as Content

Strumenti per Strumenti per giocare con giocare con entrambientrambi

Page 3: Tecnologie semantiche per il giornalismo @ SISSA

obiettivo: quale?

consapevolezza

scenari e il mondo del possibile

collegamenti tra mondi diversi

Page 4: Tecnologie semantiche per il giornalismo @ SISSA

...uno spunto per partire...

Page 5: Tecnologie semantiche per il giornalismo @ SISSA

WHAT and WHYWHAT and WHY

“la fonte, il dato” devono tornare ad

essere un tema centrale

#fact-checking

Page 6: Tecnologie semantiche per il giornalismo @ SISSA

http://datadrivenjournalism.net/news_and_analysis/How_to_become_a_data_journalist_Day_3

Page 7: Tecnologie semantiche per il giornalismo @ SISSA

http://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtmlhttp://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtml

Page 8: Tecnologie semantiche per il giornalismo @ SISSA

http://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtmlhttp://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtml

Page 9: Tecnologie semantiche per il giornalismo @ SISSA

quindi sembra facile oggi...

Page 10: Tecnologie semantiche per il giornalismo @ SISSA

Ed invece no: siamo tutti nella stessa barca.Il Web crea innovazione distruttiva in tutti gli ambiti,e serve una nuova disciplina per capirne le dinamiche

Web ScienceWeb Science

http://en.wikipedia.org/wiki/Web_Science_Trust

Page 11: Tecnologie semantiche per il giornalismo @ SISSA

modellimodellidi businessdi business

intermediazioneintermediazione

competenzecompetenze catena del catena del valore valore

anche il giornalismo è in costante cambiamento

Page 12: Tecnologie semantiche per il giornalismo @ SISSA

ma qualche percorso esiste, e si staconsolidando...

Page 13: Tecnologie semantiche per il giornalismo @ SISSA

:) no, ok, scherzavo...

Page 14: Tecnologie semantiche per il giornalismo @ SISSA

http://datajournalismhandbook.org/1.0/en/

ecco il tema ecco il tema dei DATIdei DATI

Page 15: Tecnologie semantiche per il giornalismo @ SISSA

approfondiamoquesti dati allora...

Page 16: Tecnologie semantiche per il giornalismo @ SISSA

http://onlinejournalismblog.com/2011/07/07/the-inverted-pyramid-of-data-journalism/

fonti fonti “sporche”“sporche”

fonti fonti strutturatestrutturate

Web Web di documentidi documenti

Web Web di datidi dati

Page 17: Tecnologie semantiche per il giornalismo @ SISSA

diamo uno sguardo a questi dati strutturati...

fonti fonti strutturatestrutturate

Web Web di datidi dati

Page 18: Tecnologie semantiche per il giornalismo @ SISSA

Per capire il WEB dei dati, serve fare un ripassosu cosa sia il WEB

Page 19: Tecnologie semantiche per il giornalismo @ SISSA

sappiamo cos’è il WEB ed abbiamocapito perchè è nato?

Page 20: Tecnologie semantiche per il giornalismo @ SISSA

Il Web in un paper nel 1989, ed Il Web in un paper nel 1989, ed aveva già molto oltre semplici link aveva già molto oltre semplici link

ai documentiai documenti

Page 21: Tecnologie semantiche per il giornalismo @ SISSA

Il web come spazio di Il web come spazio di condivisione delle condivisione delle

informazioni, che PERMANE, e informazioni, che PERMANE, e decentralizzato decentralizzato

a chi devo chiedere di a chi devo chiedere di inserire un link?inserire un link?

avevo l’email e gli avevo l’email e gli allegati: cosa mi offre in allegati: cosa mi offre in

più?più?

Page 22: Tecnologie semantiche per il giornalismo @ SISSA

http://www.garrygolden.net/2010/01/30/davos-2010-ideas-lab-talks-from-mit-group-on-nature-of-social-and-connected-intelligence-5-videos/

Page 23: Tecnologie semantiche per il giornalismo @ SISSA

principio del Least Power,principio del Least Power,ovvero umiltà del designovvero umiltà del design

Page 24: Tecnologie semantiche per il giornalismo @ SISSA

con il riuso che è insito nella con il riuso che è insito nella trasparenza della struttura del Web...trasparenza della struttura del Web...

http://www.shirky.com/writings/view_source.html

Page 25: Tecnologie semantiche per il giornalismo @ SISSA
Page 26: Tecnologie semantiche per il giornalismo @ SISSA

risorserisorse

rappresentazionirappresentazioni

azioniazioni

URI +HTTP ACTIONS

Page 27: Tecnologie semantiche per il giornalismo @ SISSA

1. GET2. POST3. PUT4. DELETE

URI = nomiHTTP ACTIONS = azioni

Page 28: Tecnologie semantiche per il giornalismo @ SISSA

cos’è un cos’è un testo?testo?

contenutocontenuto

contenitorecontenitoreparagraf

titolipiè di pagina

immagini

Page 29: Tecnologie semantiche per il giornalismo @ SISSA

[paragrafo] Paperino è a casa a Milano. [fne paragrafo]

questo testo è all’interno di un documento,nel mio disco fsso.

se lo pubblico online, avrà una formaed un indirizzo per essere trovato

URIURI

HTMLHTML

Page 30: Tecnologie semantiche per il giornalismo @ SISSA

http://www.slideshare.net/busaco/semantic-web-in-the-browser-from-a-blind-web-to

Il problema è che la “macchina” capisce che ad un certo Il problema è che la “macchina” capisce che ad un certo indirizzo c'è un contenuto in HTML, ma non indirizzo c'è un contenuto in HTML, ma non

comprende di cosa parla quel contenuto, comprende di cosa parla quel contenuto, è cieca è cieca

Page 31: Tecnologie semantiche per il giornalismo @ SISSA

Ed ecco perché si va verso il mondodei Linked Data

Page 32: Tecnologie semantiche per il giornalismo @ SISSA

Linked Data è pubblicare i dati online,ma non solo sul Web,

ma anche NEL Web

Page 33: Tecnologie semantiche per il giornalismo @ SISSA
Page 34: Tecnologie semantiche per il giornalismo @ SISSA

legami tra dati e contesti che devono emergerelegami tra dati e contesti che devono emergere

Page 35: Tecnologie semantiche per il giornalismo @ SISSA

LINKED OPEN DATA CLOUDhttp://www.linkeddata.org

Page 36: Tecnologie semantiche per il giornalismo @ SISSA

Diversi livelli di Diversi livelli di avvicinamento in avvicinamento in questo percorsoquesto percorso

I dati Linked sono fatti I dati Linked sono fatti per essere letti dai per essere letti dai

programmiprogrammi

Page 37: Tecnologie semantiche per il giornalismo @ SISSA

Linked Data è una delle sintesi migliori del Linked Data è una delle sintesi migliori del vecchio nome “Semantic Web”vecchio nome “Semantic Web”

Linked Data è già OGGI una delle fonti,ed è quella più complessa, perché

pensata per le macchine

Page 38: Tecnologie semantiche per il giornalismo @ SISSA

http://www.guardian.co.uk/help/insideguardian/2010/jan/25/news-linked-data-summit

Page 39: Tecnologie semantiche per il giornalismo @ SISSA

Ce ne sono molte ormaiin giro... e dovete sapere che ce ne saranno sempre di più...

Page 41: Tecnologie semantiche per il giornalismo @ SISSA

http://data.nytimes.com/

Page 42: Tecnologie semantiche per il giornalismo @ SISSA

http://dati.camera.it

Page 43: Tecnologie semantiche per il giornalismo @ SISSA

http://it.dbpedia.org/

Page 44: Tecnologie semantiche per il giornalismo @ SISSA

Così un po' abbiamo digeritol'idea del Semantic Web: rendere

la macchina capace di tracciare LINK

e RELAZIONI con il contenuto,andando oltre alla pagina come

elemento atomico del contenuto...

Page 45: Tecnologie semantiche per il giornalismo @ SISSA
Page 46: Tecnologie semantiche per il giornalismo @ SISSA
Page 47: Tecnologie semantiche per il giornalismo @ SISSA

“A thing is defned by its relationships”

http://www.teodorapetkova.com/poiesis-of-relationships/semantic-web-relationships-and-a-piece-of-conceptual-art/

Page 48: Tecnologie semantiche per il giornalismo @ SISSA

Queste relazioni non sono un fne,ma sono un percorso...

http://www.teodorapetkova.com/poiesis-of-relationships/semantic-web-relationships-and-a-piece-of-conceptual-art/

Page 49: Tecnologie semantiche per il giornalismo @ SISSA

...percorsi che sono pensati per le macchine:ovviamente come non pensare

alla SEO? :)

Page 50: Tecnologie semantiche per il giornalismo @ SISSA

SEO = Search Engine Optimization,

ovvero come farsi trovare dai motori di ricerca:

che sono di nuovo “macchine”:)

Page 51: Tecnologie semantiche per il giornalismo @ SISSA

e questo Web di Dati oggi è già dentrole pagine tradizionali, in forme ibride...per farti trovare quel contenuto che...

Facebook Facebook OpenGraphOpenGraph

Google Rich Snippets Google Rich Snippets via Google Knowledge via Google Knowledge

GraphGraph

Open DataOpen Data( Community e ( Community e

gov )gov )

Google Cards Google Cards sulle SERPsulle SERP

Page 52: Tecnologie semantiche per il giornalismo @ SISSA

Ci sono alcuni determinati formati nelle pagine,tutti col nome “dati strutturati”

http://webdatacommons.org/structureddata/index.html#results-2013-1

Page 53: Tecnologie semantiche per il giornalismo @ SISSA

http://www.stateofdigital.com/semantic-web-business-models-marketing-perspective/

BestBuy con i dati strutturati nella pagina

Page 54: Tecnologie semantiche per il giornalismo @ SISSA

è un tema molto è un tema molto attuale, quindi merita attuale, quindi merita

attenzioneattenzione

Page 55: Tecnologie semantiche per il giornalismo @ SISSA

e non è più solo accademia, da tempo:

è Mercato. Anche con il supporto di progetti europei che stimolano la diffusione e la

commercializzazione dei frutti della ricerca...

http://www.stom-project.eu/

Page 56: Tecnologie semantiche per il giornalismo @ SISSA

questa natura a livelli di questa natura a livelli di struttura del documento struttura del documento si può si può

vedere su sindice.comvedere su sindice.com

Page 57: Tecnologie semantiche per il giornalismo @ SISSA

per provare a vedere per provare a vedere questi strati di questi strati di

informazione strutturatainformazione strutturata

inspector.sindice.cominspector.sindice.com

Page 58: Tecnologie semantiche per il giornalismo @ SISSA

ma io “giornalista”, con questi Linked Data,perchè devo averci a che fare?

stimolare i programmatori stimolare i programmatori ed i tecnici a darmi una ed i tecnici a darmi una mano, consapevole che mano, consapevole che esistono quei dati e esistono quei dati e

quelle fontiquelle fonti

chiedere lumi a chi li ha chiedere lumi a chi li ha pubblicati, come con quelli pubblicati, come con quelli

Open DataOpen Data + semplici: stimolare + semplici: stimolare

feedback e miglioramento feedback e miglioramento continuocontinuo

Page 59: Tecnologie semantiche per il giornalismo @ SISSA

http://onlinejournalismblog.com/2011/07/07/the-inverted-pyramid-of-data-journalism/

fonti fonti “sporche”“sporche”

fonti fonti strutturatestrutturate

Web Web di documentidi documenti

Web Web di datidi dati

Page 60: Tecnologie semantiche per il giornalismo @ SISSA

fonti fonti “sporche”“sporche”

Web Web di documentidi documenti

contenuto non contenuto non strutturato come i testistrutturato come i testi

““messy” data,messy” data,ovvero semi-strutturatoovvero semi-strutturato

Big ContentBig ContentOpen Data, Open Data, ed annessied annessi

Page 61: Tecnologie semantiche per il giornalismo @ SISSA

ne avremo sempre più di ne avremo sempre più di quello non strutturato, quello non strutturato, perché siamo PIGRI :)perché siamo PIGRI :)

Page 62: Tecnologie semantiche per il giornalismo @ SISSA

e di più...e di più...

Page 63: Tecnologie semantiche per il giornalismo @ SISSA

ed ancora, e ed ancora, e sono tanti a sono tanti a

dirlo...dirlo...

Page 64: Tecnologie semantiche per il giornalismo @ SISSA

Anche se chi li Anche se chi li pubblica, sarà sempre pubblica, sarà sempre

più attentopiù attento

http://seoblog.giorgiotave.it/seo-semantica-18/5065

Page 65: Tecnologie semantiche per il giornalismo @ SISSA

Contenuto non Contenuto non strutturatostrutturato

Text mining / data miningText mining / data mining+

=report ed oggettiche diano un senso econ cui “giocare”

Page 66: Tecnologie semantiche per il giornalismo @ SISSA

“What I do is text analysis, which covers the aggregation of texts, machine learning, natural language processing, applied to text fles to understand the context. There is a specifc set of skills for data journalists to learn, as it is more and more becoming common place to fnd information in text fles, ranging from material published by governments to corporations. And if you can learn those skills you can start to

fnd meaningful patterns in these documents.”

http://blogs.dw.de/innovation/data-science-the-software-that-is-out-there-is-getting-easier-to-use/

Page 67: Tecnologie semantiche per il giornalismo @ SISSA

ed ora proviamo a capire come funzionail text mining con uno strumento che ci dirà “qualcosa” su un testo...

Page 68: Tecnologie semantiche per il giornalismo @ SISSA

https://dandelion.eu/products/datatxt/ API, ovvero oggetti API, ovvero oggetti

manipolabili dai manipolabili dai programmatori / macchineprogrammatori / macchine

Page 69: Tecnologie semantiche per il giornalismo @ SISSA

Named entity extractionNamed entity extraction

Text similarityText similarity

https://dandelion.eu/products/datatxt/

Classifcation on custom Classifcation on custom categoriescategories

API, ovvero oggetti API, ovvero oggetti manipolabili dai manipolabili dai

programmatori / macchineprogrammatori / macchine

Page 70: Tecnologie semantiche per il giornalismo @ SISSA

Messy data, dati Messy data, dati semi-strutturatisemi-strutturati

E che ci faccio?

Page 71: Tecnologie semantiche per il giornalismo @ SISSA

Messy data, dati Messy data, dati semi-strutturatisemi-strutturati

CONTENT ENRICHMENTCONTENT ENRICHMENTscoprire informazioni scoprire informazioni

collegate in maniera veloce collegate in maniera veloce attorno ad un temaattorno ad un tema

DATA CLEANINGDATA CLEANINGpulire i dati con Open pulire i dati con Open

Refne, confrontandoli con Refne, confrontandoli con fonti pulite e condivisefonti pulite e condivise

DATA WORKFLOWDATA WORKFLOWpubblicare i dati puliti e pubblicare i dati puliti e

trattati nella propria trattati nella propria storia come Linked Datastoria come Linked Data

Page 72: Tecnologie semantiche per il giornalismo @ SISSA

http://lod2.eu/BlogPost/1146-from-messy-data-to-linked-data-lod-enabled-google-refine.html

Page 73: Tecnologie semantiche per il giornalismo @ SISSA

come migliorare una fonte semi-strutturata

http://lab.linkeddata.deri.ie/2010/grefine-rdf-extension/sparqlRecon

Page 74: Tecnologie semantiche per il giornalismo @ SISSA

http://towcenter.org/wp-content/uploads/2014/05/Tow-Center-Data-Driven-Journalism.pdf

spunto per spunto per pensarepensare

Page 75: Tecnologie semantiche per il giornalismo @ SISSA

Ed ora, mettiamo le mani in pasta...

Page 76: Tecnologie semantiche per il giornalismo @ SISSA

Text analytics su GDrive usando le dandelion API Demo RASFF - http://bit.ly/RASFF_data

Web Web di datidi dati

ContenutoContenutonon strutturatonon strutturato

https://dandelion.eu/products/datatxt/nex/demo/

http://www.google.com/webmasters/tools/richsnippets

https://developers.facebook.com/tools/debug/og/object/

Ovvero confrontare le testate dei giornali nel modo in cui Ovvero confrontare le testate dei giornali nel modo in cui fanno parte del Web dei dati / non strutturatofanno parte del Web dei dati / non strutturato