Top Banner
Università degli Studi di Milano Bicocca Dipartimento di Informatica, Sistemistica e Comunicazione Corso di Strumenti e applicazioni del Web 9. Ricercare nel Web (Parte I) Roberto Polillo Edizione 2014-15
29

9. Come trovare l'informazione (I)

Jul 16, 2015

Download

Education

Roberto Polillo
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 9. Come trovare l'informazione (I)

Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e Comunicazione

Corso di Strumenti e applicazioni del Web

9. Ricercare nel Web (Parte I)

Roberto Polillo

Edizione 2014-15

Page 2: 9. Come trovare l'informazione (I)

2

Queste slides fanno parte del corso “Strumenti e applicazioni del Web”. Ilsito del corso, con il materiale completo, si trova inwww.corsow.wordpress.com . Data la rapida evoluzione della rete, il corsoviene aggiornato ogni anno.

Il presente materiale è pubblicato con licenza Creative Commons“Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0”(http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ):

La licenza non si estende alle immagini provenienti da altre fonti ealle screen shots, i cui diritti restano in capo ai rispettivi proprietari,che, ove possibile, sono stati indicati. L'autore si scusa per eventualiomissioni, e resta a disposizione per correggerle.

R.Polillo - Marzo 2015

Queste slides

Page 3: 9. Come trovare l'informazione (I)

Una visualizzazione [di una parte] del web

La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links

WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/R.Polillo - Marzo 2015

3

Page 4: 9. Come trovare l'informazione (I)

4

R.Polillo - Marzo 2015

Una visualizzazione [di una parte] del web

Page 5: 9. Come trovare l'informazione (I)

R.Polillo - Marzo 2015

5

Una visualizzazione [di una parte] del web

Page 6: 9. Come trovare l'informazione (I)

Come trovare l'informazione in rete

DirectoriesIndici strutturati di argomenti (gestiti da una redazione)

WikipediaEnciclopedia collaborativa

Motori di ricercaQuery Risultati

Motori semanticiwww.wolframalpha.com, …

Sistemi di Q&A socialeYahoo! Answer, …

EsplorazioneBrowsing, serendipity

R.Polillo - Marzo 2015

6

Page 7: 9. Come trovare l'informazione (I)

Web directories7

Storicamente, il primo strumento di ausilio alle ricerche nel Web

Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie"

Directories “generaliste” e directories verticali o di nicchia, anche prodotte in modo collaborativo

http://en.wikipedia.org/wiki/Web_directory

R.Polillo - Marzo 2015

Page 8: 9. Come trovare l'informazione (I)

Tassonomia8

Emporio celeste dei riconoscimenti benevoli(Enciclopedia cinese, J.L.Borges, 1973)

Gli animali si dividono in:a) Appartenenti all’imperatoreb) Imbalsamatic) Ammaestratid) Lattonzolie) Sirenef) Favolosig) Cani randagih) Inclusi in questa classificazionei) Che si agitano come pazzij) Innumerevolik) Disegnati con un pennello finissimo di peli di

cammellol) Ecceteram) Che hanno ritto il vason) Che da lontano sembrano mosche.

R.Polillo - Marzo 2015

Raggruppamento di

oggetti in classi,

secondo qualche

criterio

taxis=ordine

nomos=regola

Ogni tassonomia è

arbitraria, e dipende

dagli obiettivi

Page 9: 9. Come trovare l'informazione (I)

Yahoo! (http://dir.yahoo.com)9

R.Polillo - Marzo 2015

- Nasce come “La guida al

WWW di Jerry e David”, nel

1994

- Qui la home del 1996, da

www.archive.org

http://en.wikipedia.org/wiki/Int

ernet_Archive

Page 10: 9. Come trovare l'informazione (I)

The Open Directory Project (ODP)10

Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/

Directory gratuita, aperta e multilingua

Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e manutenuta da una comunità di editor volontari

http://en.wikipedia.org/wiki/Open_Directory_Project

R.Polillo - Marzo 2015

Page 11: 9. Come trovare l'informazione (I)

Domoz vs Yahoo!

R.Polillo - Marzo 2015

11

Dmoz Yahoo!

NB La directory di Yahoo non viene più aggiornata

http://en.wikipedia.org/wiki/Yahoo!_Directory

Page 12: 9. Come trovare l'informazione (I)

Wikipedia come strumento di ricerca12

Wikipedia è un formidabile strumento di ricerca e accesso al web

Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato

Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici

(http://en.wikipedia.org/wiki/Portal:Contents/Portals)

R.Polillo - Marzo 2015

Page 13: 9. Come trovare l'informazione (I)

Serendipità13

Cerco una cosa e ne trovo un'altra

Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka)

Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e riconoscere il valore di esperienze che non corrispondono alle originarie aspettative

http://en.wikipedia.org/wiki/Serendipity

http://serendip.brynmawr.edu/serendip/about.html

R.Polillo - Marzo 2015

Page 14: 9. Come trovare l'informazione (I)

14 R.Polillo - Marzo 2015

Page 15: 9. Come trovare l'informazione (I)

www.stumbleupon.com16

to stumble: inciampare, scoprire per caso

È una discovery engine di pagine web, fondato in Canada nel 2001

Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili

Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente:

R.Polillo - Marzo 2015

Page 16: 9. Come trovare l'informazione (I)

Motori di ricerca per il Web

Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web

Le informazioni (di solito nella forma di link) sono presentate in una serie di Search Engine Results Page (SERP)

La qualità di un motore si valuta sulla base della pertinenza e rilevanza dei risultati

R.Polillo - Marzo 2015

17

Page 17: 9. Come trovare l'informazione (I)

Motori di ricerca

Una storia complessa, iniziata negli anni '90. Oggi, i primi:

Google- Dal 1998

Baidu- dal 2000, cinese

Yahoo!- Con motori esterni (dal 2009 "Powered by Bing")

Bing- Dal 2009 (prima: MSN Search, Windows Live Search, Live Search)

R.Polillo - Marzo 2015

18

Page 18: 9. Come trovare l'informazione (I)

Search engine market share

R.Polillo - Marzo 2015

19

Fonte: http://www.netmarketshare.com

Feb 2015, desktop

Page 19: 9. Come trovare l'informazione (I)

Search engine market share

R.Polillo - Marzo 2015

20

Fonte: http://www.netmarketshare.com

Feb 2015, mobile + tablet

Page 20: 9. Come trovare l'informazione (I)

Motori di ricerca: struttura

R.Polillo - Marzo 2015

21

InterfacciaQuery

processing

Rankingdei risultati

Query

Risultati

(SERP)

Front-end process

Indici + cached pages

CrawlerCrawler

IndicizzatoreCrawler

Richieste

Pagine

web

Pagine

webWWW

Back-end process

Page 21: 9. Come trovare l'informazione (I)

Motori di ricerca: struttura22

Ogni motore di ricerca è composto da cinque componenti fondamentali:crawler, indice, interfaccia, query processor e il sistema di ranking

Il crawler è un software specializzato che naviga la rete e porta lepagine nell'indice. Il crawler tiene anche nota dei link che trova e li usaper raggiungere via via nuove pagine con nuovi link ...

L'indice è un enorme database dove le pagine vengono memorizzatecon tutti i metadati e dove tutte le parole vengono “invertite” creandoindici/chiavi per ognuna di esse

L'interfaccia interpreta la richiesta dell'utente, tenta di interpretarla epassa la richiesta al query processor che agisce sull'indice

Il sistema di ranking ordina i risultati della query in funzione della loro"rilevanza" (eventualmente filtrando risultati non pertinenti)

R.Polillo - Marzo 2015

Page 22: 9. Come trovare l'informazione (I)

Web crawling

I crawler (robot, spider, bot) sono programmi che navigano il Web, esaminando le diverse pagine e seguendo i link in esse presenti

Seguono opportune politiche di navigazione (per es. per decidere quando riesaminare una pagina già vista)

L'interazione con i Web server segue specifici protocolli (per es. robot exclusion protocol, o robot.txt)

Non tutto il Web è accessibile ai crawlerR.Polillo - Marzo 2015

23

Page 23: 9. Come trovare l'informazione (I)

robots.txt: esempio

www.domain.com

R.Polillo - Marzo 2015

24

/

robots.txt

utenti

foto

aboutUser-agent: Google

Disallow /utenti/foto

Allow: *

Crawl-delay: 20 sec

Page 24: 9. Come trovare l'informazione (I)

Deep vs surface Web

Non tutto il Web è accessibile ai motori di ricerca

Il Web invisibile ("deep Web") è parecchi ordini di grandezza più vasto del Web visibile ("surface Web")

Deep Web, esempi: Pagine "vietate" dai Web server (robots.txt)

Pagine generate dinamicamente a fronte di query o di input forniti attraverso form

Pagine senza link entranti

Pagine accessibili tramite registrazione e login

Ecc.

R.Polillo - Marzo 2015

25

Page 25: 9. Come trovare l'informazione (I)

Struttura del web: uno studio (vecchio ma interessante)

Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web,

WWW Conference 2000, http://www9.org/w9cdrom/160/160.html

17 million nodes

26

R.Polillo - Marzo 2015

Strongly Connected Component: per ogni coppia di nodi c’è un cammino da uno all’altro

One can pass from any node

of IN through SCC to any node of OUT.

Hanging off IN and OUT are TENDRILS

containing nodes that are reachable

from portions of IN, or that can reach

portions of OUT, without passage

through SCC. It is possible for a

TENDRIL hanging off from IN to

be hooked into a TENDRIL leading

into OUT, forming a TUBE -- a

passage from a portion of IN to

a portion of OUT without touching SCC.

Page 26: 9. Come trovare l'informazione (I)

Tipi di query

InformativaObiettivo: trovare un'informazione

NavigazionaleObiettivo: trovare una pagina web, che conosco già

RisorsaObiettivo: trovare una risorsa (non informativa) disponibile sul web

Il risultato è di solito (ma non sempre!) una lista di link a pagine web

Evoluzione: dal contenitore (anche) al contenuto

R.Polillo - Marzo 2015

27

Page 27: 9. Come trovare l'informazione (I)

Search forms (Google)

R.Polillo - Marzo 2015

28

Semplice: Avanzata:

Posso usare una sintassi

complessa

Esempi:

query AND query

query OR query

-query

term site:url

link: x

…. Cfr. http://www.google.com/insidesearch/http://bit.ly/13dakJx

Page 28: 9. Come trovare l'informazione (I)

Google: evoluzione della home page

Video sulla evoluzione di www.google.com dal 1998 al 2007

http://www.youtube.com/watch?v=1vgprty39og

R.Polillo - Marzo 2015

29

Page 29: 9. Come trovare l'informazione (I)

SERP: struttura tipica

R.Polillo - Marzo 2015

30

Search box

Risultati sponsorizzati

Opzioni per la ricerca

Risultati "organici"

(non influenzati dalle

sponsorizzazioni)

Google:AdWords