lezione 5 per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia
lezione 5
informatica di base per le discipline umanistiche
vito pirrelli
Istituto di Linguistica Computazionale CNR Pisa
Dipartimento di linguistica
Università di Pavia
lezione 5
quinta lezione: la matematica delle parole
vito pirrelli
Istituto di Linguistica Computazionale CNR Pisa
Dipartimento di linguistica
Università di Pavia
lezione 5
livelli di analisi del testoLe LE#PQ@FP3@FS3# LO#RD@FP# LE#SP@NN#ricerche RICERCA#S@FP#di DI#E@#Gabriella GABRIELLA#SP@FS@MS# GABRIELLA#SP@NN#sono ESSERE#V@P3IP@S1IP# SONARE#V@S1IP#proseguite PROSEGUIRE#V@FPPR# PROSEGUIRE#V@P2IP@P2MP#per PER#E@#tutta TUTTO#A@FS# TUTTO#D@FS# TUTTO#P@FS#la LO#RD@FS# LA#PQ@FS3# LA#S@MP@MS#mattinata MATTINARE#V@FSPR# MATTINATA#S@FS#, ,#@@#con CON#E@#elicotteri ELICOTTERO#S@MP#, ,#@@#posti PORRE#V@MPPR# POSTO#S@MP# POSTARE#V@S1CP@S2CP@S2IP@S3CP#di DI#E@#blocco BLOCCARE#V@S1IP# BLOCCO#S@MS#e E#CC@# E#S@FP@FS#perquisizioni PERQUISIZIONE#S@FP#. .#@@#
Le LE#PQ@FP3@FS3# LO#RD@FP# LE#SP@NN#ricerche RICERCA#S@FP#di DI#E@#Gabriella GABRIELLA#SP@FS@MS# GABRIELLA#SP@NN#sono ESSERE#V@P3IP@S1IP# SONARE#V@S1IP#proseguite PROSEGUIRE#V@FPPR# PROSEGUIRE#V@P2IP@P2MP#per PER#E@#tutta TUTTO#A@FS# TUTTO#D@FS# TUTTO#P@FS#la LO#RD@FS# LA#PQ@FS3# LA#S@MP@MS#mattinata MATTINARE#V@FSPR# MATTINATA#S@FS#, ,#@@#con CON#E@#elicotteri ELICOTTERO#S@MP#, ,#@@#posti PORRE#V@MPPR# POSTO#S@MP# POSTARE#V@S1CP@S2CP@S2IP@S3CP#di DI#E@#blocco BLOCCARE#V@S1IP# BLOCCO#S@MS#e E#CC@# E#S@FP@FS#perquisizioni PERQUISIZIONE#S@FP#. .#@@#
Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.
Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.
lezione 5
ascii e unicode
lezione 5
ascii e unicode
consente la codifica di tutti i caratteri scritti esistenti al mondo;
non ricorre a combinazioni di più tasti battuti in sequenza;
tratta tutti i caratteri, siano essi alfabetici che ideografici, allo stesso modo;
per identificare ciascun carattere Unicode usa una sequenza di 16 bit;
in questo modo si possono codificare direttamente più di 65.000 caratteri diversi
lezione 5
ascii e unicode
universale semplice e diretto univoco uniforme (codifica a numero fisso di bit) in questo modo si possono codificare
direttamente più di 65.000 caratteri diversi Unicode si occupa di caratteri in quanto entità
astratte (ad es. lettera latina maiuscola), ma non si occupa della loro resa grafica sullo schermo
Unicode codifica anche simboli diacritici (tilde, umlaut, cediglia etc.) ed è in grado di combinare caratteri e simboli diacritici, così da poter codificare oltre un milione di grafemi distinti
lezione 5
la struttura di una parola
a d r i a t i c o
97 100 114 105 97 116 105 99 111
codifica ASCII
lezione 5
ordinamento alfabeticoionio
adriatico
tirreno
mediterraneo
adriatico
ionio
mediterraneo
tirreno
lezione 5
a
d
r
i
a
t
i
c
o
i
o
n
i
o
<?
<?
<?
min
a
d
r
i
a
t
i
c
o
ordinamento alfabetico (II)
la stringa che “precede” alfabeticamente è il risultato di una “funzione di minino”
lezione 5
diagramma di ordinamento
i = i+1;
NO SI’ i = N-1?
i = 0;
metti all’i-esimo posto la stringa più piccola
tra le ultime N-i stringhe
metti all’i-esimo posto la stringa più piccola
tra le ultime N-i stringhe
lista ordinatalista ordinata
lista non ordinatadi N stringhe
lista non ordinatadi N stringhe
inizializzazione
test
istruzione
(per saperne di più clicca sul box “istruzione”!)
(fai click per far apparire gli altri passi)
lezione 5
passo di ordinamento
stringa “temp” = stringa i-esima;stringa i-esima = stringa k-esima;stringa k-esima = stringa temp;
NO SI’ k = N? k = N?
k = k+1;
stringa i-esima < stringa k-
esima?
stringa i-esima < stringa k-
esima?
lista nuovalista nuova
inizializzazione
test 1
test 2NO
k = i;
SI’
istruzioni
incremento
(fai click per far apparire gli altri passi)
lezione 5
esempio
NO
ionio
adriatico
tirreno
mediterraneo
stringa i-esima < stringa k-
esima?
stringa i-esima < stringa k-
esima?
stringa “temp” = stringa i-esima;stringa i-esima = stringa k-esima;stringa k-esima = stringa temp;
temp = ionio
adriatico
adriatico
tirreno
mediterraneo
adriatico
ionio
tirreno
mediterraneo
i = 0
k = 1
stringa i-esima = stringa k-esimastringa k-esima = temp
(fai click per far apparire gli altri passi)
lezione 5
esempio
NO
ionio
adriatico
tirreno
mediterraneo
stringa i-esima < stringa k-
esima?
stringa i-esima < stringa k-
esima?
stringa “temp” = stringa i-esima;stringa i-esima = stringa k-esima;stringa k-esima = stringa i-esima;
temp = ionio
adriatico
adriatico
tirreno
mediterraneo
adriatico
ionio
tirreno
mediterraneo
i = 0
k = k+1k = k+1
k = 2
k = N? k = N?
NO
SI’
lezione 5
esempio
NO
ionio
adriatico
tirreno
mediterraneo
stringa i-esima < stringa k-
esima?
stringa i-esima < stringa k-
esima?
stringa “temp” = stringa i-esima;stringa i-esima = stringa k-esima;stringa k-esima = stringa i-esima;
temp = ionio
adriatico
adriatico
tirreno
mediterraneo
adriatico
ionio
tirreno
mediterraneo
i = 0
k = k+1k = k+1
k = 3
k = N? k = N?
NO
SI’
SI’
lezione 5
esempio
Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.
Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.
lunghezza frase 1: 14 “parole” lunghezza frase 2: 25 “parole” lunghezza media: (14+25)/2 = 19.5 “parole” deviazione standard: 7.78
lezione 5
quant’è ricco il lessico di un testo?il rapporto “type/token”
Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.
Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.
“type/token ratio”: rapporto tra cardinalità del lessico e frequenza globale del testo
|V| / N 39/44 = 0.89 0 < ( |V| / N )< 1
lezione 5
quant’è ricco il lessico di un testo?il numero di “hapax legomena”
Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.
Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.
un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V1
|V1|/ N 40/44 = 0.91
lezione 5
laboratorio in linea
http://foxdrake.ilc.cnr.it/webtools/
lezione 5
fine quinta lezione
quinta lezione la matematica delle parole
(lezione 6)