Practica5 final

RECUPERACIÓN AUTOMATIZADA DE LA INFORMACIÓN

11 de marzo de 2010

INDIZACIÓN AUTOMATIZADA

Practica 5

Raquel Carretero Bailón

Licenciatura en Documentación

Universidad de Salamanca

I

ÍNDICE

1. INTRODUCCIÓN ..................................................................................................................... 1

2. Entorno .................................................................................................................................. 2

a. Conéctese a su cuenta en FENIX.USAL.ES. ............................................................................ 2

b. Cree un subdirectorio de nombre practica05. ...................................................................... 2

c. Copie en ese directorio los ficheros docs.xml y docs.dtd que se encuentran en directorio /home/rai ...................................................................................................................................... 3

d. Vea el contenido de ambos ficheros ..................................................................................... 3

e. Compruebe que el fichero docs.xml es válido mediante la orden (ejecute xml val -help para obtener ayuda sobre la opción val de xml) ........................................................................... 4

3. Comando de extracción de campos en documentos XML .................................................... 5

a. Utilice la orden siguiente para extraer el contenido del campo TITULO del primer DOC del fichero ........................................................................................................................................... 5

b. Si quiere obtener el título de los primeros tres documentos (< es la entity de <): .......... 6

c. Si quiere obtener los titulos de los documentos 5, 6, 8, 10, 14, 15, 18 y 20 ........................ 7

4. Comandos de sustitución de texto ........................................................................................ 8

a. Busque ayuda de la utilidad tr (man tr) ................................................................................ 8

5. Comandos para ordenar y contar palabras ......................................................................... 13

a. Obtenga ayuda del comando sort y del comando uniq, y luego ejecute:........................... 13

b. Si queremos ordenarlos por el número de apariciones en orden de más a menos frecuente: .................................................................................................................................... 14

6. Ejercicios .............................................................................................................................. 15

a. Utilice el fichero ibersid2001.doc y conviértalo a fichero plano ...................................... 15

b. Obtenga todas las palabras del documento anterior ......................................................... 15

c. Obtenga la frecuencia de aparición de cada palabra del fichero ibersid2001.txt .............. 17

d. Ley de Zipf ........................................................................................................................... 18

e. Seleccione las palabras que puedan ser vacías ................................................................... 22

f. Aplique lematización utilizando los lematizadores para el español que se indican ........... 26

7. CONCLUSIONES ................................................................................................................... 47

8. BIBLIOGRAFÍA ...................................................................................................................... 48

II

ÍNDICE IMÁGENES

Ilustración1 Conexión fénix.usal.es ....................................................................................... 2

Ilustración2 Copiar en el directorio docs.dtd/docs.xml ........................................................ 3

Ilustración3 Contenido fichero .............................................................................................. 3

Ilustración4 Buscar ayuda ..................................................................................................... 4

Ilustración5 Validación fichero docs.xml............................................................................... 4

Ilustración6 Extracción del campo Título .............................................................................. 5

Ilustración7 Título tres primeros documentos ...................................................................... 6

Ilustración8 Extracción de campos títulos 5,6,8,10 .............................................................. 7

Ilustración9 Sustitución de caracteres .................................................................................. 8

Ilustración10 Mayúsculas/minúsculas ................................................................................ 8

Ilustración11 Mayúsculas/minúsculas (II) ........................................................................... 9

Ilustración12 Mayúsculas/minúsculas (III) .......................................................................... 9

Ilustración13 Sustitución caracteres acentuados ............................................................. 10

Ilustración14 Sustitución signos de puntuación por + ...................................................... 10

Ilustración15 Sustitución signos de puntuación por espacios en blanco .......................... 10

Ilustración16 Sustitución signos de puntuación por “_” ................................................... 11

Ilustración17 Sustitución signos de puntuación por “__” ................................................ 11

Ilustración18 Sustitución signos puntuación “_” .............................................................. 11

Ilustración19 Sustitución signos de puntuación por saltos de línea ................................. 12

Ilustración20 Sustitución signos de puntuación por saltos de línea y ordenación ........... 12

Ilustración21 Palabra por línea ......................................................................................... 12

Ilustración22 Comandos sort y uniq .................................................................................. 13

Ilustración23 Número de apariciones ............................................................................... 14

Ilustración24 Palabras totales ibersid2001.txt .................................................................. 15

Ilustración25 Palabras únicas documento ibersid2001.txt ............................................... 16

Ilustración26 Para cada título de manera independiente ................................................. 17

Ilustración27 Filezilla ......................................................................................................... 19

Ilustración28 Ley de Zipf I ................................................................................................. 19

Ilustración29 Ley de Zipf II ................................................................................................ 19

Ilustración30 Ley de Zipf III ............................................................................................... 20

Ilustración31 Ley de Zipf V ................................................................................................ 20

Ilustración32 Ley de Zipf VII .............................................................................................. 20

III

Ilustración33 Ley de Zipf VIII ............................................................................................. 21

Ilustración34 Ley de Zipf IX ............................................................................................... 21

Ilustración35 Listado de palabras vacúas .......................................................................... 22

Ilustración36 Excel palabras vacías ................................................................................... 25

Ilustración37 Listado de palabras contenidas en ibersid2001.txt ..................................... 26

Ilustración38 Stemmer simple .......................................................................................... 27

Ilustración39 Stemmer wc -w............................................................................................ 28

Ilustración40 snowball ...................................................................................................... 29

Ilustración41 snowball wc -w ............................................................................................ 29

Ilustración42 Contar palabras antes y después ................................................................ 30

IV

ÍNDICE TABLAS

1. Tabla Diferencias lematización ................................................................................. 46

V

RESUMEN

Como conseguir una recuperación efectiva de información, relevante, que se acople a las necesidades del usuario, utilizando diferentes herramientas para realizar una indización automática.

PALABRAS CLAVE

Palabras vacías, indización automática, lematización, simple-stemming, stemming-snowball

1

1. INTRODUCCIÓN

La indización automática es la selección de un conjunto de términos que representen íntegramente un documento (texto, imagen, sonido) por medio de un programa informático. Hasta finales de la década de 1950, la indización se venía realizando en las Bibliotecas y Centros de Documentación de manera intelectual. Desde entonces se viene trabajando en automatizar esta tarea. Algunas de los mecanismos que vienen utilizando los programas informáticos para conseguir una indización automática son las siguientes:

• Convertir la cadena de entrada a minúsculas

• Convertir acentos a formas no acentuadas

• Convertir la cadena de entrada en palabras, una en cada línea

• Eliminar palabras vacias

• Aplicar lematizacion utilizando un par de lematizadores

2

2. Entorno

a. Conéctese a su cuenta en FENIX.USAL.ES. Tal y como hemos hecho en las anteriores prácticas nos conectamos a nuestra cuenta de fénix.usal.es sin olvidar cambiar el idioma antes de hacerlo.

Ilustración1 Conexión fénix.usal.es

b. Cree un subdirectorio de nombre practica05.

Utilizamos el comando mkdir seguido del nombre que queramos asignarle, en nuestro caso, practica04, tal que quede de la siguiente manera: mkdir practica05. Una vez realizado este paso, nos introducimos en el subdirectorio recién creado con el comando cd practica05

3

c. Copie en ese directorio los ficheros docs.xml y docs.dtd que se encuentran en directorio /home/rai

Para llevar a cabo este proceso, es necesario introducir los siguientes comandos: cp home/rai/docs.xml, cp home/rai/docs.dtd

Ilustración2 Copiar en el directorio docs.dtd/docs.xml

d. Vea el contenido de ambos ficheros

Para ver el contenido de los ficheros docs.dtd, así como docs.xml, debemos introducir el comando, ya visto anteriormente en otras prácticas, “more”, seguido del nombre correspondiente, o en su defecto el comando ” less” seguido también del nombre correspondiente, tal como aparece en la imagen inferior.

Ilustración3 Contenido fichero

4

e. Compruebe que el fichero docs.xml es válido mediante la orden (ejecute xml val -help para obtener ayuda sobre la opción val de xml)

Ilustración4 Buscar ayuda

Después de comprobar, utilizando la ayuda, cual es la orden que nos interesa ejecutar para poder dar validez al fichero docs.xml, hemos llegado a la conclusión de que la sentencia a utilizar sería: xml val -E docs.xml

Ilustración5 Validación fichero docs.xml

Tal como apreciamos en la captura de pantalla nos muestra que el fichero docs.xml es válido.

5

3. Comando de extracción de campos en documentos XML

a. Utilice la orden siguiente para extraer el contenido del campo TITULO del primer DOC del fichero

xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[1]/TITULO" docs.xml -T :eliminar etiquetas

Ilustración6 Extracción del campo Título

6

b. Si quiere obtener el título de los primeros tres documentos (< es la entity de <):

xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[position() <=3]/TITULO" docs.xml

Ilustración7 Título tres primeros documentos

7

c. Si quiere obtener los titulos de los documentos 5, 6, 8, 10, 14, 15, 18 y 20

Para logralo debemos ejecutar la siguiente orden, de tal modo que queden incluidos todos los documentos, y esto se consigue separándolos por el operador OR.

xml sel -E "iso8859-1" -T -t -c "/DTT/DOC[position()=5 or position()=6 or position()=8 or position()=10 or position()=14 or position()=15 or position()=18 or position()=20]/TITULO" docs.xml

Ilustración8 Extracción de campos títulos 5,6,8,10

8

4. Comandos de sustitución de texto

a. Busque ayuda de la utilidad tr (man tr) .

Realice los siguientes ejemplos para ver su uso. La utilidad tr se utiliza normalmente en modo tubería, es decir, tomando la salida de un comando como entrada para tr. En los siguientes ejemplos recuerde que el comando echo simplemente muestra en pantalla la cadena de texto entrecomillada: esa cadena se utiliza como entrada para el comando tr.

echo 'casa' | tr a e Con esta sentencia se sustituye el carácter “a” por el carácter “e”

Ilustración9 Sustitución de caracteres

echo 'El Señor de los Anillos' | tr A-Z a-z Con esta sentencia, cualquier carácter en mayúsculas aparecerá en minúsculas.

Ilustración10 Mayúsculas/minúsculas

9

echo 'El SEÑOR de los Anillos' | tr A-Z a-z Con esta sentencia, al igual que en el caso anterior, mostrará todos los caracteres en minúsculas.

Ilustración11 Mayúsculas/minúsculas (II)

echo 'El SEÑOR de los Anillos' | tr [:upper:] [:lower:] Esta sentencia es otra forma de llevar a cabo la orden anterior, es decir, convertir los caracteres de mayúsculas (upper) a minúsculas (lower).

Ilustración12 Mayúsculas/minúsculas (III)

10

echo '¡Qué! No. Adiós, María.' | tr aéíóúü aeiou Con esta sentencia cualquier carácter que aparezca acentuado aparecerá sin acentuar.

Ilustración13 Sustitución caracteres acentuados

echo '¡Qué! No. Adiós, María.' | tr [:punct:] + Con esta sentencia se sustituyen los signos de puntuación por el símbolo “+”

Ilustración14 Sustitución signos de puntuación por +

echo '¡Qué! No. Adiós, María.' | tr -d [:punct:] Con esta sentencia se sustituyen los signos de puntuación por espacios en blanco

Ilustración15 Sustitución signos de puntuación por espacios en blanco

11

echo '¡Qué! No. Adiós, María.' | tr [:punct:] '_' Con esta sentencia se sustituyen los signos de puntuación por el símbolo “_”

Ilustración16 Sustitución signos de puntuación por “_”

echo '¡Qué! No. Adiós, María.' | tr ' [:punct:]' '_' Con esta sentencia se sustituyen los signos de puntuación por el símbolo “_”

Ilustración17 Sustitución signos de puntuación por “__”

echo '¡Qué! No. Adiós, María.' | tr -s ' [:punct:]' '_' Con esta sentencia se sustituyen los signos de puntuación por el símbolo “__” *

Ilustración18 Sustitución signos puntuación “_”

12

echo '¡Qué! No. Adiós, María.' | tr -s ' [:punct:]' '\n' Con esta sentencia sustituye cada signo de puntuación por un salto de línea, y ordena.

Ilustración19 Sustitución signos de puntuación por saltos de línea

echo 'El holandés errante, el elegante, dijo hola sobre la ola, en el barco de Lola' | tr -s ' [:punct:]' '\n' Estamos en el mismo caso que el anterior ejemplo.

Ilustración20 Sustitución signos de puntuación por saltos de línea y ordenación

echo 'El holandés errante, el elegante, dijo hola sobre la ola, en el barco de Lola' | tr -cs ' [:alnum:]' '\n' . Con esta sentencia sustituye los espacios por saltos de línea y signos de puntuación, de tal modo que en cada línea tenemos una palabra.

Ilustración21 Palabra por línea

13

5. Comandos para ordenar y contar palabras

A partir de un texto, el objetivo es obtener una palabra en cada línea, luego ordenarlas y contar las ordenadas, de esa manera tendremos las palabras del texto junto con su frecuencia de aparición.

a. Obtenga ayuda del comando sort y del comando uniq, y luego ejecute: echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' '\n' | sort

echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' '\n' | sort | uniq

echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' '\n' | sort | uniq –c

Ilustración22 Comandos sort y uniq

Uniq: muestra en la pantalla una lista de palabras de tal manera que si una palabra es igual a la siguiente no la pone.

Sort: para ordenar

-c: para contar

14

b. Si queremos ordenarlos por el número de apariciones en orden de más a menos frecuente:

echo 'mi fa sol do si si la la sol sol la si do sol' | tr ' ' '\n' | sort | uniq -c | sort -n –r retorno de carro?

-n: salto de línea

-r: retorno de carro

Ilustración23 Número de apariciones

15

6. Ejercicios

a. Utilice el fichero ibersid2001.doc y conviértalo a fichero plano

Con la utilidad wvText. almacene el resultado en un fichero de nombre ibersid2001.txt.

Como ya hemos visto en anteriores prácticas convierte las palabras de los documentos a texto plano, lo único que debemos hacer es introducir la siguiente orden, poniendo en primer lugar el nombre del documento que queremos convertir con su correspondiente extensión y tras “>”, el nombre del documento con la extensión nueva:

WvText ibersid2001.doc > ibersid2001.txt

b. Obtenga todas las palabras del documento anterior

Teniendo en cuenta que el texto debe estar en minúsculas y los acentos deben ser sustituidos por vocales no acentuadas. Cuente el número de palabras totales y el número de palabras únicas.

Palabras totales: cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr –cs '[:alnum:]' '\n' | wc –w

Ilustración24 Palabras totales ibersid2001.txt

16

Palabras únicas: cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr –cs '[:alnum:]' '\n' | sort | uniq | wc –w

Ilustración25 Palabras únicas documento ibersid2001.txt

17

c. Obtenga la frecuencia de aparición de cada palabra del fichero ibersid2001.txt

Tteniendo en cuenta que el texto debe estar en minúsculas y los acentos deben ser sustituidos por vocales no acentuadas. Debe ordenar el resultado por frecuencia de aparición.

Nota: dado que seguramente no verá todas las palabras, redirija la salida para tener un fichero de nombre ibersid2001.frec.txt.

Ilustración26 Para cada título de manera independiente

18

d. Ley de Zipf

La llamada Ley de Zipf, formulada en la década de los cuarenta por el lingüista de Harvard George Kingsley Zipf (1902-1950), afirma que un pequeño número de palabras son utilizadas con mucha frecuencia, mientras que frecuentemente ocurre que un gran número de palabras son poco empleadas. Esta afirmación, expresada matemáticamente quedaría de la siguiente forma:

donde Pn representa la frecuencia de una palabra ordenada n-ésima y a es casi 1. Esto significa que el segundo elemento se repetirá aproximadamente con una frecuencia de 1/2 de la del primero, y el tercer elemento con una frecuencia de 1/3 y así sucesivamente. Una ley no empírica, pero más precisa, derivada de los trabajos de Claude Shannon fue descubierta por Benoît Mandelbrot.

En definitiva viene a decir que en todas las lenguas conocidas la longitud de las palabras es inversamente proporcional a su frecuencia de aparición (cuantas más veces aparece una palabra en un idioma, más corta es). Muchos lenguajes artificiales como los élficos de Tolkien o el Klingon de Star Trek no cumplen esta regla. Esto es debido a que la explicación a esta ley se basa en la economía lingüística: las palabras que más utilizamos son más cortas y así requieren menos energía, por ello es el uso de una lengua el que acaba por imponer esta ley.

Utilice Excel u OpenOffice Calc para representar la información que ha obtenido, y verifique que la frecuencia de aparición de los términos de este documento siguen una distribución zipfiana. Intente conseguir la regresión logarítmica de los puntos representados (la curva que se ajusta a dichos puntos, según la ley de Zipf)

▪ Nota: tiene la hoja de cálculo en Studium con el nombre ibersid2001.xls

http://es.wikipedia.org/wiki/Universidad_de_Harvard�

http://es.wikipedia.org/wiki/George_Kingsley_Zipf�

http://es.wikipedia.org/wiki/1902�

http://es.wikipedia.org/wiki/1950�

http://es.wikipedia.org/wiki/Claude_Shannon�

http://es.wikipedia.org/wiki/Beno%C3%AEt_Mandelbrot�

http://es.wikipedia.org/w/index.php?title=%C3%89lfico&action=edit&redlink=1�

http://es.wikipedia.org/wiki/Tolkien�

http://es.wikipedia.org/wiki/Klingon�

http://es.wikipedia.org/wiki/Star_Trek�

19

Ilustración27 Filezilla

Utilizamos el Filezilla para disponer del documento, vamos a Excel y abrimos.

Ilustración28 Ley de Zipf I

Ilustración29 Ley de Zipf II

Hay que representar la frecuencia frente al orden

20

Ilustración30 Ley de Zipf III

Asistente para gráficos

Ilustración31 Ley de Zipf V

Insertamos el gráfico al que hemos llamado “Ley de Zipf”

Ilustración32 Ley de Zipf VII

Primeramente me posiciono en el eje X

21

Ilustración33 Ley de Zipf VIII

A continuación se realiza la misma operación solo que esta vez con el eje Y. Tras esto, en el gráfico se pulsa la opción “agregar línea de tendencia” (potencial)

Ilustración34 Ley de Zipf IX

Para verlo solo hay que posicionarse sobre la línea y seleccionar “mostrar gráfico de la ecuación”

22

e. Seleccione las palabras que puedan ser vacías

Luego compare la lista que ha obtenido con una lista estandar Elimine las palabras que considere vacias del fichero ibersid.frec.txt.

Ilustración35 Listado de palabras vacúas http://members.unine.ch/jacques.savoy/clef/spanishSmart.txt).

http://members.unine.ch/jacques.savoy/clef/spanishSmart.txt�

23

1. El 2. La 3. De 4. En 5. Que 6. Los 7. Y 8. Es 9. Se 10. a 11. Una 12. Un 13. Para 14. Del 15. Con 16. Por 17. Como 18. Mas 19. No 20. Las 21. Of 22. Cada 23. And 24. Al 25. De 26. Uno 27. In 28. J 29. Puede 30. G 31. Esta 32. C 33. Así 34. También 35. Otros 36. Parte 37. Si 38. O 39. N 40. Este 41. D 42. Sus 43. Su 44. R 45. I

46. I 47. Han 48. Entre 49. Aquellos 50. Son 51. Pueden 52. Otro 53. Mayor 54. Lo 55. Esto 56. Tanto 57. Sido 58. Poco 59. Pero 60. M 61. Ese 62. Esa 63. Decir 64. Debe 65. Mismo 66. Manera 67. Dado 68. Cuenta 69. W 70. Través 71. Tiene 72. Tener 73. Tales 74. Primera 75. Poder 76. Ri 77. P 78. Nuevos 79. Nuevo 80. Nueva 81. Nj 82. New 83. Hace 84. Etc 85. Et 86. Esos 87. Ello 88. Ellas 89. E 90. Dos

91. Cual 92. B 93. Aunque 94. Además 95. Ya 96. Verse 97. Unos 98. Tras 99. Todos 100. Todas 101. Toda 102. Solo 103. Sino 104. Sin 105. Siendo 106. Seria 107. Ser 108. Según 109. S 110. Q 111. Primeros 112. Primero 113. Otra 114. On 115. Nuestra 116. Ningún 117. Nada 118. Muy 119. Muchos 120. Mucho 121. More 122. Mejor 123. Mediante 124. Le 125. K 126. Is 127. Hemos 128. Ha 129. Fue 130. Donde 131. Desde 132. By 133. Alguna 134. 1992b 135. With

24

136. Where 137. Veces 138. Unas 139. To 140. Tienen 141. Those 142. This 143. They 144. These 145. Then 146. Their 147. That 148. Tf 149. Tendrán 150. Tal 151. Sobre 152. Siguientes 153. Siguiente 154. Sigue 155. Siempre 156. Segundo 157. Second 158. Sean 159. Sea 160. Podría 161. Podrá 162. Podemos 163. Otras 164. Other 165. Nr 166. Mismos 167. Misma 168. Menos 169. Mejores 170. Miles 171. Md 172. L 173. Lado 174. Junto 175. Igual 176. Hoy 177. Hay 178. Gran 179. Fueron 180. For

181. F 182. Estas 183. Esas 184. Entonces 185. Ed 186. Diversos 187. Dicho 188. Df 189. Dentro 190. Demás 191. Deben 192. Dar 193. Cuyos 194. Cuyo 195. Cuarto 196. Cierto 197. Casi 198. Better 199. Bastantes 200. Bastante 201. Are 202. Aquí 203. Aquellas 204. Ambas 205. Algunos 206. Algún 207. Ad 208. Acm 209. Fin 210. An 211. Ambos 212. 1992ª 213. Unos 214. Pues 215. Partir 216. Obstante 217. Ik 218. Existen 219. By 220. Frente 221. Estos

25

Ilustración36 Excel palabras vacías

26

f. Aplique lematización utilizando los lematizadores para el español que se indican

Un s-stemmer para el espanol que elimina terminaciones aplicando las siguientes reglas en el orden que se indican: • si la palabra termina en -eses, sustituya por -es (p.e., corteses → cortes) • si la palabra termina en -es, sustituya por -z (p.e., veces → vez) • elimine las terminaciones -as, -es y -os • elimine las terminaciones -a, -e y –o ▪ Un suffix-stripping denominado Snowball, muy utilizado para gran cantidad de idiomas. Para mas informacion, conectese a http://snowball.tartarus.org/.

Ilustración37 Listado de palabras contenidas en ibersid2001.txt

cat ibersid2001.txt | tr [:upper:] [:lower:] | tr áéíóúü aeiouu | tr -cs '[:alnum:]' '\n' |sort |uniq | more

http://snowball.tartarus.org/�

27

Redirijo a ibersid2001.palabras.txt, lo pasaré por un stemmer simple. Asi obtengo las palabras lematixadas con el lematizador simple.

Debemos crear un fichero .txt que contenga el listado de palabras resultante después de eliminar las palabras vacías y pasarlo a través de filezilla a práctica05 para poder trabajar sobre él.

Stemming es un método para reducir una palabra a su raíz o mejor a un stem o tema. Hay algunos algoritmos de stemming que ayudan en sistemas de recuperación de información. Stemming aumenta el recall que es una medida sobre el número de documentos que se pueden encontrar con una consulta. Por ejemplo una consulta sobre "bibliotecas" también encuentra documentos en los que solo aparezca "bibliotecario" porque el stem de las dos palabras es el mismo ("bibliotec").

cat ibersid2001.palabras.txt | stemmer-simple-spanish | more

Ilustración38 Stemmer simple

Para ver la diferencia entre los dos métodos, contamos los términos en ambos casos (wc –w). Con el stemmer simple observamos que nos devuelve un resultado de exactamente 650 palabras.

28

cat ibersid2001.palabras.txt | stemmer-simple-spanish | sort |uniq | wc -w

Ilustración39 Stemmer wc -w

Si quiero repetir el proceso pero con el snowball:

Se trata de un pequeño lenguaje para el manejo de strings que permite implementar algoritmos de normalización del lenguaje (steeming algorithms) mediante sencillos scripts. Posteriormente mediante un compilador se genera una salida en C o en Java.

Como en cualquier buscador de calidad pretendíamos conseguir que las consultas fueran case-insensitive y accent-insensitive. Pero además, en esta ocasión también queríamos que las búsquedas fueran independientes, hasta cierto punto, de las terminaciones morfológicas. Es decir, que se pudiera buscar indistintamente por "documentos ténicos" y "documentación técnica", o por "acceso", "accesible", "accesibilidad", etc.

Para eso necesitabamos implementar un algoritmo de normalización

(stemmer) que redujera los términos de la consulta a las unidades mínimas con significado léxico (lexemas). Este tipo de algoritmos, basados en el algoritmo de Porter

29

cat ibersid2001.palabras.txt | stemmer-snowball-spanish | more

Ilustración40 snowball

Para ver la diferencia entre los dos métodos, contamos los términos en ambos casos (wc –w). Con el snowball observamos que nos devuelve un resultado de exactamente 572 palabras

Ilustración41 snowball wc -w

30

Para contar las palabras que hay antes y después de eliminar las palabras vacías se introducen las órdenes que se muestran en la ilustración inferior.

Antes: 938

Después: 716

Ilustración42 Contar palabras antes y después

Importe estos tres ficheros (ibersid2001.palabras.txt, ibersid2001.lema1.txt e ibersid2001.lema2.txt) a una hoja de cálculo Excel y vea cómo han quedado los términos.

Lema1 Lema2 Inersid2001.palabras.txt

0

1

10

1074

109

145

15

16

1965

1968

1971

1977

0

1

10

1074

109

145

15

16

1965

1968

1971

1977

0

1

10

1074

109

145

15

16

1965

1968

1971

1977

31

1983

1987

1988

1990

1991

1992

1994

1998

2

200

2000

215

22

24

241

26

263

28

288

292

297

3

300

313

32

323

363

37008

392

4

41

461

467

5

500

513

523

53

6

7

70

8

94

abundant

acces

acepten

1983

1987

1988

1990

1991

1992

1994

1998

2

200

2000

215

22

24

241

26

263

28

288

292

297

3

300

313

32

323

363

37008

392

4

41

461

467

5

500

513

523

53

6

7

70

8

94

abund

acces

acept

1983

1987

1988

1990

1991

1992

1994

1998

2

200

2000

215

22

24

241

26

263

28

288

292

297

3

300

313

32

323

363

37008

392

4

41

461

467

5

500

513

523

53

6

7

70

8

94

abundante

acceso

acepten

32

acerc

actuand

acuerd

adding

adecuad

adecuad

adecuad

adicionalment

adolec

afzaz

ajustar

ajustaran

algorithms

algoritm

algoritm

allan

allow

allows

alons

alta

alto

alt

american

ampliament

angel

angul

annual

anteriorment

años

aparec

aparecer

aparicion

apartad

aplic

aplicacion

aplicacion

aplicand

aplicar

aplicars

aplic

application

approach

aproximacion

arrojar

articul

asignacion

acerc

actu

acuerd

adding

adecu

adecu

adecu

adicional

adolec

afzaz

ajust

ajust

algorithms

algoritm

algoritm

allan

allow

allows

alons

alta

alto

altos

americ

ampli

angel

angul

annual

anterior

años

aparec

aparec

aparicion

apart

aplic

aplicacion

aplic

aplic

aplic

aplic

aplic

application

approach

aproximacion

arroj

articul

asignacion

acerca

actuando

acuerdo

adding

adecuadas

adecuado

adecuados

adicionalmente

adolece

afzazo

ajustar

ajustaran

algorithms

algoritmo

algoritmos

allan

allow

allows

alonso

alta

alto

altos

american

ampliamente

angel

angulo

annual

anteriormente

años

aparece

aparecer

aparicion

apartado

aplica

aplicacion

aplicaciones

aplicando

aplicar

aplicarse

aplico

application

approaches

aproximacion

arrojara

articulos

asignacion

33

aspect

aspect

audit

aument

aumentar

automatic

automatic

baez

basandos

base

based

basicament

basic

basic

belkin

beneficios

berrocal

bethesd

bibliotec

binari

brev

buckley

busc

buscador

busqued

busqued

cabo

calcul

calcular

calcul

calcul

cantidad

capacidad

caracteristic

caracteristic

caracterizacion

caracterizador

caracterizar

carl

caso

cataloguing

categorizacion

cient

clas

classification

clav

aspect

aspect

audit

aument

aument

automatic

automat

baez

bas

bas

bas

basic

basic

basic

belkin

benefici

berrocal

bethesd

bibliotec

binari

brev

buckley

busc

buscador

busqued

busqued

cab

calcul

calcul

calcul

calcul

cantid

capac

caracterist

caracterist

caracterizacion

caracteriz

caracteriz

carl

cas

cataloguing

categorizacion

cient

clas

classification

clav

aspecto

aspectos

audit

aumenta

aumentar

automatic

automatica

baeza

basandose

base

based

basicamente

basico

basicos

belkin

beneficioso

berrocal

bethesda

biblioteca

binaria

breve

buckley

busca

buscadores

busqueda

busquedas

cabo

calcula

calcular

calculo

calculos

cantidad

capacidad

caracteristica

caracteristicas

caracterizacion

caracterizadores

caracterizar

carlos

caso

cataloguing

categorizacion

cientos

clase

classification

clave

34

cliffs

coincidir

coleccion

combinandol

comparar

complet

compondran

compon

component

comportamient

comput

computacion

computacional

comun

concept

concept

conceptualment

conclusion

concretars

conferenc

conjuncion

conjunt

conoc

conocid

conocid

conseguid

conseguir

consider

consideracion

considerad

consideran

considerars

consider

consigu

consiguiend

consist

consisten

consistency

constant

construccion

construy

consult

consult

consytency

contar

contendran

cliffs

coincid

coleccion

combin

compar

complet

compondr

compon

component

comport

comput

computacion

computacional

comun

concept

concept

conceptual

conclusion

concret

conferenc

conjuncion

conjunt

conoc

conoc

conoc

consegu

consegu

consider

consideracion

consider

consider

consider

consider

consig

consigu

cons

consist

consistency

constant

construccion

constru

consult

consult

consytency

cont

contendr

cliffs

coincidir

coleccion

combinandola

comparar

completo

compondran

compone

componentes

comportamiento

computa

computacion

computacional

comun

concepto

conceptos

conceptualmente

conclusiones

concretarse

conference

conjunciones

conjunto

conoce

conocidas

conocido

conseguida

conseguir

considera

consideracion

considerados

consideran

considerarse

considere

consigue

consiguiendo

consiste

consisten

consistency

constantes

construccion

construye

consulta

consultas

consytency

contar

contendran

35

contenid

continuacion

contrapuest

contrari

contribuyen

convencional

cosen

costos

creat

criteri

croft

cuadr

cual

cuand

cuent

curv

curv

data

debem

decidir

decirs

decrecient

definid

definitori

degre

demostrad

demuestr

departament

describ

describiend

describir

descripcion

descriptor

descrit

dese

desead

dese

destacabl

destacad

destacar

deteccion

determinad

determinad

determinad

determinar

devolviend

conten

continuacion

contrapuest

contrari

contribu

convencional

cosen

costos

creat

criteri

croft

cuadr

cual

cuand

cuent

curv

curv

dat

deb

decid

dec

decrecient

defin

definitori

degre

demostr

demuestr

departament

describ

describ

describ

descripcion

descriptor

descrit

dese

des

dese

destac

destac

destac

deteccion

determin

determin

determin

determin

devolv

contenido

continuacion

contrapuestas

contrario

contribuyen

convencional

coseno

costoso

creates

criterio

croft

cuadro

cuales

cuando

cuentas

curva

curvas

data

debemos

decidir

decirse

decreciente

definido

definitorias

degree

demostrado

demuestra

departamento

describe

describiendo

describir

descripcion

descriptor

descrito

desea

deseados

desee

destacable

destacado

destacar

deteccion

determinada

determinadas

determinado

determinar

devolviendo

36

devuelt

dia

diaz

diferent

dificil

difundid

direct

discriminacion

discriminar

discriminatori

diseñad

diseñar

disminuir

dispon

disponer

distinguir

distorsion

document

documentacion

document

document

documents

donn

dotars

ecuacion

editor

efectivament

efect

efectuad

efectuar

effect

efficient

eficienci

eficient

ejecutad

ejempl

ejempl

elaboracion

elaborar

electronic

element

element

element

elevad

eliminacion

eliminan

devuelt

dia

diaz

diferent

dificil

difund

direct

discriminacion

discrimin

discriminatori

diseñ

diseñ

disminu

dispon

dispon

distingu

distorsion

document

documentacion

document

document

documents

donn

dot

ecuacion

editor

efect

efect

efectu

efectu

effect

efficient

eficient

eficient

ejecut

ejempl

ejempl

elaboracion

elabor

electron

element

element

element

elev

eliminacion

elimin

devueltos

dia

diaz

diferentes

dificil

difundido

directo

discriminacion

discriminar

discriminatorio

diseñadas

diseñar

disminuir

dispone

disponer

distinguir

distorsiones

document

documentacion

documento

documentos

documents

donna

dotarse

ecuacion

editor

efectivamente

efecto

efectuada

efectuar

effect

efficient

eficiencia

eficientes

ejecutada

ejemplo

ejemplos

elaboracion

elaborar

electronico

element

elemento

elementos

elevado

eliminacion

eliminan

37

eliminarl

embarg

encontrad

encontrar

encontrars

engelwood

englewood

entrad

environment

escalar

escas

español

esperad

esquem

establecer

estandar

estim

estimacion

estimacion

estimar

estimarl

estimating

estudi

etiquetad

evaluacion

evaluation

evitar

examin

examinaron

exampl

exhaustividad

expansion

experimental

experimental

experimentaron

experiment

experiment

experiments

expres

expresad

extens

extraccion

extremadament

facultad

feedback

figu

elimin

embarg

encontr

encontr

encontr

engelwood

englewood

entrad

environment

escal

escas

español

esper

esquem

establec

estandar

estim

estimacion

estim

estim

estim

estimating

estudi

etiquet

evaluacion

evaluation

evit

examin

examin

exampl

exhaust

expansion

experimental

experimental

experiment

experiment

experiment

experiments

expres

expres

extens

extraccion

extrem

facult

feedback

fig

eliminarlo

embargo

encontrados

encontrar

encontrarse

engelwood

englewood

entrada

environment

escalar

escaso

español

esperado

esquemas

establecer

estandares

estima

estimacion

estimaciones

estimar

estimarlos

estimating

estudio

etiquetado

evaluacion

evaluation

evitar

examina

examinaron

examples

exhaustividad

expansion

experimental

experimentales

experimentaron

experimento

experimentos

experiments

expresa

expresadas

extensos

extraccion

extremadamente

facultad

feedback

figue

38

figuerol

figur

filtrad

finaliz

followed

form

formad

formad

formalment

forman

format

formul

formulacion

formulation

frak

francament

francisc

frecuenci

frequency

gast

general

gomez

grad

grams

grup

habrian

hall

harter

herramient

hert

hill

hoc

homogene

hooper

ide

identific

identify

idf

impact

impact

impid

implic

importanci

important

important

important

figuerol

figur

filtr

finaliz

follow

form

form

form

formal

form

format

formul

formulacion

formulation

frak

franc

francisc

frecuenci

frequency

gast

general

gomez

grad

grams

grup

habri

hall

hart

herramient

hert

hill

hoc

homogen

hoop

ide

identif

identify

idf

impact

impact

impid

implic

import

important

import

import

figuerola

figura

filtrado

finaliza

followed

forma

formada

formado

formalmente

forman

formato

formula

formulacion

formulation

frakes

francamente

francisco

frecuencia

frequency

gasto

general

gomez

grado

grams

grupo

habrian

hall

harter

herramientas

hert

hill

hoc

homogeneas

hooper

ideas

identifica

identify

idf

impact

impacto

impide

implica

importancia

important

importante

importantes

39

improvement

improving

incapaz

incluir

incluy

inconsistenci

increment

indexacion

indexer

indexing

indican

indicar

indic

indiz

ineficaz

informacion

informatic

informatic

information

informativ

informativ

ingl

inicial

inicial

initial

intent

interaccion

interaction

interfac

interfaz

interindexer

internal

internet

introduccion

introduction

invers

inversament

invers

invers

investigacion

jose

journal

keywords

lanzaron

larg

lematizacion

improvement

improving

incapac

inclu

inclu

inconsistent

increment

indexacion

index

indexing

indic

indic

indic

indic

ineficac

informacion

informat

informat

information

inform

inform

ingles

inicial

inicial

initial

intent

interaccion

interaction

interfac

interfaz

interindex

internal

internet

introduccion

introduction

invers

invers

invers

invers

investigacion

jos

journal

keywords

lanz

larg

lematizacion

improvement

improving

incapaces

incluir

incluye

inconsistencia

incremento

indexacion

indexer

indexing

indican

indicar

indice

indices

ineficaces

informacion

informatica

informaticas

information

informativa

informativas

ingles

inicial

iniciales

initial

intenta

interaccion

interaction

interface

interfaz

interindexer

internal

internet

introduccion

introduction

inversa

inversamente

inverse

inverso

investigacion

jose

journal

keywords

lanzaron

largos

lematizacion

40

lenguaj

lexic

libr

like

linguistic

list

llamad

lopez

lugar

magnitud

management

mangiaterr

manual

manual

manualment

marcar

marcaron

martinez

mcgill

mcgraw

means

measurements

mecanism

mecanism

medi

medid

mejor

mejoran

mejorar

metod

mide

mode

model

model

modern

modification

modo

moment

mostrad

multipalabr

natural

necesari

necesidad

necesidad

negativ

negativ

lenguaj

lexic

libr

lik

linguist

list

llam

lopez

lugar

magnitud

management

mangiaterr

manual

manual

manual

marc

marc

martinez

mcgill

mcgraw

means

measurements

mecan

mecan

medi

med

mejor

mejor

mejor

metod

mid

mod

model

model

modern

modification

mod

moment

mostr

multipalabr

natural

necesari

neces

neces

negativ

negat

lenguaje

lexicas

libre

like

linguisticas

list

llamado

lopez

lugares

magnitudes

management

mangiaterra

manual

manuales

manualmente

marcar

marcaron

martinez

mcgill

mcgraw

means

measurements

mecanismo

mecanismos

media

medida

mejora

mejoran

mejorar

metodos

mide

mode

modelo

modelos

modern

modification

modo

momento

mostrado

multipalabra

natural

necesario

necesidad

necesidades

negative

negativo

41

negativ

nist

normalizacion

normalizar

normalment

notablement

notori

numeric

numer

obedec

objetiv

observar

obtencion

obtener

obteniend

obteniendos

obtienen

obtuvieron

obviament

obviar

ocurrenci

ofrecen

opcion

operacion

opta

orden

ordenad

ordenar

organization

origin

original

pagin

palabr

palabr

palabr

partiend

pasa

pas

peculiaridad

pequeñ

pequeñ

performanc

permitan

permit

permiten

person

negat

nist

normalizacion

normaliz

normal

notabl

notori

numer

numer

obedec

objet

observ

obtencion

obten

obten

obten

obtien

obtuv

obvi

obvi

ocurrent

ofrec

opcion

oper

opta

orden

orden

orden

organization

origin

original

pagin

palabr

palabr

palabr

part

pas

pas

peculiar

pequeñ

pequeñ

performanc

permit

permit

permit

person

negativos

nist

normalizacion

normalizar

normalmente

notablemente

notoria

numerico

numero

obedece

objetivo

observar

obtencion

obtener

obteniendo

obteniendose

obtienen

obtuvieron

obviamente

obviar

ocurrencia

ofrecen

opcion

operaciones

opta

orden

ordenados

ordenar

organization

origin

originales

paginas

palabra

palabras

palabras

partiendo

pasa

pasos

peculiaridades

pequeña

pequeño

performance

permitan

permite

permiten

persona

42

pertenec

pertinent

pertinent

peso

pes

pierden

plantear

polisemi

pose

posibilidad

posibiliten

posibl

positiv

positiv

pp

precision

precis

pregunt

prentic

preposicion

privilegiar

problem

problem

proceedings

procesad

procesaron

proces

process

processing

produc

producen

producid

product

proporcion

proporcional

proporcionand

proporcionen

propuest

propuest

provenient

publication

pudieran

punt

quality

quaterly

queri

pertenec

pertinent

pertinent

pes

pes

pierd

plant

polisemi

pose

posibil

posibilit

posibl

positiv

posit

pp

precision

precis

pregunt

prentic

preposicion

privilegi

problem

problem

proceedings

proces

proces

proces

process

processing

produc

produc

produc

product

proporcion

proporcional

proporcion

proporcion

propuest

propuest

provenient

publication

pud

punt

quality

quaterly

queri

pertenece

pertinente

pertinentes

peso

pesos

pierden

plantear

polisemia

posee

posibilidad

posibiliten

posible

positive

positivos

pp

precision

preciso

preguntas

prentice

preposiciones

privilegiar

problema

problemas

proceedings

procesadas

procesaron

proceso

process

processing

produce

producen

producidas

producto

proporcion

proporcional

proporcionando

proporcionen

propuesto

propuestos

provenientes

publication

pudieran

punto

quality

quaterly

queries

43

query

raiz

ranking

realimentacion

realimentad

realimentad

realiz

realizad

realizad

realizar

recalcul

recall

recib

recoger

recuperacion

recuperacion

recuperad

recuperar

reduccion

referenci

refin

relacion

relevanc

relevanci

relevant

relevant

represent

representacion

representacion

representan

representant

resolucion

resolver

respectivament

resultad

resultan

resultand

results

resumen

retrieval

review

revisar

revist

rocchi

roman

routing

query

raic

ranking

realimentacion

realiment

realiment

realiz

realiz

realiz

realiz

recalcul

recall

recib

recog

recuperacion

recuper

recuper

recuper

reduccion

referent

refin

relacion

relevanc

relev

relevant

relev

represent

representacion

represent

represent

represent

resolucion

resolv

respect

result

result

result

results

resum

retrieval

review

revis

revist

rocchi

rom

routing

query

raices

ranking

realimentacion

realimentada

realimentadas

realiza

realizada

realizado

realizar

recalculo

recall

recibe

recoger

recuperacion

recuperaciones

recuperados

recuperar

reduccion

referencias

refine

relacion

relevance

relevancia

relevant

relevantes

representa

representacion

representaciones

representan

representante

resolucion

resolver

respectivamente

resultados

resultan

resultando

results

resumen

retrieval

review

revisara

revistas

rocchio

roman

routing

44

salamanc

salton

san

satisfac

scienc

seguidament

seguid

seguir

segurament

seleccion

seleccionad

seleccionad

seleccionar

semantic

semejanz

sentid

señalad

señalar

shown

significativ

siguient

similar

similitud

simpl

sinonimi

sistem

sistem

smart

society

sofisticad

somer

spain

spanish

special

stemming

stops

structur

stubbs

subcaden

subjetiv

suel

suelen

system

systems

tamañ

techniqu

salamanc

salton

san

satisfac

scienc

seguid

segu

segu

segur

seleccion

seleccion

seleccion

seleccion

semant

semej

sent

señal

señal

shown

signific

siguient

similar

similitud

simpl

sinonimi

sistem

sistem

smart

society

sofistic

somer

spain

spanish

special

stemming

stops

structur

stubbs

subcaden

subjet

suel

suel

system

systems

tamañ

techniqu

salamanca

salton

san

satisface

science

seguidamente

seguido

seguir

seguramente

selecciona

seleccionado

seleccionados

seleccionar

semantico

semejanza

sentido

señalados

señalar

shown

significativas

siguientes

similares

similitud

simple

sinonimia

sistema

sistemas

smart

society

sofisticados

somera

spain

spanish

special

stemming

stops

structures

stubbs

subcadenas

subjetiva

suele

suelen

system

systems

tamaños

technique

45

techniqu

technology

tecnic

tecnic

tematic

term

termin

termin

tesin

tests

text

text

tiemp

tiend

tipo

toma

tomar

totalment

trabaj

trec

unidad

universidad

usad

usal

usars

user

users

using

usually

usuari

usuari

util

util

utilic

utiliz

utilizabl

utilizacion

utilizad

utilizad

utilizad

utilizand

utilizar

utilizaron

utilization

vaciad

vaci

techniqu

technology

tecnic

tecnic

temat

term

termin

termin

tesin

tests

text

text

tiemp

tiend

tip

tom

tom

total

trabaj

trec

unidad

univers

usad

usal

usars

user

users

using

usually

usuari

usuari

util

util

utilic

utiliz

utiliz

utilizacion

utiliz

utiliz

utiliz

utiliz

utiliz

utiliz

utilization

vaci

vaci

techniques

technology

tecnica

tecnicas

tematico

term

termino

terminos

tesina

tests

text

texto

tiempo

tiende

tipo

toma

tomar

totalmente

trabajo

trec

unidades

universidad

usado

usal

usarse

user

users

using

usually

usuario

usuarios

util

utiles

utilice

utiliza

utilizables

utilizacion

utilizada

utilizado

utilizados

utilizando

utilizar

utilizaron

utilization

vaciado

vacias

46

valor

valor

vector

vector

vectorial

vectorizad

vien

vist

visualizar

vitori

witghting

words

yat

york

zazo

valor

valor

vector

vector

vectorial

vectoriz

vien

vist

visualiz

vitori

witghting

words

yat

york

zaz

valor

valores

vector

vectores

vectorial

vectorizada

viene

vista

visualizar

vitoria

witghting

words

yates

york

zazo

1. Tabla Diferencias lematización

47

7. CONCLUSIONES

Dados los problemas que plantea el lenguaje natural (información pobremente estructurada, diferentes formatos de documentos, problemas con codificación de la información, problemas de detección y conversión de formatos y codificación, normalización de términos, etc.) se hace necesario el empleo de herramientas especializadas a la hora de tratarlo para conseguir una recuperación óptima de información, que satisfaga las necesidades de la búsqueda.

.

48

8. BIBLIOGRAFÍA

– Indización automática – la enciclopedia libre. Actualizado el. [On-line] 30 de septiembte. Consulta realizada el 3 de marzo de 2010. URL: http://es.wikipedia.org/wiki/Indizaci%C3%B3n_autom%C3%A1tica

– Ley de Zipf – la enciclopedia libre. Actualizado el 9 de octubre. [On-line]. Consulta realizada el 7 de marzo de 2010. URL: http://es.wikipedia.org/wiki/Stemming

– Stemming – la enciclopedia libre. Actualizado el 2 de octubre. [On-line]. Consulta realizada el 7 de marzo de 2010 URL:http://es.wikipedia.org/wiki/George_Kingsley_Zipf

http://es.wikipedia.org/wiki/Stemming�

Practica5 final

Education