Διαδικασίες βελτιστοποίησης διαλειτουργικότητας κατανεμημένων πληροφοριακών συστημάτων συμβατών με το πρωτόκολλο Z39.50 και ολοκλήρωση βιβλιογραφικών μεταδεδομένων Διατριβή που υποβλήθηκε στο Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας του Ιονίου Πανεπιστημίου για την υποψηφιότητα του τίτλου του Διδάκτορα Μιχάλης Ε. Σφακάκης Κέρκυρα, Απρίλιος 2010
195
Embed
Διαδικασίες βελτιστοποίησης ...dlib.ionio.gr/ptheses/Sfakakis_PhD.pdfσυλλογικός κατάλογος. Σε ένα περιβάλλον μετα-αναζήτησης,
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
10 Για λόγους αναγνωσιμότητας χρησιμοποιούνται συμβολικά ονόματα ενδεικτικά του γνωρίσματος και δε χρησιμοποιούνται οι κωδικοί που ορίζει το πρωτόκολλο. Έτσι, το ζευγάρι [Σημείο Πρόσβασης, Title] εκφράζει το κωδικοποιημένο γνώρισμα [1, 4]. Ομοίως και για τα παραδείγματα που ακολουθούν. Επίσης, ένας άλλος συμβολικός τρόπος έκφρασης των γνωρισμάτων που χρησιμοποιείται από το λογισμικό ανοικτού κώδικα YAZ της Index Data (www.indexdata.com) είναι ο εξής: @attr 1=4.
Για παράδειγμα, ο ορισμός της σημασιολογίας του Σημείου Πρόσβασης
Author-name-Personal11 (εικόνα 2.4) καθορίζει ότι το Σημείο Πρόσβασης θα
δημιουργηθεί από το σύνολο των δεδομένων με τις MARC ετικέτες πεδίων {100,
11 Όπως και στα παραδείγματα 2.1 και 2.2 για λόγους αναγνωσιμότητας χρησιμοποιούνται τα συμβολικά ονόματα που αναφέρονται στο τεκμήριο (ZIG, 1995) για τα Σημεία Πρόσβασης και όχι η αριθμητική κωδικοποίηση που ορίζει το Z39.50. Για τα παραδείγματα της εικόνας 2.2, η Z39.50 κωδικοποίηση είναι αντίστοιχα τα ζευγάρια γνωρισμάτων [1, 1004] και [1, 1003].
Κεφάλαιο 2 36
400, 700, 800}. Ομοίως, το Author-name από τα πεδία {100, 110, 111, 400, 410, 411,
700, 710, 711, 800, 810, 811}. Όπως φαίνεται από το παράδειγμα, το Σημείο
Πρόσβασης Author-name έχει ευρύτερη σημασιολογία από το Σημείο Πρόσβασης
Author-name-Personal. Δηλαδή, σε κάθε αναζήτηση που θα χρησιμοποιείται το
Author-name αντί του Author-name-Personal το ταίριασμα του όρου αναζήτησης θα
γίνεται με ένα ευρύτερο σύνολο πληροφορίας άρα θα συνεπάγεται, κατά πάσα
πιθανότητα, και ένα ευρύτερο σύνολο αποτελεσμάτων από το αντίστοιχο του Author-
name-Personal. Αντίθετα, το Author-name-Personal έχει στενότερη σημασιολογία
από το Author-name και συνεπώς ένα μικρότερο σύνολο αποτελεσμάτων.
Στην παρούσα διατριβή, η σημασιολογική συσχέτιση των Σημείων
Πρόσβασης είναι η βάση για τη δημιουργία του Σημασιολογικού Δικτύου Σημείων
Πρόσβασης και κατά επέκταση των μεθόδων για τη σημασιολογική αντικατάσταση
των μη υποστηριζόμενων Σημείων Πρόσβασης από τις Z39.50 πηγές. Η αναλυτική
περιγραφή της ανάπτυξης του Σημασιολογικού Δικτύου Σημείων Πρόσβασης και των
μεθόδων σημασιολογικής αντικατάστασης γίνεται στο κεφάλαιο 5.
Κάνοντας μια γενική αναφορά των διαδικασιών αντικατάστασης σε
περίπτωση που ο ενδιάμεσος θα πρέπει να στείλει μια επερώτηση με το Σημείο
Πρόσβασης Author-name-Personal σε μία πηγή που δεν το υποστηρίζει αλλά
υποστηρίζει το Author-name, ο ενδιάμεσος ανιχνεύοντας το Σημασιολογικό Δίκτυο
Σημείων Πρόσβασης θα αντικαταστήσει το Author-name-Personal με το Author-
name διευρύνοντας με αυτό τον τρόπο τη σημασιολογία της επερώτησης. Με την
αντικατάσταση θα βρεθούν τα τεκμήρια που ταιριάζουν με το αρχικό Σημείο
Πρόσβασης, όμως μέσα σε ένα ευρύτερο σύνολο αποτελεσμάτων. Αυτό οφείλεται στο
γεγονός ότι το ταίριασμα του όρου αναζήτησης θα γίνει με όλα τα πεδία του αρχικού
Σημείου Πρόσβασης Author-name-Personal καθώς επίσης και με τα επιπλέον πεδία
που ανήκουν στο Author-name (βλέπε εικόνα 2.4). Επομένως, η ανάκληση της
επερώτησης θα παραμείνει η ίδια, μιας και θα ανακληθούν όλα τα αποτελέσματα που
ταιριάζουν με το Σημείο Πρόσβασης Author-name-Personal, ενώ η αύξηση του
συνόλου των αποτελεσμάτων, που θα προκαλέσει η χρήση του Σημείου Πρόσβασης
Author-name, θα μειώσει την ακρίβεια της επερώτησης και όπως θα αναλυθεί στο
κεφάλαιο 5, η ακρίβεια θα μειωθεί στο 0,33.
Αντίθετα, στην περίπτωση που κατά την μετεγγραφή το Author-name-
Κεφάλαιο 2 37
Personal θα αντικαταστήσει το Author-name η ακρίβεια θα παραμείνει η ίδια ενώ η
ανάκληση της προκύπτουσας επερώτησης θα μειωθεί στο 0,33. Βέβαια, σε αρκετές
περιπτώσεις είναι δυνατόν να υπάρξουν αντικαταστάσεις τόσο με διεύρυνση όσο και
με περιορισμό της σημασιολογίας, καθώς επίσης η αντικατάσταση να βελτιώνεται με
τη λογική σύζευξη ή διάζευξη περισσότερων του ενός Σημείων Πρόσβασης. Σε αυτές
τις περιπτώσεις που υπάρχουν περισσότερες από μία αντικαταστάσεις χωρίς καμία να
μετεγγράφει την αρχική επερώτηση σε μία ισοδύναμη, δηλαδή η ανάκληση και η
ακρίβεια να παραμένει η ίδια, η μέθοδος επιλέγει την αντικατάσταση λαμβάνοντας
υπόψη παραμέτρους που ορίζει ο χρήστης για τη στάθμιση της ανάκλησης και της
ακρίβειας.
Σε ένα περιβάλλον μετα-αναζήτησης όπου οι μηχανισμοί αναζήτησης των
συστημάτων που συμμετέχουν χρησιμοποιούν Σημεία Πρόσβασης, ένα σημαντικό
ερώτημα που τίθεται αφορά στο βαθμό ύπαρξης μη υποστηριζόμενων Σημείων
Πρόσβασης. Από στοιχεία που δημοσιεύονται στο δικτυακό τόπο “The Z39.50 Target
Directory”12 της Index Data13, τα οποία περιγράφουν τα χαρακτηριστικά αναζήτησης
περίπου χιλίων οκτακοσίων Z39.50 διακομιστών, φαίνεται ότι υπάρχουν πολλές
διαφορετικές υλοποιήσεις του πρωτοκόλλου Z39.50, καθώς και ότι όσο αυξάνεται ο
αριθμός των Z39.50 πηγών τόσο μειώνεται ο αριθμός των κοινών χαρακτηριστικών
αναζήτησης. Το κυριότερο σημείο είναι ότι δεν υπάρχει Σημείο Πρόσβασης που να
υποστηρίζεται από όλους τους Z39.50 διακομιστές.
Ειδικότερα, σε διάφορα στιγμιότυπα των δεδομένων του καταλόγου Z39.50
πηγών της Index Data σε διάστημα διετίας, το Σημείο Πρόσβασης που υποστηρίζεται
από τις περισσότερες πηγές είναι το Title_4, με μέσο ποσοστό υποστήριξης 91,1%, το
αμέσως επόμενο είναι το Subject_21, με μέσο ποσοστό υποστήριξης 89,2% και
ακολουθεί το Author-name_1003, με μέσο ποσοστό υποστήριξης 88,8%. Όπως
δείχνει η εικόνα 2.5, παρά την πάροδο του χρόνου και την εξέλιξη των συστημάτων
δεν υπάρχει τάση για την ύπαρξη ενός καθολικού Σημείου Πρόσβασης αλλά το
ποσοστό υποστήριξης των κοινών Σημείο Πρόσβασης είναι αντιστρόφως ανάλογο του
αριθμού των διακομιστών όπως προκύπτει από τις εικόνες 2.5 και 2.6.
Εικόνα 2.5. Τα τρία Bib-1 Σημεία Πρόσβασης που υποστηρίζονται από τις περισσότερες Z39.50 πηγές.
Εικόνα 2.6. Αριθμός Z39.50 πηγών που υποστηρίζουν υπηρεσία αναζήτησης.
Όπως δείχνουν τα προηγούμενα δεδομένα, σε μία ταυτόχρονη αναζήτηση
πηγών όσο αυξάνεται ο αριθμός των πηγών τόσο αυξάνεται και η πιθανότητα για
αποτυχημένη επερώτηση ή ασυνεπή απάντηση. Το πρόβλημα γίνεται εντονότερο σε
περιπτώσεις όπου είναι αναγκαίο να γίνουν πιο συγκεκριμένες επερωτήσεις με χρήση
πιο ειδικών Σημείων Πρόσβασης, όπως αυτό που χρησιμοποιεί το παράδειγμα 2.2.
Διεθνώς, και αναλόγως με τον προμηθευτή του συστήματος, οι περισσότεροι
Κεφάλαιο 2 39
Z39.50 διακομιστές υλοποιούν την πολιτική της αποτυχημένης επερώτησης. Όπως
έχει ήδη αναφερθεί στην εισαγωγή, αντιπροσωπευτικά συστήματα που εφαρμόζουν
την αποτυχημένη απάντηση είναι τα συστήματα διάθεσης των συλλογικών
καταλόγων MELVYL και COPAC, καθώς και το σύστημα καταλόγου Library and
Archives Canada (LAC). Το σύστημα διάθεσης της Library of Congress (LC) είναι
ένα από τα συστήματα που έχουν υλοποιήσει την προσέγγιση της ασυνεπούς
απάντησης. Συνεπώς, σε περίπτωση που κάνουμε στον κατάλογο της LC την
επερώτηση με το Σημείο Πρόσβασης π.χ. Author-Title-Subject = ‘Shakespeare’, δε θα
μας ενημερώσει ότι δεν το υποστηρίζει14 αλλά θα μας απαντήσει ότι βρήκε
περισσότερες από 10.000 περιπτώσεις. Τα στοιχεία δείχνουν ότι πιθανότατα το
σύστημα αντικαθιστά το Σημείο Πρόσβασης που ορίστηκε κατά την επερώτηση με το
Σημείο Πρόσβασης Any. Αυτό προκύπτει από την παρατήρηση ότι η αναζήτηση με το
Σημείο Πρόσβασης Any, το οποίο υποστηρίζει, δίνει περισσότερες από 10.000
περιπτώσεις, καθώς και από τα αποτελέσματα που παρουσιάζονται στο κεφάλαιο 7
και αφορούν μετεγγραφές επερωτήσεων προς τον κατάλογο της LC.
2.2.2 Διάχυση χαρακτηριστικών αναζήτησης
2.2.2.1 Δυνατότητα επεξήγησης χαρακτηριστικών διακομιστή
Σύμφωνα με τις απαιτήσεις συμβατότητας που ορίζει το Z39.50 πρωτόκολλο, για να
είναι ένα σύστημα συμβατό με το Z39.50 θα πρέπει να αναγνωρίζει, όχι απαραίτητα
να υλοποιεί, τουλάχιστον τα Σημεία Πρόσβασης που ορίζει το Σύνολο Γνωρισμάτων
Bib-1 σε σύνταξη που ορίζει ο τύπος σύνταξης Type-1. Η συνέπεια αυτής της γενικής
απαίτησης, όπως φάνηκε και από τα στοιχεία των δεδομένων του καταλόγου Z39.50
πηγών της Index Data, αφορά την υποστήριξη διαφορετικών Σημείων Πρόσβασης από
τους διακομιστές καθώς και την υποστήριξη διαφορετικών χαρακτηριστικών της
Type-1 σύνταξης επερωτήσεων.
Για να είναι δυνατή η ανάκτηση των υπηρεσιών και των χαρακτηριστικών που
έχει υλοποιήσει ένας Z39.50 διακομιστής, το πρωτόκολλο προβλέπει τη δυνατότητα
επεξήγησης (explain facility) που είναι ουσιαστικά μια σειρά διαδικασιών ανάκτησης
14 Όπως αναφέρεται στο τεκμήριο: http://www.loc.gov/z3950/lcserver.html, όπου περιγράφονται τα χαρακτηριστικά αναζήτησης που υποστηρίζει ο Z39.50 διακομιστής της LC.
16 Για λόγους αναγνωσιμότητας οι εγγραφές έχουν παρατεθεί σε συστάδες ομοίων εγγραφών έτσι ώστε να είναι εμφανείς οι μεταξύ τους διαφορές και ομοιότητες.
Κεφάλαιο 2 47
Δημητράκου : 1954
Φυσική Περιγραφή: 395 σ. ; 21 εκ.
4. (Ε4), (Σ2)
Τίτλος: Βίος και πολιτεία του Αλέξη Ζορμπά / Νίκου
Τίτλος: Βίος και πολιτεία του Αλέξη Ζορμπά / Νίκου
Καζαντζάκη
Εκδότης: Αθήναι, Δημητράκος : 1946
Φυσική Περιγραφή 353 σ. ; 21 εκ.
Όλες οι εγγραφές περιγράφουν την έντυπη υλική υπόσταση του έργου Βίος και
πολιτεία του Αλέξη Ζορμπά του Νίκου Καζαντζάκη εκφρασμένου στην Ελληνική
γλώσσα. Επιπροσθέτως, οι εγγραφές Ε1 και Ε2 περιγράφουν την εκδοχή του έργου
που εκδόθηκε το 1973 από τον εκδότη Ελ. Καζαντζάκη στην Αθήνα, οι εγγραφές Ε3
και Ε4 περιγράφουν την εκδοχή που εκδόθηκε το 1954 από τον εκδότη Αρχαίος
εκδοτικός οίκος Δημητρίου Δημητράκου στην Αθήνα και τέλος η εγγραφή Ε5
περιγράφει την εκδοχή που εκδόθηκε το 1946 από τον εκδότη Δημητράκο στην
Αθήνα. Σύμφωνα με την προσέγγιση της ανίχνευσης των ομοίων εγγραφών που
περιγράφουν το ίδιο αντικείμενο στην ίδια έκφραση και υλική υπόσταση, οι συστάδες
που θα δημιουργηθούν είναι η Σ1 από τις εγγραφές Ε1 και Ε2, η Σ2 από τις εγγραφές
Ε3 και Ε4 και η Σ3 από την εγγραφή Ε5. Το τελικό σύνολο αποτελεσμάτων θα
περιλαμβάνει τις συστάδες Σ1, Σ2 και Σ3 αντί των πέντε εγγραφών του
παραδείγματος.
Για λόγους αποδοτικότητας οι αλγόριθμοι ανίχνευσης των ομοίων εγγραφών
είναι κατά κανόνα αλγόριθμοι δύο βημάτων. Συνοπτικά, οι αλγόριθμοι στο πρώτο
βήμα δημιουργούν συστάδες από πιθανά όμοιες εγγραφές εφαρμόζοντας σχετικά
απλές διαδικασίες σε χαρακτηριστικά πεδία των εγγραφών (π.χ. σε τίτλο και σε
συγγραφέα). Στη συνέχεια, στο δεύτερο βήμα, συγκρίνουν μεταξύ τους όλες τις
εγγραφές της συστάδας εφαρμόζοντας πολύπλοκους αλγορίθμους ταύτισης σε όλα
Κεφάλαιο 2 48
σχεδόν τα πεδία της εγγραφής με στόχο να παραμείνουν στη συστάδα μόνο οι
πραγματικά όμοιες εγγραφές. Λόγω της πολυπλοκότητας των διαδικασιών του
δευτέρου βήματος, η συνολική επιβάρυνση στην απόδοση της διαδικασίας
προέρχεται κυρίως από το δεύτερο βήμα.
Παρότι έχουν αναπτυχθεί αρκετά αποτελεσματικές διαδικασίες ανίχνευσης
ομοίων εγγραφών, μια συγκεντρωτική αναφορά γίνεται από τους Sitas και Kapidakis
(2008), η εφαρμογή τους δεν είναι δεδομένη στα συστήματα μετα-αναζήτησης λόγω
της αποδοτικότητας που απαιτεί η αλληλεπιδρούσα φύση (online) του περιβάλλοντος.
Η ανίχνευση των ομοίων εγγραφών έχει αναγνωρισθεί ως μία σημαντική παράμετρος
στην ανάπτυξη των συστημάτων μετα-αναζήτησης, αλλά οι λεπτομερείς και σύνθετοι
έλεγχοι που απαιτεί η σωστή ανίχνευσή τους καθιστούν προβληματική την εφαρμογή
της διαδικασίας (Payette and Rieger, 1997).
Σε συστήματα μετα-αναζήτησης που υλοποιούν την αρχιτεκτονική του
ενδιάμεσου, μία πρώτη προσέγγιση για τη βελτίωση της αποδοτικότητας της
διαδικασίας ανίχνευσης των ομοίων εγγραφών είναι η δυνατότητα μετάθεσης του
δεύτερου βήματος του αλγορίθμου εκτός του ενδιάμεσου. Δηλαδή, οι λεπτομερείς
συγκρίσεις μεταξύ των περισσοτέρων πεδίων των εγγραφών μεταδεδομένων να
γίνουν από το σύστημα που θα παραλάβει τις συστάδες του πρώτου βήματος (π.χ. ο
σταθμός εργασίας του χρήστη). Βέβαια, η βελτίωση αυτή προϋποθέτει ότι οι αρχικές
συστάδες που θα δημιουργηθούν από το πρώτο βήμα θα περιλαμβάνουν όσο το
δυνατό όμοιες εγγραφές.
Ένα επιπλέον πρόβλημα που αντιμετωπίζει η προσέγγιση των ομοίων
εγγραφών που περιγράφουν την ίδια έκφραση και υλική υπόσταση του αντικειμένου
προέρχεται από την ταξινόμηση των αποτελεσμάτων αναζήτησης. Το πρόβλημα που
δημιουργεί η σειρά εμφάνισης των αποτελεσμάτων αναζήτησης είναι ιδιαίτερα
σοβαρό στην περίπτωση που ο παραλήπτης των αποτελεσμάτων είναι ο τελικός
χρήστης. Αν υποθέσουμε ότι τα αποτελέσματα του παραδείγματος 2.3 θα
εμφανιστούν στο χρήστη ταξινομημένα ως προς το χρόνο έκδοσης, τότε η συστάδα
Σ1 θα εμφανιστεί μαζί με τις εγγραφές που έχουν χρόνο έκδοσης το 1973, η συστάδα
Σ2 μαζί με αυτές που εκδόθηκαν το 1954 και τέλος η συστάδα Σ3 με αυτές που
εκδόθηκαν το 1946. Είναι προφανές, ότι ο χρήστης για να εντοπίσει περιγραφές που
αφορούν το ίδιο έργο, θα πρέπει να περιδιαβεί ένα μεγάλο αριθμό αποτελεσμάτων,
Κεφάλαιο 2 49
κάτι που δεν είναι βέβαιο.
Η αδυναμία των συστημάτων να εντοπίζουν και να συνθέτουν όλες τις
εκδοχές και υλικές υποστάσεις από το σύνολο των εκφράσεων ενός διακεκριμένου
πνευματικού έργου αποτελεί το αντικείμενο ευρείας κριτικής των συστημάτων μετα-
αναζήτησης. Όπως επισημαίνει η Yee (2005), η κριτική είναι εντονότερη μετά την
ανάπτυξη του εννοιολογικού μοντέλου για το βιβλιογραφικό σύμπαν που ανέπτυξε η
ομάδα εργασίας της IFLA17 για τις Λειτουργικές Απαιτήσεις για Βιβλιογραφικές
Εγγραφές (FRBR18), του οποίου τα κύρια χαρακτηριστικά παρουσιάζονται συνοπτικά
στην επόμενη ενότητα.
Η συνεισφορά της παρούσας διατριβής σε σχέση με την αποτελεσματικότερη
και αποδοτικότερη διαδικασία σύνθεσης των αποτελεσμάτων αναζήτησης εντοπίζεται
στην προτεινόμενη αρχιτεκτονική για τη δημιουργία του εικονικού συλλογικού
καταλόγου, που αναλύεται στο κεφάλαιο 3. Η εν λόγω αρχιτεκτονική παρέχει τη
δυνατότητα διαχωρισμού των βημάτων για τη δημιουργία των συστάδων, καθώς
επίσης τη δόμηση των συστάδων σε ιεραρχικές Έργο-κεντρικές οντότητες σύμφωνα
με το εννοιολογικό μοντέλο FRBR και η οποία αναλύεται στο κεφάλαιο 6.
2.3.2 Functional Requirements for Bibliographic Records (FRBR)
Από το 1992 ως το 1995 η Ομάδα Μελέτης για τις Λειτουργικές Απαιτήσεις για
Βιβλιογραφικές Εγγραφές (Study Group Functional Requirements for Bibliographic
Records) της IFLA εργάστηκε για την ανάπτυξη ενός μοντέλου που θα αναπαριστά το
βιβλιογραφικό σύμπαν. Αποτέλεσμα αυτής της εργασίας ήταν η δημιουργία ενός
μοντέλου Οντοτήτων-Συσχετίσεων που αναπαριστά αφαιρετικά το βιβλιογραφικό
σύμπαν, ανεξάρτητα από επιμέρους υλοποιήσεις ή κανόνες κωδικοποίησης
μεταδεδομένων (Tillet, 2005). Η τελική αναφορά κατατέθηκε το 1997 και εγκρίθηκε
από τη Standing Committee of the IFLA Section on Cataloguing, ενώ το κείμενο
εκδόθηκε το 1998 (IFLA, 1998).
Όπως αναφέρει η ομάδα εργασίας, το μοντέλο σχεδιάστηκε λαμβάνοντας
υπόψη τις ανάγκες των χρηστών έτσι ώστε η εφαρμογή του να εξυπηρετεί τους
τέσσερις παρακάτω σκοπούς:
17 International Federation of Library Associations and Institutions.18 Functional Requirements for Bibliographic Records.
Κεφάλαιο 2 50
• τον εντοπισμό του υλικού που αντιστοιχεί στα κριτήρια που θέτει ο χρήστης,
• την ταυτοποίηση μιας οντότητας από τα μεταδεδομένα περιγραφής,
• την επιλογή της κατάλληλης οντότητας για τον χρήστη,
• την απόκτηση του ίδιου του αντικειμένου ή της πρόσβασης σε αυτό.
Το μοντέλο αντιμετωπίζει μια βιβλιογραφική εγγραφή ως ένα σύνολο από διακριτές
οντότητες με γνωρίσματα, οι οποίες συσχετίζονται μεταξύ τους.
Οι οντότητες που ορίζει το μοντέλο είναι μοιρασμένες σε τρεις ομάδες. Η
πρώτη ομάδα περιλαμβάνει οντότητες που αναπαριστούν το αποτέλεσμα
πνευματικών ή καλλιτεχνικών προσπαθειών και αποτελείται από τις οντότητες19:
Έργο (Work), Έκφραση (Expression), Εκδήλωση (Manifestation) και Αντίτυπο (Item).
Η δεύτερη ομάδα περιλαμβάνει εκείνες τις οντότητες στις οποίες καταλογίζεται το
πνευματικό ή καλλιτεχνικό περιεχόμενο, η φυσική παραγωγή και η διάθεσή του,
καθώς και η επιμέλεια των σχετικών διαδικασιών. Η δεύτερη ομάδα αποτελείται από
τις οντότητες: Φυσικό Πρόσωπο (Person) και Συλλογικό Όργανο (Corporate Body).
Τέλος, η τρίτη ομάδα περιλαμβάνει ένα πρόσθετο σύνολο οντοτήτων που
απεικονίζουν τα αντικείμενα ενδιαφέροντος της πνευματικής ή καλλιτεχνικής
προσπάθειας και αποτελείται από τις οντότητες: Έννοια (Concept), Αντικείμενο
(Object), Συμβάν (Event) και Τόπο (Place). Επιπροσθέτως, το μοντέλο ορίζει
συσχετίσεις τόσο μεταξύ των οντοτήτων της ίδιας ομάδας, όσο και μεταξύ των
οντοτήτων διαφορετικών ομάδων. Στη συνέχεια της ενότητας θα γίνει συνοπτική
παρουσίαση μόνο των οντοτήτων που περιλαμβάνει η πρώτη ομάδα, καθώς επίσης
και των μεταξύ τους συσχετίσεων, καθώς μόνο οι συγκεκριμένες οντότητες της
πρώτης ομάδας σχετίζονται με το αντικείμενο της παρούσας διατριβής και αποτελούν
το αντικείμενο μελέτης της πλειοψηφίας των τρεχουσών υλοποιήσεων του μοντέλου.
Στη συνέχεια, η αναφορά στο μοντέλο θα γίνεται με τη διεθνώς επικρατούσα
ονομασία FRBR. Επίσης, το τεκμήριο της IFLA που ορίζει και περιγράφει τη χρήση
του μοντέλου FRBR (IFLA, 1998) θα αναφέρεται ως τεκμήριο FRBR.
Σύμφωνα με το μοντέλο FRBR, οι οντότητες της πρώτης ομάδας
αναπαριστούν τις διαστάσεις μιας πνευματικής ή καλλιτεχνικής δημιουργίας που
ενδιαφέρουν άμεσα τον χρήστη. Ειδικότερα, όπως απεικονίζεται στην εικόνα 2.7, η
19 Λόγω του ότι δεν υπάρχει καθιερωμένη μετάφραση της ορολογίας του μοντέλου στην Ελληνική γλώσσα, σε κάθε μετάφραση του όρου παρατίθεται και ο αντίστοιχος όρος από το τεκμήριο της Αγγλικής γλώσσας.
Κεφάλαιο 2 51
αφετηρία μιας πνευματικής ή καλλιτεχνικής δημιουργίας αναπαρίσταται από την
οντότητα Έργο (Work). Το Έργο (Work) πραγματώνεται μέσω της οντότητας
Έκφρασης (Expression), η οποία μορφοποιείται στην Εκδήλωση (Manifestation).
Τέλος η Εκδήλωση (Manifestation) αποτελεί το πρωτότυπο για την αναπαραγωγή του
Αντιτύπου (Item).
Εικόνα 2.7. Οι οντότητες της πρώτης ομάδας και οι συσχετίσεις τους.
Για τις εγγραφές που αναφέρονται στο παράδειγμα 2.3, το Έργο είναι Βίος και
πολιτεία του Αλέξη Ζορμπά του Νίκου Καζαντζάκη, που πραγματώνεται μέσω της
Έκφρασης στην Ελληνική γλώσσα και η οποία μορφοποιείται στις Εκδηλώσεις των
εκδόσεων του 1973, 1954 και 1946.
Η πλήρης περιγραφή των οντοτήτων και των συσχετίσεών τους γίνεται στο
τεκμήριο που δημοσιεύθηκε από τη Standing Committee of the IFLA Section on
Cataloguing (IFLA, 1998) ενώ μία αρκετά συνοπτική και κατατοπιστική παρουσίαση
του μοντέλου αποτελεί η εργασία της Tillett (2004). Για την επαρκή κατανόηση της
χρήσης του μοντέλου από τις διαδικασίες της παρούσας διατριβής ακολουθεί
συνοπτική περιγραφή των οντοτήτων της πρώτης ομάδας του μοντέλου FRBR.
Ειδικότερα, η οντότητα:
Κεφάλαιο 2 52
• Το Έργο προορίζεται για την αναπαράσταση της αφηρημένης μορφής μιας
διακριτής πνευματικής ή καλλιτεχνικής προσπάθειας. Στην παρούσα φάση,
όπου στην ουσία πρόκειται για την αφηρημένη ιδέα του έργου η οποία δε
σχετίζεται με κανενός είδους φυσικό αντικείμενο, σύμφωνα με το μοντέλο, η
οντότητα δεν μπορεί να παρατηρηθεί αυτόνομα αλλά μόνο μέσω των
επιμέρους Εκφράσεών της. Ένα βασικό πρόβλημα που τίθεται αφορά το πότε
δημιουργείται ένα νέο Έργο. Σύμφωνα με τους κανόνες του μοντέλου και
χωρίς να είναι απόλυτα διακριτά τα όρια, για να δημιουργηθεί ένα νέο έργο
απαιτείται ένας σημαντικός βαθμός καλλιτεχνικής ή πνευματικής προσπάθειας
ο οποίος να μετασχηματίζει το αρχικό έργο. Ενδεικτικά παραδείγματα έργων
από το τεκμήριο των FRBR αποτελούν το The Art of the Fugue του J. S. Bach,
το Romeo and Juliet του William Shakespeare καθώς επίσης και η ταινία
Romeo and Juliet του Franco Zeffirelli. Παρά το ότι το τελευταίο Έργο είναι
μία ταινία βασισμένη στο αντίστοιχο θεατρικό έργο, θεωρούνται δύο
διαφορετικά Συσχετιζόμενα Έργα.
• Η Έκφραση προορίζεται για την αναπαράσταση της πραγμάτωσης
(realization) του Έργου, δηλαδή την έκφραση της αφηρημένης έννοιας, σε μια
μορφή κειμένου, ήχου, εικόνας κλπ., ή οποιουδήποτε συνδυασμού των
παραπάνω. Η Έκφραση δεν περιλαμβάνει γνωρίσματα που έχουν σχέση με
φυσικά χαρακτηριστικά. Ενώ για παράδειγμα ένα κείμενο (σειρά από
αλφαριθμητικούς χαρακτήρες που ομαδοποιούνται σε παραγράφους κλπ.)
μπορεί να αποτελεί την Έκφραση ενός Έργου, γνωρίσματα όπως αυτά που
προσδιορίζουν τη γραμματοσειρά εκτύπωσης, τη δομή και διάταξη των
σελίδων, κλπ. και δεν αποτελούν ζωτικά στοιχεία μιας πνευματικής ή
καλλιτεχνικής προσπάθειας, εντάσσονται στα γνωρίσματα της επόμενης
οντότητας που αναπαριστά το μέσο που προσδίδει την υλική υπόσταση της
Έκφρασης και ονομάζεται Εκδήλωση. Ενδεικτικό παράδειγμα διαφορετικών
Εκφράσεων του ίδιου Έργου αποτελεί το κείμενο του έργου στην πρωτότυπη
γλώσσα και η μετάφρασή του σε μία άλλη γλώσσα.
• Η Εκδήλωση αναπαριστά την οντότητα που μορφοποιεί μία Έκφραση ενός
Έργου προσδίδοντάς του υλική υπόσταση. Ειδικότερα, αναπαριστά όλα εκείνα
τα φυσικά αντικείμενα που έχουν τα ίδια γνωρίσματα τόσο από άποψη
Κεφάλαιο 2 53
περιεχομένου όσο και φυσικών χαρακτηριστικών και περιλαμβάνει ένα
μεγάλο φάσμα υλικών (βιβλία, χάρτες, χειρόγραφα, ταινίες κλπ.). Ταυτόχρονα,
αποτελεί το πρωτότυπο για την αναπαραγωγή των αντιτύπων. Είναι η
οντότητα που μέχρι σήμερα ήταν στο επίκεντρο, εφόσον την περιέγραφαν οι
βιβλιοθήκες στους παραδοσιακούς τους καταλόγους. Οι διαφορετικές
εκδόσεις του παραδείγματος 2.3 αποτελούν παραδείγματα διαφορετικών
Εκδηλώσεων της ίδιας Έκφρασης του ίδιου Έργου.
• Το Αντίτυπο αναπαριστά το κάθε αντίγραφο που δημιουργήθηκε έχοντας σαν
πρωτότυπο μία Εκδήλωση. Στην ουσία αναπαριστά την κάθε μονάδα της
τελικής πραγμάτωσης μιας μορφής του έργου.
Στην εικόνα 2.8 παρουσιάζεται ένα παράδειγμα με έννοιες και αντικείμενα από το
βιβλιογραφικό σύμπαν και οι συσχετίσεις τους με τις αντίστοιχες οντότητες που
ορίζει η πρώτη ομάδα του μοντέλου FRBR (Πεπονάκης, 2010: σ. 28).
Εικόνα 2.8. Συσχετίσεις με έννοιες και αντικείμενα από το βιβλιογραφικό σύμπαν με τις αντίστοιχες
FRBR οντότητες.
Οι τρέχουσες εφαρμογές του μοντέλου FRBR εστιάζουν σε διαδικασίες που
Κεφάλαιο 2 54
συνθέτουν τις οντότητες του μοντέλου από τις εγγραφές που περιλαμβάνουν οι ήδη
υπάρχοντες κατάλογοι και οι οποίες περιγράφουν διακριτά φυσικά αντικείμενα, όπως
βιβλία, άρθρα κλπ. Από τα λίγα εργαλεία λογισμικού που συνθέτουν FRBR
οντότητες, ένα αρκετά αντιπροσωπευτικό είναι το λογισμικό ανοικτού κώδικα που
διατίθεται από την υπηρεσία Network Development and MARC Standard Office της
Library of Congress (Library of Congress, 2004a). Η ανάπτυξη του λογισμικού
βασίστηκε στη μελέτη που είχε σαν αντικείμενο τη βελτίωση της εμφάνισης των
αποτελεσμάτων αναζήτησης με τη χρήση συστάδων FRBR και υλοποιήθηκε σε
γλώσσα XSLT. Άλλα εργαλεία, τα οποία προσανατολίζονται κυρίως στη μετατροπή
βιβλιογραφικών καταλόγων, είναι ο αλγόριθμος work-set που αναπτύχθηκε από το
OCLC20 (OCLC, 2005), καθώς και το εργαλείο που προέκυψε από τις διαδικασίες
μετατροπής του καταλόγου BIBSYS στη Νορβηγία (Aalberg et al., 2006). Η βασική
ιδέα αυτών των εργαλείων είναι η δημιουργία κλειδιών ταύτισης των οντοτήτων ενώ
η πολυπλοκότητα κάθε αλγορίθμου εξαρτάται από το στόχο που έχει να υλοποιήσει
το αντίστοιχο εργαλείο.
Όπως προκύπτει από την περιγραφή του μοντέλου, η οντότητα Έργο αποτελεί
ένα πολύ γενικότερο αντικείμενο από αυτό που ανιχνεύουν οι διαδικασίες ομοίων
εγγραφών που περιγράφουν την ίδια έκφραση και υλική υπόσταση του ίδιου
αντικειμένου, όπως αναφέρεται στην ενότητα 2.3.1. Αυτό συνεπάγεται ότι στο πρώτο
βήμα των αλγορίθμων ταύτισης για τη δημιουργία των ιεραρχικών Έργο-κεντρικών
συστάδων, δηλαδή συστάδων που θα αντιπροσωπεύουν ένα Έργο και θα
περιλαμβάνουν όλες τις Εκφράσεις και Εκδηλώσεις του ίδιου έργου, απαιτούνται
λιγότεροι και χαλαρότεροι κανόνες ταύτισης από αυτούς που απαιτεί η δημιουργία
των συστάδων της ίδιας έκφρασης και υλικής υπόστασης του αντικειμένου.
Επιπροσθέτως, οι πολύπλοκοι έλεγχοι του δεύτερου βήματος των αλγορίθμων
ταύτισης αφενός θα είναι δυνατό να πραγματοποιηθούν στο περιβάλλον του τελικού
χρήστη, οπότε δεν επιβαρύνεται το περιβάλλον μετα-αναζήτησης, αφετέρου θα
περιορίζονται διαδοχικά σε ακόμα μικρότερο αριθμό εγγραφών, καθότι αρχικά θα
δημιουργούν ομάδες από Εκφράσεις και στη συνέχεια σε κάθε Έκφραση ομάδες
Εκδηλώσεων.
Έχοντας ως δεδομένο ότι ένα σύστημα μετα-αναζήτησης δεν έχει καμία
20 Online Computer Library Center, Inc.
Κεφάλαιο 2 55
δυνατότητα παρέμβασης στη δομή και την οργάνωση των δεδομένων μιας πηγής η
εστίαση της χρήσης του FRBR μοντέλου γίνεται σε διαδικασίες σύνθεσης των
αποτελεσμάτων αναζήτησης σε Έργο-κεντρικές συστάδες. Στο πλαίσιο της παρούσας
διατριβής, επεκτείνοντας το λογισμικό της Library of Congress, αναπτύχθηκαν
υποσυστήματα που συνθέτουν Έργο-κεντρικές συστάδες από τις σημασιολογικά
Core Activity, 2008) και MODS (Library of Congress, 2009). Τα υποσυστήματα αυτά
επιτρέπουν στο σύστημα μετα-Συνθέτης να παρουσιάζει τα αποτελέσματα
αναζήτησης σε Έργο-κεντρικές συστάδες και να μπορεί να εφαρμόζει τις διαδικασίες
σύνθεσης σε πηγές που χρησιμοποιούν διαφορετικές κωδικοποιήσεις μεταδεδομένων.
Η εικόνα 2.9 δείχνει την αντίστοιχη συνοπτική μορφή του παραδείγματος 2.3
σε ιεραρχική Έργο-κεντρική συστάδα, όπως εμφανίζεται από το σύστημα μετα-
Συνθέτης. Η αναλυτική περιγραφή των διαδικασιών σύνθεσης των Έργο-κεντρικών
συστάδων γίνεται στο κεφάλαιο 6, όπου περιγράφεται συνολικά και το σύστημα.
Εικόνα 2.9. Αποτελέσματα αναζήτησης σε ιεραρχική Έργο-κεντρική συστάδα από το σύστημα
μετα-Συνθέτης.
Με τη σύνθεση των Έργο-κεντρικών συστάδων, το σύστημα δίνει στο χρήστη
μία πολύ πιο συμπαγή εικόνα για τον αριθμό και τα αποτελέσματα αναζήτησης,
εφόσον κάθε αποτέλεσμα θα αντιστοιχεί σε ένα Έργο. Με αυτή την προσέγγιση, ο
χρήστης θα έχει τη δυνατότητα να περιδιαβεί τις διαφορετικές εκφράσεις και υλικές
υποστάσεις του ίδιου έργου χωρίς να επηρεάζεται από την ταξινόμηση των
αποτελεσμάτων.
Κεφάλαιο 2 56
2.4 Σύνοψη
Η πολυπλοκότητα στην πρόσβαση που δημιουργεί στο χρήστη η ύπαρξη των πολλών
και ετερογενών πηγών πληροφόρησης, τόσο στο περιβάλλον των βιβλιοθηκών όσο
και στο ευρύτερο περιβάλλον του διαδικτύου, επέβαλε την αναγκαιότητα των
συστημάτων ενιαίας πρόσβασης. Παρά την αποδοτικότητα των συστημάτων ενιαίας
πρόσβασης που υλοποιούν το μοντέλο της συγκομιδής, ο τεράστιος όγκος των
δεδομένων που θα συγκεντρωθεί από τη συγκομιδή των δεδομένων των πηγών, ο
τύπος των δεδομένων, καθώς και οι πολιτικές διάθεσης που εφαρμόζει η κάθε πηγή
αποτελούν τους κυριότερους λόγους που συχνά απαγορεύουν την εφαρμογή του
μοντέλου της συγκομιδής και επιβάλλουν τα συστήματα μετα-αναζήτησης.
Καθοριστικό ζήτημα στην αποτελεσματικότητα ενός συστήματος μετα-
αναζήτησης είναι η δυνατότητά του να γνωρίζει τα χαρακτηριστικά αναζήτησης που
υποστηρίζει κάθε πηγή και να μετεγγράφει τις επερωτήσεις από τη γλώσσα
αναζήτησης που παρέχει στη γλώσσα που υποστηρίζει κάθε πηγή. Σε περιπτώσεις
όπου δεν είναι δυνατή η μετεγγραφή σημασιολογικά ισοδύναμων επερωτήσεων με τα
χαρακτηριστικά που υποστηρίζει η πηγή, η μετεγγραφή σε επερωτήσεις με συναφή
σημασιολογία αποτρέπουν τις αποτυχημένες επερωτήσεις ή τις ασυνεπείς απαντήσεις.
Σε ένα πραγματικό σύστημα μετα-αναζήτησης η σύνθεση των επιμέρους
αποτελεσμάτων των πηγών σε ένα ενιαίο σύνολο καθορίζει σε σημαντικό βαθμό την
αποδοχή του συστήματος από τους χρήστες. Η βελτίωση της αποδοτικότητας των
συστημάτων μετα-αναζήτησης, σε σχέση με τις υπηρεσίες αναζήτησης και σύνθεσης
των αποτελεσμάτων σε ένα ενιαίο σύνολο, αντιμετωπίζει ιδιαιτερότητες λόγω του
περιορισμένου χρόνου που επιβάλει το περιβάλλον της άμεσης επικοινωνίας (online)
του συστήματος όπου απαιτείται επιπλέον να δοθεί η απάντηση στον ελάχιστο δυνατό
χρόνο. Η χρήση κοινών προτύπων διευκολύνει στην εξισορρόπηση των παραμέτρων
λειτουργικότητας και ευκολίας υλοποίησης κατά την ανάπτυξη ενός συστήματος
μετα-αναζήτησης ενώ η παρουσίαση των αποτελεσμάτων αναζήτησης στο χρήστη
σύμφωνα με το μοντέλο FRBR καλύπτει επαρκώς τις τρέχουσες απαιτήσεις του.
Η παρούσα διατριβή πραγματεύεται προβλήματα της εφαρμογής του
μοντέλου μετα-αναζήτησης, με ιδιαίτερη έμφαση στο περιβάλλον των βιβλιοθηκών
Κεφάλαιο 2 57
που εφαρμόζουν συστήματα διάθεσης συμβατά με το πρωτόκολλο Z39.50. Παρά την
εξειδίκευση του περιβάλλοντος εργασίας, οι προτεινόμενες λύσεις είναι γενικές και
ευρύτερα εφαρμόσιμες. Πιο συγκεκριμένα, η προτεινόμενη αρχιτεκτονική για τη
δημιουργία του εικονικού συλλογικού καταλόγου που αναπτύσσεται στο αμέσως
επόμενο κεφάλαιο, βελτιώνοντας την αποδοτικότητα των διαδικασιών προώθησης της
επερώτησης στις πηγές και σε συνδυασμό με την ασύγχρονη τμηματική συλλογή και
επεξεργασία των αποτελεσμάτων, επιτρέπει στο σύστημα να παρέχει καλύτερες
υπηρεσίες σύνθεσης των αποτελεσμάτων με Εργο-κεντρικές συστάδες σύμφωνα με το
μοντέλο FRBR. Επιπλέον, η προσέγγιση της συντακτικής περιγραφής των
χαρακτηριστικών που βασίζεται σε γραμματικούς κανόνες αντιστοίχισης (grammar
based mappings), κεφάλαιο 4, όσο και η σημασιολογική αντικατάσταση των μη
υποστηριζόμενων Σημείων Πρόσβασης με τη χρήση του Σημασιολογικού Δικτύου
Σημείων Πρόσβασης (κεφάλαιο 5), αποτελούν συνεισφορές της παρούσας διατριβής
στη λύση του προβλήματος των αποτυχημένων επερωτήσεων ή των ασυνεπών
απαντήσεων. Τέλος, η υλοποίηση των προτεινόμενων μεθόδων στο σύστημα μετα-
Συνθέτης και η χρήση του σε πηγές παγκοσμίου ενδιαφέροντος δείχνουν τα οφέλη
από τη σημασιολογική βελτίωση της διαλειτουργικότητας στο περιβάλλον των
βιβλιοθηκών.
Κεφάλαιο 3
Αρχιτεκτονική επαναληπτικής ανάκτησης
και σύνθεσης αποτελεσμάτων με
παράλληλες διαδικασίες σε εικονικό
συλλογικό κατάλογο
Μια από τις εναλλακτικές ονομασίες των συστημάτων μετα-αναζήτησης είναι ο
εικονικός συλλογικός κατάλογος ή εικονικός κατάλογος. Ουσιαστικά, η ονομασία αυτή
υποδηλώνει τις αντίστοιχες προσπάθειες της κοινότητας των βιβλιοθηκών για την
ανάπτυξη συστημάτων ενιαίας πρόσβασης σε περιβάλλον πραγματικού χρόνου. Όπως
έχει ήδη αναφερθεί, προς τα τέλη της δεκαετίας του 198021 τα συστήματα άμεσης
πρόσβασης στους καταλόγους των βιβλιοθηκών (OPACs) αποτελούσαν αυτονόητη
υπηρεσία για το σύνολο των βιβλιοθηκών. Τα συστήματα αυτά δημιούργησαν τις
προϋποθέσεις για την ανάπτυξη των επόμενων συστημάτων άμεσης πρόσβασης σε
πραγματικό χρόνο τα οποία θα παρέχουν ταυτόχρονη συνεκτική πρόσβαση στο
περιεχόμενο ομάδων βιβλιοθηκών από ένα κεντρικό σημείο.
21 Τα πρώτα πειραματικά συστήματα άμεσης πρόσβασης στους καταλόγους των βιβλιοθηκών εμφανίστηκαν στις αρχές της δεκαετίας του 1960. Στη συνέχεια, το πρώτο σύστημα ευρείας κλίμακας αναπτύχθηκε στο Ohio State University το 1975, ενώ το αμέσως επόμενο από την Dallas Public Library το 1978. Τα συστήματα αυτά αντανακλούσαν πολύ έντονα τη λογική των δελτιοκαταλόγων, μιας και ο πρωταρχικός τους στόχος ήταν η αντικατάσταση των υπαρχόντων δελτιοκαταλόγων.
58
Κεφάλαιο 3 59
Αξίζει να σημειωθεί ότι η ιδέα για την ανάπτυξη των συλλογικών καταλόγων
στις βιβλιοθήκες δεν είναι νέα και δεν εμφανίστηκε με την ανάπτυξη των
υπολογιστικών συστημάτων. Ειδικότερα, ο μεγαλύτερος έντυπος συλλογικός
κατάλογος μέχρι σήμερα είναι ο National Union Catalog Pre-1956 Imprints των
Ηνωμένων Πολιτειών της Αμερικής (American Library Association, 1968-1981),
αποκαλούμενος και Mansell από το όνομα του εκδότη του. Η πρώτη εκδοχή του σε
δελτία άρχισε να αναπτύσσεται το 1901, ενώ από το 1960 μέχρι το 1981 που έκλεισε
η έντυπη εκδοχή του αποτελείτο από 754 τόμους των 600 σελίδων ο κάθε ένας, ενώ
χρειαζόταν περίπου 40 μέτρα ράφια για να τοποθετηθεί (Beall and kafadar, 2005).
Οι κύριες λειτουργικές απαιτήσεις που θέτει η κοινότητα των βιβλιοθηκών τις
οποίες πρέπει να πληρούν τα συστήματα διαχείρισης των συλλογικών καταλόγων
είναι (Lynch, 1997):
• η συνεπής (consistent) ευρετηρίαση και αναζήτηση του περιεχομένου κάθε
βιβλιοθήκης μέσω των μεταδεδομένων που το περιγράφουν,
• η ανίχνευση των ομοίων εγγραφών που περιγράφουν το ίδιο φυσικό
αντικείμενο και η σύνθεσή τους σε μία εγγραφή,
• η δυνατότητα για αξιόπιστη και αποδοτική διαθεσιμότητα του συστήματος, σε
συνδυασμό με την ελεγχόμενη και όσο το δυνατόν ευκολότερη διαχείρισή του.
Η συνεπής ευρετηρίαση προσδιορίζεται από τον ορισμό (ποια θα είναι), τη
σημασιολογία (ποια πληροφορία θα περιλαμβάνουν) και τους κανόνες
κανονικοποίησης των Σημείων Πρόσβασης. Η άμεση απόκριση του συστήματος στις
επερωτήσεις των χρηστών, ανεξάρτητα από τον αριθμό και το μέγεθος των εγγραφών
που διαχειρίζεται, είναι ο πρωταρχικός παράγοντας στην αποδοτική λειτουργία ενός
συστήματος διαχείρισης συλλογικού καταλόγου. Παράλληλα, η εύκολη διαχείριση
των πόρων του συστήματος σε συνδυασμό με την επεκτασιμότητα και την περαιτέρω
εξέλιξή του συμβάλουν καθοριστικά στην αξιοπιστία και τη διαθεσιμότητά του.
Αρχικά, οι διαθέσιμες τεχνολογίες των υπολογιστικών συστημάτων και των
δικτύων, σε συνδυασμό με την ετερογένεια και την εναλλακτική εφαρμογή των
προτύπων που υλοποιούσαν οι βιβλιοθήκες, επέτρεπαν την επίτευξη των
προαναφερομένων λειτουργικών απαιτήσεων μόνο από υλοποιήσεις του μοντέλου
της συγκομιδής δημιουργώντας τους κεντρικοποιημένους (centralized) συλλογικούς
Κεφάλαιο 3 60
καταλόγους. Τα συστήματα MELVYL22, WorldCat23, COPAC24 είναι ενδεικτικά αλλά
και αρκετά αξιόπιστα παραδείγματα κεντρικοποιημένων συλλογικών καταλόγων που
λειτουργούν σήμερα και διαθέτουν αρκετά εκατομμύρια εγγραφών σε αρκετές
χιλιάδες χρήστες καθημερινά.
Στη συνέχεια, η ολοένα αναπτυσσόμενη τεχνολογία των δικτύων, η αποδοχή
και εφαρμογή διεθνών προτύπων κωδικοποίησης μεταδεδομένων, καθώς επίσης η
ανάπτυξη του πρωτοκόλλου αναζήτησης πληροφοριών Z39.50 και η ευρεία εφαρμογή
του, ιδιαιτέρως μετά το 1995, δημιούργησαν τις προϋποθέσεις για την ανάπτυξη των
πρώτων εικονικών συλλογικών καταλόγων στις βιβλιοθήκες.
3.1 Εικονικοί συλλογικοί κατάλογοι
Τα πλεονεκτήματα των συλλογικών καταλόγων που υλοποιούν το κατανεμημένο
μοντέλο συνοψίζονται στα παρακάτω (Lynch, 1997; Payette and Rieger, 1997):
• στην αυτονομία και τον έλεγχο κάθε τοπικού συστήματος από την αντίστοιχη
βιβλιοθήκη,
• στη διατήρηση των τοπικών χαρακτηριστικών κάθε συλλογής,
• στη δυνατότητα κάθε χρήστη να επιλέξει και να ορίσει ο ίδιος τη συλλογή των
πηγών που συνθέτουν τον εξατομικευμένο του εικονικό κατάλογο,
• στην αποφυγή προβλημάτων αποδοτικότητας από τους πολύ μεγάλους όγκους
δεδομένων,
• στην αποφυγή των μεγάλων και σύνθετων υπολογιστικών συστημάτων που
απαιτούν μεγάλο κόστος ανάπτυξης, καθώς επίσης και πολύπλοκες
διαδικασίες συντήρησης,
• στις λιγότερο αυστηρές διαδικασίες ταύτισης των ομοίων εγγραφών, εφόσον
οι συστάδες είναι προσωρινές και δεν προορίζονται για τη δημιουργία
φυσικού καταλόγου,
• στην άμεση ενημερότητα του καταλόγου,
• στη δυνατότητα άμεσης υποστήριξης υπηρεσιών διαδανεισμού.
Θεωρώντας δεδομένη τη μεγάλη αύξηση του μεγέθους και του αριθμού των
Εικόνα 5.6. Αντιπροσωπευτικό δείγμα του RDF Schema που αναπαριστά τη σημασιολογική συσχέτιση
των Bib-1 Σημείων Πρόσβασης.
Ως παράδειγμα, ας θεωρήσουμε το Σημείο Πρόσβασης Author-name-
conference και το σύνολο από τα Σημεία Πρόσβασης {Author-name, Name-
conference}. Από την εικόνα 5.6 φαίνεται ότι η τομή των συνόλων από τα συστατικά
Σημεία Πρόσβασης που αντιστοιχούν στα Author-name και Name-conference είναι το
σύνολο {f-111, f-411, f-711, f-811}, το οποίο ορίζει τη σημασιολογία του Σημείου
Πρόσβασης Author-name-conference. Επιπροσθέτως, ένα Σημείο Πρόσβασης έχει
ισοδύναμη σημασιολογία με ένα άλλο εάν τα αντίστοιχα σύνολα των συστατικών
Σημείων Πρόσβασης είναι ίσα.
Η ομοιότητα μεταξύ των αποτελεσμάτων διαφόρων επερωτήσεων
συσχετίζεται με τη σημασιολογική ομοιότητα των Σημείων Πρόσβασης που
συνθέτουν τις αντίστοιχες επερωτήσεις. Κατά συνέπεια, όταν μία επερώτηση
χρησιμοποιεί ένα Σημείο Πρόσβασης κοντά στην κορυφή της ιεραρχίας, η απάντησή
της θα περιλαμβάνει περισσότερα αποτελέσματα από την απάντηση μιας επερώτησης
που χρησιμοποιεί ένα Σημείο Πρόσβασης κοντά στα φύλλα της ιεραρχίας. Επομένως,
Κεφάλαιο 5 111
ένα Σημείο Πρόσβασης πρόγονος ενός άλλου διευρύνει τη σημασιολογία του
δευτέρου και παράγει περισσότερα αποτελέσματα μικραίνοντας την ακρίβεια.
Αντίθετα, ένας απόγονος ενός Σημείου Πρόσβασης συμπτύσσει τη σημασιολογία του
Σημείου Πρόσβασης και, μικραίνοντας την ανάκληση, παράγει λιγότερα
αποτελέσματα για την επερώτηση.
Εκτός από τη χρήση του Σημασιολογικού Δικτύου Σημείων Πρόσβασης στις
διαδικασίες μετεγγραφής των επερωτήσεων της παρούσας διατριβής, μια επιπλέον
συνεισφορά είναι η βοήθεια για την ορθότερη και πληρέστερη κατανόηση της
σημασιολογίας των Bib-1 Σημείων Πρόσβασης.
5.2 Σημασιολογική αντικατάσταση μη υποστηριζόμενων Σημείων
Πρόσβασης
Ανιχνεύοντας την ομοιότητα των Σημείων Πρόσβασης από το Bib-1 RDF Schema, η
αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης είναι δυνατό να γίνει
με δύο εναλλακτικές τακτικές. Η πρώτη τακτική διευρύνει τη σημασιολογία του μη
υποστηριζόμενου Σημείου Πρόσβασης και το αντικαθιστά με τη λογική σύζευξη
(AND συνδυασμός) όλων των κοντινότερων προγόνων του Σημείου Πρόσβασης που
υποστηρίζει η πηγή από κάθε μονοπάτι ιεραρχίας προγόνων, το οποίο αρχίζει από το
μη υποστηριζόμενο Σημείο Πρόσβασης. Μετά από μια διαδικασία βελτιστοποίησης
παράγεται το μικρότερο σύνολο από υποστηριζόμενα Σημεία Πρόσβασης, των οποίων
η λογική σύζευξη έχει την πλησιέστερη (μικρότερη) διευρυμένη σημασιολογία από το
αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης.
Σε αντίθεση, η δεύτερη τακτική αντικατάστασης συμπτύσσει τη σημασιολογία
του μη υποστηριζόμενου Σημείου Πρόσβασης και το αντικαθιστά με τη λογική
διάζευξη (OR συνδυασμός) όλων των κοντινότερων απογόνων του Σημείου
Πρόσβασης που υποστηρίζει η πηγή από κάθε μονοπάτι ιεραρχίας απογόνων, το
οποίο αρχίζει από το μη υποστηριζόμενο Σημείο Πρόσβασης. Αντίστοιχα, μετά από
μια διαδικασία βελτιστοποίησης, παράγεται το μικρότερο σύνολο από
υποστηριζόμενα Σημεία Πρόσβασης, των οποίων η λογική διάζευξη παρέχει την
πλησιέστερη (μεγαλύτερη) συμπτυγμένη σημασιολογία από το μη υποστηριζόμενο
Σημείο Πρόσβασης.
Κεφάλαιο 5 112
Όπως θα παρουσιαστεί στην ενότητα 5.2.2, η αντικατάσταση με διεύρυνση
μειώνει την ακρίβεια της απάντησης χωρίς να επηρεάζει την ανάκληση. Αντίθετα, η
αντικατάσταση με σύμπτυξη μειώνει την ανάκληση της απάντησης χωρίς να
επηρεάζει την ακρίβεια. Κατά συνέπεια, όπως θα αναλυθεί στην ενότητα 5.2.3, σε
περίπτωση όπου και οι δύο αντικαταστάσεις είναι δυνατές, επιλέγεται η
αντικατάσταση που ταιριάζει περισσότερο με προκαθορισμένες προτιμήσεις του
χρήστη, σχετικά με την ακρίβεια και την ανάκληση.
5.2.1 Τακτικές αντικατάστασης μη υποστηριζόμενου Σημείου Πρόσβασης
Οι ορισμοί που ακολουθούν είναι συμπληρωματικοί της περιγραφής των αλγορίθμων
αντικατάστασης. Οι ορισμοί 5.3 και 5.4 έχουν δοθεί στο Kaoudi κ.ά. (2005).
Ορισμός 5.3: Ένα RDF Schema (RDFS) είναι μία πεντάδα (C, L, P, SC, SP) η οποία
αναπαριστά ένα γράφο, όπου:
1. Το C είναι ένα σύνολο από χαρακτηρισμένους (labeled) κόμβους. Κάθε κόμβος
στο C αναπαριστά μία κλάση (RDF class).
2. Το L είναι ένα σύνολο από κόμβους χαρακτηρισμένους με τύπους δεδομένων
που ορίζονται στο XML schema (W3C, 2004). Κάθε κόμβος στο L αναπαριστά
μία λεκτική σταθερά (literal).
3. Το P είναι ένα σύνολο από χαρακτηρισμένα τόξα (c1, c2, p) από τον κόμβο c1
στον κόμβο c2 με ετικέτα p, όπου c1 ∈ C και c2 ∈ C ∪ L. Κάθε τόξο στο P
αναπαριστά μία RDF ιδιότητα (property) p με πεδίο ορισμού (domain) c1 και
πεδίο τιμών (range) c2.
4. Το SC είναι ένα σύνολο από τόξα (c1, c2) από τον κόμβο c1 στον κόμβο c2, όπου
c1, c2 ∈ C. Κάθε τόξο στο SC αναπαριστά μία isA ιδιότητα μεταξύ των κλάσεων
c1 και c2 (το c1 είναι υποκλάση του c2).
5. Το SP είναι ένα σύνολο από τόξα ((c1, c2, p1), (c3, c4, p2)) από το τόξο (c1, c2, p1)
στο τόξο (c3, c4, p2), όπου το τόξο (c1, c2, p1), (c3, c4, p2) ∈ P. Κάθε τόξο στο SP
αναπαριστά μία isA ιδιότητα μεταξύ των ιδιοτήτων (c1, c2, p1) και (c3, c4, p2).
Έστω ≤ C είναι μία σχέση στο C: c1 ≤ C c2 ισχύει αν c1 είναι υποκλάση του c2. Το
σύμβολο ≤ C+ υποδηλώνει το transitive closure της σχέσης ≤ C. Μία κλάση c1
Κεφάλαιο 5 113
θεωρείται ως πρόγονος της c2 (ή η c2 είναι απόγονος της c1) αν ισχύει c2 ≤ C+ c1.
Ειδικότερα, για την περιγραφή των διαδικασιών περιήγησης στον RDFS
γράφο απαιτούνται οι ακόλουθοι ορισμοί.
Ορισμός 5.4: Ο άμεσος πρόγονος (ή άμεση υπερκλάση) μίας κλάσης x, όπου x ∈ C,
είναι η κλάση z ∈ C έτσι ώστε x ≤ C z και δεν υπάρχει κλάση y ∈ C τέτοια ώστε να
ικανοποιεί τη σχέση x ≤ C y ≤ C z. Η κλάση x αναφέρεται επίσης και σαν ο άμεσος
απόγονος (ή η άμεση υποκλάση) της z.
Ορισμός 5.5: Ένα μονοπάτι ιεραρχίας προγόνων S στο C από την κλάση s, με S ⊆ C,
s ∈ C και το οποίο συμβολίζεται με aph(s), είναι το σύνολο {s1, s2, …, sn} για το οποίο
s ≤ s1, si ∈ C και si ≤ C si+1 με 1 < i < n-1. Σε ένα μονοπάτι ιεραρχίας προγόνων S από
οποιεσδήποτε δύο κλάσεις sk και sl o πλησιέστερος πρόγονος της κλάσης sh με
h < k < l είναι η κλάση sk.
Ορισμός 5.6: Ένα μονοπάτι ιεραρχίας απογόνων S στο C από την κλάση s, με S ⊆ C,
s ∈ C και το οποίο συμβολίζεται με dph(s), είναι το σύνολο {s1, s2, …, sn} για το οποίο
s1 ≤ s, sι ∈ C και si+1 ≤ C si με 1 < i < n-1. Σε ένα μονοπάτι ιεραρχίας απογόνων S,
από οποιεσδήποτε δύο κλάσεις sk και sl o πλησιέστερος απόγονος της κλάσης sh με
h < k < l είναι η κλάση sk.
Τόσο το μονοπάτι ιεραρχίας προγόνων όσο και το μονοπάτι ιεραρχίας
απογόνων εκλαμβάνονται σαν ένα isA μονοπάτι ιεραρχίας.
5.2.1.1 Αντικατάσταση με διεύρυνση σημασιολογίας
Στην ενότητα αυτή παρουσιάζεται ο αλγόριθμος αντικατάστασης, ο οποίος διευρύνει
τη σημασιολογία του Σημείου Πρόσβασης. Όπως έχει ήδη προαναφερθεί, η διεύρυνση
της σημασιολογίας ενός Σημείου Πρόσβασης έχει ως συνέπεια ο όρος αναζήτησης να
ταυτίζεται με τα μεταδεδομένα από περισσότερα πεδία. Κατά συνέπεια, το σύνολο
αποτελεσμάτων της επερώτησης διευρύνεται. Η βασική ιδέα της αντικατάστασης με
διεύρυνση είναι η επιλογή και η τομή όλων των Σημείων Πρόσβασης, τα οποία έχουν
Κεφάλαιο 5 114
την πιο κοντινή διευρυμένη σημασιολογία με το αρχικό Σημείο Πρόσβασης,
εκμεταλλευόμενοι το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης που αναπαριστά το
Bib-1 RDFS. Ενορατικά, ο αλγόριθμος αντικατάστασης με διεύρυνση παράγει αρχικά
το σύνολο των υποστηριζόμενων πλησιέστερων πρόγονων της αντίστοιχης κλάσης
του μη υποστηριζόμενου Σημείου Πρόσβασης, η οποία προκύπτει από κάθε μονοπάτι
ιεραρχίας προγόνων που αρχίζει από την κλάση του μη υποστηριζόμενου Σημείου
Πρόσβασης. Στη συνέχεια υπολογίζει την τομή των υποστηριζόμενων πλησιέστερων
πρόγονων. Λόγω του ότι οι πρόγονοι είναι υπερσύνολα της κλάσης του αρχικού
Σημείου Πρόσβασης, η τομή τους υπολογίζει ένα όσο το δυνατόν μικρότερο
σημασιολογικά υπερσύνολο του αρχικού Σημείου Πρόσβασης.
Αλγόριθμος αντικατάστασης Σημείου Πρόσβασης με διεύρυνση
Δεδομένα:
Το BIB-1 RDFS: B = {BC, BL, BP, BS, ∅}Το σύνολο D των Σημείων Πρόσβασης που υποστηρίζει η πηγή, με D ⊆ BC
Είσοδος: Το Σημείο Πρόσβασης ap, με ap ∈ BC, για έλεγχο και πιθανή αντικατάσταση
Αποτελέσματα: Το S σύνολο των Σημείων Πρόσβασης, όπου S είναι: (i) {ap}. Περιέχει το ap, αν ap ∈ D (δηλαδή η πηγή το υποστηρίζει),(ii) {api ∈ D | ap ≤ S
+ api, api ∈ Si = aph(ap) και ¬∃ z ∈ Si ∩ D: ap ≤ S+ z ≤ S
+ api}. Από κάθε μονοπάτι ιεραρχίας προγόνων που αρχίζει από το ap, επιλέγει τον πλησιέστερο υποστηριζόμενο πρόγονο (υπερκλάση) του ap, (iii) ∅, αν το ap δεν υποστηρίζεται και δεν υπάρχει κανένα άλλο ap1 ∈ D έτσι ώστε να ισχύει ap ≤ BC
+ ap1 (ανέφικτη αντικατάσταση με επέκταση).
1. S = ∅2. If ap ∉ D3. for each aph(ap) find the nearest ancestor sk of ap such that sk ∈D //μονοπάτι ιεραρχίας //προγόνων από το ap 4. if sk exist 5. S = S ∪ { sk }6. end if7. end for8. else 9. S = {ap}10. end if 11. return S
Τα παραδείγματα που ακολουθούν αποσαφηνίζουν τις διαδικασίες του
Κεφάλαιο 5 115
αλγορίθμου.
Παράδειγμα 5.3: Ας θεωρήσουμε την πηγή S1 η οποία υποστηρίζει το σύνολο με τα
Σημεία Πρόσβασης {Any, Subject, Name}. Υποθέτουμε επίσης ότι το ζητούμενο είναι
η ανάκτηση εγγραφών μεταδεδομένων για οποιοδήποτε αντικείμενο αναφέρεται στα
έργα του Shakespeare από την πηγή αυτή. Για την αναζήτηση αυτή, το
καταλληλότερο Σημείο Πρόσβασης που διαθέτει το Bib-1 είναι το Subject-name-
personal, το οποίο όμως δεν υποστηρίζει η πηγή S1. Εφαρμόζοντας τον αλγόριθμο
στο γράφο (βλέπε εικόνα 5.2), το πρώτο μονοπάτι ιεραρχίας προγόνων που αρχίζει
από το Subject-name-personal είναι το P1 = {Subject, Author-Title-Subject, Any}. Από
το P1 ο πλησιέστερος πρόγονος του Subject-name-personal που υποστηρίζει η πηγή
S1 είναι το Subject (γραμμή 3 του αλγορίθμου). Κατά συνέπεια, ο αλγόριθμος
προσθέτει το Subject στο σύνολο S (γραμμή 5 του αλγορίθμου). Ομοίως, από το
Subject, Any} ο πλησιέστερος πρόγονος του Subject-name-personal που υποστηρίζει
η πηγή S1 είναι το Name, το οποίο ο αλγόριθμος προσθέτει στο σύνολο S.
Με την ολοκλήρωση του αλγορίθμου, για την πηγή S1 τα Σημεία Πρόσβασης
που έχουν επιλεγεί να αντικαταστήσουν το μη υποστηριζόμενο Σημείο Πρόσβασης
Subject-name-personal είναι το Subject και το Name. Όπως φαίνεται στην εικόνα 5.2,
το Subject-name-personal έχει μια isA σχέση και με τα δύο Σημεία Πρόσβασης που
έχουν επιλεγεί για να το αντικαταστήσουν. Ως εκ τούτου, και τα τρία Σημεία
Πρόσβασης χρησιμοποιούν μερικά κοινά πεδία για να ταιριάξουν τον όρο
αναζήτησης. Αν τα Σημεία Πρόσβασης συνδυαστούν με το λογικό τελεστή AND, τα
κοινά πεδία που χρησιμοποιούνται για ταίριασμα με τον όρο αναζήτησης θα είναι τα
πεδία που χρησιμοποιεί το Σημείο Πρόσβασης Subject-name-personal, συν μερικά
άλλα που δεν περιλαμβάνονται στη σημασιολογία του Subject-name-personal. Ο
αριθμός των επιπρόσθετων πεδίων που θα χρησιμοποιηθούν θα είναι μικρότερος από
το συνολικό αριθμό των πεδίων που χρησιμοποιούνται είτε από το Subject είτε από το
Name.
Το παράδειγμα που ακολουθεί αποσαφηνίζει περαιτέρω τη λειτουργία του
αλγορίθμου.
Παράδειγμα 5.4: Εφαρμόζουμε την ίδια επερώτηση στην πηγή S2, η οποία
υποστηρίζει το σύνολο με τα Σημεία Πρόσβασης {Any, Subject, Author-name}. Η
Κεφάλαιο 5 116
πηγή S2 υποστηρίζει το Σημείο Πρόσβασης Author-name αντί του Name. Σε αυτή την
περίπτωση, ο αλγόριθμος θα επιλέξει ξανά το Σημείο Πρόσβασης Subject από το P1,
αλλά από το P2 θα επιλέξει το Any αντί του Name. Και τα δύο Σημεία Πρόσβασης
είναι αποδεκτά σαν αποτελέσματα από τον αλγόριθμο, αλλά όπως φαίνεται από το
γράφο, το Any είναι πρόγονος (υπερκλάση) του Subject. Το Σημείο Πρόσβασης Any
είναι ένα πλεονάζον, το οποίο διευρύνει ανεπιθύμητα τη σημασιολογία του μη
υποστηριζόμενου Σημείου Πρόσβασης.
Εικόνα 5.7. Μονοπάτια ιεραρχίας προγόνων από τα οποία επιλέγεται μη επιθυμητό Σημείο Πρόσβασης.
Όπως φαίνεται και στην εικόνα 5.7, η επιλογή ανεπιθύμητων Σημείων
Πρόσβασης συμβαίνει όταν υπάρχουν περισσότερα από ένα μονοπάτια ιεραρχίας
προγόνων τα οποία περιλαμβάνουν υποστηριζόμενα Σημεία Πρόσβασης και το
Σημείο Πρόσβασης που επιλέγεται από τη μία ιεραρχία ανήκει και σε μία δεύτερη,
στην οποία είναι σε υψηλότερη ιεραρχική θέση από το Σημείο Πρόσβασης που έχει
επιλεγεί από τη δεύτερη ιεραρχία. Σε μια τέτοια περίπτωση, το σύνολο που
επιστρέφει ο αλγόριθμος αντικατάστασης περιλαμβάνει Σημεία Πρόσβασης από την
ίδια isA ιεραρχία.
Η απαλοιφή των ανεπιθύμητων Σημείων Πρόσβασης, δηλαδή αυτών που είναι
υπερκλάσεις άλλων στοιχείων του συνόλου των Σημείων Πρόσβασης που έχουν
επιλεγεί για αντικατάσταση, γίνεται με τον επόμενο αλγόριθμο ο οποίος βελτιστοποιεί
Κεφάλαιο 5 117
τα αποτελέσματα που παράγει ο αρχικός αλγόριθμος αντικατάστασης. Ο αλγόριθμος
βελτιστοποίησης παράγει το μικρότερο σύνολο από υποστηριζόμενα Σημεία
Πρόσβασης, των οποίων η λογική σύζευξη έχει τη μικρότερη διευρυμένη
σημασιολογία από το μη υποστηριζόμενο Σημείο Πρόσβασης.
Αλγόριθμος δημιουργίας του μικρότερου συνόλου με τη μικρότερη διευρυμένη σημασιολογία
Δεδομένα: Το BIB-1 RDFS: B = {BC, BL, BPBS ∅ }
Είσοδος: Ένα σύνολο από Σημεία Πρόσβασης C ⊆ BC
Αποτελέσματα: Το σύνολο Σημείων Πρόσβασης C': C' = {x | ¬∃ y ∈ C′ : x ≤ BC
+ y και ¬∃ z ∈ C: z ≤ BC+ x}.
1. If |C| <= 12. return C' = C3. end if4. C' = ∅5. for each api in C do6. if api is not an ancestor of any element in C-{ api }7. C' = C' ∪ { api }8. end if9. end for10. return C'
Η αποσαφήνιση του αλγορίθμου βελτιστοποίησης γίνεται με το παράδειγμα
που ακολουθεί.
Παράδειγμα 5.5: Σε συνέχεια του παραδείγματος 5.4, το σύνολο που έχει επιστραφεί
από τον αλγόριθμο αντικατάστασης με διεύρυνση της σημασιολογίας είναι το {Any,
Subject}. Ανιχνεύοντας το γράφο, το Any είναι πρόγονος του Subject (γραμμή 6 του
αλγορίθμου), κατά συνέπεια ο αλγόριθμος δεν το περιλαμβάνει στο τελικό σύνολο
(γραμμή 7 του αλγορίθμου), εφόσον η τομή των δύο κλάσεων είναι ακριβώς η
χαμηλότερη ιεραρχικά κλάση.
5.2.1.2 Αντικατάσταση με σύμπτυξη σημασιολογίας
Σε αντίθεση με τον αλγόριθμο διεύρυνσης, ο αλγόριθμος σύμπτυξης συμπτύσσει τη
σημασιολογία ενός Σημείου Πρόσβασης, με αποτέλεσμα ο όρος αναζήτησης να
Κεφάλαιο 5 118
ταυτίζεται με τα μεταδεδομένα από λιγότερα πεδία της εγγραφής. Κατά συνέπεια, το
σύνολο αποτελεσμάτων της επερώτησης συμπτύσσεται. Η βασική ιδέα της
αντικατάστασης με σύμπτυξη είναι η επιλογή και η ένωση όλων των Σημείων
Πρόσβασης τα οποία έχουν την πιο κοντινή συμπτυγμένη σημασιολογία με το Σημείο
Πρόσβασης. Ενορατικά, ο αλγόριθμος αντικατάστασης με σύμπτυξη παράγει το
σύνολο από τους υποστηριζόμενους πλησιέστερους απογόνους της αντίστοιχης
κλάσης του μη υποστηριζόμενου Σημείου Πρόσβασης από κάθε μονοπάτι ιεραρχίας
απογόνων που αρχίζει από την κλάση του μη υποστηριζόμενου Σημείου Πρόσβασης.
Αλγόριθμος αντικατάστασης Σημείου Πρόσβασης με σύμπτυξη
Δεδομένα: Το BIB-1 RDFS: B = {BC, BL, BP, BS, ∅}Το σύνολο D των Σημείων Πρόσβασης που υποστηρίζει η πηγή, με D ⊆ BC
Είσοδος: Το Σημείο Πρόσβασης ap, με ap ∈ BC, για έλεγχο και πιθανή αντικατάσταση
Αποτελέσματα: Το S σύνολο των Σημείων Πρόσβασης, όπου S είναι: (i) {ap}. Περιέχει το ap, αν ap ∈ D (δηλαδή η πηγή το υποστηρίζει),(ii) {api ∈ D | api ≤ S
+ ap, api∈ Si = dph(ap) και ¬∃ z ∈ Si ∩ D: api ≤ S+ z ≤ S
+ ap}. Από κάθε μονοπάτι ιεραρχίας απογόνων που αρχίζει από το ap, επιλέγει τον πλησιέστερο υποστηριζόμενο απόγονο (υποκλάση) του ap, (iii) ∅, αν το ap δεν υποστηρίζεται και δεν υπάρχει κανένα άλλο ap1 ∈ D έτσι ώστε να ισχύει ap1 ≤ BC
+ ap (ανέφικτη αντικατάσταση με σύμπτυξη).
1. S = ∅2. If ap ∉ D3. for each dph(ap) find the nearest descendant sk of ap such that sk ∈D
//μονοπάτι ιεραρχίας απογόνων από το ap 4. if sk exist 5. S = S ∪ { sk }6. end if7. end for8. else 9. S = {ap}10. end if11. return S
Το παράδειγμα που ακολουθεί διευκρινίζει τη λειτουργία του αλγορίθμου
αντικατάστασης με σύμπτυξη της σημασιολογίας του μη υποστηριζόμενου Σημείου
Πρόσβασης.
Παράδειγμα 5.6: Ας θεωρήσουμε την πηγή S3 η οποία υποστηρίζει το σύνολο με τα
επίσης, ότι το ζητούμενο είναι να αναζητηθούν οι εγγραφές μεταδεδομένων για
οποιοδήποτε αντικείμενο σχετικό με Shakespeare. Για αυτή την αναζήτηση, το
καταλληλότερο Σημείο Πρόσβασης που διαθέτει το Bib-1 είναι το Author-Title-
Subject, το οποίο όμως δεν υποστηρίζει η πηγή S3. Εφαρμόζοντας τον αλγόριθμο στο
γράφο (βλέπε εικόνα 5.2), το πρώτο μονοπάτι ιεραρχίας απογόνων που αρχίζει από το
Author-Title-Subject είναι το P1 = {Subject, Subject-name-personal}. Από το P1 ο
πλησιέστερος απόγονος του Author-Title-Subject που υποστηρίζει η πηγή S3 είναι το
Subject (γραμμή 3 του αλγορίθμου). Κατά συνέπεια, ο αλγόριθμος προσθέτει το
Subject στο σύνολο S (γραμμή 5 του αλγορίθμου). Ομοίως, από το P2 = {Name,
Author-name, Author-name-personal, Name-Editor} ο αλγόριθμος προσθέτει το
Author-name. Συνεχίζοντας, από το P3 = {Name, Name-personal, Author-name-
personal, Name-Editor} προστίθεται το Author-name-personal. Από όλες τις άλλες
ιεραρχίες απογόνων που αρχίζουν από το Author-Title-Subject δεν υπάρχουν Σημεία
Πρόσβασης που να υποστηρίζει η πηγή S3. Ο λογικός OR συνδυασμός των
επιλεγμένων Σημείων Πρόσβασης {Subject, Author-name, Author-name-personal} θα
δημιουργήσει την αντικατάσταση με σύμπτυξη για το μη υποστηριζόμενο Σημείο
Πρόσβασης Author-Title-Subject.
Ο αλγόριθμος θα δημιουργήσει ένα σύνολο με Σημεία Πρόσβασης τα οποία
είναι πιθανόν να ανήκουν στην ίδια isA ιεραρχία, όπως έκανε και ο αλγόριθμος
διεύρυνσης. Ο αλγόριθμος που ακολουθεί απαλείφει τα ανεπιθύμητα Σημεία
Πρόσβασης, παράγοντας το σύνολο με τα λιγότερα υποστηριζόμενα Σημεία
Πρόσβασης, των οποίων η λογική διάζευξη έχει την όσο το δυνατό μεγαλύτερη
συμπτυγμένη σημασιολογία από το μη υποστηριζόμενο Σημείο.
Αλγόριθμος δημιουργίας του μικρότερου συνόλου με τη μεγαλύτερη συμπτυγμένη σημασιολογία
Δεδομένα: Το BIB-1 RDFS: B = {BC, BL, BP, BS, ∅}
Είσοδος: Ένα σύνολο από Σημεία Πρόσβασης C ⊆ BC
Αποτελέσματα: Το σύνολο Σημείων Πρόσβασης C': C' = {x | ¬∃ y ∈ C′ : y ≤ BC
+ x και ¬∃ z ∈ C: x ≤ BC+ z}.
Κεφάλαιο 5 120
1. If |C| <= 12. return C' = C3. end if4. C' = ∅5. for each api in C do6. if api is not a descendant of any element in C-{ api } 7. C' = C' ∪ { api }8. end if9. end for10. return C'
5.2.2 Αποτίμηση ανάκλησης και ακρίβειας
Η αντικατάσταση με διεύρυνση μειώνει την ακρίβεια της απάντησης χωρίς να
επηρεάζει την ανάκληση. Αυτό προκύπτει από το ότι τα Σημεία Πρόσβασης
υπερκλάσεις που αντικαθιστούν το μη υποστηριζόμενο Σημείο Πρόσβασης ταιριάζουν
τον όρο αναζήτησης τόσο με τα πεδία του μη υποστηριζόμενου Σημείου Πρόσβασης
όσο και με τα επιπλέον πεδία των Σημείων Πρόσβασης υπερκλάσεις. Συγκεκριμένα,
οι εγγραφές που αντιστοιχούσαν στο αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης
θα ανακτηθούν, άρα η ανάκληση παραμένει η ίδια, ενώ θα μεγαλώσει το συνολικό
σύνολο εγγραφών που τις περιλαμβάνει, οπότε θα μειωθεί η ακρίβεια.
Κατά συνέπεια, για να αποτιμηθεί η μεταβολή της ακρίβειας προσαρμόστηκε
κατάλληλα το μέγεθος της ταξινομικής ακρίβειας (tp) από την κοινότητα ontology
learning (Dellschaft and Staab, 2006; Maedche and Staab 2002), χρησιμοποιώντας το
αντιπροσωπευτικό γνώρισμα leaf subclasses. Η ταξινομική ακρίβεια στη γενική της
εφαρμογή συγκρίνει δύο έννοιες από δύο διαφορετικές οντολογίες, την κοινά
συμφωνημένη ή αποδεκτή οντολογία (gold, reference ontology) και την
αναπτυσσόμενη οντολογία (retrieved, learned ontology). Εν τούτοις, στην παρούσα
εφαρμογή συγκρίνει δύο έννοιες από την ίδια οντολογία, η οποία αναπαρίσταται από
το Bib-1 Σημασιολογικό Δίκτυο Σημείων Πρόσβασης το οποίο είναι εκφρασμένο σε
RDFS.
Έστω ότι η οντολογία O αναπαριστά τον RDFS γράφο του Bib-1
Σημασιολογικού Δικτύου Σημείων Πρόσβασης και C το σύνολο των εννοιών της O οι
οποίες αναπαριστούν Σημεία Πρόσβασης.
Κεφάλαιο 5 121
Ορισμός 5.7: Το σύνολο των leaf subclasses ενός Σημείου Πρόσβασης ap στην
οντολογία O, το οποίο συμβολίζεται lsc(ap, O), προσδιορίζεται από τη σχέση:
lsc ap ,O={api | ap i∈C∧api+ ap∧¬x∈C : xapi} . (18)
Είναι άξιο αναφοράς ότι τα leaf subclasses ενός Σημείου Πρόσβασης, τα οποία
και αυτά θεωρούνται Σημεία Πρόσβασης, αντιστοιχούν στο τμήμα της εγγραφής με το
οποίο εφαρμόζεται η διαδικασία ταιριάσματος του όρου αναζήτησης. Ως εκ τούτου το
σύνολο αυτό προσδιορίζει τη σημασιολογία του Σημείου Πρόσβασης.
Ορισμός 5.8: Η ταξινομική ακρίβεια (tp) δύο Σημείων Πρόσβασης apr, aps όπου, apr
και aps αναπαριστούν το αιτούμενο και το επιλεγμένο για να αντικαταστήσει το μη
υποστηριζόμενο Σημείο Πρόσβασης αντίστοιχα, προσδιορίζεται από τη σχέση:
tpaps , apr ,O=∣lsc ap s∩lsc apr∣
∣lscaps∣. (19)
Η ταξινομική ακρίβεια αναπαριστά την αναλογία των πεδίων που
χρησιμοποιούνται στο αιτούμενο (σχετικά πεδία), μη υποστηριζόμενο, Σημείο
Πρόσβασης σε σχέση με τα πεδία που χρησιμοποιούνται στο επιλεγμένο για την
αντικατάσταση (πεδία αναζήτησης). Όπως φαίνεται από τον ορισμό, η ταξινομική
ακρίβεια δεν είναι συμμετρική. Επιπροσθέτως, λόγω του ότι κάθε Σημείο Πρόσβασης
που επιλέγεται από τη διαδικασία αντικατάστασης με διεύρυνση ανήκει σε ένα
μονοπάτι ιεραρχίας προγόνων που αρχίζει από το αιτούμενο Σημείο Πρόσβασης,
ισχύει η σχέση lsc(apr) ⊆ lsc(aps). Κατά συνέπεια, προκύπτει το παρακάτω λήμμα
που εκφράζει τη σχέση (19) της ταξινομικής ακρίβειας (ορισμός 5.8) σε απλούστερη
μορφή:
Λήμμα 5.1: Στην αντικατάσταση με διεύρυνση η ταξινομική ακρίβεια (tp) δύο
Σημείων Πρόσβασης apr, aps όπου, apr και aps αναπαριστούν το αιτούμενο και το
επιλεγμένο για να αντικαταστήσει το μη υποστηριζόμενο Σημείο Πρόσβασης
αντίστοιχα, προσδιορίζεται από τη σχέση:
Κεφάλαιο 5 122
tpaps , apr ,O=∣lsc apr∣∣lsc aps∣
. (20)
Το τελευταίο βήμα της αντικατάστασης με διεύρυνση είναι η λογική σύζευξη
των επιλεγέντων Σημείων Πρόσβασης. Κατά συνέπεια, το προκύπτον σύνολο
Σημείων Πρόσβασης είναι δυνατό να θεωρηθεί σαν ένα νέο Σημείο Πρόσβασης που
δημιουργείται από τα κοινά πεδία των Σημείων Πρόσβασης που χρησιμοποιούνται
στο λογικό συνδυασμό AND.
Λήμμα 5.2: Η ταξινομική ακρίβεια της τομής ενός συνόλου Σημείων Πρόσβασης
{aps1, aps2, …, apsn} που προκύπτουν από την αντικατάσταση με διεύρυνση ορίζεται
από τον παρακάτω τύπο που είναι σε απλουστευμένη μορφή:
tp∩i=1
n
ap si , apr ,O=∣lsc apr ∣
∣∩i=1
n
apsi∣ . (21)
Σε αντίθεση με την αντικατάσταση με διεύρυνση, η αντικατάσταση με
σύμπτυξη μειώνει την ανάκληση της επερώτησης που προκύπτει χωρίς να επηρεάζει
την ακρίβεια. Αυτό οφείλεται στο ότι τα Σημεία Πρόσβασης υποκλάσεις που
αντικαθιστούν το μη υποστηριζόμενο Σημείο Πρόσβασης ταιριάζουν τον όρο
αναζήτησης μόνο με ένα μέρος από τα πεδία του μη υποστηριζόμενου Σημείου
Πρόσβασης. Δηλαδή, δε θα ανακτηθούν όλες οι εγγραφές που αντιστοιχούσαν στο
αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης, συνεπώς η ανάκληση μειώνεται.
Επιπροσθέτως, τα επιλεγέντα Σημεία Πρόσβασης από την αντικατάσταση με
σύμπτυξη είναι υποκλάσεις του μη υποστηριζόμενου Σημείου Πρόσβασης, κατά
συνέπεια ισχύουν οι σχέσεις lsc(aps) ⊆ lsc(apr) και lsc(aps) ∩ lsc(apr) = lsc(aps).
Οι αντίστοιχοι ορισμοί για την ταξινομική ανάκληση (tr) είναι οι παρακάτω:
Ορισμός 5.9: Η ταξινομική ανάκληση (tr) δύο Σημείων Πρόσβασης apr, aps, όπου apr
και aps αναπαριστούν το αιτούμενο και το επιλεγμένο για να αντικαταστήσει το μη
υποστηριζόμενο Σημείο Πρόσβασης αντίστοιχα, προσδιορίζεται από τη σχέση:
Κεφάλαιο 5 123
tr aps , apr , O=∣lsc aps∩lscapr∣
∣lsc apr∣. (22)
Λήμμα 5.3: Στην αντικατάσταση με σύμπτυξη η ταξινομική ανάκληση (tr)
προσδιορίζεται από τη σχέση (απλουστευμένη μορφή):
tr ap s , apr , O=∣lsc ap s∣∣lsc apr ∣
. (23)
Λήμμα 5.4: Η ταξινομική ανάκληση της ένωσης ενός συνόλου Σημείων Πρόσβασης
{aps1, aps2, …, apsn} που προκύπτουν από την αντικατάσταση με σύμπτυξη ορίζεται
από τον παρακάτω τύπο, που είναι σε απλουστευμένη μορφή:
tp∪i=1
n
ap si , apr ,O=∣∪
i=1
n
apsi∣∣lsc apr ∣
. (24)
Στον πίνακα 5.1 παρουσιάζονται αντιπροσωπευτικές τιμές της ταξινομικής
ακρίβειας και ανάκλησης για μια ομάδα από αρκετά ενδιαφέρουσες αντικαταστάσεις
διεύρυνσης και σύμπτυξης αντίστοιχα (βλέπε και εικόνα 5.6). Και για τις δύο τακτικές
αντικατάστασης, η πρώτη γραμμή αναπαριστά το αιτούμενο προς αντικατάσταση, μη
υποστηριζόμενο Σημείο Πρόσβασης, ενώ η πρώτη στήλη αναπαριστά το Σημείο
Πρόσβασης που θα αντικαταστήσει το αιτούμενο. Κατά συνέπεια, το μέρος του
πίνακα πάνω από τη διαγώνιο δίνει την ταξινομική ακρίβεια (tp) για τις δυνατές
αντικαταστάσεις με διεύρυνση. Παρατηρώντας τη δεύτερη γραμμή, όταν το
Name_1002 αντικαθιστά τον άμεσο απόγονο του Author-name_1003 η ταξινομική
ακρίβεια παραμένει υψηλή (0.8), ενώ η ταξινομική ακρίβεια (tp) μειώνεται όσο
κατευθυνόμαστε προς το τέλος της γραμμής, όταν το Name_1002 αντικαθιστά τον
απόγονο του Author-name-personal_1004 (tp=0.26). Κατά τον ίδιο τρόπο με την
αντικατάσταση της διεύρυνσης, το μέρος του πίνακα κάτω από τη διαγώνιο δίνει την
ταξινομική ανάκληση (tr) για μερικές υπαρκτές αντικαταστάσεις με σύμπτυξη.
Παρατηρώντας τη δεύτερη στήλη, όταν το Author-name_1003 αντικαθιστά τον άμεσο
Κεφάλαιο 5 124
πρόγονο του Name_1002 η ταξινομική ανάκληση (tr) παραμένει υψηλή (0.8), ενώ η
ταξινομική ανάκληση (tr) μειώνεται όσο κατευθυνόμαστε προς το τέλος της στήλης,
όταν το Author-name-personal_1004 αντικαθιστά τον πρόγονο του Name_1002
(tr=0.26).
Πίνακας 5.1. Παραδείγματα τιμών ταξινομικής ακρίβειας και ανάκλησης για μερικές ενδιαφέρουσες αντικαταστάσεις διεύρυνσης και σύμπτυξης αντίστοιχα.
tp→tr↓
1002 1003 3 2 1 1006 1005 1004
Name_1002 1 12/15=0.8
5/15=0.33
5/15=0.33
5/15=0.33
4/15=0.26
4/15=0.26
4/15=0.26
Author-name_1003 12/15=0.8
1 4/12=0.33
4/12=0.33
4/12=0.33
Name-conference_3 5/15=0.33
1 4/5=0.8
Name-corporate_2 5/15=0.33
1 4/5=0.8
Name_personal_1 5/15=0.33
1 4/5=0.8
Author-name-conference_1006
4/15=0.26
4/12=0.33
4/5=0.8
1
Author-name-corporate_1005
4/15=0.26
4/12=0.33
4/5=0.8
1
Author-name-personal_1004
4/15=0.26
4/12=0.33
4/5=0.8
1
5.2.3 Μέτρηση αντικατάστασης
Με δεδομένη την ταξινομική ακρίβεια και ανάκληση μιας αντικατάστασης, ο τύπος
της μετρικής F-measure θεωρείται ότι αντανακλά μια καλή ισορροπία μεταξύ τους.
Το F-measure είναι η αρμονική ενδιάμεση τιμή μεταξύ της ταξινομικής ακρίβειας και
ανάκλησης, το οποίο χρησιμοποιείται αρκετά συχνά ως μια αποδεκτή ακριβής
μέτρηση από αρκετές επιστημονικές κοινότητες, όπως είναι της αναζήτησης
πληροφοριών, της ανάπτυξης οντολογιών, της επεξεργασίας φυσικής γλώσσας, κλπ.
Η γενική εκδοχή της μετρικής με χρήση συντελεστή αντιστάθμισης, για ένα
συντελεστή αντιστάθμισης b > 0, είναι η παρακάτω:
F - measure=1b2 tp∗tr
b2∗tptr (25)
Κεφάλαιο 5 125
Μία αντικατάσταση θεωρείται η καλύτερη αν το αντίστοιχο μέγεθος F-
measure έχει τη μεγαλύτερη τιμή. Με συντελεστή αντιστάθμισης b=1 και τα δύο
μεγέθη ακρίβειας και ανάκλησης θεωρούνται το ίδιο σημαντικά, ενώ η μετρική είναι
γνωστή σαν F1-measure. Μερικά παραδείγματα με συνήθεις τιμές του συντελεστή
αντιστάθμισης είναι b=2, ο οποίος σταθμίζει την ανάκληση διπλάσια από την
ακρίβεια, ενώ αντίθετα η τιμή b=0,5 σταθμίζει την ακρίβεια διπλάσια από την
ανάκληση.
5.3 Υπηρεσία παγκόσμιου ιστού για ανοικτή πρόσβαση στο
Σημασιολογικό Δίκτυο Σημείων Πρόσβασης
Η λειτουργικότητα του Σημασιολογικού Δικτύου Σημείων Πρόσβασης είναι διαθέσιμη
σαν υπηρεσία ανοικτής πρόσβασης με τεχνολογίες του παγκόσμιου ιστού. Για την
επίδειξη των τακτικών αντικατάστασης με την αξιοποίηση του Bib-1 RDFS γράφου,
αναπτύχθηκε από την παρούσα διατριβή μία εφαρμογή παγκόσμιου ιστού, η
πρόσβαση της οποίας γίνεται στη διεύθυνση http://dlib.ionio.gr/sapndemo (εικόνα
5.8) και η οποία χρησιμοποιεί τη διαμόρφωση των παρακάτω Z39.50 πηγών: Library
of Congress (ΗΠΑ), Library and Archives Canada, MELVYL, COPAC Academic &
National Library Catalogue (Ηνωμένο Βασίλειο), Συλλογικός Κατάλογος Ελληνικών
Ακαδημαϊκών βιβλιοθηκών και Κατάλογος Βιβλιοθήκης Πανεπιστημίου Κρήτης. Στην
τρέχουσα ενότητα γίνεται μόνο η παρουσίαση της υπηρεσίας, ενώ η ευρύτερη
περιγραφή της υλοποίησης του συστήματος γίνεται στο κεφάλαιο 6 μαζί με την
παρουσίαση του συστήματος μετα-Συνθέτης.
Η εφαρμογή επίδειξης παρέχει στο χρήστη τη δυνατότητα να ελέγξει στις
προαναφερθείσες πηγές αν ένα Σημείο Πρόσβασης υποστηρίζεται (δεν απαιτείται
αντικατάσταση). Σε διαφορετική περίπτωση ο χρήστης μπορεί να δει τις δυνατές
τακτικές αντικατάστασης καθώς επίσης ποια είναι η καλύτερη αντικατάσταση με
βελτιώσει σημαντικά την αποδοτικότητα ενός συστήματος μετα-αναζήτησης,
ελαχιστοποιώντας τις επιπτώσεις από τις αποτυχημένες επερωτήσεις ή τις ασυνεπείς
απαντήσεις που προκύπτουν από τα μη υποστηριζόμενα Σημεία Πρόσβασης. Η
αντικατάσταση των μη υποστηριζόμενων Σημείων Πρόσβασης γίνεται με δύο
τακτικές, αξιοποιώντας τις σημασιολογικές συσχετίσεις τους που εκφράζει το
Σημασιολογικό Δίκτυο Σημείων Πρόσβασης.
Το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης εκφράζει σε ένα RDFS γράφο
τις συσχετίσεις των Σημείων Πρόσβασης που ορίζει το Z39.50 Bib-1 Σύνολο
Γνωρισμάτων. Η συσχέτιση των Σημείων Πρόσβασης περιγράφεται με τη σχέση
υποσυνόλου που έχουν μεταξύ τους τα αντίστοιχα σύνολα μεταδεδομένων, τα οποία
ορίζουν τη σημασιολογία τους. Ανιχνεύοντας την ομοιότητα των Σημείων Πρόσβασης
από το Bib-1 RDF Schema, η αντικατάσταση των μη υποστηριζόμενων Σημείων
Πρόσβασης είναι δυνατό να γίνει με διεύρυνση ή εναλλακτικά με σύμπτυξη της
σημασιολογίας των μη υποστηριζόμενων Σημείων Πρόσβασης.
Ειδικότερα, η αντικατάσταση με διεύρυνση δημιουργεί το μικρότερο σύνολο
από υποστηριζόμενα Σημεία Πρόσβασης, των οποίων η λογική σύζευξη έχει τη
μικρότερη διευρυμένη σημασιολογία από το αρχικό μη υποστηριζόμενο Σημείο
Πρόσβασης. Τα Σημεία Πρόσβασης που επιλέγονται είναι οι κοντινότεροι πρόγονοι
του Σημείου Πρόσβασης που υποστηρίζει η πηγή από κάθε μονοπάτι ιεραρχίας
προγόνων το οποίο αρχίζει από το μη υποστηριζόμενο Σημείο Πρόσβασης.
Αντίστοιχα, η αντικατάσταση με σύμπτυξη δημιουργεί το μικρότερο σύνολο
από υποστηριζόμενα Σημεία Πρόσβασης, των οποίων η λογική διάζευξη έχει τη
μεγαλύτερη συμπτυγμένη σημασιολογία από το μη υποστηριζόμενο Σημείο
Πρόσβασης. Τα Σημεία Πρόσβασης που επιλέγονται είναι οι κοντινότεροι απόγονοι
του Σημείου Πρόσβασης που υποστηρίζει η πηγή από κάθε μονοπάτι ιεραρχίας
απογόνων, το οποίο αρχίζει από το μη υποστηριζόμενο Σημείο Πρόσβασης.
Η αντικατάσταση με διεύρυνση μειώνει την ακρίβεια της απάντησης χωρίς να
επηρεάζει την ανάκληση, ενώ αντίθετα η αντικατάσταση με σύμπτυξη μειώνει την
ανάκληση χωρίς να επηρεάζει την ακρίβεια. Για κάθε τακτική αντικατάστασης
προσδιορίζονται τα κριτήρια μέτρησης και αποτίμησης της μεταβολής της ακρίβειας
και της ανάκλησης, ενώ χρησιμοποιείται η μετρική F-measure με χρήση σταθεράς
στάθμισης για να προσδιορίσει τη βέλτιστη αντικατάσταση, σύμφωνα με προεπιλογές
Κεφάλαιο 5 129
ακρίβειας και ανάκλησης.
Επιπροσθέτως, η λειτουργικότητα του Σημασιολογικού Δικτύου Σημείων
Πρόσβασης και των τακτικών αντικατάστασης είναι διαθέσιμη σαν υπηρεσία
ανοικτής πρόσβασης με τεχνολογίες του παγκόσμιου ιστού με δύο εναλλακτικούς
τρόπους. Ο πρώτος τρόπος αφορά την επίδειξη των τακτικών αντικατάστασης με την
αξιοποίηση του Bib-1 RDFS γράφου και είναι μία εφαρμογή του παγκόσμιου ιστού,
ενώ εναλλακτικά ο δεύτερος τρόπος στοχεύει στο να είναι δυνατή η πρόσβαση και η
αξιοποίηση της υπηρεσίας και από άλλα συστήματα μετα-αναζήτησης,
χρησιμοποιώντας άμεσα το αίτημα GET του http πρωτοκόλλου.
Κεφάλαιο 6
μετα-Συνθέτης
Ο μετα-Συνθέτης είναι το σύστημα μετα-αναζήτησης, το οποίο υλοποιεί τα κυριότερα
από τα χαρακτηριστικά που προτάθηκαν και αναλύθηκαν στα προηγούμενα κεφάλαια
της παρούσας διατριβής. Ειδικότερα, η υλοποίηση περιλαμβάνει προτάσεις που
έγιναν από όλα τα επίπεδα διαδικασιών της μετα-αναζήτησης και σχετίζονται με:
• την αρχιτεκτονική του εικονικού συλλογικού καταλόγου που αναλύθηκε στο
κεφάλαιο 3,
• τις διαδικασίες αντικατάστασης μη υποστηριζόμενων Σημείων Πρόσβασης του
κεφαλαίου 5, καθώς επίσης και
• τη σύνθεση των αποτελεσμάτων σε Έργο-κεντρικές συστάδες σύμφωνα με το
μοντέλο FRBR που αναλύθηκε στο κεφάλαιο 2.
Η υλοποίηση του μετα-Συνθέτη αποσκοπεί αφενός στον έλεγχο και την επιβεβαίωση
των προτάσεων της παρούσας διατριβής, αφετέρου στο να αποτελέσει ένα
περιβάλλον ευρύτερου πειραματισμού σε ιδέες και προτάσεις που αφορούν την
ανάπτυξη των συστημάτων μετα-αναζήτησης.
Η παρούσα εκδοχή του μετα-Συνθέτη30, η οποία είναι διαθέσιμη στη διεύθυνση
http://dlib.ionio.gr/metacomposer, είναι διαμορφωμένη στο περιβάλλον του Z39.50
30 Μια προγενέστερη υλοποίηση μέρους των λειτουργιών του μετα-Συνθέτη γίνεται και από την εφαρμογή zSAPN (http://dlib.ionio.gr/zSAPN) η οποία επίσης αναπτύχθηκε κατά την εκπόνηση της παρούσας διατριβής.
συνδυασμό των Author-name και Name-conference που υποστηρίζει η πηγή. Αξίζει
να αναφερθεί ότι ο λογικός AND συνδυασμός των Author-name και Name-
conference, του οποίου η ταξινομική ακρίβεια ισούται με 1, έχει ισοδύναμη
σημασιολογία με το Σημείο Πρόσβασης Author-name-conference. Για το σύστημα του
Πανεπιστημίου Κρήτης, το μη υποστηριζόμενο Σημείο Πρόσβασης αντικαθίσταται από
το Author-name που είναι ευρύτερο σημασιολογικά και η ταξινομική ακρίβεια είναι
tp=0,33. Οι διαφορετικές αντικαταστάσεις που προκύπτουν από τα συστήματα
Library of Congress και Πανεπιστημίου Κρήτης είναι απόρροια των διαφορετικών
Σημείων Πρόσβασης που υποστηρίζουν οι πηγές. Τα συστήματα των Library and
Archives Canada και Συλλογικός Κατάλογος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών
υποστηρίζουν το Σημείο Πρόσβασης, κατά συνέπεια συμπεριφέρονται όμοια με το
σύστημα COPAC. Επιπροσθέτως, το MELVYL δεν υποστηρίζει το Σημείο Πρόσβασης
ενώ η αντικατάσταση του είναι όμοια με την αντικατάσταση της Library of Congress.
Πίνακας 7.1. Αντιπροσωπευτικές συνόψεις απαντήσεων από τρεις πηγές για την επερώτηση: Author-name-conference (1006) = “IEEE”. Η ακρίβεια και η ανάκληση σταθμίζονται ισοδύναμα.
Από το γράφο του Σημασιολογικού Δικτύου Σημείων Πρόσβασης (κεφάλαιο 5,
εικόνα 5.6) προκύπτει ότι το Σημείο Πρόσβασης του παραδείγματος 6.1 Author-name-
conference είναι σημασιολογικά ισοδύναμο με την τομή των άμεσων προγόνων του
Author-name και Name-conference. Αναφέρεται ότι η τομή των συνόλων που ορίζουν
τη σημασιολογία του Author-name και του Name-conference είναι το σύνολο με τα
MARC πεδία {111, 411, 711 ,811}, το οποίο ορίζει τη σημασιολογία του Author-
name-conference. Επιπροσθέτως, το σύνολο που ορίζει τη σημασιολογία του Author-
name αποτελείται από περισσότερα πεδία από ότι το σύνολο του Author-name-
conference, αλλά από λιγότερα πεδία σε σχέση με το Name.
Κεφάλαιο 7 149
Ολοκληρώνοντας τη σύγκριση της σημασιολογίας μεταξύ των Σημείων
Πρόσβασης από τις αντικαταστάσεις με διεύρυνση και του αρχικού Σημείου
Πρόσβασης, για τα συστήματα Library of Congress και MELVYL οι αντικαταστάσεις
είναι σημασιολογικά ισοδύναμες με το μη υποστηριζόμενο Σημείο Πρόσβασης, καθώς
επίσης οι απαντήσεις τους έχουν την ίδια ακρίβεια και ανάκληση με τις απαντήσεις
από τα συστήματα MELVYL, Library and Archives Canada και Συλλογικός
Κατάλογος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών, τα οποία υποστηρίζουν το Σημείο
Πρόσβασης. Για το Πανεπιστήμιο Κρήτης το σύστημα έλαβε μία απάντηση με
παραπλήσια σημασιολογία που περιλαμβάνει όλες τις σχετικές εγγραφές, έχει
μικρότερη ακρίβεια (tp=0.33) και περιλαμβάνει και άλλες εκδόσεις της IEEE (π.χ.
τεχνικά πρότυπα, κλπ.).
Στον πίνακα 7.2 παρουσιάζονται οι αριθμοί των αντίστοιχων αποτελεσμάτων
από την εκτέλεση της επερώτησης του παραδείγματος 6.1 χρησιμοποιώντας και
παρακάμπτοντας την υπηρεσία του Σημασιολογικού Δικτύου Σημείων Πρόσβασης. Για
το COPAC δεν υπάρχει διαφορά, εφόσον η πηγή υποστηρίζει το Σημείο Πρόσβασης.
Η Library of Congress δεν ενημερώνει ότι δεν υποστηρίζει το Σημείο Πρόσβασης,
καθώς επίσης δε δίνει καμία επιπλέον πληροφορία για την αυθαίρετη αντικατάσταση
που έκανε. Επιπροσθέτως, για τη Library of Congress είναι ορατή μια αξιόλογη
διαφορά μεταξύ των δύο αποτελεσμάτων, περίπου 4,5 φορές περισσότερα χωρίς τη
σημασιολογική αντικατάσταση. Αξίζει να αναφερθεί ότι η αντικατάσταση για τη
Library of Congress έχει ισοδύναμη σημασιολογία με το αρχικό αίτημα (tp=tr=1).
Για το Πανεπιστήμιο Κρήτης θα προκύψει μία απάντηση με ακρίβεια (tp=0.33) αντί
για μια αποτυχημένη επερώτηση.
Πίνακας 7.2. Οι αριθμοί των αποτελεσμάτων εκτελώντας την επερώτηση του παραδείγματος 6.1 χωρίς αντικατάσταση και με αντικατάσταση τού μη υποστηριζόμενου Σημείου Πρόσβασης.
Πηγή Χωρίς ΑντικατάστασηΕφικτή
ΑντικατάστασηF1-measure
COPAC 2803 2803 1Library of Congress 8309 1799 1
University of CreteError: Unsupported
attribute combination344
0.5
Στο παράδειγμα 6.1 υπάρχει μία μόνο εφικτή αντικατάσταση, ως εκ τούτου
αγνοούνται οι προεπιλογές για τη στάθμιση της ακρίβειας και της ανάκλησης. Στο
Κεφάλαιο 7 150
παράδειγμα που ακολουθεί υπάρχουν δύο εφικτές αντικαταστάσεις ενώ
μεταβάλλοντας τις προεπιλογές ακρίβειας και ανάκλησης επιλέγεται διαφορετική
αντικατάσταση.
Παράδειγμα 6.2: Υποθέτουμε ότι ο χρήστης θέλει να αναζητήσει όλες τις εγγραφές
που περιέχουν τον όρο ‘Malinowski’ είτε στο συγγραφέα είτε στον τίτλο είτε στο
θέμα. Σύμφωνα με το Z39.50 Bib-1 σύνολο γνωρισμάτων, το καταλληλότερο Σημείο
Πρόσβασης είναι το Author-Title-Subject, το οποίο σπάνια διατίθεται προς χρήση.
Στον πίνακα 7.3 παρουσιάζονται τα κυριότερα αποτελέσματα του
παραδείγματος 6.2 από την Library and Archives Canada, η οποία δεν υποστηρίζει το
Σημείο Πρόσβασης. Η δεύτερη στήλη παρουσιάζει τα χαρακτηριστικά της
αντικατάστασης με σύμπτυξη ενώ η τρίτη στήλη τα αντίστοιχα αποτελέσματα από
την εκτέλεση της επερώτησης με την αντικατάσταση σύμπτυξης. Η τέταρτη και η
πέμπτη στήλη παρουσιάζουν αντίστοιχα τα χαρακτηριστικά και τα αποτελέσματα της
αντικατάστασης με διεύρυνση. Η αντικατάσταση με σύμπτυξη αντικαθιστά το
Author-Title-Subject με τη διάζευξη (λογικός OR συνδυασμός) των υποστηριζόμενων
Σημείων Πρόσβασης Title, Subject και Author-name, αποφεύγοντας αποτυχημένη
επερώτηση.
Πίνακας 7.3. Σύνοψη χαρακτηριστικών αντικαταστάσεων διεύρυνσης και σύμπτυξης για την επερώτηση: Author-Title-Subject (1036) = “Malinowski”.
Για το παράδειγμα 6.2, ο πίνακας 7.4 παρουσιάζει τις διαφορετικές τιμές που
προκύπτουν από τη μετρική F-measure με τη χρήση εναλλακτικών συντελεστών
αντιστάθμισης για τα μεγέθη της ακρίβειας και της ανάκλησης. Όταν η ανάκληση και
η ακρίβεια θεωρούνται το ίδιο σημαντικές, η αντικατάσταση με σύμπτυξη δίνει την
καλύτερη τιμή, ενώ όταν η ανάκληση σταθμιστεί πενταπλάσια από την ακρίβεια η
αντικατάσταση με διεύρυνση δίνει την καλύτερη τιμή.
Κεφάλαιο 7 151
Πίνακας 7.4. Αποτελέσματα μετρικής F-measure με διαφορετικές σταθερές στάθμισης.
Τακτική Αντικατάστασης Ισότιμη στάθμιση ανάκλησης και ακρίβειας
5-πλάσια στάθμιση ανάκλησης από ακρίβεια
Σύμπτυξη 0.98 0.93Διεύρυνση 0.73 0.94
Στο παράδειγμα 6.2 ο χρήστης θα λάβει μια κατά προσέγγιση απάντηση της
οποίας τα αποτελέσματα θα είναι αρκετά όμοια με τα αποτελέσματα της αρχικής
επερώτησης αποφεύγοντας ταυτόχρονα μια αποτυχημένη επερώτηση. Όπως έχει
προαναφερθεί, η πηγή Library and Archives Canada απορρίπτει την επερώτηση όταν
δεν υποστηρίζει ένα Σημείο Πρόσβασης, όπως είναι το Author-Title-Subject.
Δημιουργώντας η πηγή μια αποτυχημένη επερώτηση ο χρήστης δε λαμβάνει
αποτελέσματα και ταυτόχρονα ενημερώνεται ότι δεν υποστηρίζεται το Σημείο
Πρόσβασης.
Οι εναλλακτικές προσεγγίσεις που έχει στη διάθεση του ο χρήστης για να
υλοποιήσει την επερώτηση του παραδείγματος 6.2 στην πηγή Library and Archives
Canada είναι είτε να διευρύνει αρκετά τη σημασιολογία της επερώτησης,
χρησιμοποιώντας ένα πιο γενικό Σημείο Πρόσβασης, όπως είναι το Any, ή να
υποκαταστήσει τη λειτουργία του μετα-Συνθέτη και να αντικαταστήσει το Σημείο
Πρόσβασης με την ένωση άλλων που έχουν στενότερη σημασιολογία. Η πρώτη
προσέγγιση, η οποία είναι και η πιο κατανοητή, θα αυξήσει τα αποτελέσματα κατά
57% περίπου, εφόσον η απάντηση θα περιλαμβάνει έως τριάντα επιπλέον μη σχετικές
εγγραφές. Η δεύτερη προσέγγιση απαιτεί βαθιά γνώση των σημασιολογικών
συσχετίσεων των Σημείων Πρόσβασης, καθώς επίσης και των χαρακτηριστικών που
υποστηρίζει η πηγή. Σε αυτή την προσέγγιση, ο μετα-Συνθέτης εκτελεί τη διαδικασία
μετεγγραφής της επερώτησης αυτόματα, ζητώντας από το χρήστη να ορίσει τις
προτιμήσεις του με ένα καταλληλότερο και ευκολότερο τρόπο.
7.2 Σχετικές εργασίες
Εδώ και αρκετές δεκαετίες, η ενιαία, ομοιόμορφη και άμεση πρόσβαση αυτόνομων
πηγών πληροφόρησης είναι ένα από τα δημοφιλή αντικείμενα μελέτης στις
επιστημονικές κοινότητες των συστημάτων αναζήτησης πληροφοριών (information
retrieval) και των βάσεων δεδομένων. Μέχρι σήμερα, οι διαφορετικές προτάσεις και
Κεφάλαιο 7 152
προσεγγίσεις που προέκυψαν από τη μελέτη του ζητήματος αντανακλούν την
ετερογένεια των συστημάτων, ακόμα και στο ίδιο περιβάλλον εφαρμογής.
Μια προσέγγιση για την ενιαία πρόσβαση των συστημάτων αποτελεί ο
ορισμός και η χρήση κοινών κανόνων και προτύπων, ιδιαιτέρως μεταξύ των μελών
της ίδιας κοινότητας. Τυπικό παράδειγμα πρότασης κοινής γλώσσας αναζήτησης
πληροφοριών αποτελεί η Common Command Language από την Euronet DIANE35
(Negus, 1979) στις αρχές τις δεκαετίας του 1980, η οποία στη συνέχεια αποτέλεσε
τον πυρήνα του προτύπου ISO 8777 (ISO, 1993) ή αντίστοιχα του προτύπου Z39.58
από τον οργανισμό American National Standards Institute (ANSI/NISO, 1993). Μια
πρόταση με ευρύτερο πεδίο εφαρμογής, η οποία συνδυάζει ένα σύνολο από άλλα
πρότυπα, συμπεριλαμβανομένου και του ISO 8777, αποτελεί η ανάπτυξη του
προτύπου αναζήτησης ανάκτησης πληροφοριών Z39.50 και η σύγχρονη εκδοχή του
SRW/SRU. Αξίζει επίσης να αναφερθεί ότι τα προφίλ υλοποίησης του Z39.50
αναπτύχθηκαν για να εξομαλυνθούν οι διαφορετικές υλοποιήσεις στην εφαρμογή του
πρωτοκόλλου.
Μια κοινή προσπάθεια μεταξύ προμηθευτών συστημάτων αναζήτησης και
ακαδημαϊκής κοινότητας αποτελεί η ανάπτυξη του πρωτοκόλλου STARTS (Gravano
et al., 1997), στο πλαίσιο του έργου “Stanford Digital Library Project” (The Stanford
Digital Libraries Group, 1995). Ο στόχος του πρωτοκόλλου ήταν να διευκολύνει τις
κύριες λειτουργίες ενός συστήματος μετα-αναζήτησης, δηλαδή την επιλογή των
καλύτερων πηγών για να αποσταλεί η επερώτηση, την αποτίμηση της επερώτησης και
την ενοποίηση των αποτελεσμάτων με απλούστερες διαδικασίες από τις αντίστοιχες
του Z39.50. Για να αποφευχθούν οι καθυστερήσεις από τις χρονοβόρες διαδικασίες
που εφαρμόζουν οι οργανισμοί προτυποποίησης, το STARTS δεν έγινε πρότυπο.
Σημειώνεται ότι εκφράζει την κοινή προσπάθεια 11 εταιριών και οργανισμών. Οι
προϋποθέσεις (requirements) για κατανεμημένη αναζήτηση που προήλθαν από την
ανάπτυξη του πρωτοκόλλου STARTS απετέλεσαν στη συνέχεια τον πυρήνα του
Z39.50 προφίλ υλοποίησης ZDSR (ZIG, 1997), χωρίς όμως ουσιαστικά να υπάρξει
καμία περαιτέρω εξέλιξη και εφαρμογή ούτε του πρωτοκόλλου STARTS, ούτε και
του ZDSR προφίλ υλοποίησης.
35 Euronet είναι η υπηρεσία του τηλεπικοινωνιακού δικτύου(packet switched network) της Ευρωπαϊκής Κοινότητας που λειτούργησε το 1979 και η αντίστοιχη υπηρεσία DIANE (Direct Information Access Network for Europe) για την προώθηση της ανάπτυξης των υπηρεσιών πληροφόρησης.
Κεφάλαιο 7 153
Όπως αναπτύχθηκε στα προηγούμενα κεφάλαια της διατριβής, παρά το ότι οι
κοινοί κανόνες και τα πρότυπα εξισορροπούν την απόδοση με την πολυπλοκότητα
υλοποίησης ενός συστήματος, δεν επαρκούν για να λειτουργήσει αποτελεσματικά και
αποδοτικά ένα σύστημα μετα-αναζήτησης. Σε ένα περιβάλλον αυτόνομων πηγών
είναι πολύ δύσκολο, αν όχι αδύνατον, να υπάρξει η αποδοχή ενός μόνο προτύπου, το
οποίο θα υλοποιηθεί από όλους με τον ίδιο τρόπο. Επιπροσθέτως, οι μέχρι τώρα
προσπάθειες προτυποποίησης και χρήσης κοινών κανόνων στόχευαν περισσότερο να
ομογενοποιήσουν θέματα λειτουργικότητας και σύνταξης υπηρεσιών, παρά να
επιληφθούν ζητήματα τα οποία αφορούν στη σημασιολογική διαλειτουργικότητα
μεταξύ των συστημάτων. Η δεδομένη αυτονομία κάθε πηγής και η αδυναμία
παρέμβασης στις λειτουργίες της απαιτεί την ανάπτυξη διαδικασιών που θα εξάγουν,
άμεσα ή έμμεσα, σημασιολογικά χαρακτηριστικά κάθε πηγής και θα τα αξιοποιούν.
Η παρούσα διατριβή συμπληρώνει και επεκτείνει τους υπάρχοντες κοινούς
κανόνες και πρότυπα εκφράζοντας τη σημασιολογία του μηχανισμού πρόσβασης μιας
ομάδας πηγών, έμμεσα, από τα μεταδεδομένα που τον προσδιορίζουν. Ειδικότερα,
στην κοινότητα των βιβλιοθηκών και στο περιβάλλον του Z39.50 και των MARC
μεταδεδομένων αναπτύχθηκε το Bib-1 Σημασιολογικό Δίκτυο Σημείων Πρόσβασης, το
οποίο αναπαριστά τις σημασιολογικές συσχετίσεις των Σημείων Πρόσβασης. Το
Σημασιολογικό Δίκτυο Σημείων Πρόσβασης είναι το εργαλείο στο οποίο βασίζεται η
παρούσα διατριβή για να αναπτύξει στη συνέχεια τη σημασιολογική μετεγγραφή κατά
προσέγγιση των επερωτήσεων με μη υποστηριζόμενα Σημεία Πρόσβασης. Αποτελεί
επίσης ένα αυτοτελές εργαλείο για την κατανόηση και ορθή χρήση των Σημείων
Πρόσβασης στην κοινότητα των βιβλιοθηκών.
Ως σύστημα που παρουσιάζει τη μεγαλύτερη συνάφεια με τις προτάσεις της
παρούσας διατριβής, τόσο αναφορικά με το περιβάλλον λειτουργίας όσο και με το
στόχο του, είναι ο ενδιάμεσος InforM25 server (Cousins and Sanders, 2006). Ο
ενδιάμεσος InforM25 “μετα-αναζητούσε” τους Z39.50 διακομιστές οι οποίοι
παρείχαν πρόσβαση στους καταλόγους ακαδημαϊκών ιδρυμάτων της ευρύτερης
περιοχής του Λονδίνου, ενώ η ανάπτυξη του έγινε στο πλαίσιο μελέτης για τη
δυνατότητα ένταξης των εικονικών συλλογικών καταλόγων σε ένα ευρύτερο
περιβάλλον υπηρεσιών.
Ενώ κατά την ανάπτυξη του ενδιάμεσου InforM25 εντοπίστηκαν και
Κεφάλαιο 7 154
παρουσιάστηκαν αναλυτικά τα προβλήματα που σχετίζονται με τα χαρακτηριστικά
αναζήτησης που υποστηρίζει κάθε πηγή και με την κατάλληλη μετεγγραφή των
επερωτήσεων, ωστόσο, σε αντίθεση με την παρούσα διατριβή, δεν προτάθηκαν
λύσεις που να επιλαμβάνονται ολοκληρωμένα των προβλημάτων. Ειδικότερα, για να
αποφύγουν αποτυχημένες επερωτήσεις ή ασυνεπείς απαντήσεις στις ρυθμίσεις του
συστήματος όρισαν για κάθε Σημείο Πρόσβασης, το οποίο θα διέθετε ο εικονικός
κατάλογος, μία αποδεκτή μετεγγραφή του για κάθε τοπικό διακομιστή. Λόγω του ότι
η διαδικασία ορισμού και ενημέρωσης των μετεγγραφών είναι μη αυτοματοποιημένη
και γίνεται από το διαχειριστή του συστήματος, η συντήρησή του σε περίπτωση
μεταβολής των χαρακτηριστικών αναζήτησης ενός διακομιστή, ή της ένταξης ενός
νέου, είναι αρκετά σύνθετη και χρονοβόρα, ενώ απαιτεί αρκετή προσοχή η
συνεκτικότητα των μετεγγραφών. Επιπροσθέτως, δε γίνεται καμία ιδιαίτερη πρόταση
για ζητήματα τα οποία σχετίζονται με τη βελτίωση της απόδοσης του συστήματος και
την ενοποίηση των αποτελεσμάτων αναζήτησης.
Ζητήματα που αφορούν στην περιγραφή των χαρακτηριστικών αναζήτησης
των πηγών, καθώς επίσης και τη μετεγγραφή επερωτήσεων έχουν μελετηθεί εκτενώς
σε συστήματα ολοκλήρωσης πληροφοριών από την κοινότητα των βάσεων
δεδομένων (Motro, 1987; Ullman, 1997). Στα συμβατά αυτά συστήματα με το
μοντέλο του ενδιάμεσου-περιβλήματος (mediator-wrapper) (Wiederhold, 1992), ο
ενδιάμεσος δέχεται επερωτήσεις από το χρήστη ή μία εφαρμογή εκφρασμένες σε μία
κεντρική γλώσσα και μοντέλο δεδομένων, τις οποίες μετεγγράφει σε νέες
επερωτήσεις στην ίδια γλώσσα, αλλά με βάση τα χαρακτηριστικά κάθε περιβλήματος
(wrapper) και στη συνέχεια τις προωθεί στα περιβλήματα. Με βάση αυτό το μοντέλο,
ο ενδιάμεσος θεωρείται σαν η κεντρική άποψη (view) του συστήματος ολοκλήρωσης,
ενώ κάθε περίβλημα σαν η τοπική άποψη της υποκείμενης πηγής.
Αντιπροσωπευτικά συστήματα ολοκλήρωσης πληροφοριών είναι τα
TSIMMIS (Chawathe et al., 1994), Garlic (Carey et al., 1995), DISCO (Tomasic et
al., 1996), τα οποία ορίζουν το σχήμα του ενδιάμεσου ως συνάρτηση των τοπικών
απόψεων (GaV: Global as View). Αντίθετα το σύστημα Information Manifold (Kirk et
al., 1995) θεωρεί τις τοπικές απόψεις σαν απόψεις της κεντρικής άποψης (LaV: Local
as View).
Ενώ η πλειοψηφία των συστημάτων ολοκλήρωσης πληροφοριών βασιζόταν
Κεφάλαιο 7 155
στην παραδοχή ότι υπάρχει απεριόριστη πρόσβαση στη δομή και στα δεδομένα των
πηγών που συμμετέχουν στο σύστημα, υπόθεση που στην πλειοψηφία των
περιπτώσεων δεν είναι ρεαλιστική, μετέπειτα προτάσεις, αρχικά από τους
Papakonstantinou κ.ά. (1995), τους Levy κ.ά. (1996) στη συνέχεια, περιέγραψαν τα
χαρακτηριστικά πρόσβασης των πηγών με μη πεπερασμένα σύνολα επερωτήσεων
χρησιμοποιώντας παραμετρικές επερωτήσεις. Αυτές οι προσεγγίσεις θεωρούν τις
πηγές σαν ‘πηγές με διαφορετικές και περιορισμένες δυνατότητες’ ή σαν
‘εξωτερικούς επεξεργαστές επερωτήσεων’, οι οποίοι έχουν τη δυνατότητα να
απαντήσουν μερικές, αλλά όχι όλες, από τις πιθανές επερωτήσεις που αφορούν τα
δεδομένα τους.
Η παρούσα διατριβή, θεωρώντας τις Z39.50 πηγές σαν ‘επεξεργαστές
επερωτήσεων’ με περιορισμένες δυνατότητες, χρησιμοποίησε τη γλώσσα κανόνων
RQDL (Papakonstantinou et al., 1996) για να περιγράψει τα Σημεία Πρόσβασης με τα
γνωρίσματά τους, τα οποία υποστηρίζει μία Z39.50 πηγή, αξιοποιώντας ταυτόχρονα
τις υπάρχουσες διαδικασίες που ελέγχουν αν η επερώτηση είναι δυνατό να εκτελεσθεί
από την πηγή.
Αξίζει να αναφερθεί ότι η πλειοψηφία των προαναφερθέντων συστημάτων
ολοκλήρωσης πληροφοριών εστιάζει στη συντακτική περιγραφή και μετεγγραφή
(grammar based mappings) των επερωτήσεων. Ελάχιστα είναι τα συστήματα των
οποίων οι κανόνες μπορούν να συμπεριλάβουν σημασιολογικές απεικονίσεις, ώστε να
είναι δυνατή η μετεγγραφή της επερώτησης κατά προσέγγιση σε μία άλλη
σημασιολογικά κοντινή, όταν είναι αδύνατη η ακριβής αντιστοίχιση κάποιου
χαρακτηριστικού αναζήτησης.
Μετεγγραφές κατά προσέγγιση με χρήση σημασιολογίας αντιμετωπίζονται
στην εργασία των Chang και Garcia-Molina (Chang and Garcia-Molina, 1999). Σε
αντίθεση με την παρούσα διατριβή, η σημασιολογία δεν εκφράζεται ρητά και
αυτόνομα με ένα μοντέλο αναπαράστασης, αλλά είναι ενσωματωμένη στους κανόνες
απεικόνισης των σχημάτων, οι οποίοι ορίζονται από το διαχειριστή του συστήματος
και όχι με αυτόματες διαδικασίες. Οι διαδικασίες μετεγγραφής στην παρούσα
διατριβή διαφέρουν στο ότι βασίζονται άμεσα στον RDFS γράφο που εκφράζει τις
σημασιολογικές συσχετίσεις και όχι σε κανόνες απεικόνισης των σχημάτων.
Επιπλέον, τα αποτελέσματα των μετεγγραφών από τους αλγορίθμους μετεγγραφής
Κεφάλαιο 7 156
της παρούσας διατριβής είναι δυνατό να παράγουν τους αντίστοιχους κανόνες
απεικόνισης σχημάτων και να λειτουργήσουν συμπληρωματικά στο περιβάλλον των
Chang και Garcia-Molina.
7.3 Συμπεράσματα
Τα συστήματα μετα-αναζήτησης επιτρέπουν στους χρήστες την ενιαία και
ομοιόμορφη πρόσβαση σε μια πληθώρα από κατανεμημένες και αυτόνομες πηγές
πληροφόρησης. Οι περισσότερες από αυτές τις πηγές είναι διαθέσιμες από
πληροφοριακά συστήματα τα οποία παρέχουν πρόσβαση μέσω προκαθορισμένων
γλωσσών επερωτήσεων, χωρίς καμία άλλη δυνατότητα άμεσης πρόσβασης στους
πόρους και τη δομή των πηγών. Είναι άξιο αναφοράς ότι ο αριθμός των κρυμμένων
πηγών πίσω από πληροφοριακά συστήματα αυξάνεται ραγδαία (Bergman, 2001).
Ειδικότερα, στην κοινότητα των βιβλιοθηκών, η πρόσβαση στις διαθέσιμες
πληροφοριακές πηγές γίνεται από συστήματα αναζήτησης τα οποία βασίζονται στην
έννοια του αφηρημένου Σημείου Πρόσβασης και είναι συμβατά με το πρωτόκολλο
ανάκτησης πληροφοριών Z39.50.
Σύγχρονες έρευνες δείχνουν ότι η υλοποίηση και η βιωσιμότητα των
εικονικών συλλογικών καταλόγων είναι εφικτή, ιδιαιτέρως όταν ακολουθούν το
μοντέλο του ενδιάμεσου (mediator) (Cousins and Sanders, 2006). Επιπροσθέτως,
σύμφωνα με τον Macgregor, οι περισσότεροι Z39.50 διακομιστές αποκρίνονται
τάχιστα, ενώ τα τυχόν δικτυακά προβλήματα και η τοπική χρήση των συστημάτων δε
βρέθηκε να επηρεάζουν την απόδοση των διακομιστών (Macgregor, 2005). Στην
κοινότητα των βιβλιοθηκών, η καλύτερη θεμελίωση για την ανάπτυξη των
συστημάτων μετα-αναζήτησης είναι η ευρεία χρήση των πρωτοκόλλων Z39.50/SRU
και η συνεπής κωδικοποίηση εκφραστικών διατάξεων μεταδεδομένων (Dorman,
2008). Από όλες τις προαναφερθείσες εργασίες τονίζεται η σημασιολογική
διαλειτουργικότητα ως το σημαντικότερο θέμα στην ανάπτυξη των συστημάτων
μετα-αναζήτησης.
Το εννοιολογικό μοντέλο FRBR36, αποτελεί κύριο υπόβαθρο στην ανάπτυξη
της επόμενης γενιάς καταλόγων που βρίσκεται σε εξέλιξη (Coyle, 2004). Για την
36 Functional Requirements for Bibliographic Records.
Κεφάλαιο 7 157
παρουσίαση και ευρετηρίαση των καταλόγων σύμφωνα με το μοντέλο FRBR, τα έργα
που είναι σε εξέλιξη εστιάζουν είτε στην εφαρμογή του μοντέλου είτε στην ανάπτυξη
εργαλείων και διαδικασιών σύνθεσης των FRBR οντοτήτων από τις ήδη υπάρχουσες
εγγραφές.
Παρά το ότι οι κοινοί κανόνες και τα πρότυπα εξισορροπούν την απόδοση με
την πολυπλοκότητα υλοποίησης ενός συστήματος μετα-αναζήτησης, όπως
αναπτύχθηκε στην παρούσα διατριβή, δεν επαρκούν για να λειτουργήσει
αποτελεσματικά και αποδοτικά ένα σύστημα μετα-αναζήτησης. Διαδικασίες
σημασιολογικής μετεγγραφής κατά προσέγγιση των επερωτήσεων με μη
υποστηριζόμενα Σημεία Πρόσβασης είναι δυνατό να βελτιώσουν σημαντικά την
αποτελεσματικότητα στα συστήματα μετα-αναζήτησης και να απαλείψουν τις
αποτυχημένες επερωτήσεις ή τις ασυνεπείς απαντήσεις που προκαλούν τα μη
υποστηριζόμενα Σημεία Πρόσβασης.
Για την αποτελεσματική και αποδοτική λειτουργία ενός συστήματος μετα-
αναζήτησης η παρούσα διατριβή ανέπτυξε ένα ολοκληρωμένο περιβάλλον
ενδιάμεσου (mediator) σε συστήματα συμβατά με το πρωτόκολλο Z39.50. Οι λύσεις
που αναπτύχθηκαν βελτιώνουν τις κύριες λειτουργίες του ενδιάμεσου για την
προώθηση της επερώτησης στις πηγές (κεφάλαιο 3), την περιγραφή των
χαρακτηριστικών αναζήτησης κάθε πηγής και την μετεγγραφή των επερωτήσεων
(κεφάλαιο 4, 5), καθώς επίσης την επεξεργασία και την ενοποίηση των
αποτελεσμάτων αναζήτησης (κεφάλαιο 6). Επιπλέον, η επαλήθευση των λύσεων οι
οποίες προτάθηκαν στην παρούσα διατριβή έγινε με την υλοποίησή τους στο
σύστημα μετα-Συνθέτης (κεφάλαιο 6).
Οι συνεισφορές της παρούσας διατριβής αφορούν στις ακόλουθες ενότητες:
• Περιβάλλον του ενδιάμεσου: αναπτύχθηκε μία αρχιτεκτονική για την
υλοποίηση συστήματος μετα-αναζήτησης, η αρχιτεκτονική του εικονικού
συλλογικού καταλόγου (κεφαλαίο 2). Η προτεινόμενη αρχιτεκτονική
μετεγγράφει και προωθεί την επερώτηση ασύγχρονα στις πηγές και ανακτά
σταδιακά και επεξεργάζεται παράλληλα τα αποτελέσματα της αναζήτησης.
Με την παράλληλη εκτέλεση των διαδικασιών, η εμφάνιση των πρώτων
μερικών αποτελεσμάτων στο χρήστη είναι συνάρτηση της ταχύτερης πηγής,
ενώ η συνολική απόδοση του συστήματος είναι συνάρτηση της πιο αργής
Κεφάλαιο 7 158
πηγής, αλλά όχι του αθροίσματος των διαδικασιών από όλες τις πηγές. Η
περιγραφή των χαρακτηριστικών αναζήτησης γίνεται με τα Σχεδιότυπα
Επερώτησης που ορίστηκαν στο κεφάλαιο 4, ενώ για να υποστηρίζει ο
εικονικός συλλογικός κατάλογος τη σημασιολογική μετεγγραφή επερωτήσεων
κατά προσέγγιση αναπτύχθηκαν αλγόριθμοι αντικατάστασης μη
υποστηριζόμενων χαρακτηριστικών (κεφάλαιο 5). Η επεξεργασία των
μεταθέτοντας μέρος της επεξεργασίας στο σταθμό εργασίας του χρήστη, όπως
παρουσιάστηκε στο κεφάλαιο 6.
• Κοινοί κανόνες, πρότυπα: στο περιβάλλον του Z39.50 και των MARC
μεταδεδομένων αποσαφηνίζονται και επεξηγούνται υπάρχοντες κανόνες και
πρότυπα με την ανάπτυξη του Bib-1 Σημασιολογικού Δικτύου Σημείων
Πρόσβασης (κεφάλαιο 5). Το Σημασιολογικό Δίκτυο Σημείων Πρόσβασης,
εκφράζοντας τη σημασιολογία του μηχανισμού αναζήτησης του Z39.50
πρωτοκόλλου σε γλώσσα RDFS είναι η βάση όπου αναπτύχθηκε η
σημασιολογική μετεγγραφή κατά προσέγγιση και αποτελεί ένα αυτοτελές
εργαλείο για την κατανόηση και ορθή χρήση των Σημείων Πρόσβασης στην
κοινότητα των βιβλιοθηκών.
• Αλγόριθμοι: αναπτύχθηκαν εναλλακτικές διαδικασίες για τη μετεγγραφή
επερωτήσεων βασισμένες στη σημασιολογική συσχέτιση των Σημείων
Πρόσβασης. Ειδικότερα, στο κεφάλαιο 5 αναπτύχθηκαν: (α) Οι αλγόριθμοι
αντικατάστασης μη υποστηριζόμενων Σημείων Πρόσβασης με διεύρυνση ή
σύμπτυξη της σημασιολογίας του μη υποστηριζόμενου Σημείου Πρόσβασης.
Επιπροσθέτως, αναπτύχθηκε και η αντίστοιχη βελτιστοποίηση κάθε
περίπτωσης, ώστε να προκύπτει το πλησιέστερο σημασιολογικά σύνολο
Σημείων Πρόσβασης με το αρχικό μη υποστηριζόμενο Σημείο Πρόσβασης. (β)
Ορίσθηκαν τα κριτήρια μέτρησης της σημασιολογικής ομοιότητας μεταξύ
Σημείων Πρόσβασης και (γ) Ορίσθηκε ο τύπος για τη βέλτιστη αντικατάσταση
του Σημείου Πρόσβασης σύμφωνα με προεπιλογές που αφορούν την ανάκληση
(recall) και ακρίβειά (precision) του.
• Ανοικτές υπηρεσίες: υλοποιήθηκε το σύστημα μετα-Συνθέτης, το οποίο
εφαρμόζει τις μεθόδους που αναπτύχθηκαν στην παρούσα διατριβή και το
Κεφάλαιο 7 159
οποίο παρέχει πρόσβαση σε αντιπροσωπευτικές Z39.50 πηγές, οι οποίες
παρουσιάζουν παγκόσμιο ενδιαφέρον, όπως Library of Congress, MELVYL,
COPAC, κλπ., (κεφάλαιο 6). Επιπροσθέτως, η λειτουργικότητα του
Σημασιολογικού Δικτύου Σημείων Πρόσβασης και των τακτικών
αντικατάστασης είναι διαθέσιμη σαν υπηρεσία ανοικτής πρόσβασης με
τεχνολογίες του παγκόσμιου ιστού (κεφάλαιο 5).
7.4 Μελλοντική έρευνα
Τα συστήματα μετα-αναζήτησης διαδραματίζουν καθοριστικό ρόλο στην ομοιόμορφη
και αποτελεσματική πρόσβαση της διαθέσιμης πληροφορίας τόσο στο περιβάλλον
των βιβλιοθηκών όσο και του διαδικτύου ευρύτερα. Ο σκοπός της παρούσας
διατριβής είναι να αναπτύξει τις απαραίτητες διαδικασίες οι οποίες θα δώσουν στο
χρήστη τη δυνατότητα να ανιχνεύσει και να αξιοποιήσει εύκολα και αποτελεσματικά
τις διαθέσιμες πληροφοριακές πηγές. Εκτός από τα θέματα που αναπτύχθηκαν στην
παρούσα διατριβή και τη συνεισφορά της στα αντικείμενα που πραγματεύθηκε,
ανιχνεύθηκαν και μία σειρά από ενδιαφέροντα θέματα τα οποία χρήζουν περαιτέρω
μελέτης και έρευνας. Τα θέματα αυτά, τα οποία παρατίθενται στη συνέχεια,
σχετίζονται με όλο το φάσμα των διαδικασιών μετα-αναζήτησης.
Στην παρούσα εκδοχή της μετρικής, η οποία προσδιορίζει τα χαρακτηριστικά
της ταξινομικής ανάκλησης και ακρίβειας συμμετέχουν ισότιμα όλα τα πεδία που
συνθέτουν το Σημείο Πρόσβασης. Γνωρίζοντας ότι στην πράξη όλα τα πεδία δε
σταθμίζονται το ίδιο, είτε λόγω της σπουδαιότητάς τους στον προσδιορισμό και στην
ταυτοποίηση του έργου (π.χ. τίτλος, συγγραφέας, χρόνος έκδοσης), είτε λόγο της
έκφρασης, εκδήλωσης κλπ. του έργου (π.χ. οπτικοακουστικό υλικό, χειρόγραφες
παρτιτούρες), είτε λόγω της συχνότητας που εμφανίζεται στις εγγραφές, κλπ., το
ζητούμενο είναι να ορισθούν τα κατάλληλα μεγέθη που θα σταθμίζουν τα πεδία
μεταδεδομένων και να επεκταθεί ο τρόπος προσδιορισμού της ταξινομικής ανάκλησης
και ακρίβειας και να σταθμίζει κατάλληλα κάθε πεδίο μεταδεδομένων που συνθέτει
το Σημείο Πρόσβασης.
Ένα επόμενο ενδιαφέρον θέμα είναι η αποτίμηση της ταξινομικής ανάκλησης
και ακρίβειας συνολικά για την επερώτηση συσχετίζοντας όλα τα μη υποστηριζόμενα
Κεφάλαιο 7 160
Σημεία Πρόσβασης. Η τρέχουσα εκδοχή αποτιμά και αντικαθιστά μεμονωμένα κάθε
Σημείο Πρόσβασης. Μια ενδιαφέρουσα μελέτη προς διερεύνηση είναι η ανίχνευση
όλων των δυνατών συνδυασμών αντικαταστάσεων μεταξύ των λογικών εκφράσεων
των Σημείων Πρόσβασης και η αποτίμηση κάθε συνδυασμού.
Όπως αναφέρθηκε στην παρουσίαση του πρωτόκολλου Z39.50, στο κεφάλαιο
2, ο διάδοχος του Z39.50 με τεχνολογίες του παγκόσμιου ιστού είναι το πρωτόκολλο
SRU. Η ανάπτυξη του SRU βασίστηκε στη σημασιολογία του Z39.50 διατηρώντας
ουσιαστικά την έννοια του Σημείου Πρόσβασης σαν ένα κύριο χαρακτηριστικό του
μηχανισμού αναζήτησης. Η επέκταση του Σημασιολογικού Δικτύου Σημείων
Πρόσβασης ώστε να περιλαμβάνει τα Σύνολα Συμφραζομένων (Context Sets) και τα
Ευρετήρια (Indexes) του SRU, δηλαδή τα αντίστοιχα των Συνόλων Γνωρισμάτων και
Τύπων Γνωρισμάτων του Z39.50, σε ένα μετα-σχήμα RDFS το οποίο θα εκφράζει τις
υποκείμενες σημασιολογικές συσχετίσεις μεταξύ των ευρετηρίων όλων των Συνόλων
Συμφραζομένων, θα βοηθούσε σημαντικά στην περαιτέρω ανάπτυξη και εφαρμογή
του SRU και στην έκφραση της σημασιολογίας ενός γενικευμένου σχήματος
αναζήτησης στην κοινότητα των βιβλιοθηκών.
Ένα γενικά παραδεκτό πρόβλημα στα συστήματα μετα-αναζήτησης είναι η
αδυναμία τους να ανακτήσουν όλα τα αποτελέσματα από όλες τις πηγές, ιδιαιτέρως
όταν πρόκειται είτε για μεγάλο αριθμό πηγών, είτε για μεγάλο αριθμό αποτελεσμάτων
από γενικές επερωτήσεις. Όπως αναπτύχθηκε στην παρούσα διατριβή, η χρήση
εξειδικευμένων Σημείων Πρόσβασης ελαττώνει τον αριθμό των αποτελεσμάτων,
αναιρώντας ουσιαστικά σε αρκετές περιπτώσεις τόσο τους περιορισμούς ανάκτησης
των τοπικών συστημάτων, όσο και τον περιορισμό του συστήματος μετα-αναζήτησης.
Προκλήσεις για τη βελτίωση της διαδικασίας ανάκτησης και την επιλογή της
καταλληλότερης πηγής είναι οι ακόλουθες: μια καλύτερη προσέγγιση του
πραγματικού συνολικού αριθμού εγγραφών που ικανοποιούν το αίτημα του χρήστη,
με πιθανή χρήση ειδικών υπηρεσιών του πρωτοκόλλου αν υπάρχουν, ή πρόχειρα
στατιστικά από τα πρώτα αποτελέσματα που θα ανακτηθούν. Όπως αναπτύχθηκε
στην ενότητα 3.2.2, ο αριθμός των αποτελεσμάτων ο οποίος αναφέρεται σε κάθε
απόκριση ενός αιτήματος αναζήτησης δεν είναι στην πραγματικότητα σωστός. Αυτό
οφείλεται στο ότι ο αριθμός των αποτελεσμάτων κάθε πηγής, κατά κανόνα,
περιγράφει εγγραφές και όχι οντότητες FRBR Έργων, καθώς και στο ότι η πηγή δεν
Κεφάλαιο 7 161
ανιχνεύει πάντα τις όμοιες εγγραφές, με συνέπεια ο αριθμός από την πηγή να μην
αναφέρεται σε μοναδικές εγγραφές. Επιπροσθέτως, μεταξύ των αποτελεσμάτων από
διαφορετικές πηγές είναι δυνατόν να υπάρχουν κοινές εγγραφές. Η καλύτερη
προσέγγιση του αριθμού των μοναδικών έργων είναι μία σημαντική ένδειξη στο
χρήστη για να επαναδιατυπώσει μια πιο ειδική ερώτηση με συνέπεια να αποφύγει το
μεγάλο αριθμό αποτελεσμάτων.
Συνεχίζοντας τα προς διερεύνηση θέματα που σχετίζονται με τις διαδικασίες
ανάκτησης, ένα άλλο σημαντικό ζήτημα είναι η ανάπτυξη ενός μηχανισμού που θα
αποδίδει προτεραιότητα πρόσβασης στις πηγές. Η προτεραιότητα πρόσβασης θα
καθορίζει τη σειρά και το χρόνο πρόσβασης στις πηγές, ενώ θα πρέπει να σταθμίζει
μεγέθη που θα αποτιμούν τα χαρακτηριστικά που υποστηρίζει κάθε πηγή, τα
στατιστικά απόδοσης από προηγούμενες προσβάσεις, την ποιότητα και το πιθανό
κόστος πρόσβασης κάθε πηγής, καθώς επίσης να συνδυάζει και άλλες προεπιλογές
του χρήστη, όπως συνάφεια του περιεχομένου της πηγής, κλπ. Επιπροσθέτως, από
τον ίδιο μηχανισμό προτεραιότητας πρόσβασης στις πηγές θα είναι δυνατόν να
προσδιορίζεται καλύτερα ο αριθμός των εγγραφών που θα περιέχουν τα επιμέρους
πακέτα ανάκτησης (ενότητα 3.2), αποφεύγοντας είτε μεγάλες αναμονές, σε
περίπτωση που μια πηγή καθυστερεί, είτε άσκοπες δικτυακές επικοινωνίες, στην
αντίθετη περίπτωση.
Ολοκληρώνοντας την παρουσίαση, η πιο εκτεθειμένη δραστηριότητα ενός
συστήματος μετα-αναζήτησης είναι η παρουσίαση των αποτελεσμάτων στο χρήστη,
μιας και δέχεται τις πιο άμεσες κριτικές από αυτόν. Με τους δεδομένους
περιορισμούς του περιβάλλοντος μετα-αναζήτησης και την παντελή έλλειψη Έργο-
κεντρικών πηγών, βελτιώσεις στη σύνθεση των FRBR Έργο-κεντρικών συστάδων θα
πρέπει να ανιχνευτούν με μεγάλη επιμέλεια και απαιτούν περαιτέρω έρευνα λόγω του
περιορισμένου χρόνου που διαθέτει ο ενδιάμεσος να επεξεργαστεί τα αποτελέσματα
ανάκτησης. Επιπροσθέτως, μια πιο πιστή υλοποίηση της προτεινόμενης
αρχιτεκτονικής του εικονικού συλλογικού καταλόγου, η οποία αναπτύχθηκε από την
παρούσα διατριβή στο κεφάλαιο 3, και ειδικότερα ό,τι σχετίζεται με την παράλληλη
εκτέλεση των διαδικασιών και τη λειτουργία των υποσυστημάτων, θα δώσει αρκετά
επιπλέον στοιχεία και προϋποθέσεις για την ανάπτυξη και ουσιαστικότερη χρήση των
συστημάτων μετα-αναζήτησης.
Παράρτημα Α
Ενδεικτικά παραδείγματα Z39.50 πηγών με
τα Σημεία Πρόσβασης που υποστηρίζουν
Πίνακας Α.1. Τα Σημεία Πρόσβασης που υποστηρίζουν37 τα συστήματα διάθεσης των καταλόγων της Library of Congress, των συλλογικών καταλόγων MELVYL και COPAC, καθώς επίσης και ο κατάλογος της βιβλιοθήκης του Πανεπιστήμιου Κρήτης.
37 Σύμφωνα με τα αντίστοιχα τεκμήρια των οργανισμών που περιγράφουν τη διαμόρφωση των Z39.50 διακομιστών και τα οποία είναι πιθανό να τροποποιηθούν μελλοντικά.
38 Σύμφωνα με το τεκμήριο “LC Z39.50/SRW/SRU Server Configuration Guidelines” στη διεύθυνση: http://www.loc.gov/z3950/lcserver.html.
39 Σύμφωνα με το τεκμήριο “Melvyl Z39.50 Server” στη διεύθυνση: http://www.cdlib.org/services/d2d/melvyl/melvyl-z3950.rtf
40 Σύμφωνα με το τεκμήριο “COPAC: Z39.50 interface” στη διεύθυνση: http://copac.ac.uk/interfaces/z39.50/#attributes
41 Μετά από δοκιμαστική χρήση όλων των Σημείων Πρόσβασης και γνωρίζοντας ότι η πηγή παράγει αποτυχημένες επερωτήσεις όταν δεν υποστηρίζει το Σημείο Πρόσβασης.
Πίνακας Α.2. Τα κοινά Σημεία Πρόσβασης που υποστηρίζουν τα συστήματα διάθεσης των καταλόγων της βιβλιοθήκης της Library of Congress, των συλλογικών καταλόγων MELVYL και COPAC, καθώς επίσης και ο κατάλογος της βιβλιοθήκης του Πανεπιστήμιου Κρήτης.
FRBR Work FRBR ΈργοGrammar based mappings Γραμματικοί κανόνες αντιστοίχισηςGraph ΓράφοςIn-degree Έσω-βαθμόςInfinite ΆπειροInformation Retrieval Ανάκτηση πληροφορίαςInstance ΣτιγμιότυποInterface ΔιεπαφήLiteral Λεκτική σταθεράMediator ΕνδιάμεσοςMeta-search Μετα-αναζήτησηModule (Software) Μονάδα (λογισμικού)Narrow Substitution Αντικατάσταση με σύμπτυξηOnline Άμεση επικοινωνίαOut-degree Έξω-βαθμόςPrecision ΑκρίβειαQuery ΕπερώτησηQuery Capabilities Χαρακτηριστικά ΕπερώτησηςRecall ΑνάκλησηReference (gold) ontology Κοινά συμφωνημένη ή αποδεκτή οντολογία
Resource Πόρος
Retrieve ΑνάκτησηRetrieved, learned ontology Αναπτυσσόμενη οντολογίαRewrite ΜετεγγραφήRule based languages Γλώσσες βασισμένες σε κανόνεςSearch ΑναζήτησηSearch Capabilities Χαρακτηριστικά ΑναζήτησηςSemantic Access Point Network