Finden statt Suchen - Retrieval Kerstin Zimmermann Universität Oldenburg Berlin, Oktober 2000
Finden statt Suchen - Retrieval
Kerstin ZimmermannUniversität Oldenburg
Berlin, Oktober 2000
Kerstin Zimmermann, Universität Oldenburg
2
Inhaltsverzeichnis
* Aufbau eines Harvestsystems
* Installation und Konfiguration
* Suchen mit Harvest
Kerstin Zimmermann, Universität Oldenburg
3
Online Theses in Europe
many theses at several places
up to 10 links for theses
some theses found mostly at one place
no theses found yet
updated: April 2000
Kerstin Zimmermann, Universität Oldenburg
4
Sorten von Archiven
bisher
a) Listen (Name, Titel, Datum)
b) zusätzlich mit Abstract
c) nur Volltext
d) Metadaten, Abtract und Volltext
später DissOnline Dokumentenserver
Kerstin Zimmermann, Universität Oldenburg
5
Indizierte Formate• sgml x
• xml x
• html X
• ps X Text, attention: do not use graficmode ASCII required
• pdf X Text, Destiller-Options: asciipdf=on, commpressed text= off exchange do not use optimize
• doc X
• rtf X
• tex X
• dvi X
Kerstin Zimmermann, Universität Oldenburg
6
Globale Harvest Serverstruktur
global
national
fach-spezifisch
europaweit
D D BO P A C
N D L TD
C h em ieS U B
E rz ieh u n g sw issen sch a ftenU B
In fo rm atikR Z
F ach b ere ich / In s titu tU B
M ath em atikIM P R E S S
F ach b ere ich / In s titu tU B
P h ys ikP h ysD is
D iss B roke rD issN et
Kerstin Zimmermann, Universität Oldenburg
7
Retrieval
Server / Archive
Workstation
PC
private
public
Kerstin Zimmermann, Universität Oldenburg
8
Harvest
WWW-SERVER
http://www.physik...
Dissertation GATHERER
BROKER
HARVEST
User
Internal Area
NWWW Browser
Result...................................
Request
Result
Kerstin Zimmermann, Universität Oldenburg
9
<tags> and MetadataHTML Element SOIF-Element
<A HREF> url-reference{}
<ADDRESS> address{}
<H1 ... H6> headings{}
<TITLE> title{}
...
Metadaten SOIF-Element
DC.title dc.title{}
DC.author dc.author{}
...
Kerstin Zimmermann, Universität Oldenburg
10
Rechtliche Aspekte
• Promotionsordnungen §
• Diskussion in DC.Rights 1999
- rights of the resource (un-)restricted access / use
- rights of Metadata
• DissOnline Dokumentenserver
Kerstin Zimmermann, Universität Oldenburg
11
Harvest - Configuration
Provider
Provider
Provider
Gatherer
Broker
Broker
gdbm
objects
glimpse
SOIF
SOIFHTTP
HTTP
HTTP
Kerstin Zimmermann, Universität Oldenburg
12
@FILE { http://www.physik.uni-oldenburg.de/Docs/THEO3/publications/metadocs/ebs.shell.structure.htmlupdate-time{9}: 938935362url-references{208}: http://www.physik.uni-oldenburg.de/Docs/THEO3/publications/ebs.shell.structure.pdfmailto:[email protected]://www.physik.uni-oldenburg.de/Docs/THEO3/publications/ebs.shell.structure.pdftitle{59}: Shell Structure and Stability of Very Neutron-Rich Isotopeskeywords{97}:
and author date eberhard ebs files hilf isotopes neutron pdf rich shell stability structure very
head{16}: -Version 1.0 -->dc.type{59}: InProceedings(SCHEME=Freetext)publication-status=publisheddc.title{59}: Shell Structure and Stability of Very Neutron-Rich Isotopesdc.publisher{18}: IKDA, TH Darmstadtdc.language{18}: (SCHEME=Z39.53)ENGdc.format{15}: application/pdfdc.date{75}: (SCHEME=ANSI.X3.30-1985)1975(SCHEME=ANSI.X3.30-1985)(TYPE=current)19990408dc.creator{126}: Eberhard R. Hilf(TYPE=email)[email protected](TYPE=phone)+49-(0)441-798-2543(TYPE=fax)+49-(0)441-798-3201body{190}: =+4>Shell Structure and Stability of Very Neutron-Rich Isotopes Author:Eberhard R. Hilf Phone: +49-(0)441-798-2543 Fax:+49-(0)441-798-3201 Files: ebs.shell.structure.pdf Date: 1975md5{32}: bc1f2750a042a8175cce710030c60d76file-size{4}: 2440type{4}: HTMLgatherer-version{6}: 1.5.19gatherer-host{31}: egoiste.physik.uni-oldenburg.degatherer-name{17}: Physics Oldenburgrefresh-rate{5}: 86400time-to-live{7}: 3888000last-modification-time{9}: 928224570description{186}: =+4>Shell Structure and Stability of Very Neutron-Rich Isotopes Author:Eberhard R. Hilf Phone: +49-(0)441-798-2543 Fax:+49-(0)441-798-3201Files: ebs.shell.structure.pdf Date: 1975}
SOIF: Example
Kerstin Zimmermann, Universität Oldenburg
13
Harvest-Sources:
ftp://ftp.tardis.ed.ac.uk/pub/harvest/develop/snapshots/
More infos:
http://www.dissonline.org/harvest.html
Harvest Links
Kerstin Zimmermann, Universität Oldenburg
14
Port-Nummern• Harvest 8500
• Webserver http 80
• ftp 21 tcp
• telnet 23
• smtp (email) 25
• pop3 110
• time-server 123
Kerstin Zimmermann, Universität Oldenburg
15
Warum Harvest?
• dezentrales System
• heterogene Einträge
• plattformunabhängig
• Software public domain (-> Kostenersparnis)
• open sourcecode ( -> offene Schnittstellen)
Kerstin Zimmermann, Universität Oldenburg
16
Harvest Anleitung• indexierbare Formate
• Softwarelink
• Handbuch
• Installationshilfe
• Fehlerquellen
http://www.dissonline.org/harvest.html
Kerstin Zimmermann, Universität Oldenburg
17
Requirements for Harvest-Servers
Hardware:• fast processor (e.g. Sparc5...)• fast I/O• much MEMORY ( > 64 MB)• 1-2 GB free disk-space (sources take approx 25 MB)
Kerstin Zimmermann, Universität Oldenburg
18
Requirements for Harvest-Servers
Platforms:• DEC OSF/1 2.0 or newer• SunOS 4.1.x or newer• SunSolaris 2.3 or newer• HPUX• AIX 3.x or newer• Linux all Kernel from 1999 on...• ... beginning with Version 1.5 Harvest should run under all Unix-Platforms, but WindowsNT
Kerstin Zimmermann, Universität Oldenburg
19
Requirements for Harvest-Servers
Software:• Perl v4.0 or higher (v5.0 preferred)• gzip• tar• HTTP-Server (may be on remote machine)• GNU gcc v2.5.8 or higher• flex v2.4.7• bison v1.22
Kerstin Zimmermann, Universität Oldenburg
20
Installationrlogin
Password:
cp harvest-1.5.20.tar.gz
gunzip harvest-1.5.20.tar.gz
tar -xf harvest-1.5.20.tar
cd harvest-1.5.20
login on remote machine
type in and forget...
copy source...
uncompress sources
unpack sources
change into sources dir
Kerstin Zimmermann, Universität Oldenburg
21
Installation
RunHarvest
•Tuning:• Gatherer
• Editing the Gatherername.cf• Editing the RunGatherer and RunGatherd
• Broker• Editing the admin/Collection.conf• Editing the CGI-Files
Kerstin Zimmermann, Universität Oldenburg
22
Fehlermeldungen / -quellen
Broker findet nichts
-> Glimpse-Server läuft nicht
Gatherer tut nicht
-> port-Nummer belegt
Kerstin Zimmermann, Universität Oldenburg
23
Laufzeit und DatenmengenDFN-Netz 3 Doks pro Minute
Ladezeit vgl. Browser
indizieren [ms]
Speicherplatz 9 MB
PhysDis (Jan.‘00) 306 ‚echte‘ links
1475 Dokumente
112 Server
Gatherer 2h 4min
Kerstin Zimmermann, Universität Oldenburg
24
Kerstin Zimmermann, Universität Oldenburg
25
Suchergebnisse
Möglichkeiten
- Trefferlisten
- Link zum Index-file
- Link zum Volltext
(- Link zum Worttreffer im Text)
Kerstin Zimmermann, Universität Oldenburg
26
mit Metadaten
Kerstin Zimmermann, Universität Oldenburg
27
Zusammenfassung
geplante Suchdienststruktur
bundesweit / weltweit
Dissertation auf verschiedenen Servern
Suchdienste (Prototyp)
Harvest
technische Details
Installationshilfen
Kerstin Zimmermann, Universität Oldenburg
28
Diskussionspunkte• Suchtiefe
• Volltext gegenüber Metadaten und Abstrakt
• Integration alter Archive
• Zugriff
Anregungen, Kommentare