Michael Christen http://yacy.net SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy Einführung in die Installation eigener Suchmaschinen-Software mit YaCy SuMa-eV Praxis Workshop: YaCy Features Demo + hier zum Nachlesen im Anschluss zum mitmachen
16
Embed
Einführung in die Installation eigener Suchmaschinen ...€¦ · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy The
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Einführung in die Installationeigener Suchmaschinen-Software
mit YaCy
SuMa-eV Praxis Workshop: YaCy
Features Demo+
hier zum Nachlesen im Anschlusszum mitmachen
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
automatische Indexerneuerung, jeder Vorgang kann zeitgesteuert werdenSchedulerIndex-Erzeugung und Linkstrukturen visualisieren und editierenMonitoring
Suchappliance: Funktionsreichtum, einfach zu bedienen
Crawler
Harvester
Datenbankenkomfortabel
reichhaltig
produktions-reif
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
YaCy Application: retrieval, indexing, storage and search components overview
Se
arc
h
Inte
rfac
eD
atab
aseIn
de
xin
gCra
wle
r
YaCy Peer-to-Peer Network
Text Analysis
words
Double LinkCheck
StopwordsCheck
ReverseWord Index
@
URLCrawl Stack
links
URL ReferencesWordYaCy has an
integrated NoSQL Database. The
database stores a Reverse Word
Index, Metadata and the source
documents.
Depth = 0 Start-URL
Depth = 1
Depth = 2
Funktionsweise: Crawler und Indexierer
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
The YaCy Network: a distributed hash table
DHT-Store DHT-Read
This peer (as an example) fetches
some Web pages and distributes index
fragments to other peers.
YaCy peers store index fragments according to a ,folded‘ ordering on word-hashes and url-hashes in a distributed hash table (DHT). The index is distributed redundantly to save the index when some peers are not available. The redundancy also helps to increase search performance.
A peer which searches information can access directly peers holding the
corresponding index
Peer
Peer
Peer
Peer
PeerPeer
Peer
Peer
Funktionsweise: Peer-to-Peer Netzwerk
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
> curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type='text/xsl' href='/yacysearch.xsl' version='1.0'?><rss version="2.0" xmlns:yacy="http://www.yacy.net/" xmlns:opensearch="http://a9.com/-/spec/opensearch/1.1/"<!-- stark verkürztes Beispiel! --><item> <title>Friend of a Friend (FOAF) project</title> <link>http://www.foaf-project.org/</link> <pubDate>Fri, 23 May 2008 02:00:00 +0200</pubDate></item><item> <title>FOAF - Wikipedia</title> <link>http://de.wikipedia.org/wiki/FOAF</link> <pubDate>Tue, 08 Jan 2008 01:00:00 +0100</pubDate></item><item> <link>http://microformats.org/wiki/xfn-to-foaf</link> <pubDate>Fri, 09 May 2008 02:00:00 +0200</pubDate></item></rss>
Für Entwickler: Suchergebnisse per RSS oder JSON
Die Dublin-Core Datensätze passen perfekt auf das RSS Format. Die Suchergebnisausgabe von YaCy ist kompatibel mit dem Opensearch Standard
Als leichtgewichtige Alternative steht JSON als Exportformat für die Einbindung mit AJAX zur Verfügung.
Als Erweiterung von Opensearch werden Navigatoren ausgeliefert.
einfach integrierbar
Info über Opensearch Standard:http://www.opensearch.orgInfo über SRU Standard für Queries:http://www.loc.gov/standards/sru/specs/search-retrieve.html
<record> <dc:title><![CDATA[Alan Smithee]]></dc:title> <dc:identifier>http://de.wikipedia.org/wiki/Alan_Smithee</dc:identifier> <dc:description><![CDATA[Der als Filmregisseur oft genannte '''Alan Smithee''' ist ein Anagramm von „The Alias Men“.]]></dc:description> <dc:language>de</dc:language> <dc:date>2009-04-14T00:00:00Z</dc:date> <!-- date is in ISO 8601 --> </record> </surrogates>
Für Entwickler: Dateneingabe per XML (Dublin Core)
YaCy kann Dublin Core Medata XML Dateien als Eingabe für den Indexierer verarbeiten
Damit YaCy eine Dublin Core XML Datei verarbeitet, muss diese lediglich in einem Übergabeverzeichnis (DATA/SURROGATES/in/)abgespeichert werden.
einfach integrierbar
Info über Dublin Core Standard:http://dublincore.org/documents/dc-xml-guidelines/
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
•Download von http://yacy.net
•Auspacken, starten
•Administration über Webinterface
•Support
Installation
YaCy für Windows YaCy für Mac YaCy für Debian YaCy für Linux / generisch (tar.gz)
Packages: Je nach Betriebssystem den Anweisungen des Installers folgen, odertarball: tar.gz auspacken und Startscript starten
YaCy ist eine Webapplikation. Die gesamte Administration erfolgt über den Browser. Einfach http://localhost:8080im Browser öffnen. Dann den Use Case (P2P Websuche, Portal, Intranet) wählen und Index erstellen.
Bei Fragen und/oder Problemen einfach im Forum posten: http://forum.yacy.deEine gewisse Hilfe bietet auch das YaCy Wiki: http://wiki.yacy.deAnfragen für professionellen Support und kommerzielle Erweiterungenan Michael Christen, [email protected]
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Demo: Alert-Service für Nachrichten per RSS
Schritte:• RSS feeds mit dem RSS feed reader in YaCy importieren• jedes Feed kann individuell im Scheduler mit einer anderen Updatefrequenz versehen werden• Suchanfrage in Suchmaske eingeben und mit dem Schlüsselwort ,RECENT‘ ergänzen• Die URL Suchergebnisseite bearbeiten: filetype ,html‘ einfach durch ,rss‘ ersetzen• Diese URL kann dann in einem feed-reader als feed importiert werden und präsentiert dann
immer die aktuellen Nachrichten zu einem Topic
Ziel:• bestimmte Datenquellen regelmäßig in den Index ziehen• mit einer speziellen Suchabfrage einen RSS-Feed zu einem Topic als Ergebnis einer Suche
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Demo: Virtuelle Fachbibliothek aus OAI-PMH Import
Schritte:• OAI-PMH Importer wählen• alle Server-Adressen entweder einzeln angeben oder• alle Server-Adressen aus der Liste gleichzeitig anwählen und den Import starten
Vorbereitung:• OAI-PMH Server-Adressen der Einzelnen Bibliotheksquellen zu einem Fachgebiet sammeln,
oder• OAI-PMH Server-Adressen aus der in YaCy vorrätigen Liste auswählen (>2000 Quellen
verfügbar)
Ergebnis:• Die YaCy Portalsuche präsentiert eine Themensuche zu den ausgewählten Quellen• Autoren-Navigatoren sind verfügbar• Updates aus den Imports sind wie bei der Demo zu Alerts verfügbar• Die Suche kann sehr einfach über das Widget in andere Webseiten eingebunden werden