Søking på Internett
Forskar Svein ØlnesVestlandsforsking,Sogndal
Vestlandsforskingwww.vestforsk.no
Tema
• Informasjonssøk historisk• Søk på Internett – historisk tilbakeblikk
• Ulike typar søketenester• Kva er ein søkemotor?• Korleis fungerer ein søkemotor?• Søkemotor sett frå brukar og frå tenestetilbydar
– synlege vevtenester
• Kan vi stola på søkemotorane?– omfattar søkemotorane heile Internett?– Informasjonskvalitet, tiltru– annonsar, betalt indeksering, betalte søkeord
• Finst det andre søkemotorar enn Google?• Treng vi andre søkemotorar enn Google?
• Framtidsutsikter: Bruk av metadata, ”den semantisk veven”
• Praktiske tips og råd for betre søking
Vestlandsforskingwww.vestforsk.no
Informasjonssøk
• Computer-aided information search and retrieval– historie om lag like gammal som datamaskinene– første skikkelege gjennombrot på 50-talet i samband med søk
og erstatt av uttrykk i lovtekst– IR = Information Retrieval
• Før WWW har informasjonssøk særleg vore knytt til databasar og slik sett databasesøk– søk i strukturerte data
• Internett/WWW har endra dette ved søk i store, ustrukturerte datamengder
Vestlandsforskingwww.vestforsk.no
Internett-søk i eit historisk lynglimt
• I begynnelsen var.... Archie– utvikla i 1990 av Alan Emtage, pga. Unix-konvensjonar vart ’Archives’ til ’Archie’...
– pre-web søkemotor (ftp)
• The World Wide Web Wanderer (Wandex) – den første søkeroboten på web’en
• Galaxy (1994), den første internett-katalogen
• Excite (1993)
• WebCrawler (1994) – første fulltekstindeksering av web
• Yahoo! (1994)
• 10 år med internett-søk har vist at det skjer raske endringar og mange søketenester har relativt kort levetid. Yahoo! er ein av få tenester som har vore med heile tida
• AltaVista var ei viktig teneste fram til slutten av 90-talet. På berre ca. eit halvt år forsvant den nesten heilt då Google tok over
Vestlandsforskingwww.vestforsk.no
Ulike typar søketenester
• Katalog– menneskeskapt hierarkisk database over nettressursar (Yahoo, Open
Directory, LookSmart, Kvasir)
• Søkemotor– robot, database, brukargrensesnitt mot database
(Google, AltaVista, Teoma, Kvasir...)– same søkemotor kan vera motor i ulike tenester (Google blir brukt i Yahoo,
AOL, Kvasir...) – outsourcing av søk!
• Metasøkemotor– søkemotor som brukar andre søkemotorar som kjelde, parallellsøk i mange
underliggjande basarHotBot, Queryster, DogPile, Excite, MetaCrawler, Mamma
• I praksis er i dag dei fleste søketenester ein kombinasjon av katalog og søkemotor
Vestlandsforskingwww.vestforsk.no
Kva er ein søkemotor (1)
• I Søkerobot (crawler, bot, spider, vevkjerring)– program som følgjer lenker på veven og kopierer informasjon (tekst) inn i den
sentrale databasen
• II Database– informasjonen samla av roboten blir lagra i ein data-base med ein del
tilleggsinfo– indekseringa i etterkant av informasjonsinnhenting inneber m.a. statistikk over
ord, plassering av ord i teksten, analyse av lenker m.m.
• III Søkegrensesnitt– brukaren sin interaksjon med søkemotoren– enkelt søkefelt eller grensesnitt for avansert søk
Vestlandsforskingwww.vestforsk.no
Søkemotor: Søkerobot
• Søkerobot– ikkje ein, men mange robotar (program) som traverserer nettet
og hentar inn informasjon– ei teneste som Google vil vanlegvis indeksera ei vevteneste ein
gang i månaden– søkeroboten les vevsider som ein ”primitiv” tekstbasert nettlesar
Vestlandsforskingwww.vestforsk.no
Søkemotor: Database
• Database– full HTML-kopi av alle sider (repository)– dokument-indeks: informasjon om enkeltsider– leksikon– treff-lister (hit lists): førekomstar av ord i eit dokument
Vestlandsforskingwww.vestforsk.no
Søkemotor: Søkegrensesnitt
• Søkegrensesnitt– Søkeboks for enkle søk– Avansert søk med hjelp til avgrensing– Problem:
• Ingen standard for søk i søkemotorar– korleis fungerer søket ”epler pærer” i Google?
(finsk undersøking viste at > 60% av brukarane tok feil)• Variabel støtte for Boolsk logikk (AND, OR, NOT)
– For meir informasjon om oppbygging av ein søkemotor, les”The Anatomy of a Large-Scale Hypertextual Web Search Engine” av Larry Page og
Sergey Brink (grunnleggjarane av Google)
Vestlandsforskingwww.vestforsk.no
Synlege vevtenester (1)
• For sluttbrukar er søkegrensesnittet den synlege delen av søkemotoren
• For tenestetilbydar er søkeroboten den viktigaste delen– søkerobotar les vevsider som ”primitive” nettlesarar– http://www.delorie.com/web/lynxview.html for å sjå korleis
søkemotoren les sidene– eksempel på usynleg side: www.kjornes.no/start.htm
Vestlandsforskingwww.vestforsk.no
Synlege vevtenester (2)
• Noko av det som kan skapa problem for søkerobotar:– Dynamisk genererte sider (database-baserte tenester)– Java på klientsida– Javascript– Flash– Rammer (frames)
• Dersom det er viktig for deg at nettsida er synleg på nettet: bruk enkel teknologi!– tilby i det minste eit nettstadskart som roboten kan bruka som
utgangspunkt for indeksering
Vestlandsforskingwww.vestforsk.no
Kan vi stola på søkemotorane? - Omfang
• Søkemotorar dekkar ikkje heile veven– stor usynleg del av nettet (deep web)
• informasjon i databasar• lukka område
• veven mindre samanvevdenn før trudd
• ”Sløyfe-teorien” – Bow Tie
• Graph Structure of the WebBroder, Kumar et al. (AltaVista, IBM og Compaq)
Vestlandsforskingwww.vestforsk.no
Kan vi stola på søkemotorane? - Omfang
• Stor, usynleg del av veven– > 500 milliardar vevsider– Google indekserer 4 mrd sider (mindre enn 1 prosent!)
• Ikkje all informasjon på store nettstader blir indeksert; ofte berre 3-4 nivå
• Teknologiske problem for indeksering
• Kor ofte blir sider indeksert (og nye nettstader indeksert for første gang)?
Vestlandsforskingwww.vestforsk.no
Søkemotorar: Relevans
• To viktige omgrep når det gjeld søking:– Precision
• er søkeresultatet relevant for søket?• kjem dei mest relevante resultata først i resultatsettet?• kor bra er tenesta til å sortera ut irrelevante dokument?
– Recall• kor mange av dei relevante dokumenta finn du?• kan ikkje kontrollerast (dersom vi visste dette, trengde vi ingen søkemotor!)
– I praksis er det ikkje skarpt skilje mellom desse to omgrepa. Som eksempel kan nemnast eit standard søk på Google; etter kvart som ein blar fram side etter side med resultat, vil recall auka og presisjon minka
– TREC (Text REtrieval Conference – initiert av National Institute of Standards and Technology (NIST) er eit viktig forum for forsking innanfor området
– Eksempel:• Du søker etter info om strutseoppdrett. Det finst 20 relevante dok om temaet. Du finn 16 dok
og av desse er 10 relevantePrecision = 62% (10/16) og Recall = 50% (10/20)
Vestlandsforskingwww.vestforsk.no
Kan vi stola på søkemotorane? - Tiltru
• Kven står bak informasjonen?– autoritativ kjelde?– kommersiell aktør?– privatperson?– ingen opplysning?– referansar?– oppdatering?
• Er informasjonen– ekte?– uavhengig?– objektiv?– inngir tillit?
Vestlandsforskingwww.vestforsk.no
Kan vi stola på søkemotorane? - Betaling
• Sponsing/reklame– Betaling for å bli vist ved visse ord - Paid listing/paid
placement/pay per click• FTC – Federal Trade Commission – innførte i 2002 tilrådingar for
søketenester for å skilja klart mellom betalt og ikkje-betalt innhald
• Betalt indeksering (paid inclusion)– Garanti for å bli indeksert, men ikkje for å bli synleg (i prinsippet)
• Søkemotorane tek store sjansar om dei blandar saman ikkje-betalt innhald (”redaksjonelt stoff”) og betalt (”annonsar”). På lang sikt livsfarleg for tilliten.
Vestlandsforskingwww.vestforsk.no
Finst det andre søkemotorar enn Google?
• Fort å sjå seg blind på ein dominerande aktør som Google– bør stadig prøva ut andre søkemotorar – nisjesøk
• dersom du søker etter offentleg informasjon i Norge, bør norge.no vera ein betre søkemotor enn Google (men ikkje heilt sikker på at den er det...)
• Kvasir er avgrensa til .no-domenet og bør slik sett kunna gi betre resultat enn ei meir omfattande teneste (i realiteten er det Google som leverer søkeresultat til Kvasir; skilnaden blir emnekatalogen Kvasir har bygt opp)
• Startsiden.no tilbyr søk i Google, Kvasir, AltaVista, Yahoo! og Alltheweb (som no er ein del av Yahoo!)
• Google har i dag ein for dominerande rolle sidan den også blir brukt som motor for mange av dei viktigaste konkurrentane
• Meir informasjon:– Search Engines and controversy:
http://www.firstmonday.dk/issues/issue9_1/gerhart/
Vestlandsforskingwww.vestforsk.no
Mest brukte søkemotorar (januar 2004)
GG = Google
YH = Yahoo
MSN = Microsoft
AOL = America Online
AJ = Ask Jeeves
Panel på meir enn
60 000 brukarar i USA
Vestlandsforskingwww.vestforsk.no
Kva for ein søkemotor?
• Same søkemotoren kan vera brukt på mange søketenester:– Google er også søkemotor for tenester som
• Yahoo! (heilt fram til årsskiftet)• AOL (America Online)• Kvasir (Scandinavia Online – SOL)
– Yahoo! har gjennom oppkjøp følgjande søkemotorar:• Inktomi• AltaVista• AlltheWeb (FAST)• gjennom Inktomi gir dei søkeresultat for MSN (Microsoft)
Vestlandsforskingwww.vestforsk.no
Treng vi andre søkemotorar enn Google?
• Kontroll av søk er ein sterk maktfaktor på nettet; søk er den viktigaste måten å finna ny informasjon
• Søkemotorane opererer tilslørt: – vi veit ikkje korleis dei vektlegg informasjon– vi veit ikkje kva kriteria dei brukar for utval– vi veit ikkje om det skjer manipulering av informasjon– kort sagt: vi veit svært lite om korleis dei opererer
• Sjå opp for ”Nye Yahoo!” – dei vil truleg bli ein hardare konkurrent for Google
Vestlandsforskingwww.vestforsk.no
Misbruk av søkemotorar
• Pornoindustrien har vore og er den største utfordraren for søkemotorar– stadig nye, ”innovative” løysingar for å lura søkemotorane– ulike kampanjar blir førte ved hjelp av (misbruk av) søkemotorar;
t.d. ”Google bombing”• eks.: søk på ”miserable failure” i Google
• Misbruk av søkemotorar kan føra til svartelisting/utestenging– ingen klare reglar, men visse generelle tilrådingar for å unngå
dette– ”skriv for folk, ikkje for søkemotorar” er den mest
generelle tilrådinga
Vestlandsforskingwww.vestforsk.no
Framtida for internett-søk
• Søketenester på Internett vil fortsatt bli viktig framover• Etter kvart som e-handel tek av, vil søk knytt til dette blir
viktigare• Lokale søk, personalisering• Oppkjøp og konsolidering; søkeindustrien har vore
gjennom ei tid med mange oppkjøp og reduksjon av aktørar; eit spenningsmoment er kva Microsoft vel å gjera på søkeområdet (kjøpa Google eller utvikla eigen søketeknologi?)
• Ein stadig større del av veven er basert på XML; det kan gi gevinstar for søk i framtida
Vestlandsforskingwww.vestforsk.no
Den semantiske veven
• Søkemotorar er trass i imponerande resultat på søk nokså ”primitive”; det er stort sett tal (statistikk) det handlar om
• Søkemotorane forstår ikkje kva søket gjeld – du vil vanskeleg få svar på søk av typen ”kor mange av Ibsens verk har vore utgangspunkt for film?”
• ”Den semantiske veven” er eit Internett der informasjonen blir forstått [av maskiner]– Viktige initiativ:
• RDF – Resource Description Framework• Topic Maps - emnekart
Vestlandsforskingwww.vestforsk.no
Praktiske råd ved søk (1)
• Installer søke-verktøylinje! (aukar bindinga til søkemotoren, men likevel veldig praktisk)
• Finn ut korleis søkemotoren fungerer (boolske operatorar, søkespråket generelt)
• For mange treff/for lite relevante treff(myte: søkemotorane er ubrukelege fordi dei returnerer så mange treff – det spelar ingen rolle kor mange treff dei returnerer, berre dei første treffa er relevante nok!)– innsnevring (i Google ved å leggja til fleire søkeord, eller ”søk innafor treff”)
• For få treff:– utvid søket ved å ta bort søkeord eller brukar andre uttrykk
Vestlandsforskingwww.vestforsk.no
Praktiske råd ved søk (2)
• Bruk utvida søk/avansert søk(undersøkingar viser at berre 2-3% av brukarane nyttar avansert søk! ”Avansert søk” er dessutan heilt misvisande; det er det enkle søket som er avansert, ”avansert søk” er heller ”søk med støttehjul”)
• For lettare utnytting av avanserte funksjonar: sjekk ut www.soople.com – nytt grensesnitt mot Google
• Bruk av søkefeltet som kalkulator
• Fleire tips:– Google Guide: http://www.googleguide.com/
Vestlandsforskingwww.vestforsk.no
Analyse av resultat-treff, Google
1. URL til treffside,presentert med innhaldet iHTML-elementet <title>
2. Tekst henta frå sida,nær søkeordet/-uttrykket
3. Tekst henta frå HTML-elementet 'Description',dersom utfylt
4. Kategoriseringa i emne-katalog, dersom det finstei oppføring
5. URL, størrelse på sideog sist indeksert
6. Googles kopi av sidasist den vart indeksert
7. Liknande sider (forslagfrå Google)
Vestlandsforskingwww.vestforsk.no
Meir informasjon
• SearchEngineWatch – www.searchenginewatch.com• www.notess.com / SearchEngineShowedown• www.highrankings.com – Highrankings.com, mest for søkemotor-
optimalisering [SEO]• www.extremesearcher.com
• TREC – Text REtrieval Conferensehttp://trec.nist.gov (TREC 2004: 16.-19. nov., USA)
• ACM Special Interest Group on Information Retrieval (SIGIR)• Search Engine Meeting (årleg konferanse)
– SEM 2004 arr. i Haag, Nederland, 19. og 20. april)
• Google Papers - http://labs.google.com/papers.html