Top Banner
Søking på Internett Forskar Svein Ølnes Vestlandsforsking, Sogndal
27

Søking på Internett

Jan 22, 2016

Download

Documents

Deo

Søking på Internett. Forskar Svein Ølnes Vestlandsforsking, Sogndal. Tema. Informasjonssøk historisk Søk på Internett – historisk tilbakeblikk Ulike typar søketenester Kva er ein søkemotor? Korleis fungerer ein søkemotor? Søkemotor sett frå brukar og frå tenestetilbydar - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Søking på Internett

Søking på Internett

Forskar Svein ØlnesVestlandsforsking,Sogndal

Page 2: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Tema

• Informasjonssøk historisk• Søk på Internett – historisk tilbakeblikk

• Ulike typar søketenester• Kva er ein søkemotor?• Korleis fungerer ein søkemotor?• Søkemotor sett frå brukar og frå tenestetilbydar

– synlege vevtenester

• Kan vi stola på søkemotorane?– omfattar søkemotorane heile Internett?– Informasjonskvalitet, tiltru– annonsar, betalt indeksering, betalte søkeord

• Finst det andre søkemotorar enn Google?• Treng vi andre søkemotorar enn Google?

• Framtidsutsikter: Bruk av metadata, ”den semantisk veven”

• Praktiske tips og råd for betre søking

Page 3: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Informasjonssøk

• Computer-aided information search and retrieval– historie om lag like gammal som datamaskinene– første skikkelege gjennombrot på 50-talet i samband med søk

og erstatt av uttrykk i lovtekst– IR = Information Retrieval

• Før WWW har informasjonssøk særleg vore knytt til databasar og slik sett databasesøk– søk i strukturerte data

• Internett/WWW har endra dette ved søk i store, ustrukturerte datamengder

Page 4: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Internett-søk i eit historisk lynglimt

• I begynnelsen var.... Archie– utvikla i 1990 av Alan Emtage, pga. Unix-konvensjonar vart ’Archives’ til ’Archie’...

– pre-web søkemotor (ftp)

• The World Wide Web Wanderer (Wandex) – den første søkeroboten på web’en

• Galaxy (1994), den første internett-katalogen

• Excite (1993)

• WebCrawler (1994) – første fulltekstindeksering av web

• Yahoo! (1994)

• 10 år med internett-søk har vist at det skjer raske endringar og mange søketenester har relativt kort levetid. Yahoo! er ein av få tenester som har vore med heile tida

• AltaVista var ei viktig teneste fram til slutten av 90-talet. På berre ca. eit halvt år forsvant den nesten heilt då Google tok over

Page 5: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Ulike typar søketenester

• Katalog– menneskeskapt hierarkisk database over nettressursar (Yahoo, Open

Directory, LookSmart, Kvasir)

• Søkemotor– robot, database, brukargrensesnitt mot database

(Google, AltaVista, Teoma, Kvasir...)– same søkemotor kan vera motor i ulike tenester (Google blir brukt i Yahoo,

AOL, Kvasir...) – outsourcing av søk!

• Metasøkemotor– søkemotor som brukar andre søkemotorar som kjelde, parallellsøk i mange

underliggjande basarHotBot, Queryster, DogPile, Excite, MetaCrawler, Mamma

• I praksis er i dag dei fleste søketenester ein kombinasjon av katalog og søkemotor

Page 6: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Kva er ein søkemotor (1)

• I Søkerobot (crawler, bot, spider, vevkjerring)– program som følgjer lenker på veven og kopierer informasjon (tekst) inn i den

sentrale databasen

• II Database– informasjonen samla av roboten blir lagra i ein data-base med ein del

tilleggsinfo– indekseringa i etterkant av informasjonsinnhenting inneber m.a. statistikk over

ord, plassering av ord i teksten, analyse av lenker m.m.

• III Søkegrensesnitt– brukaren sin interaksjon med søkemotoren– enkelt søkefelt eller grensesnitt for avansert søk

Page 7: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Søkemotor: Søkerobot

• Søkerobot– ikkje ein, men mange robotar (program) som traverserer nettet

og hentar inn informasjon– ei teneste som Google vil vanlegvis indeksera ei vevteneste ein

gang i månaden– søkeroboten les vevsider som ein ”primitiv” tekstbasert nettlesar

Page 8: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Søkemotor: Database

• Database– full HTML-kopi av alle sider (repository)– dokument-indeks: informasjon om enkeltsider– leksikon– treff-lister (hit lists): førekomstar av ord i eit dokument

Page 9: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Søkemotor: Søkegrensesnitt

• Søkegrensesnitt– Søkeboks for enkle søk– Avansert søk med hjelp til avgrensing– Problem:

• Ingen standard for søk i søkemotorar– korleis fungerer søket ”epler pærer” i Google?

(finsk undersøking viste at > 60% av brukarane tok feil)• Variabel støtte for Boolsk logikk (AND, OR, NOT)

– For meir informasjon om oppbygging av ein søkemotor, les”The Anatomy of a Large-Scale Hypertextual Web Search Engine” av Larry Page og

Sergey Brink (grunnleggjarane av Google)

Page 10: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Synlege vevtenester (1)

• For sluttbrukar er søkegrensesnittet den synlege delen av søkemotoren

• For tenestetilbydar er søkeroboten den viktigaste delen– søkerobotar les vevsider som ”primitive” nettlesarar– http://www.delorie.com/web/lynxview.html for å sjå korleis

søkemotoren les sidene– eksempel på usynleg side: www.kjornes.no/start.htm

Page 11: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Synlege vevtenester (2)

• Noko av det som kan skapa problem for søkerobotar:– Dynamisk genererte sider (database-baserte tenester)– Java på klientsida– Javascript– Flash– Rammer (frames)

• Dersom det er viktig for deg at nettsida er synleg på nettet: bruk enkel teknologi!– tilby i det minste eit nettstadskart som roboten kan bruka som

utgangspunkt for indeksering

Page 12: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Kan vi stola på søkemotorane? - Omfang

• Søkemotorar dekkar ikkje heile veven– stor usynleg del av nettet (deep web)

• informasjon i databasar• lukka område

• veven mindre samanvevdenn før trudd

• ”Sløyfe-teorien” – Bow Tie

• Graph Structure of the WebBroder, Kumar et al. (AltaVista, IBM og Compaq)

Page 13: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Kan vi stola på søkemotorane? - Omfang

• Stor, usynleg del av veven– > 500 milliardar vevsider– Google indekserer 4 mrd sider (mindre enn 1 prosent!)

• Ikkje all informasjon på store nettstader blir indeksert; ofte berre 3-4 nivå

• Teknologiske problem for indeksering

• Kor ofte blir sider indeksert (og nye nettstader indeksert for første gang)?

Page 14: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Søkemotorar: Relevans

• To viktige omgrep når det gjeld søking:– Precision

• er søkeresultatet relevant for søket?• kjem dei mest relevante resultata først i resultatsettet?• kor bra er tenesta til å sortera ut irrelevante dokument?

– Recall• kor mange av dei relevante dokumenta finn du?• kan ikkje kontrollerast (dersom vi visste dette, trengde vi ingen søkemotor!)

– I praksis er det ikkje skarpt skilje mellom desse to omgrepa. Som eksempel kan nemnast eit standard søk på Google; etter kvart som ein blar fram side etter side med resultat, vil recall auka og presisjon minka

– TREC (Text REtrieval Conference – initiert av National Institute of Standards and Technology (NIST) er eit viktig forum for forsking innanfor området

– Eksempel:• Du søker etter info om strutseoppdrett. Det finst 20 relevante dok om temaet. Du finn 16 dok

og av desse er 10 relevantePrecision = 62% (10/16) og Recall = 50% (10/20)

Page 15: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Kan vi stola på søkemotorane? - Tiltru

• Kven står bak informasjonen?– autoritativ kjelde?– kommersiell aktør?– privatperson?– ingen opplysning?– referansar?– oppdatering?

• Er informasjonen– ekte?– uavhengig?– objektiv?– inngir tillit?

Page 16: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Kan vi stola på søkemotorane? - Betaling

• Sponsing/reklame– Betaling for å bli vist ved visse ord - Paid listing/paid

placement/pay per click• FTC – Federal Trade Commission – innførte i 2002 tilrådingar for

søketenester for å skilja klart mellom betalt og ikkje-betalt innhald

• Betalt indeksering (paid inclusion)– Garanti for å bli indeksert, men ikkje for å bli synleg (i prinsippet)

• Søkemotorane tek store sjansar om dei blandar saman ikkje-betalt innhald (”redaksjonelt stoff”) og betalt (”annonsar”). På lang sikt livsfarleg for tilliten.

Page 17: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Finst det andre søkemotorar enn Google?

• Fort å sjå seg blind på ein dominerande aktør som Google– bør stadig prøva ut andre søkemotorar – nisjesøk

• dersom du søker etter offentleg informasjon i Norge, bør norge.no vera ein betre søkemotor enn Google (men ikkje heilt sikker på at den er det...)

• Kvasir er avgrensa til .no-domenet og bør slik sett kunna gi betre resultat enn ei meir omfattande teneste (i realiteten er det Google som leverer søkeresultat til Kvasir; skilnaden blir emnekatalogen Kvasir har bygt opp)

• Startsiden.no tilbyr søk i Google, Kvasir, AltaVista, Yahoo! og Alltheweb (som no er ein del av Yahoo!)

• Google har i dag ein for dominerande rolle sidan den også blir brukt som motor for mange av dei viktigaste konkurrentane

• Meir informasjon:– Search Engines and controversy:

http://www.firstmonday.dk/issues/issue9_1/gerhart/

Page 18: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Mest brukte søkemotorar (januar 2004)

GG = Google

YH = Yahoo

MSN = Microsoft

AOL = America Online

AJ = Ask Jeeves

Panel på meir enn

60 000 brukarar i USA

Page 19: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Kva for ein søkemotor?

• Same søkemotoren kan vera brukt på mange søketenester:– Google er også søkemotor for tenester som

• Yahoo! (heilt fram til årsskiftet)• AOL (America Online)• Kvasir (Scandinavia Online – SOL)

– Yahoo! har gjennom oppkjøp følgjande søkemotorar:• Inktomi• AltaVista• AlltheWeb (FAST)• gjennom Inktomi gir dei søkeresultat for MSN (Microsoft)

Page 20: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Treng vi andre søkemotorar enn Google?

• Kontroll av søk er ein sterk maktfaktor på nettet; søk er den viktigaste måten å finna ny informasjon

• Søkemotorane opererer tilslørt: – vi veit ikkje korleis dei vektlegg informasjon– vi veit ikkje kva kriteria dei brukar for utval– vi veit ikkje om det skjer manipulering av informasjon– kort sagt: vi veit svært lite om korleis dei opererer

• Sjå opp for ”Nye Yahoo!” – dei vil truleg bli ein hardare konkurrent for Google

Page 21: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Misbruk av søkemotorar

• Pornoindustrien har vore og er den største utfordraren for søkemotorar– stadig nye, ”innovative” løysingar for å lura søkemotorane– ulike kampanjar blir førte ved hjelp av (misbruk av) søkemotorar;

t.d. ”Google bombing”• eks.: søk på ”miserable failure” i Google

• Misbruk av søkemotorar kan føra til svartelisting/utestenging– ingen klare reglar, men visse generelle tilrådingar for å unngå

dette– ”skriv for folk, ikkje for søkemotorar” er den mest

generelle tilrådinga

Page 22: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Framtida for internett-søk

• Søketenester på Internett vil fortsatt bli viktig framover• Etter kvart som e-handel tek av, vil søk knytt til dette blir

viktigare• Lokale søk, personalisering• Oppkjøp og konsolidering; søkeindustrien har vore

gjennom ei tid med mange oppkjøp og reduksjon av aktørar; eit spenningsmoment er kva Microsoft vel å gjera på søkeområdet (kjøpa Google eller utvikla eigen søketeknologi?)

• Ein stadig større del av veven er basert på XML; det kan gi gevinstar for søk i framtida

Page 23: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Den semantiske veven

• Søkemotorar er trass i imponerande resultat på søk nokså ”primitive”; det er stort sett tal (statistikk) det handlar om

• Søkemotorane forstår ikkje kva søket gjeld – du vil vanskeleg få svar på søk av typen ”kor mange av Ibsens verk har vore utgangspunkt for film?”

• ”Den semantiske veven” er eit Internett der informasjonen blir forstått [av maskiner]– Viktige initiativ:

• RDF – Resource Description Framework• Topic Maps - emnekart

Page 24: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Praktiske råd ved søk (1)

• Installer søke-verktøylinje! (aukar bindinga til søkemotoren, men likevel veldig praktisk)

• Finn ut korleis søkemotoren fungerer (boolske operatorar, søkespråket generelt)

• For mange treff/for lite relevante treff(myte: søkemotorane er ubrukelege fordi dei returnerer så mange treff – det spelar ingen rolle kor mange treff dei returnerer, berre dei første treffa er relevante nok!)– innsnevring (i Google ved å leggja til fleire søkeord, eller ”søk innafor treff”)

• For få treff:– utvid søket ved å ta bort søkeord eller brukar andre uttrykk

Page 25: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Praktiske råd ved søk (2)

• Bruk utvida søk/avansert søk(undersøkingar viser at berre 2-3% av brukarane nyttar avansert søk! ”Avansert søk” er dessutan heilt misvisande; det er det enkle søket som er avansert, ”avansert søk” er heller ”søk med støttehjul”)

• For lettare utnytting av avanserte funksjonar: sjekk ut www.soople.com – nytt grensesnitt mot Google

• Bruk av søkefeltet som kalkulator

• Fleire tips:– Google Guide: http://www.googleguide.com/

Page 26: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Analyse av resultat-treff, Google

1. URL til treffside,presentert med innhaldet iHTML-elementet <title>

2. Tekst henta frå sida,nær søkeordet/-uttrykket

3. Tekst henta frå HTML-elementet 'Description',dersom utfylt

4. Kategoriseringa i emne-katalog, dersom det finstei oppføring

5. URL, størrelse på sideog sist indeksert

6. Googles kopi av sidasist den vart indeksert

7. Liknande sider (forslagfrå Google)

Page 27: Søking på Internett

Vestlandsforskingwww.vestforsk.no

Meir informasjon

• SearchEngineWatch – www.searchenginewatch.com• www.notess.com / SearchEngineShowedown• www.highrankings.com – Highrankings.com, mest for søkemotor-

optimalisering [SEO]• www.extremesearcher.com

• TREC – Text REtrieval Conferensehttp://trec.nist.gov (TREC 2004: 16.-19. nov., USA)

• ACM Special Interest Group on Information Retrieval (SIGIR)• Search Engine Meeting (årleg konferanse)

– SEM 2004 arr. i Haag, Nederland, 19. og 20. april)

• Google Papers - http://labs.google.com/papers.html