Top Banner
Dr. Sabin Buragawww.purl.org/net/busaco Dezvoltarea aplicațiilor Web la nivel de client (re)găsirea resurselor Web de la motoare de căutare și SEO la date structurate
198

CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Mar 20, 2017

Download

Software

Sabin Buraga
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Dezvoltarea aplicațiilor Webla nivel de client

(re)găsirea resurselor Web

de la motoare de căutare și SEO la date structurate

Page 2: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

“A well-defined problem is half solved.”

Michael Osborne

Page 3: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum prezentăm conținutulaltor clienți – diferiți de cei umani?

Page 4: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Am putea recurge la extragerea automatăa datelor expuse pe Web?

Page 5: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Roboți

programe ce traversează automat Web-ul,cu scopul de a extrage date

spiders, crawlers, Web bots

Page 6: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Roboți

programe ce traversează automat Web-ul,cu scopul de a extrage date

robot Web navigator Web

Page 7: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Roboți

pornind de la un URI, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumite

acțiuni privitoare la reprezentarea unei resurse și,recursiv, din toate documentele desemnate de

legăturile existente în cadrul reprezentării

Page 8: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Roboți

pornind de la un URI, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumite

acțiuni privitoare la reprezentarea unei resurse și,recursiv, din toate documentele desemnate de

legăturile existente în cadrul reprezentării

acțiuni: extragere, copiere, sumarizare,agregare de conținut, monitorizare etc.

Page 9: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: pericole

Operarea în foc rapid (rapid-fire)

trafic de rețea

supraîncărcarea serverelor Webdenial of service

Page 10: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: pericole

Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare

Page 11: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: pericole

Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare

necesitatea specificării timpului de revizitare a situluide către robotul Web

<meta name="Revisit-After" content="30 Days" />

Page 12: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: pericole

Exploatarea (ne)controlată de către utilizatori

atacuri „brute”

Page 13: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: pericole

Intrarea în „găurile negre”

Page 14: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: pericole

Accesarea unor date nerelevante

Page 15: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

uzual, va fi folosit câmpul User-Agent

din antetul unei cereri HTTP

Page 16: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

19539 de roboți Web – statistica din 2013Alexa (7004), Bing/MSN (100), Facebook (60),

Googlebot (6085), Twitter (84) + neidentificați (374730) conform www.botsvsbrowsers.com

search engines51%

scrapers8%

hacking tools7%

spammers1%

others33%

Page 17: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

roboți personali(e.g., motoare experimentale, software de oglindire)

BackRub (pre-Google)wget – http://www.gnu.org/software/wget/

etc.

Page 18: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

roboți ai motoarelor de căutare majore

Baiduspider – www.baidu.com/search/spider.html

bingbot – www.bing.com/bingbot.htm

Googlebot – www.google.com/bot.html

Slurp – http://help.yahoo.com/help/us/ysearch/slurp

YandexBot – yandex.com/bots

Page 19: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

roboți: identificare

Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)

roboți specializați(e.g., validarea codului HTML, scurtarea lungimii

URL-urilor, scanare de vulnerabilități, statistici,…)

exemplificări: citeseerxbot,Page2RSS, extensii Nagios, W3C Validator

Page 20: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

66.249.65.173 - - [09/Nov/2015:11:26:31 +0200] "GET /~introp/ HTTP/1.1" 304 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

93.158.178.188 - - [09/Nov/2015:11:25:08 +0200] "GET /~adria/...pdf HTTP/1.1" 200 198738 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

66.249.65.70 - - [09/Nov/2015:11:22:06 +0200] "GET /~busaco/teach/courses/cliw/ HTTP/1.1" 200 2120 "-" "Mozilla/5.0 (iPhone; …Safari/600.1.4 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

180.76.5.101 - - [09/Nov/2015:11:22:02 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

98.137.206.250 - - [09/Nov/2015:11:21:07 +0200] "GET /~busaco/ HTTP/1.1" 200 1907 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"

157.55.39.73 - - [09/Nov/2015:11:20:43 +0200] "GET /~webdata/…/OCT.pdf HTTP/1.1" 403220 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

208.115.111.71 - - [09/Nov/2015:11:20:42 +0200] "GET /%7Eorar/ HTTP/1.1" 200 12705 "-" "Mozilla/5.0 (DotBot/1.1; http://www.opensiteexplorer.org/dotbot, [email protected])"

63.249.66.212 - - [09/Nov/2015:11:14:55 +0200] "GET /~croitoru/ag/ HTTP/1.1" 200 2575 "-" "Mozilla/4.0 (compatible; MSIE 6.0; http://www.changedetection.com/bot.html)"

66.249.65.70 - - [09/Nov/2015:11:12:47 +0200] "GET /~busaco/paint/leaf/leaf-9.jpg HTTP/1.1" 304 - "-" "Googlebot-Image/1.0"

157.55.39.177 - - [09/Nov/2015:11:11:53 +0200] "GET /~lrc/ HTTP/1.1" 200 1914 "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"

136.243.9.23 - - [09/Nov/2015:09:40:35 +0200] "GET /~busaco/ HTTP/1.0" 200 1907 "-" "Mozilla/5.0 (… James BOT - WebCrawler http://cognitiveseo.com/bot.html"

cereri HTTP efectuate de diverși roboți Web(menționate în fișierul de jurnalizare Apache)

Page 21: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum putem „instrui” roboții Websă nu viziteze anumite zone ale sitului?

Page 22: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Orice robot trebuie să respectestandardul de excludere

Page 23: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Orice robot trebuie să respectestandardul de excludere

fișierul robots.txt

http://www.robotstxt.org/robotstxt.html

Page 24: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Orice robot trebuie să respectestandardul de excludere

fișierul robots.txt

# /robots.txt pentru http://www.info.uaic.ro User-agent: * # toți roboții Crawl-delay: 20 # 20 sec. între cereriDisallow: /tmp/ # date temporareDisallow: /xwiki/bin/xmlrpc/ # director privat

Page 25: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

de studiat câteva exemple reale de fișiere robots.txt:http://www.amazon.com/robots.txt

http://facebook.com/robots.txt

http://www.emag.ro/robots.txt

http://www.google.com/robots.txt

User-agent: *

Disallow: /user/*

Disallow: /addtocart*

Disallow: /proces_comanda

Disallow: /cart$

Disallow: /checkout

Disallow: /imagini/*

Disallow: /images/*

Disallow: /compare/*

Disallow: /mesaje

Disallow: /cat-*/pid-*/ord-*/p-*

Disallow: /adauga-review

Disallow: /adauga-intrebare

Disallow: /header-cart

Disallow: /header-wl

Disallow: /product_get_recommandations/*

Disallow: /widgets/track.json

Disallow: /get_back_to_search_url

Disallow: /search-tools/*

Disallow: /ajax_live_products

Disallow: /box_user_history

Disallow: /gr_box_bottom_landing/*

Disallow: /site_ajax_ads

User-agent: 008

Disallow: /

Page 26: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Orice robot trebuie să respectestandardul de excludere

evitarea indexării conținutului:

<meta name="robots" content="noindex, nofollow" />

Page 27: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Ce activități realizează un motor de căutare?

Page 28: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Scop:localizarea resurselor existente pe Web

Page 29: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Tipuri de căutări – maniera tradițională:

pe bază de indecși (crawling & indexing)

Lycos – 1994AltaVista – 1995

Page 30: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Tipuri de căutări – maniera tradițională:

pe baza ierarhiilor de termeni(servicii de tip catalog – topic directory, taxonomii)

Yahoo! – Yet Another Hierarchical Officious Oracle1994

Page 31: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Tipuri de căutări – maniera tradițională:

hibrideindecși + taxonomiiportal Web

Excite – 1994

Page 32: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Tipuri de căutări – maniera tradițională:

pe baza legăturilor hipertext(hyperlink analysis)

Google – 1996

Page 33: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Tipuri de căutări – maniera modernă:

pe baza datelor structurate(determinare și extragere de meta-date și concepte)

Microsoft Satori Entity EngineGoogle Knowledge Graph/Vault

Page 34: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Un motor de căutare trebuie să satisfacănevoia de informații a utilizatorului

(user information-seeking)

Page 35: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Preluarea + indexarea resurselor se pot realiza:

automat – via roboți Webmanual – recurgând la experți umani

hibrid

Page 36: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Preluarea și indexarea resurselor

strategii:natura datelor/relațiilor (data/relation mining)

detectarea subiectului conținutului (topic distillation)

meta-date – date descriind date (e.g., doar însemnări ca replici la alte mesaje)

căutare socială (tag-uri, anturaj, aplicații Web sociale)

context (e.g., localizare geografică, timp, dispozitiv)

profil al utilizatorului (e.g., istoric al căutărilor, preferințe lingvistice)

Page 37: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Caracteristici ale unui motor de căutare ideal

scop

căutarea oricărei resurse existente

Page 38: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Caracteristici ale unui motor de căutare ideal

viteză

rezultatele să fie disponibile imediat

direcție de interes major: real-time Web search

Page 39: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Caracteristici ale unui motor de căutare ideal

disponibilitate

actualizarea permanentă(orice modificare să fie indexată „instantaneu”)

Page 40: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Caracteristici ale unui motor de căutare ideal

recall

găsirea tuturor resurselor relevantepentru o cerere dată

Page 41: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Caracteristici ale unui motor de căutare ideal

precizie

rezultatul conține doar documente relevante

Page 42: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Caracteristici ale unui motor de căutare ideal

ranking

cele mai relevante documentesunt plasate primele

Page 43: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Care sunt principalele componenteale unui motor de căutare?

Page 44: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Robot Webextrage informații

Index (catalog)stochează – în mod persistent – (meta)date

despre resursele existente pe Web

Mecanism de evaluare (ranking)pe baza cererii utilizatorului, oferă răspunsuri

Page 45: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Diferențele dintre motoarele de căutare actualesunt date de fiecare componentă în parte

Page 46: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

structura generică a unui motor de căutare(Chakrabarti, 2003)

Page 47: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Activitatea generală a unui robot (crawler) simplu:

F = mulțimea de URL-uri de start (frontiera)cât-timp F este nevidăextrage un URL u din Fpreia pagina (resursa Web) p cu adresa udacă p este relevantăstochează p în indexpentru-fiecare legătură v din p

dacă v nu este în index și v nu aparține lui Fși v ar putea fi vizitată

adaugă v la F

Page 48: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Bazată pe învățare

data mining

(de exemplu, reinforcement learning)

vezi materia „Învățare automată”

Page 49: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Conținutul ce trebuie indexat nu e doar textual

hiper-informația:INFORMATION = HYPERINFO + TEXTINFO

dependența de legături

ordonarea legăturilor(alegerea unor criterii vizând importanța)

Page 50: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Robotul/motorul de căutare decide momentulrevizitării resursei care urmează a fi reindexată

sau doar verificată

Page 51: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Aspect de interes:

rezoluția adreselor Web(nume de domeniiadrese IP)

DNS caching, pre-fetching & resolution

Page 52: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Aspect de interes:

realizarea cererilor concurente

Page 53: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Aspect de interes:

extragerea legăturilor

e.g., normalizarea URI-urilor:www.InfoIasi.Ro:80www.info.uaic.ro

Page 54: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Aspect de interes:

eliminarea adreselor deja vizitate

evitarea „găurilor negre”

Page 55: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Aspect de interes:

monitorizarea accesărilor

load monitoring + managing(evitarea supra-solicitării serverelor Web)

Page 56: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: căutarea

Aspect de interes:

strategii de revizitare/reîmprospătarea conținutului resurselor Web

Page 57: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

optimizarea regăsirii

Page 58: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

optimizarea regăsirii

modele non-relaționale de stocare – „mișcarea” NoSQL

printre primele abordări: BigTable (Chang et al., 2006)http://labs.google.com/papers/bigtable.html

Page 59: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: indexarea

Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)

arhivarea datelor indexate

e.g., recurgerea la algoritmul de compresie bzip2(cazul Google)

Page 60: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum se realizează indexarea?

Page 61: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: indexarea

Utilizarea nu doar a datelor propriu-zise(conținutului textual), ci și a meta-datelor

e.g., limbă, cuvinte-cheie, autor, format,data ultimei actualizări,…

Page 62: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: indexarea

Indexare bazată pe cuvinte-cheierelevanță, plasament, meta-date,

data mining, procesarea limbajului natural,...

versus

indexare semantică – bazată pe conceptesocial tagging (folksonomy),

microformate, microdate HTML5, Web semantic (RDF, RDFa),...

Page 63: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: indexarea

O importanță mare o au: maniera de structurare a informației și„relația” unei pagini cu altele înrudite

Page 64: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Cererile sunt formulate via o interfață Web

Page 65: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Cererile sunt formulate via o interfață Web

unele motoare de căutare acceptăfolosirea unor operatori specifici

Page 66: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Cererile sunt formulate via o interfață Web

exemplificare: o parte dintre operatorii Google

"expresie" ~termen –termen

numar1 .. numar2 related: URL cache: URL

intitle: termen(i) intext: termen(i) inurl: termen(i)

link: URL site: domeniu info: domeniu

define: termen filetype: extensie unit1 in unit2

detalii la www.googleguide.com/advanced_operators_reference.html

Page 67: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

digital camera $700 .. 1400

~book

intitle:design –intitle:web

"burse de merit"

site:uaic.ro

inurl: art nouveau

allinurl: js library

16 cm in inch

related:www.w3.org

js mvc inanchor:slideshare

define:design

cache:http://devdocs.io/

map:predeal

firefox filetype:svg OR filetype:png

Page 68: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Interogările din prisma utilizatorului:

grad mare de subiectivitate

e.g., “miserable failure”

Page 69: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Interogările din prisma utilizatorului:

depind de contextul social/cultural

exemple:“pants” în UK versus US

“madonna and child”

Page 70: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Interogările din prisma utilizatorului:

dependente de scop

informațional (listă, locație, sfat)

navigațional

vizând accesarea resurselor(download, amuzament, interactivitate,…)

Page 71: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Remarci:

utilizatorii obișnuiți nu înțeleg limbajul logic – „booleana”

exemplu:“hotels located in Bucharest and Iasi”

Page 72: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Remarci:

interogările uzual sunt scurte (media: 2,6 cuvinte),dar focalizate – e.g., 25% pe business (conform Yahoo!)

vezi și http://labs.yahoo.com/publication/?area=web-mining-search

Page 73: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Remarci:

apar confuzii:URI vs. text,

lipsa spațiilor,vocabular

etc.

Page 74: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Remarci:

implicit, termenii de căutare trebuie să se regăseascăidentic în cadrul conținutului unui document Web

e.g., căutând “children”, nu vom obține neapărat și paginile care includ “kids”

motoare: interogarea

Page 75: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Interogări formulate în limbaj natural:

eliminarea ambiguităților (dezambiguizarea)

filtrarea cuvintelor nerelevante

expandarea interogării: sinonime, forme derivate,…

Page 76: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Evaluarea cererii – schema generală:1. Analizarea interogării (tokenizing)2. Căutarea în indecșii termenilor3. Scanarea documentelor4. Evaluarea relevanței paginilor5. Eliminarea duplicatelor + sortarea6. Afișarea primelor N documente relevante

(URI + alte informații)

Page 77: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Conținutul fiecărui document extraseste analizat și divizat în token-uri

Page 78: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Unele construcții se ignoră/constrâng

e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run”

procesare de bază a conținutului textual

Page 79: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Fiecărui token i se reține și poziția aparițieiîn document

poziția poate fi folosităla determinarea relevanței termenului

Page 80: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Criterii vizând calculul relevanței:

ranking bazat pe clasificare umană

resurse clasificate de oameni

Page 81: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Criterii vizând calculul relevanței:

ranking bazat pe informații privitoarela utilizarea unei resurse

timpul de vizită, periodicitatea vizitei,frecvența actualizării resursei, importanța relativă etc.

Page 82: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Criterii vizând calculul relevanței:

ranking bazat pe conectivitate

analiza relațiilor (legăturilor hipertext) cu alte pagini

eventual, în funcție de reputațiee.g., importanța domeniului Internet

(sunt luați în calcul factori ca vechimea, localizarea,…)

Page 83: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Calculul relevanței:

tehnici privind IR (Information Retrieval)

căutări bazate pe similaritate – similarity search

recurgând la învățare automată (machine learning)

clasificarea conținutului hipermedia

social network analysis – bibliometrie, prestigiu,…

Page 84: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Page Rank (Google)

evaluarea relevanței pe baza contextului de apariție

Page 85: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogareaPage Rank (Google)

exploatarea relațiilor dintre diferite pagini Web

www.google.com/insidesearch/howsearchworks/algorithms.html

Page 86: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Page Rank (Google)

recurgerea la tehnici adaptive, euristice

Page 87: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Page Rank (Google)

determinarea corelației dintre relevanța calculatăautomat de sistem și cea precizată (in)direct

de către utilizator

Page 88: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Page Rank (Google)(Larry Page & Sergey Brin, 1996 – doctorat la Stanford)

se baza inițial pe structura hipertext

o legătură de la pagina A la B reprezintăun vot dat paginii B de către A

cu cât un sit este mai important,cu atât page rank-ul asociat lui e mai mare

Page 89: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Alternative la Page Rank:

TrustRank (Friesen, 2007)

folosește domenii Web de încredere selectate de oameni

Page 90: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Alternative la Page Rank:

TrustRank (Friesen, 2007)

cu cât un sit e mai aproape (în termeni de legături Web)de siturile evaluate și considerate de încredere

de către oameni, cu atât va avea o importanță mai mare

vizează un sit (domeniu), nu o pagină Web

Page 91: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

motoare: interogarea

Alternative la Page Rank:

utilizarea tehnologiilor Web-ului semantic

se iau în considerație concepte (cunoștințe), nu cuvinte“things, not strings”

de vizionat prezentarea M. Lanthaler, “The Future of the Web– From Strings to Things” (2015) – https://vimeo.com/133137907

Page 92: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

timp strategie

înainte de 2000

conținut – indexarea textului(titlu, anteturi, URL, descriere via <meta>)

2000—2010conținutautoritate (via legături)

2010—prezent

conținutautoritatepersonalizare (social media + profil utiliz.)

2012—prezent

conținutautoritatepersonalizareconcepte (date-structurate + Web of data)context (localizare, timp, dispozitiv,…)

adaptare după (K. Bodnar & J. Hopkins, 2011)a se studia și www.slideshare.net/randfish/presentations

Page 93: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

generale Bing, DuckDuckGo, Google, Yahoo!, Volunia,…

regionaleBaidu (China), Daum (Coreea), Goo (Japonia),

Guruji (India), Rambler (Rusia) etc.

meta-căutare Dogpile, Excite, Mamma, Yippy

enterprise search Apache Solr, ElasticSearch, OpenSearchServer,…

răspunsuri(answer-based)

umane: Stack Overflow, Yahoo! Answers, Quora

automate: AskMeNow, Evi, Wolfram Alpha

news search BingNews, Daylife, Topix, Yahoo! News,…

hărți (maps) Nokia HERE, OpenStreetMap, WikiMapia etc.

cod-sursă Google Code Search, Koders, Krugle

căutare pe baza P2P FAROO, Seeks, YaCy

desktop search DocFetcher, Recoll, Tropes Zoom

pentru dezvoltatori: Apache Lucene, Apache Nutch, mnoGoSearch, Namazu, Xapian,…

API-uri: www.programmableweb.com/category/search

Page 94: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motoarele tind să „recompenseze” siturile:

de mari dimensiuni

cu viață lungă

specializate, de „nișă”

aparținând unor autorități de încredere

motoare: interogarea

Page 95: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

SERP (Search Engine Result Page)

specifică maniera de redare a rezultateloroferite de motorul de căutare

motoare: afișarea rezultatelor

Page 96: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

SERP (Search Engine Result Page)

se includ recomandări pe baza:preferințelor utilizatorului

istoricului căutărilorURL-urilor partajate via rețele sociale

meta-datelor (rich snippets)adnotărilor realizate de utilizatorilocalizării geografice (local search)

motoare: afișarea rezultatelor

Page 97: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

“At any one time you rank #1 or #8 or #40based on who is searching, where they search,

and what is happening.”

K. Bodnar & J. Hopkins, 2011

Page 98: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

(în loc de) pauză

Page 99: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum putem proiectamijloacele de căutare internă?

Page 100: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motor de căutare internă (la nivel de sit)

oferirea de sugestii utilizatorului

e.g., spelling suggestions,sinonime (car → automobile, truck,…)

Page 101: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motor de căutare internă (la nivel de sit)

sugestii de soluții

de exemplu, răspunsuri la cele mai frecvente întrebări

Page 102: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motor de căutare internă (la nivel de sit)

îmbunătățirea interacțiunii – utilizabilitatea

integrarea în designul general al sitului

tactici: oferirea unui următor pas de realizat(mai ales când nu există rezultate),

sugestii privind căutarea, exemple, rafinarea cererii etc.

Page 103: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motor de căutare internă (la nivel de sit)

în pagina de redare a rezultatelor, va fi afișată șiinterogarea inițială, cu posibilitatea modificării ei

oferirea a cel puțin N rezultate/pagină +indicarea numărului total de pagini de rezultate

sau încărcarea progresivă a următoarelor rezultate

Page 104: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motor de căutare internă (la nivel de sit)

calitatea rezultatelor oferite e dependentăși de modul de structurare a datelor

fiecare rezultat să includă informații utilefolosirea unui vocabular înțeles de către vizitator,

utilizarea unor tehnici de vizualizare intuitivă,facilitarea filtrării și sortării datelor etc.

Page 105: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Page 106: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Motor de căutare internă (la nivel de sit)

utilizatorul să aibă libertatea de a efectuaoricând o nouă interogare

evitarea „fundăturilor” – oferirea de ajutor, sugestii,…

Page 107: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum trebuie scris codul HTMLpentru a obține o relevanță bună a conținutului?

Page 108: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

SEO – Search Engine Optimization

suită de strategii de redactare a codului HTMLîn vederea obținerii unei relevanțe ridicate

a conținutului, astfel încât pagina/situl să fieregăsite în urma unei căutări specifice efectuate

cu un instrument de căutare

Page 109: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea codului-sursă a documentelor Web

Structurarea conținutului

Structurarea legăturilor cu alte pagini

Page 110: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea codului-sursă – SEO la nivel de pagină

documentul trebuie să fie bine-formatat

Page 111: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea codului-sursă – SEO la nivel de pagină

includerea de meta-date:în antet – elementul <meta />

conținut textual alternativ pentru imagini(<img alt="..." />), multimedia, legături (<a title="...">),

tabele (<table summary="...">) etc.

atașarea de meta-date externe via elementul <link />

Page 112: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea codului-sursă – SEO la nivel de pagină

a nu se folosi:cadre (frame-uri)

sauelemente învechite sau proprietare

(e.g., <blink> ori <marquee>)

Page 113: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea codului-sursă – SEO la nivel de pagină

conținutul primează (“content is king”)

alegerea judicioasă a cuvintelor-cheie în <meta>

criterii: relevanță, densitate, internaționalizare

o importanță majoră o are titlul paginii

Page 114: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea codului-sursă – SEO la nivel de pagină

situl trebuie actualizat periodic, frecvent

un criteriu important: timpul de încărcare

despre performanțaaplicațiilor Web

într-un curs viitor

Page 115: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea conținutului

codul trebuie structurat conform semnificației logicePOSH (Plain Old Semantic HTML)

Page 116: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea conținutului

conținutul relavant trebuie plasat ierarhicvia <h1>, <h2>,...

pentru HTML5, de utilizat noile elementevizând structura: <article>, <header>, <footer>, <nav> etc.

layout bazat pe CSS și nu pe marcaje tabelare

Page 117: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea conținutului

conținuturile multimedia binaretrebuie să aibă alternative textuale

anumite date pot fi „ascunse” de roboți via robots.txt

Page 118: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea conținutului

numele fișierelor (imagini, stiluri,…) contează

human friendly URLs

Page 119: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea legăturilor – SEO la nivel de sit

obligatoriu, de inclus legături spre alte pagini(ale sitului ori ale altor situri)

Page 120: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea legăturilor – SEO la nivel de sit

dorim legături spre/de la situri importanteavând conținut similar cu situl nostru

tehnici clasice (considerate „demodate”):interschimb de link-uri – banner-e, blogroll-uri,

marketing bazat pe context

Page 121: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea legăturilor – SEO la nivel de sit

dorim legături spre/de la situri importanteavând conținut similar cu situl nostru

recurgerea la aplicații Web sociale

SMO (Social Media Optimization)

Page 122: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea legăturilor – SEO la nivel de sit

de verificat și menținut structura hipertext!

Page 123: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Structurarea legăturilor – SEO la nivel de sit

a se evita spam-ul

e.g., legături încrucișate între pagini similareale aceluiași sit Web ori ale unei colecții de situri

Motoarele de căutare detectează + penalizează spam-ul!http://searchenginewatch.com/search?query=spam

Page 124: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Utilizarea elementului <meta>

descrierea paginii – description

cuvintele-cheie – keywords

controlul roboților Web – robots

alte informații de interes:tipul conținutului, relația cu alte pagini,…

seo: strategii

Page 125: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Paginile de „acoperire” (page cloaking)

scop: oferirea de conținut diferit,în funcție de un anumit criteriu

(aici, conținut special pentru roboții de căutare)

seo: strategii

Page 126: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

black-hat page cloakingtehnică penalizată de Google: http://youtu.be/QHtnfOgp65Q

seo: strategii

Page 127: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

„Estetica” URL-urilor

distincția dintre conținutul static și cel dinamic(componenta query_string de la finalul unui URL)

detectarea simbolurilor “?” și “&” doc.php?var=sda4312&var2=643f545342

seo: strategii

Page 128: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

„Estetica” URL-urilor

indexarea conținutului dinamic poate fi limitatăori poate fi realizată mult mai lent

numele variabilelor transmise via GET trebuie să aibă o anumită semnificație

seo: strategii

Page 129: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

„Estetica” URL-urilor

evitarea numerelor de sesiune (SID) din URL

uzual, roboții ignoră cookie-urile

seo: strategii

Page 130: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

„Estetica” URL-urilor

evitarea numerelor de sesiune (SID) din URL

la nivel de server Web, se poate activa rescriereaURL-urilor – e.g., utilizarea mod_rewrite la Apache

la nivel de server de aplicații, inhibarea transferuluiSID-ului prin URL (PHP: php_flag sesssion.use_trans_sid off)

seo: strategii

Page 131: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

„Estetica” URL-urilor

„mascarea” URL-urilor oferind conținut dinamic

exemplificare:www.penguin.info/species/tux.html – pare static

www.penguin.info/species.php?type=tux – în realitate

seo: strategii

Page 132: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Rezultatul returnat clientului

de evitat paginile de eroare – e.g., 404

orice pagină de eroare poate fi convertităîntr-o resursă folositoare omului/robotului

exemple: harta sitului, legături relevante,…

seo: strategii

Page 133: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Rezultatul returnat clientului

se folosesc facilitățile oferite de serverul Webpentru specificarea de pagini proprii de eroare

e.g., directiva ErrorDocument la Apache

seo: strategii

Page 134: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Navigarea bazată pe interacțiunea cu utilizatorul

legături spre alte resurse realizate exclusiv via Javascriptori – mai desuet – cu Flash sau Silverlight

<p>informații despre burse <a href="javascript:sari(1);">aici</a></p>

de evitat

greșit!

Page 135: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Oferirea de conținut via documenteadoptând formate de date nestandardizate

de evitat

Page 136: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Titluri identice pentru toate paginile unui sit

de evitat

Page 137: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Pagini de eroare care sunt oferite de servervia codul de stare HTTP 200 Ok

de evitat

Page 138: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Redirecționări incorecte și/sau abuzive

de evitat

Page 139: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Ignorarea utilizatorilor cu nevoi speciale

web accessibility

http://webaim.org/

de evitat

Page 140: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Abuzul de transferuri asincrone prin Ajax

de evitat

Page 141: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Crearea documentului sitemap.xml

pentru a-l expedia la Google Sitemaps

complementar fișierului robots.txt

furnizează structura hipertext a unui sit Web

formate acceptate: text obișnuit, XML, RSS, Atom

detalii la http://sitemaps.org/

seo: instrumente

Page 142: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Resurse de interes:

Google Webmaster Centralhttps://developers.google.com/webmasters/

Learn SEO and Search Marketinghttps://moz.com/learn/seo

Search Engine Landhttp://searchengineland.com/

Search Engine Watchhttp://searchenginewatch.com/

Search Engines @ VideoLectureshttp://videolectures.net/Top/Computer_Science/Search_Engines

Page 143: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Invisible Web (Deep Web)

acea parte a spațiului World Wide Webcare nu este detectată de motoarele de căutare saude alte tipuri de aplicații de regăsire a resurselor

disponibile pe Web

Page 144: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum am putea descrie conținutul resurselor Webastfel încât să poată fi procesat „inteligent”?

Page 145: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Idee:specificarea unor meta-date (date privind datele)

direct în cadrul documentelor HTML

Page 146: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Idee:specificarea unor meta-date (date privind datele)

direct în cadrul documentelor HTML

microformatescheme de microdate HTML5

RDFa

la master

Page 147: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate(Tantek Çelik & Kevin Marks, 2004)

www.microformats.org

Page 148: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate

utilizarea de marcaje (X)HTML pentru a desemnasemantica și/sau structura conținutului

„curentul” POSH (Plain Old Semantic HTML)

Page 149: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate

reutilizarea unor vocabulare de termeni,disponibile liber și standardizate

Page 150: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate

reutilizarea unor vocabulare de termeni,disponibile liber și standardizate

realizarea de adnotări semantice direct în HTMLși alte limbaje similare

prelucrare mai facilă a reprezentărilor resurselor

Page 151: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

marcaje HTML (<div>, <span>)pentru specificarea datelor &structurii lor

„clase” CSS pentru prezentareși asocierea de descrieriale meta-datelor

structurareapaginilor Web:

precizareaînțelesului

(semanticii)conținutului

Page 152: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate

elementare – desemnează o caracteristică unică+

compuse – specifică mai multe proprietățicare modelează un aspect de interes

– e.g., un concept (entitate): persoană, eveniment,…

Page 153: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

rel-tag

asociază unei legături hipertext un termen (tag)– cuvânt-cheie ori subiect – ales liber de autor

(tagging content)

Page 154: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

rel-tag

<p>Tutorial despre <a href="http://www.slideshare.net/tag/web"

rel="tag">www</a>.</p>

<p>Expertiză: <a href="http://en.wikipedia.com/wiki/Unix"

rel="tag" class="skill">UNIX</a>.</p>

<a href="http://flickr.com/photos/tags/Penguin" rel="tag">

<img src="tux.jpg" alt="Foto cu un pinguin" /></a>

Page 155: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

XFN (XHTML Friend Network)

relații între „prieteni”: colaboratori, rude, cunoscuți,…

<a href="http://www.infoiasi.ro/~dlucanu/"

rel="met, colleague, co-worker, neighbor">

Dorel Lucanu</a>

Page 156: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

recurgerea la XFN în cadrul sistemului WordPress

Page 157: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

hCalendar

desemnează evenimente și orare

vezi formatul iCalendar – RFC 5545https://tools.ietf.org/html/rfc5545

Page 158: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

hCalendar

<div class="vevent">

<a class="url" href="http://tinyurl.com/cliw-seo"

<abbr class="dtstart" title="20151109">9 noiembrie 2015</abbr> --

<abbr class="dtend" title="20160110">10 ianuarie 2016</abbr>

<span class="summary">Concurs SEO @ CLIW</span> la

<span class="location">FII, UAIC Iași</span></a>

<div class="description">Un concurs vizând SEO

pentru articole referitoare la biblioteci JavaScript</div>

</div>

Page 159: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

hCard

informații de contact despre persoane, organizații etc.

în conformitate cu formatul vCard – RFC 6350, 6868https://tools.ietf.org/html/rfc6350

Page 160: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

specificarea informațiilor despre o persoană via hCard

Page 161: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

hResume

modelează informații despre un CV

folosit în conjuncție cu hCard și hCalendar

Page 162: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

hReview

desemnează opinii emise despre „ceva” – o entitate(produs, locație, eveniment, persoană,…)

Page 163: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<div class="hreview">

<!-- resursa recenzată -->

<h1 class="item">Recenzie despre <a class="fn url" title="Situl FII"

href="http://www.info.uaic.ro/">situl Web al FII</a></h1>

<p> <!-- 'punctajul' obținut (5 din 5), sumarul & data recenziei -->

<abbr class="rating stars" title="5">* * * * *</abbr>

<span class="summary title">Modern</span>,

<abbr class="dtreviewed"

title="2010-05-18T22:45:00">18 mai</abbr>

</p>

<!-- autorul recenziei marcat prin hCard -->

<p class="reviewer">Autor al recenziei: <span class="vcard">

<a class="url fn n" href="http://www.purl.org/net/busaco"

title="Spre situl Web al lui Sabin Buraga">

<span class="given-name">Sabin</span>

<span class="family-name">Buraga</span></a></span></p>

<div class="description"> <!-- detalii despre recenzie --> </div>

</div>

Page 164: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Page 165: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate 2

simplifică maniera de specificare (2012)

http://microformats.org/wiki/microformats2

Page 166: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate 2

vocabularele sunt definite pe baza unor prefixe

h- includerea unui microformatp- specificarea unei proprietăți simpleu- desemnarea unui URLdt- definirea de valori privind data & timpule- specificarea de proprietăți compuse

Page 167: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<div class="h-card vcard">

<img src="/content/content_about-experts/brendaneich.jpg"

alt="Brendan Eich">

<h5><a href="http://brendaneich.com/"

class="p-name fn u-url url">Brendan Eich</a></h5>

<p class="p-note note">

Created JavaScript, co-founded the mozilla.org project…</p>

<span class="p-category category">Technology</span>

</div>

exemplu de utilizare a microformatului hCard(în ambele versiuni)

Page 168: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformate 2

vocabulare predefinite – unele în stadiu de ciornă:

h-adr h-card h-entry h-event

h-geo h-item h-product h-recipe

h-resume h-review h-review-aggregate

Page 169: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<!-- specificarea unui eveniment via microformate versiunea 2 -->

<section class="h-event">

<a class="p-name u-url" href="http://tinyurl.com/cliw-seo">

Concurs SEO @ CLIW</a>

de la <time class="dt-start">2015-11-09</time>

până la <time class="dt-end">2016-01-10</time>, fiind organizat la

<span class="p-location h-card">

<a class="p-name p-org u-url" href="http://www.info.uaic.ro/">

Facultatea de Informatică</a>,

<span class="p-street-address">Strada Berthelot, 16</span>,

<span class="p-locality">Iași</span>,

<abbr class="p-region" title="Iași">IS</abbr>

</span>

</section>

Page 170: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

microformate: utilizări

…și multe altele

detalii la http://microformats.org/wiki/implementors

DrupalGoogleIntelJoomlaMicrosoft

Nature Publishing GroupSix ApartTYPO3Yahoo!XWiki

Page 171: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

microformate: utilizări

detectarea și exportul de microformate cu extensia Operator pentru Firefox

Page 172: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microdata HTML 5

alternativă la microformate

specificație W3C – Working Draft (octombrie 2013)www.w3.org/TR/microdata/

a se studia și http://html5doctor.com/microdata/

Page 173: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microdata HTML 5

posibilitatea de a specifica perechi de proprietăți(nume, valoare) „scufundate” în HTML

Page 174: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

Page 175: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

creare via atributul itemscope

specificarea unei proprietăți prin atributul itemprop

referire cu ajutorul atributului itemref

Page 176: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microdata HTML 5

grupurile de perechi de proprietăți nume—valoare sunt denumite items

asocierea unui tip de date se face cu atributul itemtype

pentru identificarea unui item se folosește itemid

Page 177: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Există o serie de modele de date(exprimate via microformate sau microdate)

ce pot fi indexate și folositede actualele motoare de căutare?

Page 178: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

schema.org

colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,

Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare

Bing, Google, Yahoo!, Yandex

Page 179: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

schema.org

colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,

Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare

Bing, Google, Yahoo!, Yandex

amănunte la https://schema.org/docs/gs.html

modeleconceptuale

Page 180: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

a se consulta și http://www.w3.org/wiki/WebSchemas

Page 181: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

tipurile primare de date definite de schema.org

Page 182: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

diverse proprietăți ce relaționează Integer cu alte concepte

Page 183: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Thing – schema cea mai generală, incluzând conceptualizăriAction

BroadcastService

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Class

Property

modelare de cunoștințe

(via o ontologie)

Page 184: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Person – modelează conceptul „persoană”http://schema.org/Person

Page 185: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

schema.org

relațiile dintre entități sunt precizate via proprietăți

Page 186: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<div lang="en" itemscope="" itemtype="http://schema.org/RealEstateAgent"><span itemprop="name">Tuxy Unlimited</span><div itemprop="address" itemscope=""

itemtype="http://schema.org/PostalAddress"><span itemprop="streetAddress">Banchiza, 1</span><span itemprop="addressLocality">Iasi</span>,<span itemprop="addressRegion">Iasi</span><span itemprop="postalCode">700550</span>

</div>Phone: <span itemprop="telephone">+4032201090</span><a href=

"http://www.openstreetmap.org/way/243817200#map=18/47.17493/27.57378" itemprop="maps">Details on OpenStreetMap</a>

</div>

fapte vizând domeniul imobiliar

…pe baza modelului conceptual schema.org

Page 187: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<ul><li><p itemid="#busaco" itemscope="" itemtype="http://schema.org/Person">

<a href="http://www.purl.org/net/busaco" title="Spre situl Web al lui Sabin-Corneliu Buraga" itemprop="url">

<span itemprop="name"><span itemprop="givenName">Sabin-Corneliu</span> <span itemprop="familyName">Buraga</span>

</span></a> &ndash; curs</p>

</li>

<li><p itemid="#acip" itemscope="" itemtype="http://schema.org/Person">

<a href="http://ro.linkedin.com/in/ciprianamariei" title="Despre Ciprian Amariei" itemprop="url">

<span itemprop="name"><span itemprop="givenName">Ciprian</span> <span itemprop="familyName">Amariei</span>

</span></a> &ndash; laborator</p></li></ul>

specificarea faptului: „Ciprian Amariei este o persoană”

Page 188: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

extragerea/verificarea de date structurate via Structured Data Testing Tool

https://developers.google.com/structured-data/testing-tool/

Page 189: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<section id="week6"><h2>Săptămâna 6</h2><ul>

<li itemscope="" itemtype="http://schema.org/CreativeWork"itemid="#cliw-lecture6"><aside class="menu">concurs: <a href="web-contest.html" title="Detalii">

SEO @ CLIW</a></aside><p class="lecture">Curs: <a href="presentations/web06-Regasirea-

resurselor-Web-SEO-Microformate-MicrodateHTML5.pdf" title="Prezentare în format PDF" itemprop="url"><span itemprop="name">(Re)găsirea resurselor Web</span></a>

</p><div class="terms" itemprop="keywords">căutare Web, robot,

motor de căutare, interogare, SEO, microformate, HTML5 microdata</div></li>…

</ul></section>

specificarea în HTML5 a lucrărilor creative de tip CreativeWork conform modelului conceptual schema.org

Page 190: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

extragerea informațiilor din HTML5

aici, despre prelegerile

materiei CLIW

Page 191: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<article itemscope="" itemtype="http://schema.org/Event"><section id="contest">

<h2>Tema</h2><p>Concursul este destinat studenților<span itemprop="location" itemscope="" itemtype="http://schema.org/Place">

<a href="http://www.info.uaic.ro/" itemprop="url" title="Spre situl FII><span itemprop="name">FII</span></a> (UAIC <span itemprop="address">Iași, România</span>)</span>

și constă în optimizarea conținutului și structurii unui sit Web.</p>…<p>Perioadă de desfășurare: <span itemprop="startDate" content="2015-11-09T00:00">9 noiembrie 2015</span>—<strong><span itemprop="endDate" content="2016-01-10T16:00">10 ianuarie 2016</span></strong>, ora 16:00.</p>

</section>…</articol>

pe baza schema.org, se pot modela în HTML date vizând un eveniment (Event) și locul de desfășurare a acestuia (Place)

Page 192: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

date pentru „consum” uman vs. date structurate interpretate și prelucrate, ulterior, de algoritmi

Page 193: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

<!-- microformate (utilizarea microformatului hCard) --><div class="vcard">

<p>Nume: <span class="fn">Sabin Buraga</span></p><p>Titlu academic: <span class="title">Dr.</span></p>

</div>

<!-- microdate HTML5 --><div itemscope itemtype="http://schema.org/Person">

<p>Nume: <span itemprop="name">Sabin Buraga</span></p><p>Titlu academic: <span itemprop="title">Dr.</span></p>

</div>

microformate↔microdateadaptare după Marco Lisci & Luisa Scarlata (2011)

Page 194: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Alte resurse de interes,inclusiv instrumente de validare și conversie,

sunt oferite de situl Webhttp://getschema.org/

Page 195: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Microformatele și microdatele HTML5sunt indexate de motoarele de căutare

Bing Webmasterhttp://tinyurl.com/b9mx2f2

Google Structured Datadevelopers.google.com/structured-data/

Yahoo! BOSS (Build your Own Search Service)developer.yahoo.com/search/boss/

Yandex Webmasteryandex.com/support/webmaster/schema-org/

Page 196: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Cum ar putea fi detectate și penalizatesiturile Web care „trișează” în ceea ce privește

tehnicile SEO, eventual recurgând lamicroformate/microdate HTML5?

discuție (pentru acasă)

Page 197: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

Oferiți o soluție (empirică) de prevenire a spam-ului vizând documentele HTML

test scris #2 (T2)

Page 198: CLIW 2015-2016 (6/13) (Re)găsirea resurselor Web. De la motoare de căutare și SEO la date structurate

Dr.

Sab

in B

ura

ga

www.purl.org/net/busaco

episodul viitor: limbajul JavaScript