Top Banner
Crawl Budget et Page Importance, entre mythe et réalité
43

SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

Jan 21, 2018

Download

Internet

OnCrawl
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

Crawl Budget et

Page Importance, entre

mythe et réalité

Page 2: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

2Metz 24/11/2017

Plan de vol

1. Comment fonctionne Google

2. Crawl Budget & Page Importance

3. Comment suivre les variations du crawl

4. Best practices d’optimisation

Page 3: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

3Metz 24/11/2017

J’adore que Google vous donne de l’importance…

ERLE

ALBERTONCUSTOMER

SUcCESS manager10 ans de dev / 5 ans de SEO dont 2

ans en tant que responsable SEO des

boutiques en ligne Orange et Sosh

spécialiste schema.orgseo monk

ONCRAWL

TRAinER

customer climax & GOOD IDEAS

Page 4: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

4Metz 24/11/2017

• Google possède un index colossal, il ne peut pas tout crawler tout le temps

• Pour avoir la meilleure réponse il faut connaitre toutes les pages - découverte

• Pour avoir la meilleure réponse il faut la dernière version de la page - indexation

Google Key Insights

Google n’est pas philanthrope,

il doit optimiser ses coûts de traitement…

Page 5: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

Google consomme annuellement

autant d’énergie que la ville de

San Francisco

Page 6: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

6Metz 24/11/2017

Comment fonctionne Google ?

Google est un moteur de réponse, son objectif est d’être le plus

pertinent, exhaustif et à jour possible

Google n’est qu’un ensemble d’algorithmes qui sont exécutés sur

des machines consommant de l’énergie… cette consommation

d’énergie à un coût qui doit être optimisé

Page 7: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

7Metz 24/11/2017

Plus une page est mise à jour

plus Google la visite

Plus une page est utile pour la découverte

de nouvelles URLs plus Google la visite

Plus une page est crawlée plus

elle est à jour dans l’index

Page 8: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

8Metz 24/11/2017

Quelles sont les URLs les plus « importantes » ?

Page 9: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

9Metz 24/11/2017

Plus une page est à jour dans l’index plus

la réponse à la requête est qualifiée

Fréquence de Crawl et

Ranking sont étroitement liés

Page 10: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

10Metz 24/11/2017

Crawl Budget

C’est le crédit que Google alloue

à l’ensemble de ses robots pour

parcourir les URLs d’un site web

Page 11: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

11Metz 24/11/2017

Répartition des hits par bot (1 journée / granularité 10min) :

Mediapartners-Google

Adsbot-Google desktop

Googlebot 2.1 desktop

Googlebot 2.1 mobile

Adsbot-Google Mobile

Le crawl budget est réparti entre tous les bots Google

Page 12: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

Metz 24/11/2017

Comment fonctionne

le crawl de Google?

Page 13: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

13Metz 24/11/2017

Schedulers : Définir une liste des URLs à crawler pour la session de crawl

Crawlers : Vérifier quelles URLs sont autorisées au crawl

Chaque session de crawl commence par un hit sur le robots.txt, puis les

sitemap.xml, enfin les crawlers dépilent la liste des URLs à analyser

Cette liste d’url, conçue à l’avance, est établie grâce à un

algorithme qui classe les pages en fonction d’un score

d’importance

Comment fonctionne le crawl de Google

www.google.com/search/howsearchworks/crawling-indexing/

Page 14: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

14Metz 24/11/2017

Page importance

C’est un score qui est affecté à chaque

page pour évaluer sa place dans la liste

des URLs à analyser

fr.oncrawl.com/2017/page-importance-google/

Page 15: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

15Metz 24/11/2017

Les brevets d’optimisation de crawl

• US 8666964 B1 : Managing items in crawl schedule

• US 8707312 B1 : Document reuse in a search engine crawler

• US 8037054 B2 : Web crawler scheduler that utilizes sitemaps from websites

• US 7305610 B1 : Distributed crawling of hyperlinked documents

• US 8407204 B2 : Minimizing visibility of stale content in web searching including

revisine web crawl intervals of documents

• US 8386459 B1 : Scheduling a recrawl

• US 8042112 B1 : Scheduler for search engine crawler

www.google.com/patents

Page 16: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

16Metz 24/11/2017

Comment optimiser le crawl de

Google ?

Page 17: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

Connaitre les métriques qui sont prise en

compte dans le calcul de l’importance des

pages

Page 18: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

18Metz 24/11/2017

Comment optimiser le crawl

• Localisation de la page dans le site

• Page Rank : TF/CF de la page

• Le Page Rank interne

• Type de document : PDF, HTML, TXT

• L’inclusion dans le sitemap.xml

• Le nombre de liens internes

• La variation des ancres

• Contenu de qualité : nombre de mots, peu de duplication

• L’importance de la page mère

Page 19: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

19Metz 24/11/2017

Il faut appliquer toutes

ces règles aux pages les plus importantes

Page 20: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

20Metz 24/11/2017

Calcul de la « Page Importance »

La notion de « Page Importance » n’est pas le Page Rank

• Localisation de la page dans le site – a profondeur sur le taux de crawl

• Page Rank : TF/CF de la page - Majestic

• Le Page Rank interne – InRank OnCrawl

• Type de document : PDF, HTML, TXT

• L’inclusion dans le sitemap.xml

• Le nombre de liens internes

• La variation des ancres

• Contenu de qualité : nombre de mots, peu de duplication

• L’importance de la page mère : les pages les plus prêt de la HP seront

favorisées

Il faut appliquer aux pages les plus importantes

toutes ces règles pour favoriser

le crawl de Google

Page 21: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

21Metz 24/11/2017

Comment suivre

les variations du crawl ?

L’analyse des logs serveur et le croisement des données de crawl

permettent de comprendre

Quels sont les facteurs déclencheurs du crawl de Google?

Page 22: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

22Metz 24/11/2017

Quelques exemples

Page 23: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

23Metz 24/11/2017

PayloadAnalyser du temps de chargement

pour déterminer le temps maximum

de réponse du serveur

Page 24: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

24Metz 24/11/2017

Réduire la profondeur des

pages

Le nombre de clicks – profondeur- depuis la Home

Page impact la crawlabilité

La profondeur impacte l’Activness de la page

Vos pages importantes doivent être à 3 clicks

maximum depuis la home page pour que Google

les estime importantes

Page 25: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

25Metz 24/11/2017

Traquer Google lors de sa visite avec les fichiers de los

A chaque fois qu’un visiteur passe sur une page il laisse des traces dans des fichiers de logs

Google est un visiteur (presque) comme un autre il laisse ses traces et nous les analysons

Page 26: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

26Metz 24/11/2017

Logs MonitoringCrawl Behavior

• Suivre les variations de crawls de Google sur chaque

segment du site

• Vérifier que toutes les pages importantes sont crawlées

• S’assurer que les pages non importantes ne consomment

pas le budget de crawl

Page 27: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

27Metz 24/11/2017

Logs MonitoringSEO impact

• Vérifier que les visites SEO arrivent sur les pages

importantes

• Vérifier que toutes les pages importantes sont visitées

• S’assurer que les optimisations profitent au trafic SEO

Page 28: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

28Metz 24/11/2017

Les bonnes pratiques

Une bonne optimisation est une modification qui va

maximiser les valeurs prisent en compte dans le calcul de

la Page Importance

Page 29: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

29Metz 24/11/2017

Classer les pages

par importanceCréer des groupes en fonction des :

• Bot hits par jour / SEO visites par jour

• Visites SEO (logs/GS)

• De la profondeur dans le site

• Qualité technique (status code, temps de

chargement, …)

• Nombre de liens entrants (internes/externes)

• Nombre de variantes des ancres

• Nombre de mots dans les pages

• Par ratio de Near Duplicate Content

Page 30: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

30Metz 24/11/2017

Vérifier les sitemaps

• Toutes les pages importantes sont elles dans les listées ?

• Pas de 40x, 50x ou 40x dans les sitemaps

• Vérifier les pages orphelines dans les sitemaps

Def : URLs dans le sitemap mais non maillée dans le site

Page 31: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

31Metz 24/11/2017

HTML Quality

• Vérifier les Status code

retournés par le serveur durant le crawl

• Suivre les Load time

donne une information sur le temps de réponse serveur

TTFB et/ou TTLB

Page 32: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

32Metz 24/11/2017

Distribution du

la popularité

• Vérifier que les pages importantes reçoivent beaucoup de

popularité : Inrank

• S’assurer que les pages importantes reçoivent les liens

les plus puissants

• Eviter les liens de toutes les pages vers toutes les

pages : Optimiser les Mega-menu et les footer

Page 33: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

33Metz 24/11/2017

La popularité interne à un impact sur les visites

Page 34: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

34Metz 24/11/2017

Content• Déterminer combien de mots il faut dans une page pour

maximiser le crawl budget ?

Page 35: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

35Metz 24/11/2017

Il y a des seuils qu’il faut dépasser

Page 36: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

36Metz 24/11/2017

Duplicate content

• Comprendre les problèmes techniques qui génèrent le

Duplicate Content

• Réduire le Near Duplicate Content

• Vérifier les balises canonicals

• Créer des contenus uniques

Page 37: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

37Metz 24/11/2017

+450 metrics

Page Groups

Trouver les métriques qui

comptent pour votre site !

Page 38: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

38Metz 24/11/2017

A Vous de Jouer !

Vous avez les clés pour comprendre quels

sont les métriques qui augmentent votre

Crawl Budget

Page 39: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

Metz 24/11/2017

1 mois offertAnalyse de logs / Crawl

avec le code : seocampMetz

Page 40: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

40Metz 24/11/2017

Page 41: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

41Metz 24/11/2017

+500 Happy Customers

Page 42: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

Metz 24/11/2017

We are the fastest growing player on the

market

Our biggest customer is crawling +100M

URLs / week

We have customers with over 20M filtered

logs lines / day

We are hiring !!!

Page 43: SEOCAMP Metz - Crawl Budget et Page Importance, entre mythe et réalité

Des questions ?