Геннадий Воробьов Onpage SEO вътрешни технически фактори
Геннадий Воробьов
Onpage SEOвътрешни технически фактори
Геннадий Воробьов● Лектор в DM&SEO курса на СофтУни ● CEO на Netpeak Bulgaria ● проповядвам [SEO и PPC на настоящето] за клиентските проекти ● проповядвам качествено обучение на младите кадри● лектор на специализирани събития в България● организатор и участник на безплатните уебинари на Netpeak● представител на инструмента за анализ на ключови думи Prodvigator.bg● представител кол-трекинг система Ringostat за България.
Аз съм
План
1. Server response codes2. Скорост на зареждането3. Индексиране на страници4. Изображения5. Дублиране на страниците6. Robots.txt7. Sitemap.XML8. Google Webmaster Tools9. SEO Checklist
HTTP Headers, Server response codesHTTP Headers
https://chrome.google.com/webstore/detail/http-headers/hplfkkmefamockhligfdcfgfnbcdddbg
Chrome
Live HTTP Headers
https://addons.mozilla.org/ru/firefox/addon/live-http-headers/ - Firefox
http://headers.cloxy.net/
кодове HTTP status
1xx: Informational — заявката е получена, разбрана, продължава обработката● 2xx: Success — заявката е получена, разбрана и обработена● 3xx: Redirection — за да се изпълни заявката трябва да се предприемат необходимите действия ● 4xx: Client Error — заявката е с грешен синтаксис и не може да се обработи ● 5xx: Server Error — сървърът не може да получи и изпълни заявката
200 OK
Заявката е получена и обработена успешно
301 Moved Permanently
Поискан URI вече не се използва на сървъра, заявката не е изпълнена. Ново място на документа се посочва в хедъра Location
302 Moved Temporarily
URI е преместено, но временно.
404 Not Found
Не е намерен
408
сървърът не е върнал целият отговор за определено време. Връзката прекъсната от паяка.
500 (Internal Server Error)
Най-вероятно, грешка в .htaccess файла.
Как да проверим?
1. browser add-on2. Google Webmaster Tools (след
индексацията)3. Spiders, Checkers (преди индексацията)
Google Webmaster Tools
4**5**
Скорост на зареждането
Как се проверява?
1. https://developers.google.com/speed/pagespeed/insights/
2. http://gtmetrix.com/
Индексиране на страници
Как да проследяваме ботове
● Webmaster Panels● Логове на сървъра● Скриптове за прехващане
GoogleBot паяци
● Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) ● Mediapartners-Google - AdSense бот● Googlebot-Image (Google) Googlebot-Image/1.0 - imagesbot
meta robots
● <meta name="robots" content="all"/> - индексирай всичко● <meta name="robots" content="noindex"/> - не индексирай текст● <meta name="robots" content="nofollow"/> - не гледай връзките ● <meta name="robots" content="none"/> = <meta name="robots" content="
noindex, nofollow"/>● <meta name="robots" content="noarchive"/> - не кеширай● <meta name="robots" content="noodp"/> - не използвай описание от
DMOZ в снипета● <meta name="robots" content="none"/> = <meta name="robots" content="
noindex, follow"/>
robots.txt
не е правило, а препоръка.
robots.txtUser-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Забрана за индексация
User-agent: *
Disallow: /
Разрешено за индексация
User-agent: *
Disallow:
User Agents
Google GooglebotYahoo Yahoo! SlurpBing bingbot
Robots.txt
Sitemap* - всяка последователност
Грешки в robots.txt
Празен User-AgentГрешен content-type на файла: Content-Type: text/plainhttps://support.google.com/webmasters/answer/156449?hl=en
Как да НЕ използваме Robots.txt
Да затваряме дублирано съдържаниеДа затваряме папка с картинкиДа затваряме админа
HTTP headers X-Robots-Tag
header(’X-Robots-Tag: noindex, nofollow’,true);
Оператори на Google Searchhttps://support.google.com/websearch/answer/136861?hl=bg
● “фразово търсене” - точно съвпадение (текстова зона: title,description, text, menu)● -търсене - резултати, които не съдържат думата. -”за фрази“● site:domain.com - индекс на домейна, търсене в индексна база● * - вмъкни произволна дума. Пример: "стани * * балкански", има разлика с "стани * балкански"
Оператори на Google Search.. - числов диапазон: числа, дата, цени. фотоапарат 500..1000
info:www.apollobg.com/майски-празници - снипет на лендинг страницата
Оператори на Google Search
cache:www.apollobg.com/майски-празници - кеширана версия на документа
Версия само с текст - погледнете как изглежда сайта за googlebot.
Разширени операториintitle:q търсене в title, дума, “за фрази”
allintitle:q1+q2+... търсене на и q1, и q2 и … в един title
inurl:q търсене на стринг в url-адреса на документа, “за фрази”
allinurl:q1+q2+... търсене на и q1, и q2 и … в един url
filetype:pdf, docx,doc,jpg,png…~ - синоними (не работи след Колибри)
Lifehack за операторидиректно в бара на Google Chrome
Работа с оператори
site:example.com
site:example.com/folder
site:sub.example.com
site:example.com inurl:www
site:example.com -inurl:www
site:example.com -inurl:www -inurl:dev -inurl:shop
site:example.com inurl:https
site:example.com inurl:param
site:example.com -inurl:param
site:example.com text goes here
site:example.com “text goes here”
site:example.com/folder “text goes here”
Работа с операториsite:example.com this OR that
site:example.com “top * ways”
site:example.com “top 7..10 ways”
site:example.com ~word
site:example.com ~word -word
site:example.com intitle:”text goes here”
site:example.com intitle:”text * here”
intitle:”text goes here”
“text goes here” -site:example.com
site:example.com intext:”text goes here”
site:example.com ”text goes here” -intitle:"text goes here"
site:example.com filetype:pdf
site:.edu “text goes here”
Отново дублирано съдържаниеКак да го открием?
Задача:
www/non-wwwindex.html, index.htm, index.phpедин url в различни категориидинамични адреси липса на коректна 404допълнителни параметри в url (?sort_id, ?srch, ?per_page)ref-линковеtest, def, dev версиитестари методи за споделяне: версия за печат/pdf мултиезични дублажи
смяна на url
Днес съм робот!Netpeak Spiderhttp://netpeak.net/software/netpeak-spider/безплатенмощенрешава много задачи
Индекс на сайтаЗадача: как да извадим списък с всички индексирани страници?Решение:
● Netpeak Spider Scan Type Google - списък всички url-и с всички данни за тях● rds бар (firefox, chrome) ctrl+y на serp-а - само списък url-и
Решения за дублирано съдържаниеwww/non-www (redirect 301 + GWT)
index.html, index.htm, index.php… (301, canonical)
един url в различни категории (cms)
динамични адреси (site/index.php?cat=128&prod=14513) и сесии (sef-url, 301, cms)
липса на коректна 404 (cms)
допълнителни параметри в url (?sort_id, ?srch, ?per_page) (canonical)
ref-линкове (canonical, 301)
test, def, dev версиите (meta robots noindex)
стари методи за споделяне: версия за печат/pdf (rel=nofollow на връзките, canonical, robots.txt)
странициране (rel next/prev, meta robots noindex,follow)мултиезични дублажи (cms, rel=alternate hreflang=X)
смяна на url (301)
SEO на картинки
● име на файла и alt таг● текст около снимката● линкове към снимката
SEO на картинки
● име на файла и alt таг<img src=”http://site.com/images/turcia-2014-pochivka-bodrum.jpg” alt=”
почивка в турция 2014 бодрум снимка”>
не е ок:alt=”почивка”alt=”2014”
SEO на картинки
● име на файла и alt таг keyword-opisanie-na-snimkata-stranicata.jpg
не е окIMG3081234.jpg“турция почивка в бодрум 2014.jpg”
SEO на картинки
● линкове към картинките с релевантен на околокартинков текст анкор ● размер: поне 300 px на най-малката страна● jpg, png, gif● без автоматичен resize● exif!
sitemap.xml<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>http://site.com/</loc>
<lastmod>2009-11-18T08:12:32+00:00</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
...
<url>
<loc>http://site.com/htmlcss/internet-shop-gallery.html</loc>
<lastmod>2009-11-13T14:38:43+00:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.9</priority>
</url>
</urlset>
sitemap.xml ограничения
Не повече от 10МБНе повече от 50 000 url-и
Основни задачи
Индексиране на url-и:● sitemap.xml● динамична схема за налинкване● ръчно добавяне в google webmaster● линкове● google+
Влияние на crawling budget
● Ясна структура● Скорост на зареждането● Забрана за индексация на “мръсни” страници● забрана за индексация на дубли● динамично налинкване● липса на http грешки
Основни причини за липса на индексирането
● хостинга е блокирал робота● 5** грешки при извличане на
страниците● грешки в robots● бавно зареждане● popup● много реклама● качество на съдържанието● нива на вложеност● дубли в индекса (Panda)
Learn more about internet marketing