Школа digital-маркетинга Школа digital- маркетинга Коледа Олег Руководитель службы тестирования «Артокс Лаб»
Школаdigital-маркетингаШколаdigital-маркетинга
Коледа ОлегРуководитель службы тестирования «Артокс Лаб»
2
Внутренняя оптимизация сайта. Программные аспекты.
Занятие 2
3
Задачи программной оптимизации:
Создание файла robots.txtСоздание и модификация файла .htaccessПодготовка и размещение sitemapТранслитерация URL-ов страницДругое
4
назначение файла robots.txt
robots.txt предназначен для ограничения доступа роботам к сайту.каждый робот находит свою секцию (если она есть), а также общую секцию.Официальный сайт: http://www.robotstxt.org/, но удобнее Вебмастер Яндекса.некоторые «несознательные» роботы не учитывают robots.txt. Поможет .htaccess
5
назначение файла robots.txt
6
структура файла robots.txt
1. Основные поля файла: User-agent: * (GoogleBot, Yandex) Allow: <шаблон> Disallow: <шаблон> Sitemap: http://www.site.by/sitemap.xml Crawl-delay: 10 Host: www.site.by
*Поле host является обязательным для Яндекса
7
структура файла robots.txt
2. Варианты шаблонов для секций Allow и Disallow:Disallow: - нет запретовDisallow: / - запрет всего сайтаDisallow: /name* - запрет name, name.html, name/…Disallow: /name - аналогично предыдущемуDisallow: /*.htm$ - запрет всех htm но не html
3. Робот смотрит порядок директив Allow и Disallow
8
Различные роботы Яндекса
'YandexBot' — основной индексирующий робот; 'YandexMedia' — робот, индексирующий мультимедийные данные; 'YandexImages' — индексатор Яндекс.Картинок;'YandexCatalog' — «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;'YandexDirect' — робот Яндекс.Директа, особым образом интерпретирует robots.txt; 'YandexBlogs' — робот поиска по блогам, индексирующий посты и комментарии; 'YandexNews' — робот Яндекс.Новостей; 'YandexPagechecker' — валидатор микроразметки; ‘YandexMetrika’ — робот Яндекс.Метрики;‘YandexMarket’— робот Яндекс.Маркета;‘YandexCalendar’ — робот Яндекс.Календаря.
9
структура файла robots.txt
4. Пример готового файла:
User-agent: *Allow: /text/page.htmlDisallow: /text/ User-agent: YandexDisallow:Host: www.site.by
10
валидация файла robots.txt
Использование инструмента Yandex: http://webmaster.yandex.ru/robots.xmlИспользование инструмента Google в панели Вебмастера.Анализ логов веб-сервера для проверки IP-адресов и юзер-агентов, сканирующих сайт
11
.htaccess поддерживается только Apachemod_rewrite: преобразование URL. Подключение и основы регулярных выражений.
Создание и модификация .htaccess
12
Подключение mod_rewrite
Включение механизма mod_rewrite:RewriteEngine OnRewriteBase /2. Основные операторы регулярных выражений:
^ (ограничение слева) $(ограничение справа)
+(1 и более символов) * (0 и более символов)
.(любой символ) \ (экранирование)
( ) (переменная) [] (диапазон значений)
3. Примеры регулярных выражений:
^page page*\.html^page$ page[1-9]\.html^page.+ ^page(.+)
13
Переменные окружения
Переменные записываются в виде %{ИМЯ_ПЕРЕМЕННОЙ}
REQUEST_URI (строка запроса без имени хоста и параметров запроса)HTTP_HOST (имя хоста веб-сайта) REMOTE_ADDR ( IP -адрес посетителя)
т.е. %{REQUEST_URI}%{HTTP_HOST}%{REMOTE_ADDR}
14
Примеры директив mod_rewrite1. Использование редиректов: внутренний, 301, 302:
RewriteRule ^kontakt.* contacts.php [L] – внутреннийRewriteRule ^kontakt.* http://www.site.by/contacts/ [L] – внеш 302.RewriteRule ^kontakt.* http://www.site.by/contacts/ [R=301,L]Внешний 301
2. Склейка site.by и www.site.by: RewriteCond %{HTTP_HOST} ^site\.by$ [NC]RewriteCond %{REQUEST_URI} !^/robots\.txtRewriteRule ^(.*)$ http://www.site.by/$1 [R=301,L]
3. Закрытие веб-сайта в рабочее время:
RewriteCond %{TIME_HOUR}%{TIME_MIN} >900
RewriteCond %{TIME_HOUR}%{TIME_MIN} <1800
RewriteRule .* - [ F ]
15
Установка и подключение sitemap
Для чего нужен sitemap?быстрая индексация сайта (новых страниц сайта);Как сделать sitemap?вручную или автоматически (www.xml-sitemaps.com)многие популярные CMS автоматически могут генерировать sitemap.Как сообщить ПС о sitemap?
webmaster.yandex.ru (для Яндекса)
google.com/webmasters (для Google)
16
Установка и подключение sitemap
Пример секции файла sitemap.xml:<url><loc>http://www.relax.by/</loc><lastmod>2010-09-09T00:00:00+00:00</lastmod><changefreq>daily</changefreq><priority>1</priority></url>
17
Транслитерация URL-ов страниц
Транслитерация — передача одной письменности средствами другой письменности;Автоматическая транслитерация большинством CMS;ЧПУ (Человеко-Понятный URL), названия доменов;Легко индексируются ПС;Проверка транслитерации с помощью запроса к yandex.ru
18
Русская таблица транслитерацииКириллица Латиница Кириллица Латиница
а a р rб b с sв v т t / thг g у u / ooд d ф fЕ ye / e (после согл.) х h / ch / kh
Ё yo / io (после согл.) ц z / tzЖ zh / j ч chз s ш shи i щ shй y / i (перед гласной) ъ -к k / c ы i / yл l ь -м m э eн n ю yu / iu (после согл.)
о o я ya / ia (после согл.)п p - -
19
Практический кейс 1: robots.txt
Как разные роботы будут обрабатывать этот файл?
User-agent: *Allow: User-agent: YandexDisallow:Host: www.site.by
20
Практический кейс 2: robots.txt
Как роботы будут обрабатывать этот файл?
User-agent: GoogleBotAllow:Host: www.site2.by User-agent: YandexDisallow:Host: www.site2.by
21
Практический кейс 3: robots.txt
Как роботы будут обрабатывать этот файл?
User-agent: YandexDisallow: /info.htmlAllow: /Host: www.site.by
22
Практический кейс 4: robots.txt
Как роботы будут обрабатывать этот файл?
User-agent: YandexAllow: /Disallow: /info*Host: www.site.by
23
Практический кейс 5: robots.txt
Как роботы будут обрабатывать этот файл?
User-agent: YandexAllow: /info*Disallow: /Host: www.site.by
24
Уникальность изображений
Проверка: http://www.tineye.com/
25
Уникальность изображений
1. Переворот, зеркальное отображение
2. Добавление элементов (водяных знаков)
3. Добавление второго изображения
26
Отличия нашего сео и западного
1. Наши цели, их цели2. Покупка ссылок3. SMM двигатель4. Контент ресурса5. Ключевые слова
27
Выводы