Ловец ботов: рост индексации и поиск плохих страниц Дмитрий Шахов Директор ГК РЕМАРКА Докладчик на конференциях • AllInTop (Москва, 2012, 2014- 2016гг.), • SeoConference (Казань, 2014- 2015гг.), • Кибермаркетинг (Москва, 2015г.), • РИФ-Воронеж (2014-2015гг.), • Онлайн: SmartFox, Megaindex. Организатор конференции • BalticDigitalDays (2013-2016гг.) Курсы по поисковому продвижению • 200+ выпускников за три года o www.seohowto.ru www.balti
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Ловец ботов: рост индексации и поиск
плохих страниц
Дмитрий Шахов Директор ГК РЕМАРКАДокладчик на конференциях • AllInTop (Москва, 2012, 2014-2016гг.),• SeoConference (Казань, 2014-2015гг.), • Кибермаркетинг (Москва, 2015г.), • РИФ-Воронеж (2014-2015гг.), • Онлайн: SmartFox, Megaindex.Организатор конференции • BalticDigitalDays (2013-2016гг.)Курсы по поисковому продвижению• 200+ выпускников за три года
• Можно карту сайта• Можно просто пул страница/анкор• С этим справится любой программер
Проверка на индекс
• Срежем часть на проверке заходов с поиска пользователей – если траффик есть, то страница в индексе и в топе
• Оставшиеся чекаем– url:site.com/page.html в Яндексе– info:site.com/page.html в Google
Чекинг: решения
• Пока не забанят, свои IP• Xml.yandex.com в рамках
предоставленных лимитов• API rushanalytics.ru• Antigate, Rucapcha• Или не чекать – гонять все подряд
Ловец, шаг первый
• Инфоблок «Рейтинг», «Посмотрите еще», «Лучшие товары сегодня» или как-то так
• Смотрим по user-agent (или IP) бота• Подменяем для бота ссылки в
инфоблоке на страницы не в индексе• Когда не бот – показываем другие
ссылки• Число ссылок: от 1 до 100 (3-5 обычно)
Это не клоака!
• Просто как бы так получается, что бот видит только страницы не в индексе, а пользователь – в индексе, но всегда рандом!
Ловец, шаг второй
• Проверяем бота на странице не в индексе
• Если пришел – снимаем страницу из стека на показ, переносим в стек на проверку индекса
• Если не пришел – продолжаем показывать
TRASHBOX #1
• На некоторые страницы бот не придет никогда (в обозримом будущем)
• Месяц не пришел после показов – переносим в трэшбокс и разбираемся что не так ручками
Проверка индекса
• Текстовые апы могут идти непрерывно, могут – дискретно. Нам это неудобно.
• Ставим страницу на паузу после визита бота на две недели
• Проверяем на индекс. Если да – ОК! Если нет – отправляем на новые показы в ловца
Цикл проверки
• Запускать страницы в ловца только после текстовых апов – неавтоматично
• Строим цикл: отправили-проверили• Если страница за Х циклов не попала в
индекс – это трэшбокс
Чекинг Чекинг Чекинг
АП!
2 недели 2 недели
TRASHBOX #2
• Страницы, которые не заходят в индекс спустя 3-5 циклов
• Страницы, которые выпадают из индекса после вгона ловцом
Тут как бы и все. Но!
Идем дальше
• Страница в индексе без трафика – фуфел
• Надо выявить страницы в индексе но без трафика!
• Используем проверку на визит с поиска пользователями
Нет трафика с поиска
• Нет трафика полгода или более• Есть в индексе• Это трэшбокс по качеству контента:
либо очень далеко от топа, либо нет оптимизации даже по НЧ
TRASHBOX #3
• Список страниц без трафика с поиска• Интерфейс для работы редактору сайта
Обычно это- Страницы без контента: в 404 или 301- Сервисные страницы: в disallow- Неочевидные: работа с контентом
Итого
• TRASHBOX #1 – баговые страницы• TRASHBOX #2 – низкое качество, битые• TRASHBOX #3 – проблемы с контентом• Полный автомат на выявление трэша• Индексация около 100% на автомате
Ресурсы
• 2 месяца одного программиста• Авторский надзор со стороны сеошника• Дальше все на автомате, только