ТЗ на Ловца Ботов

Post on 15-Jan-2017

58 Views

Category:

Internet

0 Downloads

Preview:

Click to see full reader

Transcript

Ловец ботов: рост индексации и поиск

плохих страниц

Дмитрий Шахов Директор ГК РЕМАРКАДокладчик на конференциях • AllInTop (Москва, 2012, 2014-2016гг.),• SeoConference (Казань, 2014-2015гг.), • Кибермаркетинг (Москва, 2015г.), • РИФ-Воронеж (2014-2015гг.), • Онлайн: SmartFox, Megaindex.Организатор конференции • BalticDigitalDays (2013-2016гг.)Курсы по поисковому продвижению• 200+ выпускников за три года

www.remarka.info www.seohowto.ru www.balticdigitaldays.ru

Проблематика

• Очень много посадочных страниц• Постоянно мониторить факт

индексации ручками муторно и дорого• Непонятно, за что поперли страницу из

индексаАктуально для любых многостраничных сайтов!

Ловец Шестаковых (Rush Agency)

Стек: все посадочные страницы

Стек: не в индексе

Стек: посещен ботом

Стек: проблемыс индексом

Ждем текстового апдейта

Ловец ботов: показ боту ссылок на страницы

не в индексе

Ловец ботов: фиксация визита бота на странице

не в индексе

Какой раз проверяли?<N

NЧекинг страниц

на индексНетДа

Имеют траффик с поиска?

НетДа

Посадочная нужна?

Как давно не имеет?

>Х мес.

<Х мес.

Стек: проблемыс поиском

ДаНет

Ловец ботов, ver2.0

Схема отрабатывается длякаждой поисковой системыХ = 6N = 3

Позиции по ключамнормальные?

Да

Нет

Контент-план:переписать,

дооптимизировать

Trashbox:удаляем,disallow

Trash:Ботанет!

Формируем стек страниц

• На самом деле непринципиально как это делать

• Можно карту сайта• Можно просто пул страница/анкор• С этим справится любой программер

Проверка на индекс

• Срежем часть на проверке заходов с поиска пользователей – если траффик есть, то страница в индексе и в топе

• Оставшиеся чекаем– url:site.com/page.html в Яндексе– info:site.com/page.html в Google

Чекинг: решения

• Пока не забанят, свои IP• Xml.yandex.com в рамках

предоставленных лимитов• API rushanalytics.ru• Antigate, Rucapcha• Или не чекать – гонять все подряд

Ловец, шаг первый

• Инфоблок «Рейтинг», «Посмотрите еще», «Лучшие товары сегодня» или как-то так

• Смотрим по user-agent (или IP) бота• Подменяем для бота ссылки в

инфоблоке на страницы не в индексе• Когда не бот – показываем другие

ссылки• Число ссылок: от 1 до 100 (3-5 обычно)

Это не клоака!

• Просто как бы так получается, что бот видит только страницы не в индексе, а пользователь – в индексе, но всегда рандом!

Ловец, шаг второй

• Проверяем бота на странице не в индексе

• Если пришел – снимаем страницу из стека на показ, переносим в стек на проверку индекса

• Если не пришел – продолжаем показывать

TRASHBOX #1

• На некоторые страницы бот не придет никогда (в обозримом будущем)

• Месяц не пришел после показов – переносим в трэшбокс и разбираемся что не так ручками

Проверка индекса

• Текстовые апы могут идти непрерывно, могут – дискретно. Нам это неудобно.

• Ставим страницу на паузу после визита бота на две недели

• Проверяем на индекс. Если да – ОК! Если нет – отправляем на новые показы в ловца

Цикл проверки

• Запускать страницы в ловца только после текстовых апов – неавтоматично

• Строим цикл: отправили-проверили• Если страница за Х циклов не попала в

индекс – это трэшбокс

Чекинг Чекинг Чекинг

АП!

2 недели 2 недели

TRASHBOX #2

• Страницы, которые не заходят в индекс спустя 3-5 циклов

• Страницы, которые выпадают из индекса после вгона ловцом

Тут как бы и все. Но!

Идем дальше

• Страница в индексе без трафика – фуфел

• Надо выявить страницы в индексе но без трафика!

• Используем проверку на визит с поиска пользователями

Нет трафика с поиска

• Нет трафика полгода или более• Есть в индексе• Это трэшбокс по качеству контента:

либо очень далеко от топа, либо нет оптимизации даже по НЧ

TRASHBOX #3

• Список страниц без трафика с поиска• Интерфейс для работы редактору сайта

Обычно это- Страницы без контента: в 404 или 301- Сервисные страницы: в disallow- Неочевидные: работа с контентом

Итого

• TRASHBOX #1 – баговые страницы• TRASHBOX #2 – низкое качество, битые• TRASHBOX #3 – проблемы с контентом• Полный автомат на выявление трэша• Индексация около 100% на автомате

Ресурсы

• 2 месяца одного программиста• Авторский надзор со стороны сеошника• Дальше все на автомате, только

смотри, что валится в трэшбоксы

Как выглядит, доска

Как выглядит, доска

Как выглядит, инфосайт

Как выглядит, магазин

Как выглядит, агрегатор

Боты, агрегатор, Яндекс

Боты, агрегатор, Google

Боты, доска, Яндекс

Боты, доска, Google

Индексация, агрегатор

Google, агрегаторнет проблем с индексом

Индексация, доска

Контрольная группа

Посещаемость, агрегатор

Обвал индекса за копипаст

Посещаемость, доска

Не сезонность, проверили

Число точек входа, агрегатор

Число точек входа, доска

Число точек входа, доска

Хотите узнать больше?

Заявки сюда• 8-800-333-06-80• s@remarka.info

Общение со мной• https://www.facebook.com/bablorub• skype: remarka.reklama

top related