Top Banner
Разработка аналитической системы для высоконагруженного медиа Олег Новиков
25

Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Jun 16, 2015

Download

Internet

Ontico

Доклад Олега Новикова и Ильи Салтанова на HighLoad++ 2014.
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Разработка аналитической системы для высоконагруженного медиаОлег Новиков

Page 2: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Обо мне

!

!Олег Новиков, руководитель отдела аналитики Sports.ru, автор кандидатской диссертации «Высоконагруженные рекомендательные системы» в Высшей Школе Экономики

Page 3: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Зачем?

caйта

мобильных приложений

потоков в соцсетях

sports.ru ua.tribuna.com by.tribuna.com

• Много разных сервисов для аналитики

!• Нет доступа к «сырым»

данным

• Нужны свои отчеты и метрики

• Нельзя делать запросы к данным из разных источников

Page 4: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Где хранить данные?

• Нужен удобный доступ (SQL)

• Возможность обрабатывать много данных, например, clickstream

• Простота внедрения

• Способность легко масштабироваться

Page 5: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Amazon Redshift – плюсы

Распределенная колоночная СУБД

Поддерживает много функций и типов данных из PostgreSQL

Очень быстро выполняет типичные аналитические запросы с группировками и агрегирующими функциями на небольшое число полей

Очень легко мастштабируется, стоимость зависит от объема данных

Page 6: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Amazon Redshift – минусы

Не поддерживает ограничения целостности и триггеры

Не поддерживает много функций и типов данных из PostgreSQL

Медленно выполняет запросы с участием нескольких полей

(select * from table where id=<> будет работать несколько секунд)

Медленно работают инсерты (они и не нужны), загрузка данных – пачками из файлов, загруженных в Amazon S3

Page 7: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Amazon Redshift

• DISTKEY и SORTKEY • Гибкие настройки пользователей и ресурсов

Page 8: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Источники данных

Page 9: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Посещаемость

Page 10: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Хранилище Сырые данные

• Clickstream

• Активность

• Подписки + установки

Page 11: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Хранилище Сырые данные

• Clickstream

!• Активность

• Подписки + установки

(только за последний месяц, старые данные – в Amazon Glacier)

Агрегаты

• Сессии

• По дням/неделям/месяцам

• Профили пользователей

Page 12: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Ввод данных

Page 13: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

PROFIT!

• Adhoc-анализ • Дашборды для всех отделов • Персонализация • Поиск ботов в системе рейтингов на сайте

Page 14: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Adhoc-анализ

• SQL-интерфейс • Любые аналитические запросы • Анализ сырых данных • Без семплирования

Page 15: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

2 – Бизнес-анализ Панели для всех отделов: • Трафик • Пользовательская активность • Популярное #прямосейчас • Соцсети • Мобильные приложения • Инвентарь продаж • Редакционный процесс

Page 16: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru
Page 17: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru
Page 18: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru
Page 19: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru
Page 20: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru
Page 21: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru
Page 22: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Хранение персональных данных

Федеральный закон № 242-ФЗ

• У Amazon нет серверов в России

• В Redshift не отправляются персональные данные, только id

• Chart.io запрашивает персональные данные из БД сайта и джонит на таблицы из Redshift

Page 23: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Персонализация

• Нарезка пользователей для рассылок

• Персональные рекомендации

Page 24: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

Расходы

Ежемесячно #прямосейчас: $500

$180x4

$300x2

_________

$1 820

!Chart.io 10 пользователей

ноды Amazon Redshift

фронтенд-сервера для логов

!

Page 25: Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

«Как мы используем инфраструктуру обработки данных» «Как устроена инфраструктура анализа данных?»

habrahabr.ru/company/sports_ru

!!

facebook.com/oleg.v.novikov