Top Banner
Процессинг данных на lambda-архитектуре Препарируем Data Management Platform ЮКОН 2016 Анатолий Никулин
19

Конференция Юкон. Процессинг данных на лямбда архитектуре.

Apr 12, 2017

Download

Technology

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Конференция Юкон. Процессинг данных на лямбда архитектуре.

Процессинг данных на lambda-архитектуре

Препарируем Data Management Platform

ЮКОН 2016

Анатолий Никулин

Page 2: Конференция Юкон. Процессинг данных на лямбда архитектуре.

Коротко об AdTech

● Advertiser Technology - технологии для рекламодателей.

● Это $60 B (только в США)

● Это десятки-сотни тысяч событий в секунду

● Как следствие большие объемы данных и нагрузки.

Page 3: Конференция Юкон. Процессинг данных на лямбда архитектуре.

Что нужно рекламодателям, чтобы быть эффективными● Надо продать удочки

● Можно показать рекламу Всему честному люду

● Но лучше выделить определеннуюгруппу - “Рыбаки”

● Их на порядок меньше, экономия на порядок больше

Page 4: Конференция Юкон. Процессинг данных на лямбда архитектуре.

Как им в этом помочь?

● Сбор и анализ пользовательской активности.

● Формирование профиля пользователя (интересы, увлечения,

профессиональная деятельность)*

● Группировка пользователей по заданным критериям, чтобы можно было более точно и эффективно настраивать рекламные кампании.

● Сделать рекламу более релевантной для пользователя, и эффективной для рекламодателя.

*Анонимно

Page 5: Конференция Юкон. Процессинг данных на лямбда архитектуре.

Как следствие требования

● Обработка и хранение больших объемов исторических данных

● Оперативность принятия решений

● Устойчивость к отказам

● Горизонтальная масштабируемость

Page 6: Конференция Юкон. Процессинг данных на лямбда архитектуре.

Трекинг входящих событий

Page 7: Конференция Юкон. Процессинг данных на лямбда архитектуре.

ESB как единая точка входа данных

Page 8: Конференция Юкон. Процессинг данных на лямбда архитектуре.

Spark как маршрутизатор данных

Page 9: Конференция Юкон. Процессинг данных на лямбда архитектуре.

HDFS как хранилище сырых данных

● Распределенная файловая система

● Поддержка репликации (надежность, ускорение вычислений)

● Файлы в формате Parquet(компактное хранение, эффективный последовательный доступ)

● Храним очень долго

Page 10: Конференция Юкон. Процессинг данных на лямбда архитектуре.

HBase как хранилище консолидированных профилей

● Распределенное колонко-ориентированное хранилище

● Структура не фиксирована. 10 000 колонок - это нормально

● Позволяет обособленно хранить сложные структуры данных. Поддерживает версионность

● Отлично интегрирована с фреймворками распределенных вычислений (Spark, MapReduce)

Page 11: Конференция Юкон. Процессинг данных на лямбда архитектуре.

HBase как хранилище консолидированных профилей

Page 12: Конференция Юкон. Процессинг данных на лямбда архитектуре.

Внешние поставщики данных (3rd party data providers)● Соц. дем. (возраст, пол, семейное положение,

наличие детей)

● Интересы (хобби, увлечения)

● Профессиональная деятельность. (Организация, отрасль, годовой оборот)

Page 13: Конференция Юкон. Процессинг данных на лямбда архитектуре.

ASE сегментация пользователей. Взять всех, да и поделить!

● Разбить профили на группы (сегменты). Чтобы показывать релевантную рекламу.

● Сегментов может быть произвольное количество

● У сегмента есть Правило и время жизни

Пример:Сегмент: Охотники и рыбакиМужчины, 30-45, Сибирь,Visits: www.hunters.ru

Page 14: Конференция Юкон. Процессинг данных на лямбда архитектуре.

ASE как функция

Page 15: Конференция Юкон. Процессинг данных на лямбда архитектуре.
Page 16: Конференция Юкон. Процессинг данных на лямбда архитектуре.
Page 17: Конференция Юкон. Процессинг данных на лямбда архитектуре.

Это и есть лямбда?

Page 18: Конференция Юкон. Процессинг данных на лямбда архитектуре.

Плюсы● Оперативность принятия решений● Хранение сырых данных ( immutable, append-only)● Возможность анализа всего исторического датасета● Возможность репроцессинга всего исторического датасета● Горизонтальная масштабируемость● Отказоустойчивость

Минусы

● Сложность реализации● Дороговизна реализации и владения

Page 19: Конференция Юкон. Процессинг данных на лямбда архитектуре.

Вопросы?