Page 1
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
УНИФИКАЦИЯ ИТ
ИНФРАСТРУКТУРЫНОВЫЕ
ИСТОЧНИКИ
ДАННЫХ:
ЗАГРУЗКА,
ХРАНЕНИЕ,
ОБРАБОТКА
ИЗВЛЕЧЕНИЕ
НОВЫХ
ХАРАКТЕРИСТИК:
ИЗ ТЕКСТА,
ВЗАИМОСВЯЗЕЙ
ИНТЕРАКТИВНОЕ
ИССЛЕДОВАНИЕ
ДАННЫХ/ ПРОВЕРКА
КЕЙСОВАНАЛИТИЧЕСКОЕ
МОДЕЛИРОВАНИЕ/
ПРОТОТИПЫ
УСКОРЕНИЕ
РАБОТЫ BD
ЛАБОРАТОРИИ
И ТЕКУЩИХ
СИСТЕМ
ПОСТАНОВКА
ПРОТОТИПОВ
МОДЕЛЕЙ НА
РЕГЛАМЕНТ/
ТЕСТИРОВАНИЕ
МОНИТОРИНГ
ЭФФЕКТИВНОСТИ
SAS High Performance Data Mining
SAS High-Performance …
SAS In-Memory Statistics
for Hadoop
Big Data технологии для
повышения
эффективности работы
текущих систем
17.10 - 17.40
Олег
Назаров,
SAS
Page 2
Copyright © 2015, SAS Institute Inc. All right reserved.
Назаров Олег,
консультант направления аналитики, Поддержка продаж
Big Data технологии для повышения
эффективности работы текущих
систем
Page 3
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
УСКОРИТЕЛИ РАБОТЫ АНАЛИТИКИ
EDW(Enterprise Data Warehouse)
Node 3 Node 4 Node 5
ETL
Ускорители
аналитики: Data
Mining, …
Основной аналитический сервер
Аналитика
Управление
преобразованием
данных
Вычислительный кластер
BIG DATA
ТЕХНОЛОГИИ
Page 4
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
УСКОРИТЕЛИ РАБОТЫ АНАЛИТИКИ
Node 3 Node 4 Node 5
EDW(Enterprise Data Warehouse)
ETL
SAS High-Performance
Data Mining,…
Основной аналитический сервер Вычислительный кластер
SAS Enterprise Miner,
...
SAS Scoring
Accelerator
SAS Data Management
BIG DATA
ТЕХНОЛОГИИ
Page 5
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
In-m
em
oryУглубленная Аналитика
Massive Parallel Processing или Hadoop
In-memory аналитика
In-m
em
ory
Page 6
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
HP Optimization
• Распределение
ресурсов
• Расписания
• Объекты на карте
HP Forecasting
• Прогнозирование временных рядов
• Сценарный анализ
• Планирование
HP Econometrics
• Анализ закономерностей для
временных рядов
• Задачи классификации и регрессии
на временных рядах
УСКОРИТЕЛИ РАБОТЫ АНАЛИТИКИ
HP Data Mining
• Сегментация объектов
• Задачи классификации
• Вероятность наступления событий
HP Statistics• Линейные, нелинейные, смешанные,
обобщенные модели
HP Text Mining• Неструктурированные предикторы в
моделях
• Кластеризация документов HP SNA
• Взаимосвязи
• Сообщества
• Лидеры
BIG DATA
ТЕХНОЛОГИИ
Page 7
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
КОНФИГУРАЦИЯ ТЕСТИРУЕМОЙ СИСТЕМЫ
Характеристики кластера
4 nodes (1 name_node, 3 worker_nodes), каждая из которых
имеет:
CPU speed: 16x2700 MHz (1x16)
RAM: 256 GB
Disk: 1.5 TB
БАНК ИЗ TOP-3
Page 8
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
SAS HIGH-PERFORMANCE DATA MINING
Функционал Размер выборкиHigh-Performance
среда
Прежняя
вычислительная
среда
Прирост
производительности( во сколько раз)
Трансформация данных (binning)
187 переменных3 000 000 наблюдений
7 мин 14 сек 90 мин 4 сек ~13
Кластеризация 3 мин 14 сек 44 мин 45 сек ~14
Логистическая регрессия
200 переменных3 000 000 наблюдений
11 мин 30 сек 8 часов 19 мин 24 сек ~44
Нейронные сети 9 мин 15 сек 1 час 18 мин 52 сек ~9
БАНК ИЗ TOP-3
Page 9
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
Функциональная область Тестируемый продукт
Средний прирост
производительности
(во сколько раз)
Data MiningSAS High-Performance Data
Mining ~20
БАНК ИЗ TOP-3 ТЕСТИРОВАНИЕ В КРУПНОМ РОССИЙСКОМ БАНКЕ
Page 10
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
ИНТЕРАКТИВНАЯ АНАЛИТИКА
EDW(Enterprise Data Warehouse)
Node ..Node 7Node 3 Node 4 Node 5 Node 6
Интерактивная
визуализация
Интерактивный
анализ
закономерностей
Интерактивное
моделирование
ETL
Вычислительный кластер
Ускорители
аналитики: Data
Mining, …
Основной аналитический сервер
Подкластер
интерактивной
работы
Аналитика
Управление
преобразованием
данных Подкластер
неинтерактивных
задач
BIG DATA
ТЕХНОЛОГИИ
Page 11
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
ИНТЕРАКТИВНАЯ АНАЛИТИКА
Node ..Node 7Node 3 Node 4 Node 5 Node 6
SAS Visual Analytics
SAS IM-STAT
SAS Visual Statistics
EDW(Enterprise Data Warehouse)
ETL
SAS High-Performance
Data Mining,…
Основной аналитический сервер
Подкластер
интерактивной
работы
Вычислительный кластер
SAS Enterprise Miner,
...
SAS Scoring
Accelerator
SAS Data Management
Подкластер
неинтерактивных
задач
BIG DATA
ТЕХНОЛОГИИ
Page 12
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
Функциональная область Тестируемый продукт
Средний прирост
производительности
(во сколько раз)
Интерактивная визуализация SAS Visual Analytics ~45
Интерактивное моделирование SAS Visual Statistics ~45
Интерактивное исследование
данных (программирование)
SAS In-Memory Statistics for
Hadoop ~70
БАНК ИЗ TOP-3 ИНТЕРАКТИВНАЯ АНАЛИТИКА
Page 13
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
Node 1 Node 2 Node 3
ВАРИАНТ ЦЕЛЕВОЙ АРХИТЕКТУРЫ
Node ..Node 11Node 7 Node 8 Node 9 Node 10
КХДETL
Интерактивная
визуализация
Интерактивный
анализ
закономерностей
Интерактивное
моделирование
Регламентное копирование
витрин данных
Основной аналитический кластер
Node 4 Node 5 Node 6
Подготовка и
преобразование данных
Ускоритель аналитики:
Data Mining, …
Регламетное
применение моделей
Вычислительный кластер
Подкластер
Web
среды
Подкластер
мета-
данных
Подкластер
вычислений
Аналитика
Балансировка нагрузки на
кластере
Публикация моделей в кэш
данных
Доступ к внешним форматам
данных
Подкластер
интерактивной работы
Подкластер кэша данных и
неинтерактивных задач
БАНК ИЗ TOP-3
Page 14
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
ВАРИАНТ ЦЕЛЕВОЙ АРХИТЕКТУРЫ
Node ..Node 11Node 7 Node 8 Node 9 Node 10
Подкластер
интерактивной работы
КХДETL
Основной аналитический кластер
Node 6
SAS High-Performance
Data Mining
(SAS HP Statistics,
HP Text Mining, …)
SAS Data Loader
SAS Visual Analytics
SAS IM-STAT
SAS Visual Statistics
Вычислительный кластер
Кластер
Metadata
Кластер
Compute
Node 1 Node 2 Node 3 Node 4 Node 5
SAS Enterprise Miner, ...
SAS Scoring Accelerator
SAS ACCESS to Teradata,
Hadoop
SAS Grid Manager
Подкластер
Mid-tierПодкластер
Metadata
Подкластер
ComputeПодкластер кэша данных и
неинтерактивных задач
Регламентное копирование
витрин данных
БАНК ИЗ TOP-3
Page 15
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
РЕКОМЕНДАТЕЛЬНЫЕ СИСТЕМЫ
Рекомендации
BIG DATA
ТЕХНОЛОГИИ
Page 16
Copyr i g ht © 2015, SAS Ins t i tu t e Inc . A l l r ight reser ve d .
Пользователь X
Продукт
Продукт
1
Продукт
2
Продукт
3
Продукт
4
Продукт
5…
Пользователь 1 3 2 5 4 5
Пользователь 2 - - - 1 1
Пользователь 3 1 - 2 5 -
Пользователь 4 - - 1 2 5
Пользователь 4 3.21 4.82 1 2 4.5
Наилучшее следующее предложение
Матрица рейтингов
продуктов для
пользователей
(или объем
потребления
товаров/услуг)
Предсказанный
рейтинг каждого
продукта
пользователя
BIG DATA
ТЕХНОЛОГИИ
РЕКОМЕНДАТЕЛЬНЫЕ СИСТЕМЫ
Page 17
Copyright © 2015, SAS Institute Inc. All right reserved.
[email protected]
Контакты: