© 2015 IBM Corporation Большие данные в понимании IBM Андрей Орлов, Технический эксперт IBM Analytics R/CIS
© 2015 IBM Corporation
Большие данные в понимании IBM
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
© 2015 IBM Corporation2
Масштаб Много форм Потоки данных Доверие
Большие данные – все данные
Объем Разнообразие Скорость Достоверность
© 2015 IBM Corporation3
Данные в центре персональной аналитики
Данные поведения• Покупки• Поездки
• История платежей• История коммуникаций
Данные описания•Атрибуты
•Характеристики•Данные, сообщенные о себе
•(Гео)демография
Данные об отношении•Социологические исследования
•Социальные сети
Данные взаимодействий•E-Mail / chat расшифровки•Заметки из колл центра
•Поведение в веб•Личные контакты
Традиционный подход
Динамический подход- источник полноты знания
Почему?
Что?
Как?
Кто?
© 2015 IBM Corporation5
Сегодня давление со стороны социума намного
сильнее…
4 из 10Обладателей
смартфонов проверяют
информацию налету
86%Используют
много каналов
взаимодействия
в 4-5 разТратится больше теми,
кто использует несколько
каналов взаимодействия
78%Людей доверяют
мнению других людей
58%Более
осведомлены о
конкурентных ценах
чем год назад
75%Не верят что в
рекламе
говорят правду
80%CEO считают что
оказывают
превосходные
услуги
8%Их
клиентов с
этим
согласны
Source: Sources of statistics [from “Smarter Commerce Stats and Facts Feb 3 2012.ppt]
© 2015 IBM Corporation6
Необходима новая архитектура работы с данными
Интеграция и управление данными
Systems Security
On premise, Cloud, As a service
Storage
Новые/расширенные
приложенияВсе данные
Что предпринять
?
Предписание действий
Зона хранения, исследования,
архивы данных
КХД и витрины
Зона оперативных
данных
Обработка и анализ данныхв реальном времени
Чтопроисходит?
Исследование
Почему?
Отчетность, анализ
контента
Что может произойти?
Предсказание и
моделирование
Зона сложной
аналитики Что мы узнали,
что лучше?Cognitive
© 2015 IBM Corporation7
Использование различных видов аналитики улучшает понимание
Что мы узнали,
что лучше?Cognitive
Что предпринять?
Предписание действий
Почему?
Отчетность, анализ контента
Что может произойти?
Предсказание и моделирование
Чтопроисходит?
Исследование
Давать правильные
ответы
© 2015 IBM Corporation8
Зона хранения,
исследования, архивы данных
Зона оперативных
данных
Обработка и анализ данныхв реальном времени
Транзакции иданные
приложений
Машинные, сенсорные
Корпоративныйконтент
Изображения, геоданные, видео
Социальные сети
Данные внешних поставщиков
Интеграция и управление данными
Зона сложной
аналитики
КХД и витрины
Работа со всеми видами данных
Сохраненные и
потоковые
данные
Структурированные и
неструктурированные
Внутренние и
внешние по
отношению к
организации
© 2015 IBM Corporation9
Прибыль
Время
Эффект от клиентской аналитики
Привлечение
Эффективное привлечение
новых клиентов
Восстановление
ценных клиентов
Развитие
отношений Удержание Возврат
Увеличение кросс
продаж
Эффективное
удержание
прибыльных клиентов
© 2015 IBM Corporation11
Технологии IBM для работы с большими
данными
InfoSphere Streams
Постоянная обработка и
анализ быстро поступающих
клиентских данных
Мгновенная реакция на
события на основе аналитики
InfoSphere BigInsights
Hadoop для предприятия
Зона хранения данных
Низкая стоимость хранения
Аналитическое исследование
данных
Watson Explorer
Поиск и навигация по
клиентской информации вне
зависимости от формата
данных и места хранения
Унифицированное
представление вместе с
аналитикой
PureData for Analytics и
InfoSphere Warehouse
Анализ оперативной
клиентской информации
Information Integration &
Governance
Обеспечение целостности и
точности данных
© 2015 IBM Corporation
IBM InfoSphere BigInsights
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
© 2015 IBM Corporation13
IBM BigInsights for Hadoop: 100% Open Source
Hadoop, и все что нужно для предприятия
HDFS
Oozie
YARN
MapReduce
Jaql
Spark
HBase
Zookeeper
Avro
Flume
Hive
Pig
Sqoop
HCatalog
Solr/Lucene
100% Standard Apache Open-Source компоненты
SQL on Hadoop
Big SQL – optimized ANSI compliant SQL
Шаблоны приложений
Toolkits and accelerators
ПоискBigIndex and Data Explorer
Исследование данных
BigSheets “schema-on-read”
Предиктивное моделирование
Big R – scalable data miningАнализ текстов
Advanced text processing with AQL
Аналитика реального времениInfoSphere Streams
Управление данными и
безопасностьData Click, LDAP, Secure cluster
Интеграция с системами храненияGPFS - POSIX Distributed Filesystem
Производительность и
надёжностьAdaptive MapReduce, Recoverable jobs
Дополнительные возможности
© 2015 IBM Corporation14
Поддержка Open Source
Не нужно больше больших
загрузок образов
Загрузка небольшого пакета и
последующая загрузка только
необходимых компонентов
Component
NameVersion
Ambari 1.7.0
Avro 1.7.7
Flume 1.5.2
Hadoop 2.6
HBase 0.98.8
Hive 0.14.0
Knox 0.5.0
Oozie 4.0.1
Pig 0.14.0
Parquet (hadoop) 1.5.0
Parquet (format) 2.1.0
Spark 1.2.1
Snappy 1.0.5
Sqoop 1.4.5
Solr 4.10.3
Slider 0.6.0
Zookeeper 3.4.5
Мы будем поддерживать
актуальность в каждом
новом релизе
© 2015 IBM Corporation15
Возможности для специалистов
Business Analyst Data Scientist Administrator
• Выявление
шаблонов,
трендов,
результаты
алгоритмов
машинного
обучения
• Статистические
модели на
больших объемах
данных
• Выявление данных
для анализа
• Визуализация
данных для действий
• Использование
существующих
навыков (SQL,
spreadsheets)
• Управление
нагрузкой и
обеспечение уровня
производительности
• Реализация политик
безопасности для
снижения рисков
Рол
ьП
отр
еб
ность
© 2015 IBM Corporation16
Редакции BigInsights
Text Analytics
POSIX Distributed
Filesystem
Multi-workload, Multi-tenant
scheduling
IBM BigInsights
Enterprise Management
Machine Learning on
Big R
Big R
IBM Open Platform with Apache Hadoop*
IBM BigInsights
Data Scientist
IBM BigInsights
Analyst
Big SQL
BigSheets
Big SQL
BigSheets
IBM BigInsights for Apache Hadoop
*IBM Open Platform with Apache Hadoop is our own 100% open source Apache
Hadoop distribution. IBM will include the ODP common kernel once available (future).
© 2015 IBM Corporation17
Big SQL
Что такое Big SQL?
Интерфейс для SQL запросов к данным Hadoop BigInsights
Новый движок SQL запросов, основанный на более чем 40-летнем опыте разработки СУБД компании IBM, включающий параллелизм и оптимизацию выполнения запросов
Для чего можно использовать Big SQL
Упрощенный переход на Hadoop для разработчиков со знанием SQL
Поддержка существующих инструментов и приложений, использующих JDBC&ODBC
Основной функционал
Создание таблиц и представлений. Данные при этом хранятся в HDFS и Hbase
Загрузка данных в таблицы из сторонних СУБД и файлов
Широкий язык запросов (project, restrict, join, union, все виды подзапросов, множество встроенных функций, поддержка UDFs, . . . . )
Настройка привилегий и ролей для доступа к данным, маскировка столбцов, контроль доступа к строкам таблицы (RLS)
Объединение данных из сторонних СУБД и Hadoop внутри 1 запроса
Статистика и отображение плана доступа к данным
. . . .
© 2015 IBM Corporation18
Big Sheets: табличный инструмент
Веб-инструмент анализа
Визуализация
– Облако тегов, гео карты,
тепловые карты,
многоразмерные диаграммы,
D3-чарты
Табличный интерфейс
– Создание и управление
заданий работы с данными
– Анализ содержания текста на
загруженных страницах
страницах
– Интеграция с Big SQL
– Более 40 функций
преобразований
© 2015 IBM Corporation19
Клиент R
Scalable
Statistics
Engine
Data Sources
Встроенное
исполнение R
R Packages
R Packages
1
2
3
1. Исследование, визуализация, трансформация и моделирование при помощи знакомого синтаксиса и парадигмы R
2. Масштабирование R• Разделение большого объема
данных (“разделяй”)
• Параллельное исполнение кода R на класторе (“conquer”)
• Все что вне окружения R (Jaql, Map/Reduce) скрыто от глаз
• Практически любой R пакет может быть использован в разработке
3. Масштабируемое машинное обучение
Часть данных
в R клиенте
Или
выполнение
функций прямо
на данных
Big R: Исполнение R кода на Hadoop
© 2015 IBM Corporation21
ОбъемТерабайты в секунду
Петабайты в день
РазнообразиеЛюбой тип данный
Любой вид аналитики
СкоростьОбработка за
микросекунды
Платформа аналитики в реальном времени
Сложность Big Data - Скорость
Миллионы событий в секунду
Задержка составляет микросекунды
Традиционные и не традиционные источники данных
Решение в реальном времени
Мощная аналитика
Algo Trading
Telco churnpredict
SmartGrid
CyberSecurity
Government /Law enforcement
ICUMonitoring
EnvironmentMonitoring
© 2015 IBM Corporation2222
Где применяется Streams?Фондовые
рынкиВлияние факторов на
ценность бумаг
Анализ рыночных
данных с ультра
низкими задержками
Предотвращение
мошенничестваОбнаружение и
предотвращение
мошенничества
НаукаПрогнозирование погоды
Атомные исследования
ТранспортИнтеллектуальное
управление трафиком
ЭнергетикаРазумный контроль
Природные ресурсыУправление водными ресурсами
ДругоеМануфактура
Текстовый анализ
Ситуационное осведомление
Видеонаблюдение
Правопорядок и
кибербезопасность
ЗдравоохранениеМониторинг
здоровья
новорожденных
Предупреждение
развития эпидемий
ТелекоммуникацииОбработка CDR
Социальный анализ
Прогноз оттока
Геопозиционирование
© 2015 IBM Corporation2323
Как работает Streamsdirectory:”/img"
filename:“farm”
directory:”/img"
filename:“bird”
directory:”/opt"
filename:“java”
directory:”/img"
filename:“cat”
tuple
height:640
width:480
data:
height:1280
width:1024
data:
height:640
width:480
data:
© 2015 IBM Corporation
Expert Integrated Systems
Андрей Орлов, Технический эксперт IBM Analytics R/CIS
© 2015 IBM Corporation27
Экспертно интегрированные системы:
Системы с интегрированной
экспертизой которые сочетают гибкость
систем общего назначения, эластичность
облака и простоту, оптимизированные под
определенные задачи
Фундаментальное изменение
экономики и опыта
использования ИТ
Пришло время нового поколения систем
Полная интеграция: Тесная интеграция и тщательная настройка аппаратных и программных средств
Встроенная экспертиза: Формализация и автоматизация работы экспертов
Упрощение всех задач: Облегчение каждого этапа ИТ цикла и интегрированное управление всей системой
© 2015 IBM Corporation28
Семейство IBM PureSystems обеспечивает простоту,
скорость и низкие затраты
Экспертно интегрированная
система
Компоненты общего назначения
Система под задачи организации
Проблема сегодня: Время и усилия тратятся на настройку компонентов общего назначения
Решение PureSystems: Упрощение всего цикла ИТ проекта
Сокращение времени, затрат,
снижение рисков
Проектирование/Разверты
вание
Управление/Подде
ржка
© 2015 IBM Corporation29
Архитектура комплекса IBM Netezza
Сервер
CACHE
SQL
DATA
Source Systems
Client
High Performance
Loader
3rd PartyApps
DBA CLI
ETL Server
SOLARIS
LINUX
HP-UX
AIX
WINDOWS
TRU64
SQL Данные
СХД
CACHE
СУБД
CACHE
I/O I/O
© 2015 IBM Corporation30
Архитектура комплекса IBM Netezza
Source Systems
Client
High Performance
Loader
3rd PartyApps
DBA CLI
ETL Server
SOLARIS
LINUX
HP-UX
AIX
WINDOWS
TRU64
ODBC 3.XJDBC Type 4
SQL-92SQL-99 Analytics
СУБД, СХД, сервер – всё в одном
СХД
CACHE
Сервер
CACHE
СУБД
CACHEI/O I/O
© 2015 IBM Corporation31
Наш секретный соус
FPGA Core CPU Core
Декомпрессия Фильтрация
колонок
Фильтрация,
Видимость
транзакц
Complex ∑
Joins, Aggs, etc.
select DISTRICT,
PRODUCTGRP,
sum(NRX)
from MTHLY_RX_TERR_DATA
where MONTH = '20091201'
and MARKET = 509123
and SPECIALTY = 'GASTRO'
Срез данных таблицы
MTHLY_RX_TERR_DATA
(сжатые данные)
where MONTH = '20091201'
and MARKET = 509123
and SPECIALTY = 'GASTRO'
sum(NRX)
select DISTRICT,
PRODUCTGRP,
sum(NRX)
© 2015 IBM Corporation32
Варианты PureData System for
Analytics N3001
Спецификация N3001-002 N3001-005 N3001-010 N3001-020 N3001-040
Стоек 1 (1/4 стойки) 1 (1/2 стойки) 1 2 4
S-Blades 2 4 7 14 28
Пользовательские
данные (TB) *32 96 192 384 768
• Учитывая среднее сжатие 4x
Single rack systems Multiple rack systems
Линейное масштабирование
© 2015 IBM Corporation33
Новые модель семейства PureData for Analytics
Data Warehouse Appliance
Встроенная In-Database аналитика и интеграция с
большим количеством внешних систем Real-time Analytics
InfoSphere Streams Developer Edition 2 users, non-production licenses
Business Intelligence Cognos, 5 Analytics User licenses +
1 Analytics Administrator license
Hadoop Data ServicesInfoSphere BigInsights Software licenses
to manage ~100 TB of Hadoop data
Уже в составе PureData System for Analytics N3001-001
Индустриальные модели данныхModels for Banking, Financial Markets,
Healthcare, Insurance, Retail, Telco
Можно приобрести
• Новая модель и специальная
цена для средних
организаций
Data Integration & TransformationInfoSphere DataStage 280 PVUs,
2 concurrent Designer Client licenses and InfoSphere Data Click
IBM InfoSphere Data Privacy and Security for Data Warehousing
© 2015 IBM Corporation34
Концепция BigData … и ее место в общем стеке
IBM Information management
InfoSphere BigInsights
Решения, основанные на HADOOP
Pure Data
BI + Ad Hoc аналитика
структурированных
данных
InfoSphere Warehouse
Структурированные данные
больших объемов
InfoSphere Streams
Аналитика потоковых
данных в реальном времени
MPP Data Warehouse
Stream ComputingInformation Integration
Hadoop (NoSQL)
InfoSphere Information Server
Интеграция больших объемов
информации
© 2015 IBM Corporation36
Watson Explorer V10 – новый уровень
исследования данных
• Анализ, визуализация и выделение знаний из неструктурированного контента с помощью текстовой аналитики
• Исследование ивизуализация информации из внутренних и внешних
источников, легкое создание приложений
• Интерпретация информации с помощью познавательных
способностей облачной платформы Watson
Watson Explorer
Watson Content
Analytics
Watson Developer CloudWatson Explorer V10
Now part of Watson Explorer Advanced Edition
© 2015 IBM Corporation37
IBM Watson Analytics
37
Диалог с системой
Гибкость облачной среды
Исследование данных
Быстрый стартПонятный интерфейс
Доступно для мобильных устройств
© 2015 IBM Corporation38
IBM Watson Analytics
38
Связывание элементов в
историю
Интеллект без
настройки
Доступ и очистка данных
Отчеты и информационные
панели
Взаимодействие
Подсказки в исследовании
© 2015 IBM Corporation40
Новый взгляд на клиентаРасширение текущих систем(MDM, CRM, …) за счет подключения дополнительных внутренних и внешних источников информации
Анализ операцийАнализ разнообразных машинных данных для улучшения бизнес результатов
Расширение хранилища данныхИнтеграция больших данных и традиционных хранилищ для повышения эффективности
Новые уровни безопасностиСнижение риска, обнаружение мошенничества и мониторинг кибер-угроз в реальном времени
Ключевые сценарии
© 2015 IBM Corporation41
Новый взгляд на клиента: потребности
Потребность глубже
понимать настроение
клиента по данным из
внешних и внутренних
источников
Расширение текущих систем (MDM, CRM, …) за счет подключения дополнительных внутренних и внешних источников информации
Желание повысить
лояльность и
удовлетворенность
за счет понимания
какие действия
нужно предпринять
Разрешение
проблемы доставки
нужной информации
правильным людям
для предоставления
клиентам того, чего
они хотят
© 2015 IBM Corporation42
Новый взгляд на клиента – все доступные источники
MasterDataManagement
Unified View of Party’s Information
CRM
J Robertson
Pittsburgh, PA 15213
35 West 15th
Name:
Address:
Address:
ERP
Janet Robertson
Pittsburgh, PA 15213
35 West 15th St.
Name:
Address:
Address:
Legacy
Jan Robertson
Pittsburgh, PA 15213
36 West 15th St.
Name:
Address:
Address:
SOURCE SYSTEMS
Janet
35 West 15th St
Pittsburgh
Robertson
PA / 15213
F
48
1/4/64
First:
Last:
Address:
City:
State/Zip:
Gender:
Age:
DOB:
360 View of Party Identity
BigInsights Streams Warehouse
Унифицированный взгляд на клиента
© 2015 IBM Corporation43
Анализ операций: потребности
• В реальном времени понимать
эффективность операций и их
влияние на поведение клиента
• Проактивно планировать операции
Анализ разнообразных машинных данных для улучшения бизнес результатов
Из-за сложности и быстрого роста объемов
машинных данных многие компании
принимают решения на основе малой доли
доступной информации
Способность эффективно анализировать
машинные данные и комбинировать с бизнес
транзакциями может дать возможность:
• Выявлять и исследовать аномалии
• Комплексно мониторить
инфраструктуру для предотвращения
отказов или ухудшения качества
сервиса
© 2015 IBM Corporation44
Логи
и м
аш
ины
ед
анны
е
Индекс, поиск
Статистическое
моделирование
Анализ причин
Исследование и
навигация
Анализ в реальном
времени
Хранить только
необходимое
Анализ операций: пример
Machine DataAccelerator
© 2015 IBM Corporation45
Интеграция больших данных и традиционных хранилищ для повышения эффективности
Дополнение хранилища данных:
потребности
Использование разнообразных
данных
Расширение инфраструктуры
хранилища
• Оптимизация хранения и
лицензирования за счет переноса
редко используемых данных в Hadoop
• Сокращение хранения за счет
обработки потоковых данных
• Повышение производительности
• Структурированные,
неструктурированные, потоковые
данные для анализа
• Минимальные задержки по анализу
(часы, а не недели или месяцы)
• Запросы к любым данным
© 2015 IBM Corporation46
Дополнение хранилища данныхПредобработка Архив
с возможностью
обработки запросов
Исследование
Information Integration
Data Warehouse
StreamsReal-time processing
BigInsightsLanding zone
for all data
Data Warehouse
BigInsights
Can combine with unstructured
information
Data Warehouse
1 2 3
46
Find and view the data
Data Explorer
Data Explorer
BigInsights
StreamsOffload analytics for microsecond
latency