Top Banner
© 2015 IBM Corporation Большие данные в понимании IBM Андрей Орлов, Технический эксперт IBM Analytics R/CIS
47
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 3 ibm bdw2015

© 2015 IBM Corporation

Большие данные в понимании IBM

Андрей Орлов, Технический эксперт IBM Analytics R/CIS

Page 2: 3 ibm bdw2015

© 2015 IBM Corporation2

Масштаб Много форм Потоки данных Доверие

Большие данные – все данные

Объем Разнообразие Скорость Достоверность

Page 3: 3 ibm bdw2015

© 2015 IBM Corporation3

Данные в центре персональной аналитики

Данные поведения• Покупки• Поездки

• История платежей• История коммуникаций

Данные описания•Атрибуты

•Характеристики•Данные, сообщенные о себе

•(Гео)демография

Данные об отношении•Социологические исследования

•Социальные сети

Данные взаимодействий•E-Mail / chat расшифровки•Заметки из колл центра

•Поведение в веб•Личные контакты

Традиционный подход

Динамический подход- источник полноты знания

Почему?

Что?

Как?

Кто?

Page 4: 3 ibm bdw2015

© 2015 IBM Corporation4

Некоторые данные доступнее чем

кажется!

Page 5: 3 ibm bdw2015

© 2015 IBM Corporation5

Сегодня давление со стороны социума намного

сильнее…

4 из 10Обладателей

смартфонов проверяют

информацию налету

86%Используют

много каналов

взаимодействия

в 4-5 разТратится больше теми,

кто использует несколько

каналов взаимодействия

78%Людей доверяют

мнению других людей

58%Более

осведомлены о

конкурентных ценах

чем год назад

75%Не верят что в

рекламе

говорят правду

80%CEO считают что

оказывают

превосходные

услуги

8%Их

клиентов с

этим

согласны

Source: Sources of statistics [from “Smarter Commerce Stats and Facts Feb 3 2012.ppt]

Page 6: 3 ibm bdw2015

© 2015 IBM Corporation6

Необходима новая архитектура работы с данными

Интеграция и управление данными

Systems Security

On premise, Cloud, As a service

Storage

Новые/расширенные

приложенияВсе данные

Что предпринять

?

Предписание действий

Зона хранения, исследования,

архивы данных

КХД и витрины

Зона оперативных

данных

Обработка и анализ данныхв реальном времени

Чтопроисходит?

Исследование

Почему?

Отчетность, анализ

контента

Что может произойти?

Предсказание и

моделирование

Зона сложной

аналитики Что мы узнали,

что лучше?Cognitive

Page 7: 3 ibm bdw2015

© 2015 IBM Corporation7

Использование различных видов аналитики улучшает понимание

Что мы узнали,

что лучше?Cognitive

Что предпринять?

Предписание действий

Почему?

Отчетность, анализ контента

Что может произойти?

Предсказание и моделирование

Чтопроисходит?

Исследование

Давать правильные

ответы

Page 8: 3 ibm bdw2015

© 2015 IBM Corporation8

Зона хранения,

исследования, архивы данных

Зона оперативных

данных

Обработка и анализ данныхв реальном времени

Транзакции иданные

приложений

Машинные, сенсорные

Корпоративныйконтент

Изображения, геоданные, видео

Социальные сети

Данные внешних поставщиков

Интеграция и управление данными

Зона сложной

аналитики

КХД и витрины

Работа со всеми видами данных

Сохраненные и

потоковые

данные

Структурированные и

неструктурированные

Внутренние и

внешние по

отношению к

организации

Page 9: 3 ibm bdw2015

© 2015 IBM Corporation9

Прибыль

Время

Эффект от клиентской аналитики

Привлечение

Эффективное привлечение

новых клиентов

Восстановление

ценных клиентов

Развитие

отношений Удержание Возврат

Увеличение кросс

продаж

Эффективное

удержание

прибыльных клиентов

Page 10: 3 ibm bdw2015

© 2015 IBM Corporation10

Смещение парадигм работы с данными

Больше данных

Page 11: 3 ibm bdw2015

© 2015 IBM Corporation11

Технологии IBM для работы с большими

данными

InfoSphere Streams

Постоянная обработка и

анализ быстро поступающих

клиентских данных

Мгновенная реакция на

события на основе аналитики

InfoSphere BigInsights

Hadoop для предприятия

Зона хранения данных

Низкая стоимость хранения

Аналитическое исследование

данных

Watson Explorer

Поиск и навигация по

клиентской информации вне

зависимости от формата

данных и места хранения

Унифицированное

представление вместе с

аналитикой

PureData for Analytics и

InfoSphere Warehouse

Анализ оперативной

клиентской информации

Information Integration &

Governance

Обеспечение целостности и

точности данных

Page 12: 3 ibm bdw2015

© 2015 IBM Corporation

IBM InfoSphere BigInsights

Андрей Орлов, Технический эксперт IBM Analytics R/CIS

Page 13: 3 ibm bdw2015

© 2015 IBM Corporation13

IBM BigInsights for Hadoop: 100% Open Source

Hadoop, и все что нужно для предприятия

HDFS

Oozie

YARN

MapReduce

Jaql

Spark

HBase

Zookeeper

Avro

Flume

Hive

Pig

Sqoop

HCatalog

Solr/Lucene

100% Standard Apache Open-Source компоненты

SQL on Hadoop

Big SQL – optimized ANSI compliant SQL

Шаблоны приложений

Toolkits and accelerators

ПоискBigIndex and Data Explorer

Исследование данных

BigSheets “schema-on-read”

Предиктивное моделирование

Big R – scalable data miningАнализ текстов

Advanced text processing with AQL

Аналитика реального времениInfoSphere Streams

Управление данными и

безопасностьData Click, LDAP, Secure cluster

Интеграция с системами храненияGPFS - POSIX Distributed Filesystem

Производительность и

надёжностьAdaptive MapReduce, Recoverable jobs

Дополнительные возможности

Page 14: 3 ibm bdw2015

© 2015 IBM Corporation14

Поддержка Open Source

Не нужно больше больших

загрузок образов

Загрузка небольшого пакета и

последующая загрузка только

необходимых компонентов

Component

NameVersion

Ambari 1.7.0

Avro 1.7.7

Flume 1.5.2

Hadoop 2.6

HBase 0.98.8

Hive 0.14.0

Knox 0.5.0

Oozie 4.0.1

Pig 0.14.0

Parquet (hadoop) 1.5.0

Parquet (format) 2.1.0

Spark 1.2.1

Snappy 1.0.5

Sqoop 1.4.5

Solr 4.10.3

Slider 0.6.0

Zookeeper 3.4.5

Мы будем поддерживать

актуальность в каждом

новом релизе

Page 15: 3 ibm bdw2015

© 2015 IBM Corporation15

Возможности для специалистов

Business Analyst Data Scientist Administrator

• Выявление

шаблонов,

трендов,

результаты

алгоритмов

машинного

обучения

• Статистические

модели на

больших объемах

данных

• Выявление данных

для анализа

• Визуализация

данных для действий

• Использование

существующих

навыков (SQL,

spreadsheets)

• Управление

нагрузкой и

обеспечение уровня

производительности

• Реализация политик

безопасности для

снижения рисков

Рол

ьП

отр

еб

ность

Page 16: 3 ibm bdw2015

© 2015 IBM Corporation16

Редакции BigInsights

Text Analytics

POSIX Distributed

Filesystem

Multi-workload, Multi-tenant

scheduling

IBM BigInsights

Enterprise Management

Machine Learning on

Big R

Big R

IBM Open Platform with Apache Hadoop*

IBM BigInsights

Data Scientist

IBM BigInsights

Analyst

Big SQL

BigSheets

Big SQL

BigSheets

IBM BigInsights for Apache Hadoop

*IBM Open Platform with Apache Hadoop is our own 100% open source Apache

Hadoop distribution. IBM will include the ODP common kernel once available (future).

Page 17: 3 ibm bdw2015

© 2015 IBM Corporation17

Big SQL

Что такое Big SQL?

Интерфейс для SQL запросов к данным Hadoop BigInsights

Новый движок SQL запросов, основанный на более чем 40-летнем опыте разработки СУБД компании IBM, включающий параллелизм и оптимизацию выполнения запросов

Для чего можно использовать Big SQL

Упрощенный переход на Hadoop для разработчиков со знанием SQL

Поддержка существующих инструментов и приложений, использующих JDBC&ODBC

Основной функционал

Создание таблиц и представлений. Данные при этом хранятся в HDFS и Hbase

Загрузка данных в таблицы из сторонних СУБД и файлов

Широкий язык запросов (project, restrict, join, union, все виды подзапросов, множество встроенных функций, поддержка UDFs, . . . . )

Настройка привилегий и ролей для доступа к данным, маскировка столбцов, контроль доступа к строкам таблицы (RLS)

Объединение данных из сторонних СУБД и Hadoop внутри 1 запроса

Статистика и отображение плана доступа к данным

. . . .

Page 18: 3 ibm bdw2015

© 2015 IBM Corporation18

Big Sheets: табличный инструмент

Веб-инструмент анализа

Визуализация

– Облако тегов, гео карты,

тепловые карты,

многоразмерные диаграммы,

D3-чарты

Табличный интерфейс

– Создание и управление

заданий работы с данными

– Анализ содержания текста на

загруженных страницах

страницах

– Интеграция с Big SQL

– Более 40 функций

преобразований

Page 19: 3 ibm bdw2015

© 2015 IBM Corporation19

Клиент R

Scalable

Statistics

Engine

Data Sources

Встроенное

исполнение R

R Packages

R Packages

1

2

3

1. Исследование, визуализация, трансформация и моделирование при помощи знакомого синтаксиса и парадигмы R

2. Масштабирование R• Разделение большого объема

данных (“разделяй”)

• Параллельное исполнение кода R на класторе (“conquer”)

• Все что вне окружения R (Jaql, Map/Reduce) скрыто от глаз

• Практически любой R пакет может быть использован в разработке

3. Масштабируемое машинное обучение

Часть данных

в R клиенте

Или

выполнение

функций прямо

на данных

Big R: Исполнение R кода на Hadoop

Page 20: 3 ibm bdw2015

© 2015 IBM Corporation

IBM InfoSphere Streams

Андрей Орлов, Технический эксперт IBM Analytics R/CIS

Page 21: 3 ibm bdw2015

© 2015 IBM Corporation21

ОбъемТерабайты в секунду

Петабайты в день

РазнообразиеЛюбой тип данный

Любой вид аналитики

СкоростьОбработка за

микросекунды

Платформа аналитики в реальном времени

Сложность Big Data - Скорость

Миллионы событий в секунду

Задержка составляет микросекунды

Традиционные и не традиционные источники данных

Решение в реальном времени

Мощная аналитика

Algo Trading

Telco churnpredict

SmartGrid

CyberSecurity

Government /Law enforcement

ICUMonitoring

EnvironmentMonitoring

Page 22: 3 ibm bdw2015

© 2015 IBM Corporation2222

Где применяется Streams?Фондовые

рынкиВлияние факторов на

ценность бумаг

Анализ рыночных

данных с ультра

низкими задержками

Предотвращение

мошенничестваОбнаружение и

предотвращение

мошенничества

НаукаПрогнозирование погоды

Атомные исследования

ТранспортИнтеллектуальное

управление трафиком

ЭнергетикаРазумный контроль

Природные ресурсыУправление водными ресурсами

ДругоеМануфактура

Текстовый анализ

Ситуационное осведомление

Видеонаблюдение

Правопорядок и

кибербезопасность

ЗдравоохранениеМониторинг

здоровья

новорожденных

Предупреждение

развития эпидемий

ТелекоммуникацииОбработка CDR

Социальный анализ

Прогноз оттока

Геопозиционирование

Page 23: 3 ibm bdw2015

© 2015 IBM Corporation2323

Как работает Streamsdirectory:”/img"

filename:“farm”

directory:”/img"

filename:“bird”

directory:”/opt"

filename:“java”

directory:”/img"

filename:“cat”

tuple

height:640

width:480

data:

height:1280

width:1024

data:

height:640

width:480

data:

Page 24: 3 ibm bdw2015

© 2015 IBM Corporation24

Пару слов о Streams и Storm

Page 25: 3 ibm bdw2015

© 2015 IBM Corporation25

Page 26: 3 ibm bdw2015

© 2015 IBM Corporation

Expert Integrated Systems

Андрей Орлов, Технический эксперт IBM Analytics R/CIS

Page 27: 3 ibm bdw2015

© 2015 IBM Corporation27

Экспертно интегрированные системы:

Системы с интегрированной

экспертизой которые сочетают гибкость

систем общего назначения, эластичность

облака и простоту, оптимизированные под

определенные задачи

Фундаментальное изменение

экономики и опыта

использования ИТ

Пришло время нового поколения систем

Полная интеграция: Тесная интеграция и тщательная настройка аппаратных и программных средств

Встроенная экспертиза: Формализация и автоматизация работы экспертов

Упрощение всех задач: Облегчение каждого этапа ИТ цикла и интегрированное управление всей системой

Page 28: 3 ibm bdw2015

© 2015 IBM Corporation28

Семейство IBM PureSystems обеспечивает простоту,

скорость и низкие затраты

Экспертно интегрированная

система

Компоненты общего назначения

Система под задачи организации

Проблема сегодня: Время и усилия тратятся на настройку компонентов общего назначения

Решение PureSystems: Упрощение всего цикла ИТ проекта

Сокращение времени, затрат,

снижение рисков

Проектирование/Разверты

вание

Управление/Подде

ржка

Page 29: 3 ibm bdw2015

© 2015 IBM Corporation29

Архитектура комплекса IBM Netezza

Сервер

CACHE

SQL

DATA

Source Systems

Client

High Performance

Loader

3rd PartyApps

DBA CLI

ETL Server

SOLARIS

LINUX

HP-UX

AIX

WINDOWS

TRU64

SQL Данные

СХД

CACHE

СУБД

CACHE

I/O I/O

Page 30: 3 ibm bdw2015

© 2015 IBM Corporation30

Архитектура комплекса IBM Netezza

Source Systems

Client

High Performance

Loader

3rd PartyApps

DBA CLI

ETL Server

SOLARIS

LINUX

HP-UX

AIX

WINDOWS

TRU64

ODBC 3.XJDBC Type 4

SQL-92SQL-99 Analytics

СУБД, СХД, сервер – всё в одном

СХД

CACHE

Сервер

CACHE

СУБД

CACHEI/O I/O

Page 31: 3 ibm bdw2015

© 2015 IBM Corporation31

Наш секретный соус

FPGA Core CPU Core

Декомпрессия Фильтрация

колонок

Фильтрация,

Видимость

транзакц

Complex ∑

Joins, Aggs, etc.

select DISTRICT,

PRODUCTGRP,

sum(NRX)

from MTHLY_RX_TERR_DATA

where MONTH = '20091201'

and MARKET = 509123

and SPECIALTY = 'GASTRO'

Срез данных таблицы

MTHLY_RX_TERR_DATA

(сжатые данные)

where MONTH = '20091201'

and MARKET = 509123

and SPECIALTY = 'GASTRO'

sum(NRX)

select DISTRICT,

PRODUCTGRP,

sum(NRX)

Page 32: 3 ibm bdw2015

© 2015 IBM Corporation32

Варианты PureData System for

Analytics N3001

Спецификация N3001-002 N3001-005 N3001-010 N3001-020 N3001-040

Стоек 1 (1/4 стойки) 1 (1/2 стойки) 1 2 4

S-Blades 2 4 7 14 28

Пользовательские

данные (TB) *32 96 192 384 768

• Учитывая среднее сжатие 4x

Single rack systems Multiple rack systems

Линейное масштабирование

Page 33: 3 ibm bdw2015

© 2015 IBM Corporation33

Новые модель семейства PureData for Analytics

Data Warehouse Appliance

Встроенная In-Database аналитика и интеграция с

большим количеством внешних систем Real-time Analytics

InfoSphere Streams Developer Edition 2 users, non-production licenses

Business Intelligence Cognos, 5 Analytics User licenses +

1 Analytics Administrator license

Hadoop Data ServicesInfoSphere BigInsights Software licenses

to manage ~100 TB of Hadoop data

Уже в составе PureData System for Analytics N3001-001

Индустриальные модели данныхModels for Banking, Financial Markets,

Healthcare, Insurance, Retail, Telco

Можно приобрести

• Новая модель и специальная

цена для средних

организаций

Data Integration & TransformationInfoSphere DataStage 280 PVUs,

2 concurrent Designer Client licenses and InfoSphere Data Click

IBM InfoSphere Data Privacy and Security for Data Warehousing

Page 34: 3 ibm bdw2015

© 2015 IBM Corporation34

Концепция BigData … и ее место в общем стеке

IBM Information management

InfoSphere BigInsights

Решения, основанные на HADOOP

Pure Data

BI + Ad Hoc аналитика

структурированных

данных

InfoSphere Warehouse

Структурированные данные

больших объемов

InfoSphere Streams

Аналитика потоковых

данных в реальном времени

MPP Data Warehouse

Stream ComputingInformation Integration

Hadoop (NoSQL)

InfoSphere Information Server

Интеграция больших объемов

информации

Page 35: 3 ibm bdw2015

© 2015 IBM Corporation

Watson family

Андрей Орлов, Технический эксперт IBM Analytics R/CIS

Page 36: 3 ibm bdw2015

© 2015 IBM Corporation36

Watson Explorer V10 – новый уровень

исследования данных

• Анализ, визуализация и выделение знаний из неструктурированного контента с помощью текстовой аналитики

• Исследование ивизуализация информации из внутренних и внешних

источников, легкое создание приложений

• Интерпретация информации с помощью познавательных

способностей облачной платформы Watson

Watson Explorer

Watson Content

Analytics

Watson Developer CloudWatson Explorer V10

Now part of Watson Explorer Advanced Edition

Page 37: 3 ibm bdw2015

© 2015 IBM Corporation37

IBM Watson Analytics

37

Диалог с системой

Гибкость облачной среды

Исследование данных

Быстрый стартПонятный интерфейс

Доступно для мобильных устройств

Page 38: 3 ibm bdw2015

© 2015 IBM Corporation38

IBM Watson Analytics

38

Связывание элементов в

историю

Интеллект без

настройки

Доступ и очистка данных

Отчеты и информационные

панели

Взаимодействие

Подсказки в исследовании

Page 39: 3 ibm bdw2015

© 2015 IBM Corporation

Сценарии

Андрей Орлов, Технический эксперт IBM Analytics R/CIS

Page 40: 3 ibm bdw2015

© 2015 IBM Corporation40

Новый взгляд на клиентаРасширение текущих систем(MDM, CRM, …) за счет подключения дополнительных внутренних и внешних источников информации

Анализ операцийАнализ разнообразных машинных данных для улучшения бизнес результатов

Расширение хранилища данныхИнтеграция больших данных и традиционных хранилищ для повышения эффективности

Новые уровни безопасностиСнижение риска, обнаружение мошенничества и мониторинг кибер-угроз в реальном времени

Ключевые сценарии

Page 41: 3 ibm bdw2015

© 2015 IBM Corporation41

Новый взгляд на клиента: потребности

Потребность глубже

понимать настроение

клиента по данным из

внешних и внутренних

источников

Расширение текущих систем (MDM, CRM, …) за счет подключения дополнительных внутренних и внешних источников информации

Желание повысить

лояльность и

удовлетворенность

за счет понимания

какие действия

нужно предпринять

Разрешение

проблемы доставки

нужной информации

правильным людям

для предоставления

клиентам того, чего

они хотят

Page 42: 3 ibm bdw2015

© 2015 IBM Corporation42

Новый взгляд на клиента – все доступные источники

MasterDataManagement

Unified View of Party’s Information

CRM

J Robertson

Pittsburgh, PA 15213

35 West 15th

Name:

Address:

Address:

ERP

Janet Robertson

Pittsburgh, PA 15213

35 West 15th St.

Name:

Address:

Address:

Legacy

Jan Robertson

Pittsburgh, PA 15213

36 West 15th St.

Name:

Address:

Address:

SOURCE SYSTEMS

Janet

35 West 15th St

Pittsburgh

Robertson

PA / 15213

F

48

1/4/64

First:

Last:

Address:

City:

State/Zip:

Gender:

Age:

DOB:

360 View of Party Identity

BigInsights Streams Warehouse

Унифицированный взгляд на клиента

Page 43: 3 ibm bdw2015

© 2015 IBM Corporation43

Анализ операций: потребности

• В реальном времени понимать

эффективность операций и их

влияние на поведение клиента

• Проактивно планировать операции

Анализ разнообразных машинных данных для улучшения бизнес результатов

Из-за сложности и быстрого роста объемов

машинных данных многие компании

принимают решения на основе малой доли

доступной информации

Способность эффективно анализировать

машинные данные и комбинировать с бизнес

транзакциями может дать возможность:

• Выявлять и исследовать аномалии

• Комплексно мониторить

инфраструктуру для предотвращения

отказов или ухудшения качества

сервиса

Page 44: 3 ibm bdw2015

© 2015 IBM Corporation44

Логи

и м

аш

ины

ед

анны

е

Индекс, поиск

Статистическое

моделирование

Анализ причин

Исследование и

навигация

Анализ в реальном

времени

Хранить только

необходимое

Анализ операций: пример

Machine DataAccelerator

Page 45: 3 ibm bdw2015

© 2015 IBM Corporation45

Интеграция больших данных и традиционных хранилищ для повышения эффективности

Дополнение хранилища данных:

потребности

Использование разнообразных

данных

Расширение инфраструктуры

хранилища

• Оптимизация хранения и

лицензирования за счет переноса

редко используемых данных в Hadoop

• Сокращение хранения за счет

обработки потоковых данных

• Повышение производительности

• Структурированные,

неструктурированные, потоковые

данные для анализа

• Минимальные задержки по анализу

(часы, а не недели или месяцы)

• Запросы к любым данным

Page 46: 3 ibm bdw2015

© 2015 IBM Corporation46

Дополнение хранилища данныхПредобработка Архив

с возможностью

обработки запросов

Исследование

Information Integration

Data Warehouse

StreamsReal-time processing

BigInsightsLanding zone

for all data

Data Warehouse

BigInsights

Can combine with unstructured

information

Data Warehouse

1 2 3

46

Find and view the data

Data Explorer

Data Explorer

BigInsights

StreamsOffload analytics for microsecond

latency

Page 47: 3 ibm bdw2015

© 2015 IBM Corporation47

Email: [email protected]

Twitter: @lokaro

LinkedIn: /in/andreyorlov