Top Banner
Процесс анализа данных
53

Процесс анализа данных

Jul 17, 2015

Download

Technology

basegroup
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Процесс анализа данных

Процесс анализа данных

Page 2: Процесс анализа данных

Основные подходы

Page 3: Процесс анализа данных

Уровни анализа

Визуализация

Моделирование

Прогнозирование

Оптимизация

Page 4: Процесс анализа данных

Выборка данных

Очистка данных Трансформация

Data Mining -моделирование

Интерпретация результатов

Знания

Процесс анализа

Page 5: Процесс анализа данных

Данные для

анализаCRM, ERP

Базы данных

Офисные приложения

Интернет

Социальные сети

Выборка данных

Page 6: Процесс анализа данных

Атрибут Персона 1 Персона 2

ФИО Иванов Иван Иванович Иван Иванович

Адрес г. Рязань ул. Новая 53в

Телефон +7 (4912) 24-09-77

Дата рождения 1971 г. 15 декабря

E-mail [email protected] [email protected]

Место работы BaseGroup Labs BGL

Источник CRM-система Facebook

Выборка данных: проблема

Это один человек?

Page 7: Процесс анализа данных

Выборка данных: решение

Оценка близости и связывание

Page 8: Процесс анализа данных

Данные всегда плохие

Ошибки ввода

Пропуски

Аномалии

Дубли

Противоречия

Очистка данных

Page 9: Процесс анализа данных

Очистка данных: пример

Аномалия или норма?

Нет данных или нет продаж?

Page 10: Процесс анализа данных

Проблема Вариант решения

Ошибки ввода Проверить по справочникам

Пропуски Интерполировать

Аномалии Срезать выбросы

Дубли Оставить одну запись

Противоречия Удалить записи

Очистка данных: решение

Page 11: Процесс анализа данных

Фильтрация

Расчет агрегатов

Группировка данных

Квантование

Сэмплинг

Трансформация

Подготовка данных к анализу

Page 12: Процесс анализа данных

Трансформация: проблема

Средний чек -359?

Page 13: Процесс анализа данных

150

110

85

215

159

120

106

79

168

3590

117

95

167

123

96

Трансформация: решение

79

85

95

96

106

110

117

120

123

150

159

167

168

215

3590

Медиа = 120Среднее =

359

Page 14: Процесс анализа данных

Data Mining

Новые данные Модель Прогноз

Исторические данные

МодельОбобщение

опыта

Применение модели

Page 15: Процесс анализа данных

Трудно понять модель

Нет доверия к результатам

Отказ в применении модели

Интерпретация результатов

Page 16: Процесс анализа данных

Визуализация – способ понять

Структура кластеров

Различие кластеров

Page 17: Процесс анализа данных

Выборка данных

•25%Очистка

•25%

Трансформация

•20%Data Mining

•15%Интерпретация

•15%

Трудоемкость этапов

Page 18: Процесс анализа данных

Выборка данных

•История продаж

•История остатков

•Маркетинговые акции

•Связывание данных

Очистка

•Заполнить пропуски

•Удались аномалии

Трансформация

•Сгруппировать помесячно

•Скользящее окно

Data Mining –моделирование

•Линейная регрессия

•Нейронная сеть

Интерпретация результатов

•Диаграмма рассеяния

•Ретро-прогноз

•Распределение ошибки

Пример: прогнозирование

Page 19: Процесс анализа данных

Выборка данных

•История звонков

•Параметры тарифных планов

Очистка

•Исключить редкие события

•Удалить аномалии

Трансформация

•Сгруппировать понедельно

•Сбалансировать классы

Data Mining –моделирование

•Логистическая регрессия

•Дерево решений

Интерпретация результатов

•Таблица сопряженности

•Дерево правил

Пример: отток клиентов

Page 20: Процесс анализа данных

Data Mining

Page 21: Процесс анализа данных

Data Mining – это процесс обнаружения

в 'сырых' данных

ранее неизвестных нетривиальных

практически полезных и

доступных интерпретации знаний,

необходимых для принятия решений

Data Mining

Page 22: Процесс анализа данных

Кластеризация

Регрессия

Классификация

Ассоциативные правила

Последовательные шаблоны

Анализ временных рядов

Анализ связей

Анализ отклонений

Классы задач Data Mining

Page 23: Процесс анализа данных

Объединение «похожих» объектов в сравнительно однородныегруппы, существенно отличающихся от других групп

Кластеризация

Page 24: Процесс анализа данных

Сегментация клиентов

Выявление целевой аудитории

Анализ миграции клиентов

Канибализация товаров

Кластеризация: задачи

Page 25: Процесс анализа данных

Предсказание значения непрерывнойзависимой переменной с помощью независимых переменных

Регрессия

Page 26: Процесс анализа данных

Прогнозирование спроса

Вероятность отклика на предложение

Оценка эластичности цен

Кредитный скоринг

Регрессия: задачи

Page 27: Процесс анализа данных

Отнесение объектов к одному из известных классовс помощью независимых переменных

Классификация

Page 28: Процесс анализа данных

Оценка перспективности клиента

Предсказание мошенничества

Прогнозирование оттока

Анализ рисков

Классификация: задачи

Page 29: Процесс анализа данных

Обнаружение в транзакциях зависимостей, что из события X с определенной вероятностью следует событие Y

Ассоциация

Page 30: Процесс анализа данных

Анализ рыночной корзины

Кросс-продажи (Cross-sale)

Повышение доходности (Up-sale)

Лучшее товарное предложение (Next Best Offer)

Ассоциация: задачи

Page 31: Процесс анализа данных

Выявление зависимости, что после события Х, с определенной вероятностью наступит событие Y

Купил

• Принтер

• Бумага

Предложить

• Тонер

Последовательность

Спустя некоторое

время

Page 32: Процесс анализа данных

Предсказание переходов по сайту

Анализ отложенного спроса

Оптимизация работы службы технической поддержки

Последовательность: задачи

Page 33: Процесс анализа данных

Предсказание будущих значений временного ряда по настоящим и прошлым значениям

Анализ временных рядов

Page 34: Процесс анализа данных

Прогнозирование спроса

Оптимизация складских запасов

Прогнозирование финансовых потоков

Прогнозирование потребности в ресурсах

Анализ временных рядов: задачи

Page 35: Процесс анализа данных

Выявление отношений между объектами сети для определения ранее неизвестных характеристик объектов

Анализ связей

Page 36: Процесс анализа данных

Противодействие мошенничеству

Защита конфиденциальных данных

Построение профилей клиентов

Выбор каналов воздействия

Анализ связей: задачи

Page 37: Процесс анализа данных

Обнаружение наиболее нехарактерных случаев, выбивающихся из общих закономерностей

Анализ отклонений

Page 38: Процесс анализа данных

Выявление подозрительной активности

Анализ влияния маркетинговых акций

Автоматический контроль выполнения KPI

Анализ отклонений: задачи

Page 39: Процесс анализа данных

Решение большинства задач бизнес-аналитики сводятся к описанным классам задач Data Mining или их комбинациям.

Применение в бизнесе

Page 40: Процесс анализа данных

Кейс: мошенничество

Page 41: Процесс анализа данных

До 70% потерь происходит по вине персонала. Проблемная зона – касса:

Воровство и обман покупателей

Неправомерное использование скидок

Начисление баллов на бонусные карты

Мошенничество в рознице

Page 42: Процесс анализа данных

Мошенничество – не только воровство, но и осознанное нарушение корпоративных правил работы:

Начисление баллов на свою карту

Использование служебной карты для родственников и знакомых

Что такое мошенничество

Page 43: Процесс анализа данных

Противодействия мошенничеству базируются на выявлении последовательности подозрительных действий, оценке вероятности обмана и расчете финансовых потерь:

Жесткие правила известных схем обмана

Частотный анализ действий

Аномальные выбросы во временных рядах

Анализ последовательности действий

Поиск подозрительных сочетаний

Кластеризация транзакций

Выявление мошенничества

Page 44: Процесс анализа данных

Много бонусов

Кассир начислил подозрительно много бонусов

Page 45: Процесс анализа данных

Аномальное сторно

Слишком много подозрительных

операций

Page 46: Процесс анализа данных

Странный возврат

№ транзакции

Дата транзакции

Время транзакции Тип транзакции

№ ККМ

№ чека

№ возвр. чека

Код кассира

Код товара Цена

Количество Сумма

82721 40319 18:19:1511 – регистрация товара 2 7095 8 1583 56.4 3 169.2

82722 40319 18:19:2011 – регистрация товара 2 7095 8 249875 15.5 12 186

82723 40319 18:19:2711 – регистрация товара 2 7095 8 13752 35 8 280

82724 40319 18:19:5140 – оплата 2 7095 8 635.2

82725 40319 18:19:5155 – закрытие чека 2 7095 8 635.2

№ транзакции

Дата транзакции

Время транзакции Тип транзакции

№ ККМ

№ чека

№ возвр. чека

Код кассира Код тов. Цена Кол-во Сумма

83326 40319 19:53:3380 – возврат по номеру чека 2 7175 7095 8

83327 40319 19:53:5013– возврат 2 7175 7095 8 13752 35 -2 -70

83328 40319 19:53:5340 – оплата 2 7175 7095 8 -70

83329 40319 19:53:5355 – закрытие чека 2 7175 7095 8 -70

Создан чек

Отмена чека через час

Page 47: Процесс анализа данных

Плохие сочетания

Профиль нормального

чека

Профиль «плохого»

чека

Page 48: Процесс анализа данных

Big Data

Page 49: Процесс анализа данных

Каждый день в мире генерируется 1018 байт информации

90% всех существующих данных созданы за последние 2 года

Каждый час Wal-Mart генерирует данных в 170 раз больше объема данных Библиотеки Конгресса США

Big Data

Интернет вещей

Социальные сети

Мобильная связь

Чеки

Логи

Обвал данных

Page 50: Процесс анализа данных

Проблемы больших данных:

Volume – огромные объема данных

Velocity – высокая скорость генерации новых данных

Variety – многообразие структурированных и неструктурированных источников данных

Big Data

Page 51: Процесс анализа данных

Мнение клиентов

Рекомендательные системы

Массовая кастомизация услуг

Противодействие оттоку

Борьба с мошшеничеством

Построение профилей клиентов

Потенциал Big Data

Page 52: Процесс анализа данных

Ручная обработка огромных потоков данных практически бесполезна.

Технологии Data Mining – реальный способ извлечь ценные знания из Big Data, превратив умение анализировать данные в конкурентное преимущество.

Знания из данных

Page 53: Процесс анализа данных

basegrpoup.ru