Top Banner
Кластеризация на примере подарков в соц.сети ОК Артур Кадурин Группа сегментирования аудитории
23

Кластеризация на примере соцсети "Одноклассники"

Jul 23, 2015

Download

Technology

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Кластеризация на примере соцсети "Одноклассники"

Кластеризация на примере

подарков в соц.сети ОК

Артур Кадурин

Группа сегментирования аудитории

Page 2: Кластеризация на примере соцсети "Одноклассники"

• 50.000.000 дарений

• 100.000 разных подарков

«Игрушечный» датасет

Page 3: Кластеризация на примере соцсети "Одноклассники"

• Ранжирование

• Тэгирование

• Фильтрация

• Деньги же, ну?..

Задачи

Page 4: Кластеризация на примере соцсети "Одноклассники"

• Даритель: ID, интересы, друзья

• Подарок: ID, теги, картинка, цена

• Получатель: ID, интересы, друзья

• Timestamp: ID праздника, день недели,

время суток…

Что такое дарение?

Page 5: Кластеризация на примере соцсети "Одноклассники"

Пользователи-подарки

Page 6: Кластеризация на примере соцсети "Одноклассники"

процедура упорядочивания объектов

в сравнительно однородные группы

Кластеризация

Page 7: Кластеризация на примере соцсети "Одноклассники"

K-Means

Page 8: Кластеризация на примере соцсети "Одноклассники"

• Нет пространства

• Нет расстояний

• Вообще ничего нет

• Варианты?

Хьюстон, у нас проблема!

Page 9: Кластеризация на примере соцсети "Одноклассники"

Если пользователь подарил два подарка

значит они чем-то похожи

Основная мысль

Page 10: Кластеризация на примере соцсети "Одноклассники"

Похожесть..?

𝐾(𝐴, 𝐵) =𝑛(𝐴 ∩ 𝐵)

𝑛(𝐴 ∪ 𝐵)=

𝑛(𝐴 ∩ 𝐵)

𝑛 𝐴 + 𝑛 𝐵 − 𝑛(𝐴 ∩ 𝐵)

количество общих пользователей

общее количество пользователей

Page 11: Кластеризация на примере соцсети "Одноклассники"

Коэффициент Жаккара

Размер имеет значение Треугольник наоборот

1 − 𝐾 𝐴, 𝐵 + 1 − 𝐾 𝐵, 𝐶 ≥ 1 − 𝐾 𝐴, 𝐶

1. Lipkus, Alan H (1999), A proof of the triangle inequality for the Tanimotodistance, J Math Chem

2. Levandowsky, Michael; Winter, David (1971), Distance between sets, Nature

Page 12: Кластеризация на примере соцсети "Одноклассники"

План

• Есть лог пар Пользователь-Подарок

• Для каждой пары подарков считаем

коэффициент Жаккара

• Кластеризуем

• ?????????

• PROFIT

Page 13: Кластеризация на примере соцсети "Одноклассники"

Считаем «похожесть»

Page 14: Кластеризация на примере соцсети "Одноклассники"

Граф и его матрица

A =

1 0,209 ⋯ 0,0010,209 1 ⋯ 0,035⋮ ⋮ ⋱ ⋮0,001 0,035 ⋯ 1

𝐵𝑖𝑗 =

𝑘

𝐴𝑖𝑘𝐴𝑘𝑗

(Γ𝑟𝐴)𝑖𝑗 = (𝐴𝑖𝑗)𝑟/

𝑘

(𝐴𝑘𝑗)𝑟

Page 15: Кластеризация на примере соцсети "Одноклассники"

А дальше картинки

Page 16: Кластеризация на примере соцсети "Одноклассники"

Цветы бывают разные

Page 17: Кластеризация на примере соцсети "Одноклассники"

Яйца и туфли

Page 18: Кластеризация на примере соцсети "Одноклассники"

С новым годом, доброе утро

Page 19: Кластеризация на примере соцсети "Одноклассники"

Женщины и дети

Page 20: Кластеризация на примере соцсети "Одноклассники"

Загнутая подпись

Page 21: Кластеризация на примере соцсети "Одноклассники"

Эксперименты

• Другие расстоянияпо визуальным признакам, с учетом интервала между дарениями,

с учетом соц.графа…

• Другая кластеризациясвоя реализация, шанс прохода, «выпихивание»…

• Другие данныедомены, запросы, товары, туристические направления…

Page 22: Кластеризация на примере соцсети "Одноклассники"
Page 23: Кластеризация на примере соцсети "Одноклассники"

Спасибо за внимание!

Артур Кадурин