Машинное обучение в рекламной системе MAIL.RU
Игорь Кретинин
Данные и признаки• Пользователь: поток энергии и информации
• Интернет: среда распространения и хранения данных (текст, картинки, видео)
• Наши данные: логи активности пользователей в Интернете
• Извлекаемая информация: посещённые url
• Признаки: токены в представлении bag-of-words {token: count}
• Трансформация TF-IDF
• Разметка: специальные социологические исследования, контрольные группы пользователей, анкетирование, слежение в соц. сетях
Матрицы признаков• Корзина токенов как документ
• Выборка данных о пользователях как корпус документов
• Разреженные (sparse) матрицы большой размерности
• Словарь токенов ~106
• (пользователи x признаки) ~ (105 x 106)
• Тематическое моделирование (Latent Dirichlet Allocation) сжимает размерность пространства признаков из словарной (~106) в тематическую (~103)
Тематическое моделированиеgame*0.088 mult-games.ru*0.064 igra*0.059 igri*0.046 igry*0.026 games*0.013 igrydljadevochek2.ru*0.025 play*0.017 igroflot.ru*0.016 flashdozor.ru*0.013 playpack.ru*0.008 …
irkutsk.drom.ru*0.346 nirvana.fm*0.105 bratsk.drom.ru*0.091 badanga.ru*0.055 angarsk.drom.ru*0.031 ust-ilimsk.drom.ru*0.016 agentstvo-prazdnik.com*0.016 auto*0.014 …
superjob.ru*0.353 vacancy*0.127 rabota*0.109 resume*0.065 myupdate.ru*0.051 clients*0.031 vacancies*0.011 menedzher*0.009 services.fms.gov.ru*0.007 views*0.007 newsdoor.ru*0.007 …
odezhda*0.174 obuv*0.141 aksessuary*0.090 detskaya*0.041 plate*0.020 zhenskaya*0.018 tufli*0.009 kurtka*0.009 novye*0.008 shuba*0.007 sapogi*0.006 verhnyaya*0.006 …
soccer.ru*0.211 api.oktools.ru*0.045 gooool.org*0.036 footballhd.ru*0.035 vk.flirchi.ru*0.025 euro-football.ru*0.024 translyaciya*0.019 players*0.019 loveradio.ru*0.018 pryamaya*0.015 …
dojki.com*0.650 порно*0.039 женщины*0.013 зрелые*0.013 секс*0.011 жены*0.009 мамки*0.009 чужие*0.009 молодые*0.008 девочки*0.008 домашнее*0.007 …
Машинное обучение• Классификация, регрессия, кластеризация (LogisticRegressor, SVM,
RandomForest, RBM, NeuralNets)● Функция потерь (log, hinge, zero-one,
huber) и регуляризация (L1, L2, ElasticNet)
● Метрика качества (AUC, Precision/Recall, ConfusionMatrix)
● Кросс-валидация
● Тестирование
Бинарная классификация пользователей
● LDA-преобразование признаков: уменьшение размерности
● T-SNE сжатие в 2D● Классы не разделимы: нужны
дополнительные признаки● Логистическая регрессия в пространстве
токенов
Бинарная классификация: AUC ~ 0.75
Распределение пользователей hh.ru
Мультиклассовая задача
Заключение• Данные — признаки — классификатор — ансамбль
• «Хорошие данные» лучше «хорошего классификатора»
• Признаки (фичи) и их семантические связи — ключ к решению проблемы
• Не все модели одинаково полезны
• Важно: кросс-валидация, холд-аут, тестовая выборка
• Шаг вперёд: глубокое обучение на основе байесовских и нейронных сетей
Спасибо за внимание!