Top Banner
ML в Модерации Применение машинного обучения и анализа данных в процессах модерации Авито Андрей Рыбинцев
15

Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Apr 05, 2017

Download

Internet

AvitoTech
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

MLвМодерацииПрименениемашинногообученияианализаданных

впроцессахмодерации АвитоАндрейРыбинцев

Page 2: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Модерация вАвито

Объявление

Неправильнаякатегория

Запрещённыйтовар

...

Правила

Page 3: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Автоматизация

• Экспертныеправила• \b(куплю|приобрету|прим(?:у|ет) вдар)\b =>Объявлениеопокупке

• Новыеавтомобили:Цена<150000=>Нереалистичнаяцена

• Машинноеобучение

Page 4: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Пример:запрещённыйтовар

Пистолет

Запрещённыйтовар(оружие)

Page 5: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Визуальныеклассы

Классификатор(нейронныесети)

Базаданныхразмеченныхизображений

Изображение

Визуальныйкласс

1500+классов

Page 6: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Визуальныеклассы

Блокпитания

Клатч

Нож

ВАЗ2107

Page 7: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Пример:несоответствующеефото

Фотонеявляетсясобственным

Нетлица Нетлица Нетлица

Page 8: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Пример:неправильнаякатегория

Текстобъявления

Pymorphy2TFIDF

SGDClassifier

cat1:prob1cat2:prob2cat3:prob3

cat1:prob1cat2:prob2cat3:prob3

XGBoostПравильная/неправильнаякатегория

Page 9: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Пример:некорректноеописание

"кхоъ" N-граммы Классификаторпочастотам "плохоеслово"

кх,хо,хъкхо,хоъ

Page 10: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Пример:повторнаяподача

Page 11: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Решениясконкурсов

Page 12: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Инфраструктура

Детектордубликатов

5000+строккода500+воркеров

250+GB10k+hits/s ML

Page 13: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Аналитика

Обоснованиепроблемы

Реализация

Оценка

Инфраструктура ML

Page 14: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Метрикиикачество

• Автоматическийрежим• Нарушение=блокировка

• Важнонезаблокироватьлишнее

Precision->1.0

• Подсказкимодераторам• Нарушение=подсказка

• Важнонепропуститьничего

Recall->1.0

Page 15: Machine Learning в Модерации - Андрей Рыбинцев (Avito)

Вопросы?АндрейРыбинцев

UnitLeader@[email protected]