Project-01 Kaggle Competition - Outbrain Click Prediction *개인 Project/ 2016. 11 ~2016. 12 Abstract Goal (프로젝트의 목표) - 대용량 데이터(샘플 8천만개 이상)를 분석하여 광고가 클릭될 것인지 아닌지를 예측 - 광고와 광고를 접하는 유저의 특징들을 데이터화하여변수(X)로 삼고 해당 광고가 클릭될 것인지에 대한 확률(클릭예상률 )을 예측값(Y)으로 함 프로젝트 개요 Why ? (프로젝트를 하게 된 계기) - 이전 회사에서 광고를 집행하는데 있어 GA상으로 CPC, ROI 등의 단순 수치만 보면서 광고 집행 여부를 결정하던 방식을 데이터분석 차원에서 개선해보고자함 How? (데이터 수집 및 분석 방법론) - 데이터 수집 및 전처리 - Kaggle Competition에서 제공하는 대용량 데이터 (총 30GB 이상) - 광고와 광고를 접하는 유저의 특징을 데이터화 - 광고 : 얼마나 자주 클릭되는 광고인지(광고의 피클릭수), 광고게재자의성적(게재자 기준 피 클릭수) - 유저 : 광고 클릭 빈도, 광고 게재 페이지 방문 시간대, 소득수준, 플랫폼(데스크탑, 모바일, 태블릿) - 방법론 - Decision Tree Model - 광고의 클릭 여부를 예측 - 광고별로 클릭될 확률에 따라 정렬 (Kaggle 답안 양식) Data science school <그림1. 원본데이터 샘플 및 전처리 후 샘플> <그림2. Decision Tree>
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
AbstractGoal (프로젝트의 목표) - 대용량 데이터(샘플 8천만개 이상)를 분석하여 광고가 클릭될 것인지 아닌지를 예측 - 광고와 광고를 접하는 유저의 특징들을 데이터화하여 변수(X)로 삼고 해당 광고가 클릭될 것인지에 대한 확률(클릭예상률)을 예측값(Y)으로 함
프로젝트 개요Why ? (프로젝트를 하게 된 계기) - 이전 회사에서 광고를 집행하는데 있어 GA상으로 CPC, ROI 등의 단순 수치만 보면서 광고 집행 여부를 결정하던 방식을 데이터분석 차원에서 개선해보고자 함How? (데이터 수집 및 분석 방법론) - 데이터 수집 및 전처리 - Kaggle Competition에서 제공하는 대용량 데이터 (총 30GB 이상) - 광고와 광고를 접하는 유저의 특징을 데이터화 - 광고 : 얼마나 자주 클릭되는 광고인지(광고의 피클릭수), 광고게재자의 성적(게재자 기준 피 클릭수) - 유저 : 광고 클릭 빈도, 광고 게재 페이지 방문 시간대, 소득수준, 플랫폼(데스크탑, 모바일, 태블릿) - 방법론 - Decision Tree Model - 광고의 클릭 여부를 예측 - 광고별로 클릭될 확률에 따라 정렬 (Kaggle 답안 양식)
Data science school
<그림1. 원본데이터 샘플 및 전처리 후 샘플>
<그림2. Decision Tree>
데이터 전처리 과정
Kaggle에서 제공하는 데이터 형태(단순화한 이미지이며, 실제로는 여러 csv 파일에 분산되어 있음)
Data science school
모델 적용을 위해 구성한 데이터셋
전체 코드는 GitHub 참조https://github.com/sseuraeki/outbrain