Top Banner
Unsupervised Clickstream Clustering for User Behavior Analysis + CHI 2016 -Gang Wang et al. / 이이이 x 2016 Spring
30

Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Feb 08, 2017

Download

Technology

Hyunjeong Lee
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Unsupervised Clickstream Clustering for User Behavior Analysis+ CHI 2016-Gang Wang et al./이현정x 2016 Spring

Page 2: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

PAPER

Unsupervised ClickStream Clustering for User Behavior

Analysis

Page 3: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

PAPER

Page 4: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

PAPER

??

Page 5: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

INTRODUCTION

User participation 이 미래 인터넷 서비스의 핵심이다 .

그러나 User Behavior 를 이해한다는 것은 Complex 하고 Difficult.

User Behavior 에 관심을 가지는 것에 대한 정당성

User Behavior 파악에 있어서의 어려움 이유 . 인터넷 시스템 사용자는 수십만명인데 , 이를 어찌 다 분석 ?-> 자신들의 시스템의 강점을 이유로 들고 있음

Page 6: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

INTRODUCTION

User participation 이 미래 인터넷 서비스의 핵심이다 .

그러나 User Behavior 를 이해한다는 것은 Complex 하고 Difficult.

User Behavior 에 관심을 가지는 것에 대한 정당성

User Behavior 파악에 있어서의 어려움 이유 . 인터넷 시스템 사용자는 수십만명인데 , 이를 어찌 다 분석 ?-> 자신들의 시스템의 강점을 이유로 들고 있음

기존 접근 방식의 한계기존접근방식 = 설문 (survey)한계 1. conduct 하고 analyse 하는데 비용이 높기 때문에 large scale 진행 불가능 한계 2. 사용자들의 self-identify 하지 못하는 부분이 있음한계 3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함

data 를 받는다는 점 data 를 받는다는 점 Clustering 한다는 점

대안적인 접근 방식Clickstream

data-driven approach!그중에서도 우리는 ClickstreamClickstream 이란 sequences of timestamped events generated by user actions ( 우리가 흔히 말하는 로그와 비슷한 개념 )

Page 7: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

INTRODUCTION

User participation 이 미래 인터넷 서비스의 핵심이다 .

그러나 User Behavior 를 이해한다는 것은 Complex 하고 Difficult.

User Behavior 에 관심을 가지는 것에 대한 정당성

User Behavior 파악에 있어서의 어려움 이유 . 인터넷 시스템 사용자는 수십만명인데 , 이를 어찌 다 분석 ?-> 자신들의 시스템의 강점을 이유로 들고 있음

기존 접근 방식의 한계기존접근방식 = 설문 (survey)한계 1. conduct 하고 analyse 하는데 비용이 높기 때문에 large scale 진행 불가능 한계 2. 사용자들의 self-identify 하지 못하는 부분이 있음한계 3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함

data 를 받는다는 점 data 를 받는다는 점 Clustering 한다는 점

대안적인 접근 방식Clickstream

data-driven approach!그중에서도 우리는 ClickstreamClickstream 이란 sequences of timestamped events generated by user actions ( 우리가 흔히 말하는 로그와 비슷한 개념 )

clickstream

Page 8: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

INTRODUCTION

User participation 이 미래 인터넷 서비스의 핵심이다 .

그러나 User Behavior 를 이해한다는 것은 Complex 하고 Difficult.

User Behavior 에 관심을 가지는 것에 대한 정당성

User Behavior 파악에 있어서의 어려움 이유 . 인터넷 시스템 사용자는 수십만명인데 , 이를 어찌 다 분석 ?-> 자신들의 시스템의 강점을 이유로 들고 있음

기존 접근 방식의 한계기존접근방식 = 설문 (survey)한계 1. conduct 하고 analyse 하는데 비용이 높기 때문에 large scale 진행 불가능 한계 2. 사용자들의 self-identify 하지 못하는 부분이 있음한계 3. 이미 알고 있는 지식체계 혹은 가정을 바탕으로함

data 를 받는다는 점 data 를 받는다는 점 Clustering 한다는 점

대안적인 접근 방식Clickstream

data-driven approach!그중에서도 우리는 ClickstreamClickstream 이란 sequences of timestamped events generated by user actions ( 우리가 흔히 말하는 로그와 비슷한 개념 )

기존 ClickStream연구의 한계 Navigation Path Within a website 에 머물고 있음 혹은 Markov Chain Models 에 의존하여 popular webpage를 예측한다 .

요구사항 1. large noisy clickstream dataset 에도 잘 돌아가야한다요구사항 2. 기존에는 알지 못했던 사용자 행동도 캐치해야한다요구사항 3. help others understand 할 수 있도록 interactive해야한다 .

한계를 극복하기 위한 시스템 요구사항

clickstream

Page 9: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

What they made

요구사항 1. large noisy clickstream dataset 에도 잘 돌아가야한다요구사항 2. 기존에는 알지 못했던 사용자 행동도 캐치해야한다요구사항 3. help others understand 할 수 있도록 interactive해야한다 .

한계를 극복하기 위한 시스템 요구사항Clickstream tool

Interactive Visualisation

Clickstream Analysis- hierarchical clustering approach- iterative feature pruning

Clickstream Visualization

Page 10: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Page 11: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Sybil 은 Fake identities and user accounts

Page 12: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

dataset= Σ event event = Σdata?

Clickstream Datasets- Server side

Page 13: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

포스팅을 눈팅 Heart 누르기한 유저 친구요청 보내기

Formatting User Clickstream

Page 14: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

A(t1) B(t2)한 유저 C(t3)

t1 t2 t3

Formatting User Clickstream

3m 40s 10s

Page 15: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

A(t1) B(t2)한 유저 C(t3)

g1 g2 g3

Formatting User Clickstream

3m 40s 10s

range of time gap = bucket

Page 16: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Clickstream Similarity Graph

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

A(g1)B(g2)C(g3)A(g4)B(g5)

C(g1)C(g2)C(g3)D(g4)A(g5)

node

node

edge = similarity distance

Page 17: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Clickstream Similarity Graph

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

A(g1)B(g2)C(g3)A(g4)B(g5)

C(g1)C(g2)C(g3)D(g4)A(g5)

node

node

edge = similarity distance

A(g1)B(g2)C(g3)A(g4)B(g5)

node

A(g1)B(g2)C(g3)A(g4)B(g5)

node

A(g1)B(g2)C(g3)A(g4)B(g5)

node

Page 18: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Clickstream Similarity Graph

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

A(g1)B(g2)C(g3)A(g4)B(g5)

C(g1)C(g2)C(g3)D(g4)A(g5)

node

node

edge = similarity distance

A(g1)B(g2)C(g3)A(g4)B(g5)

node

A(g1)B(g2)C(g3)A(g4)B(g5)

node

A(g1)B(g2)C(g3)A(g4)B(g5)

node

Page 19: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Iterative Feature Pruning & Clustering

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

-> fine grained user behavior clusters 를 찾아내기 위해서

full feature set (union of all k-grams)parent cluster 탄생 !!

Page 20: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Iterative Feature Pruning & Clustering

How they made it- Clickstream Analysis

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

-> fine grained user behavior clusters 를 찾아내기 위해서

C2 이고 아니고를 결정하는 top feature(K-grams) 를 제외하고 돌림C5-6-7 탄생 !!

Page 21: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Iterative Feature Pruning & Clustering

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

-> fine grained user behavior clusters 를 찾아내기 위해서

대한민국 국민

여성낫 여성 no insight

Page 22: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Iterative Feature Pruning & Clustering

Unsupervised User Behavior ModelingClickstream and similarity graphFeature Pruning based Clickstream Clustering

-> fine grained user behavior clusters 를 찾아내기 위해서

대한민국 국민

여성낫 여성

귀염 도발청순 some insight

Page 23: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How they made it- Clickstream Analysis

Application

Page 24: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

User Study Results

해석가능한 정보인가 ? “ 왜”를 알 수 있는가 ?• 컴공과 대학원생 15 명을 대상으로 함• each level 에서 dominant 한 cluster 를 보여줌 -> 한문장으로 해석해봐라• 사전에 app 을 써보게 해서 , 대략의 기능을 익힘• 사전에 visualization 이 어떻게 작동하고 어떤 정보가 있는지 quick instruction session 을 함

Page 25: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

User Study Results

해석가능한 정보인가 ? “ 왜”를 알 수 있는가 ?• 컴공과 대학원생 15 명을 대상으로 함• each level 에서 dominant 한 cluster 를 보여줌 -> 한문장으로 해석해봐라• 사전에 app 을 써보게 해서 , 대략의 기능을 익힘• 사전에 visualization 이 어떻게 작동하고 어떤 정보가 있는지 quick instruction session 을 함

• 총 555 개의 description 을 받음• 그 중에서 530 개에 사람들이 “해석가능 -> 한문장으로 표현” , 25 개 “해석 불가능 -> 해석못하겠다고 표현”• 한 cluster 당 평균 46 초 만에 답함• 외부전문가들에게 consistency 를 검증함

Page 26: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

기존 ClickStream연구의 한계 3) 기존의 clustering methods 들은 largely supervised 혹은 semi-supervised4) 왜 그렇게 행동하는가 ? 에 관한 답은 black box 로 놔둠

Q3. Supervised 의 의미는 무엇인가 Q4. 그럼 이 시스템은 “왜”그런지도 분석해주는가 ?

[ 정답이 없음 =exploratory] Unsupervised learning is the machine learning task of inferring a function to describe hidden structure from unlabeled data.

[ 정답이 있음 ] Supervised learning is the machine learning task of inferring a function from labeled training data.

vs.

not exactly.visualization 을 통해 human 의 해석을 도울뿐

DISCUSSION

Page 27: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

DISCUSSION

기존 ClickStream연구의 한계 1) Navigation Path Within a website 에 머물고 있음 2) Markov Chain Models 에 의존하여 popular webpage 를 예측한다 .

Q1. Navigation Path 하고 Clickstream 이 어떻게 다른가

이동Action

-> Markov Chain Model 이 문제가 아니라 , popular webpage 가 한계였던것

Dependent Condition 이어도 converge on predictable

distribution

@=0.85

Q2. Markov Chain Model 에 의존하여 Popular Webpage 를 예측하는것이 왜 한계인가

Page 28: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

DISCUSSION

machine 이 잘하는 일 human 이 잘하는 일

How can machines help humans?

Page 29: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

How can/should machines and humans cooperate?

DISCUSSION

machine 이 잘하는 일 human 이 잘하는 일

Page 30: Unsupervised Clickstream Clustering for User Behavior Analysis CHI2016

Unsupervised Clickstream Clustering for User Behavior Analysis+ CHI 2016-Gang Wang et al./이현정x 2016 Spring

Thank You!