Top Banner
저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게 l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다: l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다. l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다. 저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약 ( Legal Code) 을 이해하기 쉽게 요약한 것입니다. Disclaimer 저작자표시. 귀하는 원저작자를 표시하여야 합니다. 비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다. 변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.
23

상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법...

Mar 09, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

저 시-비 리- 경 지 2.0 한민

는 아래 조건 르는 경 에 한하여 게

l 저 물 복제, 포, 전송, 전시, 공연 송할 수 습니다.

다 과 같 조건 라야 합니다:

l 하는, 저 물 나 포 경 , 저 물에 적 된 허락조건 명확하게 나타내어야 합니다.

l 저 터 허가를 면 러한 조건들 적 되지 않습니다.

저 에 른 리는 내 에 하여 향 지 않습니다.

것 허락규약(Legal Code) 해하 쉽게 약한 것 니다.

Disclaimer

저 시. 하는 원저 를 시하여야 합니다.

비 리. 하는 저 물 리 목적 할 수 없습니다.

경 지. 하는 저 물 개 , 형 또는 가공할 수 없습니다.

Page 2: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

이 학 석 사 학 논 문

상품 추천 시스템:실제 데이터 분석

(Recommendationsystem:Analysisof

Realdata)

2015년 8월

서울 학교 학원

통계학과

이 승 남

Page 3: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

상품 추천 시스템:실제 데이터 분석

(Recommendationsystem:Analysisof

Realdata)

지도교수 김용

이 논문을 이학석사학 논문으로 제출함

2015년 4월

서울 학교 학원

통계학과

이 승 남

이승남의 석사학 논문을 인 함

2015년 6월

원 장 오 희 석 (인)

부 원 장 김 용 (인)

원 장 원 철 (인)

Page 4: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 1 -

국 문 록

상품 추천 시스템:실제 데이터 분석 (Recommendation

system:AnalysisofRealdata)

본 연구에서는 인터넷 쇼핑몰에서 유아용품을 구매하는 고객에게 물품을 추천하

는 방법들을 비교 분석하 다.여러 마 분야에서 많이 사용되는 추천 방식은

과거 구매 내역을 사용해 추천하는 방식(MostPopular:MP)으로 서 에서 모든 고

객에게 bestseller를 추천할 때 쓰인다.복잡한 분석 없이 빠르게 고객들에게 상품

을 추천할 수 있다는 장 이 있지만,개인화된 추천을 할 수 없으므로 차별성이 떨

어진다.

본 논문에서는 한 인터넷 종합 쇼핑몰의 실제 고객 구매 데이터를 가지고 기존에

사용하고 있는 MP분석보다 개인화된 추천, 측력이 좋은 모델을 제시하려 한다.

본 논문에서 사용된 고객의 구매여부는 구매와 비구매의 형태로 로지스틱 회귀 분

석과 비슷한 제한된 볼츠만 머신을 가능 하며 여기에 한 벌 화함수를 추가

하여 모형화할 수 있게 한다.구체 으로 본 논문에서 소개할 방법은 능형회귀와

Lasso회귀의 충으로서 Zou와 Hastie(2005)에 의해 제안된 Elastic-Net모델이다.

Elastic-Net모델은 능형회귀와 Lasso회귀의 충 인 방법으로 아직까지 추천시스

템 분야에서 많이 쓰이지는 않지만 다른 분야에서 활발히 쓰이고 있어 실제 인터넷

쇼핑몰데이터에 모델을 용해 보았다.조율모수를 결정하는 문제는 변수들 사이에

상 성이 크기 때문에 Lasso보다는 능형회귀 쪽에 높은 가 치를 두고 CV로 최

의 조 변수를 선택하 다.

분석결과는 Mostpopular보다 좋은 측력을 보 으며,향후 마 분야에서 활

발히 쓰일 수 있을 것이라 상된다.

주요어 :Elastic-Net모델,MostPopular방식,상품 추천 시스템,제한 볼츠만 머신

학 번 :2013-20222

Page 5: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 2 -

Contents

1.서론···················································································································1

2.데이터···············································································································3

2.1데이터 구성······························································································3

2.2데이터 정제······························································································6

3.방법론···············································································································7

3.1 제한 볼츠만 기계 알고리즘································································7

3.2 벌 화 방법론 (methodofpenalization)·········································8

3.2.1Elastic-Net의 벌 함수······························································8

4.분석 결과································································································10

4.1분석 방법································································································10

4.2분석 결과································································································11

5.맺음말············································································································14

Page 6: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 3 -

ListofTables

Table2.1:Dataset일부·····························································································5

Table2.2:원시데이터 보정 후 변수·········································································6

Page 7: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 4 -

ListofFigures

Figure2.1:나이별 유아용품 매량의 히스토그램························································4

Figure2.2:월별 유아용품 매량의 plot·········································································4

Figure4.1:Item 하나 추천 시,10번의 시뮬 이션에 한 Hitratio평균············11

Figure4.2:Item 두개 추천 시,10번의 시뮬 이션에 한 Hitratio평균············11

Figure4.3:Item 세 개 추천 시,10번의 시뮬 이션에 한 Hitratio평균··········12

Figure4.4:Item 네 개 추천 시,10번의 시뮬 이션에 한 Hitratio평균··········12

Figure4.5:Item 다섯 개 추천 시,10번의 시뮬 이션에 한 Hitratio평균·······13

Page 8: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 1 -

Chapter1

서론

근래 IT산업의 발 으로 스마트 기기 등을 통해 시간과 공간의 제약을 받지 않고

온라인으로 많은 정보를 얻을 수 있게 되면서 한국의 소비문화도 같이 발달하고 있

다.직 가서 따져보고 사던 과 달리 인터넷쇼핑이 손쉬워 지고 오히려 싸게

살 수 있다는 인식과 함께 소비자들은 더욱 편리하고 다양한 소비문화를 리고 있

다.그럼에 따라 최근 여러 기업이 추천 시스템을 도입하면서 많은 심이 모여

문가의 지식을 기반으로 한 연구가 활발해지고 있다.그러나 다양한 추천 방식들에

한 정확도와 그에 따른 사용자의 태도는 아직 고민해야 할 과제로 남아있다.사

용자에게 합하지 않은 상품을 추천하여 오히려 불편함을 수 있기 때문이다.

자 상거래에서 추천 시스템으로 많이 사용되는 방법으로는 업필터링

(collaborativefiltering)과 내용기반(content-based)기법이 있지만,이들 방법엔 몇

가지 한계 을 가지고 있다. 업필터링은 고객과 유사한 고객 간의 연 성을 기반

으로 만들어지는 추천 시스템이기 때문에 구매 기록이 은 고객들에게 아이템을

추천할 경우 정확도가 낮은 이른바 cold-start문제가 야기 된다. 한,내용기반 기

법은 사용자가 과거에 직 평가한 선호정보를 기반으로 상품 간의 속성 계를 이

용하여 새로운 상품을 추천하는 방식으로 구 이 간단하지만,신상품의 내용기반

정보의 추출이 용이 하지 않다.

본 연구에서는 기존에 추천 시스템보다 개선된 개인화된 추천, 측력이 좋은 모

델을 제시하려 한다.본 논문에서 사용된 고객의 구매여부는 구매와 비구매의 형태

로 로지스틱 회귀 분석과 비슷한 제한된 볼츠만 머신을 가능 하며 여기에 한

Page 9: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 2 -

벌 화함수를 추가하여 모형화할 수 있게 한다.구체 으로 본 논문에서 소개할 방

법은 능형회귀와 Lasso회귀의 충으로서 Zou와 Hastie(2005)에 의해 제안된

Elastic-Net모델이다.

본 논문의 제2장에서는 데이터의 구성과 분석이 용의하도록 정제한 내용을 다루

었고 제3장에는 본 연구에서 제안하는 제안 볼츠만 기계 알고리즘에 한 이론

설명이 들어있다.제4장에서는 기존에 쓰이던 추천 시스템과 본 연구에서 제안하는

시스템을 hitratio로 유용성을 검증,비교하고 분석 결과를 제시한다.제5장 연구의

결론을 끝으로 논문을 마무리 지었다.

Page 10: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 3 -

Chapter2

데이터

2.1데이터 구성

본 연구에서 사용할 데이터는 특정 인터넷 종합 쇼핑몰에서 2013년 1월 1일부터

12월 31일까지의 유아용품을 구매한 585174명의 회원정보와 그에 따른 거래에 한

자료로,각각의 회원에 한 13가지의 정보와 총 1528669개의 거래로 만들어져 있

다.총 회원 남자 회원 수는 186576이고,여성인 회원은 396676명으로 약 2배가

량 높음을 알 수 있다.유아용품을 구입하는 회원 35살이 가장 많았으며,최곳값

으로는 96살의 노인도 있었다.다음으로 특정 쇼핑몰에서의 월별 유아용품 매량

의 추이를 알아보았다(Figure참조)

Page 11: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 4 -

Figure2.1:나이별 유아용품 매량의 히스토그램

Figure2.2:월별 유아용품 매량의 plot

Page 12: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 5 -

item1 item2 item3 item4 item5 item6 item7 item8 item9item

10

user1 1 . . . . . . . . .

user2 . 1 1 1 1 . . . . .

user3 . . . . . 1 . . . .

user4 . . . . . . 1 1 . .

user5 . . . . . . . . 1 .

user6 . . . . . . . . . 1

user7 . . . . . . . 1 . .

user8 . . . . . . . 1 . .

user9 . . . . . . . . 1 .

user10 . . . . . . . . . .

user11 . . . . . . . . . .

user12 . . . . . . . . . .

user13 . . . . . . . . 1 .

user14 . . . . . . . . . .

user15 . . . . . . . . 1 .

user16 . . . 1 . . . . . .

user17 . . . . . 1 . . . .

user18 . . . . . . . . . .

user19 1 . . . . . . . . .

user20 . . . . . . . . . .

user21 . . . . . . . . . .

user22 1 . . . . 1 . . . .

user23 . . . . . . . . . .

user24 1 . . . . 1 . . 1 .

user25 . . . . . . . . 1 .

user26 . . . . . . . . . .

user27 . . . . . . . . 1 .

user28 . . . 1 . . . . . .

user29 . . . . . 1 . . . .

user30 . . . . . . . . . .

Table2.1:Dataset일부

Page 13: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 6 -

자료종류 길이 종류개수 데이터

형식

세부내용

1 회원번호 32 552037 int 회원의 일련번호

2 생년월일 4 92 int YYYY로 년도만 표기3 직업 1 2 char 0:주부 외,1:주부

4 주소 3 7 char 서울시,경기도,충청도,강원도,경상도,

라도,제주도

5 결제수단 4 55 char 신용카드,휴 폰,포인트 구매 등등6 카테고리 9 80 char 상품 고유 번호의 상 계층

2.2데이터 정제

두 가지의 데이터를 하나의 데이터로 병합하여 사용하 다.한 데이터는 인터

크 회원의 기본 정보로 이루어져있고,( ;성별,직업,주소 등등),다른 하나는 회

원들이 주문 한 물품의 주문 정보로 구성되어 있다.회원 번호가 고객 정보 테이블

에는 존재하나 거래 테이블에 없으면 병합할 때에 제거하 다.병합한 데이터는 분

석하기 용이하도록 정제하 다.

상품을 고객에게 추천 할 시에 상품의 가격은 필요하지 않으므로 그에 한 것과

련된 변수는 제거하 다. 한,상품들의 고유명으로 분석할 경우,데이터 자체가

무 sparse하기 때문에,상품에 한 재정의가 필요하다.따라서 상품을 계층화

하 을 때 상 계층을 상품이라고 정의 하 다.즉,이 데이터에서는 카테고리 변

수를 상품이라 하 다.그리고 그 이외의 상품을 지칭 하는 변수들은 제외 시켰다.

분석에 사용된 자료는 한 인터넷 쇼핑몰에서만 구입된 개인 거래만을 필요로 하

므로 결제수단이 외상매출 (타 인터넷 쇼핑물을 통한 거래)인 변수와 법인유형

코드가 개인 이외의 거래는 사용하지 않았다.그리고 클 임 구분의 값이 취소

반품인 거래는 제외하고 ‘구매 확정’인 고객 주로 분석하 다.

주소와 직업은 범주형 변수로 정제,변환하 고 주문일자는 월로만 표시 되게 하

다.직업은 주부와 나머지로 효과 인 분석을 해 이진변수로 나타내었다.생년

월일은 년도만 남겨 나이를 계산해 따로 변수를 추가하 다.

Table2.2:원시데이터 보정 후 변수

Page 14: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 7 -

Chapter3

방법론

3.1제한 볼츠만 기계 알고리즘

제한 볼츠만 기계(RBMs)는 인공신경망의 한 종류이다.

다층 신경망을 구성하여 복잡한 패턴을 만드는 것도 가능한 RBM은 뉴런간에

계가 두 뉴런 사이의 연결 강도 값 하나로 결정 되지 않고 두 층으로 나뉜 뉴런의

값을 확률 으로 정하게 하 다.

(가시성 뉴런(v)과 은닉 뉴런(h)은 칭 인 연결을 가질 수 있으며 각각의 그룹 안

에서의 노드 사이엔 련성이 없다)

Page 15: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 8 -

제한 볼츠만 기계는 은닉 뉴런(h)과 가시성 뉴런(v),그리고 m byn의 매트릭스

로 뉴런 간의 연결 강도를 나타내는 weight(w)으로 구성된 에 지 함수다. 한 a

와 b는 각각 은닉 뉴런과 가시성 뉴런의 biasweight(오 셋)이다.

는,

본 연구에서 h값은 1월부터 8월까지 v값은 9월부터 12월까지의 각 물품의 구매여

부를 나타낸다.RBM의 확률 분포는 홉필드 네트워크(Hopfieldnetwork)와 유사하

므로 에 지 함수에 해 볼츠만 인자를 따라가게 된다.즉,에 지의 값이 높은 분

포 일수록 그 분포는 존재할 확률이 어들게 된다.RBM의 동시확률분포는 다음과

같다.

본 연구에서는 동시 확률분포가 아닌 은닉뉴런이 주어 졌을 때 가시성 뉴런의 조

건부 확률을 추정하려 한다.즉 다시 말해 1월부터 8월까지의 구매목록 정보를 이

용하여 w의 값을 추정함으로써 v의 확률 값을 알아낸다.

여기서 는 로지스틱 시그모이드 함수이다.

3.2벌 화 방법론 (methodofpenalization)

3.2.1Elasticnet의 벌 함수

Page 16: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 9 -

기존 최소제곱법에 의한 추정치보다 좋은 결과를 도출하기 하여 추정량에서 편

의가 발생하는 신 분산을 이는 방법이 벌 화 기법이다.그 Elasticnet의

벌 함수는 Lasso와 능형회귀의 L1,L2페 티를 충안으로 사용하고 있다(Zou

andHastie,2005).이 같은 조합은 능형회귀의 정규화 특성을 여 히 지니면서,

Lasso와 같이 sparse한 모델을 학습할 수 있게 한다.여기서 sparse한 모델은 일부

계수 추정 값을 정확히 0까지 축소시키고 따라서 변수 형태의 선택을 제공합니다.

한 높은 상 도를 지닌 추정 변수가 데이터의 크기에 비해 많을 때 유용할 수 있

다.Elasticnet의 추정치는 이와 같다.

조율모수에 한 선택에 한 문제는 여러 가지 해결방법이 있지만 본 연구에서

는 교차확인법으로 한다.교차확인법은 데이터를 몇 개의 조각으로 나 어 측 오

차를 구하여 최 의 조율모수를 선택하는 방법이다.

본 연구에서는 모형에 들어가는 모수들이 상품들과 련 있는 변수이기 때문에

모수의 차원이 상품의 개수이다.따라서 모형 선택이 불가피하며 상품들 간의 상

성도 배제할 수 없기에 제한 볼츠만 기계에 elasticnet벌 화 함수를 추가하여 모

형을 구축하고자 한다.

Page 17: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 10 -

Chapter4

분석 결과

4.1분석 방법

먼 ,분석에 앞서 Trainuser와 Testuser로 나 었다.독립변수에 해당하는 구

매 날짜를 1월부터 8월까지 설정하고,종속 변수에 해당하는 구매날짜를 9월부터

12월까지 설정하 다.즉,1월부터 8월까지 상품의 구매 이력을 가지고 9월부터 12

월까지 상품 구매 여부를 측하고자 한다.따라서 Trainuser로 모형을 train하고

testuser에 하여 모형을 용하여 측력으로 hitratio를 보고자 한다.

Page 18: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 11 -

4.2분석 결과

Figure4.1:Item 하나 추천 시,10번의 시뮬 이션에 한 Hitratio평균

비교

Figure4.2:Item 두개 추천 시,10번의 시뮬 이션에 한 Hitratio평균

비교

Page 19: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 12 -

Figure4.3:Item 세 개 추천 시,10번의 시뮬 이션에 한 Hitratio평균

비교

Figure4.4:Item 네 개 추천 시,10번의 시뮬 이션에 한 Hitratio평균

비교

Page 20: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 13 -

Figure4.5:Item 다섯 개 추천 시,10번의 시뮬 이션에 한 Hitratio평

균 비교

체 평균에서 가장 우 에 있는 item을 추천 하는 Most-Popular(mp)방법과

elasticnet(topn)모델을 비교했을 때 의 5개의 그래 에서 뚜렷하게 차이 을 확

인할 수 있다.추천 되는 물품의 개수에 상 없이 elasticnet모델의 률이 높다

는 분석결과가 나왔다.

Page 21: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 14 -

Chapter5

맺음말

본 연구에서는 인터넷 쇼핑몰에서 유아용품을 구매하는 고객에게 물품을 추천하

는 방법들을 비교 분석하 다.

마 분야에서 많이 쓰이는 방법의 하나인 MostPopular는 1월부터 8월까지의

과거 구매 이력을 이용하여 평균 으로 많이 선호하는 상품을 모든 구매자에게 동

일하게 추천하는 방법이다.복잡한 분석 없이 빠르게 사용자들에게 상품을 추천할

수 있다는 장 이 있지만,개인화된 추천을 할 수 없으므로 차별성이 떨어진다.반

면 Zou와 Hastie(2005)에 의해 제안된 elasticnet모델은 능형회귀와 Lasso회귀의

충 인 방법으로 아직 추천시스템 분야에서 많이 쓰이지는 않지만 다른 분야에서

활발히 쓰이고 있어 실제 인터넷 쇼핑몰데이터에 모델을 용해 보았다.조율 모수

를 결정하는 문제는 변수들 사이에 상 성이 크기 때문에 Lasso보다는 능형회귀 쪽

에 높은 가 치를 두고 CV로 최 의 조 변수를 선택하 다.

분석결과는 Mostpopular보다 좋은 측력을 보 으며,향후 마 분야에서 활

발히 쓰일 수 있을 것이라 상된다.

본 연구에서는 선형회귀에 벌 화하는 방식으로 하 는데 비선형 방법인 랜덤

포 스트나 부스 등을 사용하여 좀 더 높은 측력을 보일 수도 있을 것이라 기

해본다.

Page 22: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 15 -

Bibliography

박창이·김용 ·김진석·송종우·최호식.(2011)R을 이용한 데이터마이닝.교우사.

김종 .(2014)고객 추천 시스템(CRM)에서 선험 알고리즘과 LASSO의 비교

이연정·김경재.(2013)다 모형조합기법을 이용한 상품추천시스템 39-42

Tibshirani,R.(1996)Regressionshrinkageandselectionviathelasso.J.R.Statist.

Soc.B,58,287-288

AselaGunawardanaandChristopherMeek.(2008)TiedBoltzmannMachinesfor

coldstartrecommendations,RecSys’08,October23-25.

서강수.(2014)데이터분석 문가 가이드.한국데이터베이스진흥원.

Harald Hruschka (2012)Analyzing marketbaskets by restricted Boltzmann

machines

Page 23: 상품추천시스템:실제데이터분석s-space.snu.ac.kr/bitstream/10371/131303/1/000000056975.pdf- 10 - Chapter4 분석및결과 4.1분석방법 먼저,분석에앞서Trainuser와Testuser로나누었다.독립변수에해당하는구

- 16 -

Abstract

SeungNam Lee

TheDepartmentofStatistics

TheGraduateSchool

SeoulNationalUniversity

Thisresearchusedacomparativeanalysisforwaystorecommendproductstocustomerswhopurchasebabysuppliesfromtheonlineshoppingmall.Therecommendedmethodwhichiswidelyusedinvariousmarketingareas,isrecommendationusingpastpurchaselists(MostPopular:MP),alsousedinbookstoresrecommendingbestsellerstocustomers.Thoughthereistheadvantageofbeingabletorecommendproductstocustomersquickly,withoutcomplexanalysis,thismethodlacksdifferentiationbecauseitcannotbepersonalized.ThispapersuggestsmorepersonalizedrecommendationsandaforeseeablemodelthantheMPanalysis,usingactualcustomer-purchasedatafrom theinternetshoppingmall.Theintentiontopurchasebycustomersusedinthispaperisformedaspurchaseandnon-purchaseanditenablesBoltzmannmachineswhichissimilarto logistic regression analysis,to be modeled,by adding theappropriatepenaltyfunction.Morespecifically,themethodthispaperwillintroduceistheElastic-NetmodelproposedbyZouandHastie(2005)asacompromisebetweenLassoandridgeregression.Elastic-NetmodelasacompromisedwayofLassoregressionandridgeregressionisyetobsoleteintherecommendationsystem area,butsincethemodelisactivelyusedinotherareas,ithasbeenappliedtotheactualdatathathasbeendrawnfrom theinternetshoppingmall.Sincethecorrelationbetweenthevariablesisatlargewhendeterminingthetuningparameter,higherweighthasbeenputonCVofRidgeregression,ratherthanofLasso,tofindtheoptimummoderatorvariable.AnalysisresultsshowbetterproductivenessthantheMostPopularmethodandisexpectedtobeactivelyusedinfuturemarketingareas.

Keyword:Elastic-Netmodel,MostPopular,recommendationsystem,RestrictBoltzmannMachine

StudentNumber:2013-20222