Top Banner
Date of birth: 1993/08/22 University: 경기대학교 Major: 응용통계학과 Double Major: 컴퓨터과학과 Address: 수원시 장안구 천천동 E-mail: [email protected] Github: https://github.com/vhrehfdl Phone: 010-7722-4623 Lee Jung Hoon 01 Fake News Detection Using Deep Learning 2018 Journal of Information Processing System (JIPS) 유해영상 탐지 2018.05 ~ 2018.10 온라인 가이드 서비스 2017.03 ~ 2017.11 로고 컬렉터 2017.02 ~ 2017.02 국악음원 탐색기 2017.01 ~ 2017.01 애플이모션 2016.09 ~ 2016.12 장학금 탐색기 2016.07 ~ 2016.09 자연어를 이용한 유해 영상 탐지 2018년 정보처리학회 추계학술대회 딥러닝 기법을 이용한 가짜뉴스 탐지 2018년 정보처리학회 춘계학술대회 감성분석 연구동향 2018년 정보처리학회 춘계학술대회 2018 정보처리학회 춘계학술대회 최우수논문상 2018 교내 캡스톤 대회 우수작품상 2018 인공지능 R&D 챌린지 본선 진출 (12위) 2017 인공지능 R&D 챌린지 본선 진출 (21위) 이정훈 Lee Jung Hoon
15

이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

Oct 09, 2019

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

Date of birth: 1993/08/22

University: 경기대학교

Major: 응용통계학과

Double Major: 컴퓨터과학과

Address: 수원시 장안구 천천동

E-mail: [email protected]

Github: https://github.com/vhrehfdl

Phone: 010-7722-4623

Lee Jung Hoon 01

Fake News Detection Using Deep

Learning

2018 Journal of Information Processing System

(JIPS)

유해영상 탐지

2018.05 ~ 2018.10

온라인 가이드 서비스

2017.03 ~ 2017.11

로고 컬렉터

2017.02 ~ 2017.02

국악음원 탐색기

2017.01 ~ 2017.01

애플이모션

2016.09 ~ 2016.12

장학금 탐색기

2016.07 ~ 2016.09

자연어를 이용한 유해 영상 탐지

2018년 정보처리학회 추계학술대회

딥러닝 기법을 이용한 가짜뉴스 탐지

2018년 정보처리학회 춘계학술대회

감성분석 연구동향

2018년 정보처리학회 춘계학술대회

2018 정보처리학회 춘계학술대회 최우수논문상

2018 교내 캡스톤 대회 우수작품상

2018 인공지능 R&D 챌린지 본선 진출 (12위)

2017 인공지능 R&D 챌린지 본선 진출 (21위)

이정훈Lee Jung Hoon

Page 2: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

청소년들은 개인방송에 사용되는 유행어와 욕설을 일상생활에서 거리낌 없이 따라하고 있다.

하지만 1분당 400시간의 영상이 업로드 되는 유튜브를 사람이 일일이 확인하는 것은 물리적으로

불가능하다. 그래서 음성인식과 자연어처리 기술을 활용해 자동으로 유해영상을 검출하는

시스템을 만들었다.

Lee Jung Hoon 02

( 그림1 ) 유해 영상 화면

유해 영상은 이미지 좌측 상단 위에 Warning 마크가 있다.

유해 등급은 제목 좌측에

Page 3: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

Lee Jung Hoon 03

Web Server : Nginx

Google Speech API

RDBMS : MySQL

Library : Scrapy

Language : Java, PHP, Python

FFMPEG

Page 4: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

SNS가 급속도로 확산되며 거짓 정보를 언론으로 위장한 형태인 가짜뉴스는 큰 사회적 문제가

되고 있다. 이를 해결하기 위해 과학기술정보통신부에서는 가짜뉴스 탐지 대회를 개최하였다.

임무1 : 기사 제목과 본문이 불일치하는 가짜뉴스 찾기.

임무2 : 기사 본문의 여러 단락 중 맥락과 일치하지 않는 단락 찾기.

Lee Jung Hoon 04

중앙일보, 동아일보, 조선일보, 한겨레, 매일경제 5개 뉴스에서 약 10만개의 뉴스기사를 수집해

학습데이터로 사용했다.

임무1 : 31000개 ( 진짜 15500개 / 가짜 15500개 )

임무2 : 68000개 ( 진짜 34000개 / 가짜 34000개 )

신경망에 입력할 벡터를 생성하기 위해 단어 임베딩을 실시한다. 10만개의 데이터 셋을 Fasttext와

Word2vec에 적용하여 비교한 결과 Fasttext의 성능이 더 좋았기 때문에 Fasttext를 사용했다.

한국 : 문재인김정은 : ?

박근혜 : 새누리당 : ?

한국 : 서울도쿄 : 1

Word2vec Batch : 5000Epochs : 50

미국, 데니스, 로드먼

문재인, 이명박, 대통령

일본 0.71

Batch : 20000Epochs : 100

평양, 북한, 미국 문재인, 대통령, 이명박

일본 0.73

Fasttext Epochs : 5 미국, 북한, 중국 대통령, 문재인, 추미애

일본 0.76

Epochs : 100 미국, 북한, 중국 대통령, 문재인, 추미애

일본 0.63

< Word2vec과 Fasttext의 학습 결과 >

Page 5: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

Lee Jung Hoon 05

딥러닝 프레임 워크 : Tensorflow 단어 임베딩 : FAST TEXT Language : Python

Label Description Optimized

Filter Size 필터 크기 3

Num Filter 필터개수 256 ( 기사 제목 )1024 ( 기사 본문 )

Dropout 드롭아웃 0.5

12 Alpha 학습률 0.1

Batch Size 학습 미니배치 크기 64

Embedding Dim 단어 임베딩 백터 차원 수 128

Fasttext에 의해 미리 학습된 벡터들을 이용하는 Convolution Neural Network이다.

Page 6: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

Lee Jung Hoon 06

아이작 뉴턴이 인용한 문구 중“내가 더 멀리 보았다면 이는 거인들의 어깨 위에 올라서 있었기

때문이다”라는 명언이 있다. 이 명언은 “과거 연구를 바탕으로 현재 문제를 해결했다”는 것을

의미한다. 따라서 나도 사람의 감정을 분석하고 상담해주는 프로그램을 만들기 위해 과거에서

현재까지 연구되었던 감성분석 연구들을 비교, 분석하였다.

감성분석은 2001년 채팅메세지 분석을 시작으로 2008년부터 본격적으로 연구가 진행되었다.

2012년 이후 SNS가 유행하면서 Twitter를 분석 데이터로 활용한 연구가 많이 진행되고 있다.

2001년부터 최근 연구흐름을 분석해보면 감성분석은 SNS, 상품후기, 영화평 등 다양한 분야에

활용되는 것을 알 수 있다.

감성분석은 사전기반 방식과 기계학습기반 방식으로 나뉘어진다. 사전기반 방식은 감성사전이

정교하고 방대하게 구성되어 있을수록 분석의 정확성이 높아진다. 기계학습기반 방식은 좋은 분류

모델을 생성할 때까지 알고리즘의 parameter를 수정하며 학습과 검증을 반복한다.

적용분야 결과물

SNS 유명인 감정상태 파악, 일기예보 만족도 분석, 사회이슈 찬반 파악

상품 후기 상품평 자동분류, 상품평 의미분석

영화평 영화 흥행 예측, 감성 키워드에 따른 영화 검색 시스템

뉴스 북한뉴스의 긍정, 부정과 북한 도발과의 연관성 비교

Page 7: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

나는 일기를 자주 쓴다. 일기를 읽다보면 감정 표현과 일정을 많이 작성하는 것을 알 수 있다.

그래서 학교에서 배웠던 통계기법과 인공지능을 활용해 감정을 파악하고 일정을 달력에

등록시켜주는 프로그램을 만들었다.

Lee Jung Hoon 07

[ 감정 분석 리포트 ]

일기를 분석해 감정 상태를 파악 후 주간, 월간,

연간 단위로 분석 그래프를 제공한다.

[ 감정 캘린더 ]

월별 단위로 감정 상태를 보여준다. 사과가

둥근 형태이면 긍정, 반쪽이면 부정을

의미한다.

Page 8: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

Lee Jung Hoon 08

[ 일정 캘린더 ]

일정은 일기에서 시간, 장소, 행동을 추출하여

캘린더에 등록된다. 일정이 여러 개가

존재하면‘+3’같이 숫자로 표시한다.

[ 일정추가 ]

일정 제목, 약속 시간, 출발지, 도착지,

교통수단을 입력하면 출발시간을 계산하여

알림을 준다.

Web Server : Nginx

Google Map & Place API

RDBMS : PostgreSQL

Library : Konlpy

Language : Java, PHP, Python

OpenCV

Page 9: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

Lee Jung Hoon 09

Page 10: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

대학생들은 비싼 등록금 때문에 장학금을 찾는다. 하지만 종류가 많아 ‘자신의 조건에 맞는 장학

금을 찾기 힘들다’는 문제가 있다. 그래서 장학금을 편리하게 찾도록 “장학금 탐색기”를 만들

었다.

Lee Jung Hoon 10

[ 사용자 조건 입력 ]

대학교, 전공, 소속 등 사용자 조건을

입력한다.

[ 매칭된 장학금 목록 ]

조건에 맞는 장학금 목록을 보여준다.

Web Server : Apache

Crawling : Snoopy

RDBMS : MySQL

Library : Gmail SMTP

Language : Java, PHP

Page 11: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

국악은 전공자가 아닌 일반인에게는 낯설고 생소한 분야로 사람들에게서 점점 잊혀지고 있다.

‘국악음원 탐색기'는 국악을 모르는 사용자도 국악을 즐길 수 있도록 분위기, 악기, 장르 3개의

태그만 선택하면 조건과 일치하는 국악을 추천해준다.

Lee Jung Hoon 11

[ 국악 상세 정보 ]

조건과 일치하는 국악의 제목과 상세 정보를

보여준다.

[ 태그 선택하기 ]

분위기, 악기, 장르 태그를 선택하면 조건과

일치하는 국악을 추천해준다.

Web Server : Apache

Android Custom Media Player

RDBMS : MySQL

Library : Snoopy Class

Language : Java, PHP

Page 12: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

Lee Jung Hoon 12

과거에는 가족 단위의 패키지 여행을 선호했다면, 최근에는 혼자서 떠나는 배낭여행이 유행하고 있다.

그리고 젊은 세대는 직접 만나는 것보다 온라인에서 만나는 것을 선호한다. 이러한 배경과 특성을

반영하여 가이드와 여행객을 매칭해주는 온라인 가이드 플랫폼을 만들었다.

Web Server : Nginx

Naver, Kakao, Google Login API

RDBMS : MySQL

Library : WebSocket

Language : Java, PHP, JavaScript

Google Map API

[ 온라인 가이드 ]

가이드가 지도에 마커를 찍으면 여행객의

스마트폰으로 위치를 전송해 길안내를

실시한다.

[ 채팅창 ]

가이드는 웹페이지에서 여행객에게 채팅으로

가이드 해준다.

Page 13: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

Lee Jung Hoon 13

주위 친구들의 소비 패턴을 관찰해보면 선호하는 브랜드 상품을 주로 구매한다는 것을 알 수 있었다.

브랜드 충성도가 높은 고객들을 위해 같은 브랜드 제품을 많이 구매하면 혜택을 주는 이벤트를

기획했다. 그래서 같은 브랜드 로고를 10개 이상 모으면 해당 브랜드 할인 쿠폰을 주는 로고

컬렉터를 만들었다.

[ 로고 적립 ]

각 브랜드 별로 적립 횟수를 보여준다.

[ 로고 수집 ]

사진에서 Google Cloud Vision API를 사용해

로고를 검출한다.

Web Server : Apache

Google Cloud Vision API

RDBMS : MySQL

Library : GCM

Language : Java, PHP

Page 14: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

과학기술정보통신부에서는 SNS 등을 통해 무작위적으로 유포되는 합성사진이 진짜와 구별이

어려울 정도로 정교해지고 있으며 명예 훼손, 명의 도용, 사실 왜곡 등 합성사진 유포로 유발되는

사회 문제의 심각성이 커지고 있다는 점에 주목했다. 이를 해결하기 위해 합성 사진 탐지 대회를

개최하였다.

임무1 : 진짜 얼굴 이미지와 GAN 기술을 통해 합성된 얼굴 이미지 판별

임무2 : 진짜 얼굴 이미지와 얼굴 일부 합성, 얼굴 교체 등의 방법으로 합성된 이미지 판별

Lee Jung Hoon 14

- 1차 필터 : 얼굴이 포함되어 있는지 여부를 확인하는 신경망

- 2차 필터 : 입력 이미지 크기 별로 합성 이미지와 진짜 이미지를 판별하는 신경망 앙상블

- 두 가지 필터를 통과하여 입력 이미지가 합성일 확률을 산출

- 2차 필터에서는 앙상블을 구성하는 각 모델별 예측 확률의 평균 값을 최종 확률로 산출

Page 15: 이정훈115.71.239.101/MyResume/pdf/LeeJungHoon_Portfolio.pdf · 자연어를이용한유해영상탐지 2018년정보처리학회추계학술대회 딥러닝기법을이용한가짜뉴스탐지

Lee Jung Hoon 15

- 1차 필터 : 얼굴이 포함된 영역을 크롭하는 신경망

- 얼굴 부위별 필터 : 합성된 부위 별로 가장자리 번짐과 잘림 처리를 구분하여 학습시킨 신경망

- 해당 필터들을 순차적으로 통과하면서 입력 이미지가 합성일 확률을 산출

Description Optimized

CNN 아키텍쳐 Resnet 50

학습 클래스 수 2 ( 진짜 / 가짜 )

학습 데이터 수 약 33만장

테스트 데이터 수 약 9만장

학습 epoch 수 1~10

딥러닝 프레임 워크 : Pytouch

Progressive GAN

데이터 셋 : celebA

알고리즘 : GAN

Language : Python

CNN