정보과학회지 ISSN 1229-6821 ·인공지능 음성언어 비서 시스템의 자연언어처리 기술들 ·가상 개인비서의 대화처리 기술과 국내외 동향 분석 ·지능형 대화비서: GiGA Genie Assistant ·아마존 알렉사 ·인공지능 개인비서 Apple Siri와 울프람 알파 ·엑소브레인 한국어 분석 및 질의응답 기술의 개발 현황 및 고도화 계획 www.kiise.or.kr 제35권 제8호 통권 제339호 인공지능 개인비서 기술 Communications of the Korean Institute of Information Scientists and Engineers 2017. 8
7
Embed
과 학 회 지 제35권 제8호 통권 제339호 정보과학회지exobrain.kr/images/menu02/page0203/page0203_01_01.pdf · 그림 4 엑소브레인의 질문분석 정보 4. 엑소브레인
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
정보과학회지
ISSN 1229-6821
·인공지능 음성언어 비서 시스템의 자연언어처리 기술들
·가상 개인비서의 대화처리 기술과 국내외 동향 분석
·지능형 대화비서: GiGA Genie Assistant
·아마존 알렉사
·인공지능 개인비서 Apple Siri와 울프람 알파
·엑소브레인 한국어 분석 및 질의응답 기술의 개발 현황 및 고도화 계획
www.kiise.or.kr
제35권 제8호 통권 제339호
인공지능 개인비서 기술
Communications of the Korean Institute ofInformation Scientists and Engineers
2017. 8
2017년 8월
정보과학회지
인공지능
개인비서
기술
2017. 8 정보과학회지 51
엑소브레인 한국어 분석 및 질의응답 기술의 개발 현황 및
고도화 계획
한국전자통신연구원 김현기*・허정*・임수종*・이형직・이충희
1. 서 론1)
현재 정보의 80%는 자연어로 기술된 비정형 텍스트이
며, 텍스트 빅데이터에서 ‘누가 먼저 많은 가치를 추출해
내느냐’가 기업과 국가의 성패를 좌우하는 4차 산업혁명
시대가 도래하였다. 현재의 웹 데이터는 13개월 주기로
2배씩 증가한다고 하며, 2020년에 의료분야의 지식은
73일 주기로 2배씩 폭증할 것으로 예측되고 있다. 텍스트
데이터에서 원하는 지식을 찾기 위해 2-3개의 키워드
검색을 한 후, 검색결과에 대한 노동집약적 조사 분석을
통한 지식탐색은 데이터가 많아질수록 효율이 극히 낮
다. 언어의 의미를 이해하고 문장형태로 질문을 표현하
여 정답을 추론 가능한 질의응답 기술이 많은 기관에서
경쟁적으로 연구를 하고 있다. 스튜어트 러셀 교수(버클
리대)는 인공지능 기술을 검색산업에 도입하면 현재 1조
달러의 검색산업이 10조 달러 규모로 성장할 것이라고
예측하였다(WEF, 2016).
한국전자통신연구원(ETRI)을 주축으로 솔트룩스,
KAIST 등이 참여하여 개발한 ‘엑소브레인(Exobrain)’
이 2016년 11월에 EBS 장학퀴즈에서 퀴즈왕 4명과
대결을 펼쳐 우승을 차지했다. 이는 IBM의 왓슨, 구
글 딥마인드의 알파고 열풍 이후, 우리도 세계적 수준
의 인공지능 기술을 확보할 수 있는 가능성을 보여주
었다는 점에서 주목을 받고 있다.
엑소브레인은 “내 몸 바깥에서 지식노동을 도와주는
인공 두뇌(外腦)”라는 뜻으로, 기계가 자연어를 이해하
고 지식을 학습하여 자연어로 기술된 사용자 질문에 대
해 정답을 제공할 수 있는 자연어 질의응답(Natural
* 정회원
†본 연구는 미래창조과학부 및 정보통신기술진흥센터의 정보통
신·방송 연구개발 사업의 일환으로 하였음. [2013-0-00131, (엑소
브레인-1세부) 휴먼 지식증강 서비스를 위한 지능진화형
WiseQA 플랫폼 기술 개발]
Language Question Answering) 기술개발이 목표이다. 이
와 같이 개발된 기술을 통해, 지식산업환경에서 전문가
수준의 질의응답 서비스를 제공하는 것이다.
엑소브레인의 장학퀴즈 대결은 총 10년 동안의 연
구기간 중 1단계(2013.5-2017.2)에 개발된 원천기술의
수준을 공개적으로 검증하고, 산업계의 인공지능 수
요를 창출하기 위해 추진되었다. 엑소브레인의 핵심
이 되는 인공지능 기술은 인간 수준으로 문장을 문법
분석을 할 수 있는 한국어 분석 기술, 텍스트 빅데이
터를 대상으로 언어지식과 단위지식(트리플)을 학습
하고 저장하는 지식 축적 및 탐색 기술, 여러 개 문장
으로 구성된 질문을 이해하고 단답형 정답을 추론하
는 자연어 질의응답 기술이다.
현재 진행중인 엑소브레인 2단계(2017.3-2019.12)에
서는 법률, 특허 등 전문분야를 대상으로 서술형 정답을
추론할 수 있는 질의응답 기술 개발을 추진하고 있다.
2단계에서는 어휘·문장의 문법분석에서 나아가 상호참
조 해결, 생략된 어휘의 복원, 패러프레이징 등의 의미분
석이 가능한 언어처리 기술을 개발하고, 명사와 개체명
위주의 단답형 정답추론에서 나아가 문장형태의 서술형
답변을 추론할 수 있는 질의응답 기술 개발이 목표이다.
그림 1 엑소브레인의 장학퀴즈 우승 장면(2016.11.18)
특집원고
52 특집원고 엑소브레인 한국어 분석 및 질의응답 기술의 개발 현황 및 고도화 계획
선진국에서는 인공지능 SW 개발을 위해 국가 차원
혹은 글로벌 기업의 주도하에 대형·장기 프로젝트가
진행 중이다. 미국의 방위고등연구계획국(DARPA)에
서는 자연어 처리·질의응답 기술을 개발, 애플 시리
및 IBM 왓슨 QA의 모태가 되었다. 애플 시리는 2003
년부터 5년 간 SRI인터내셔널이 주도하고 DARPA가
2억 달러를 투자한 인공지능 연구 프로젝트 CALO
(Cognitive Assistant that Learns and Organizes)에서 출
발한 기술이며, IBM은 DARPA의 Advanced QA를 연
구하는 AQUAINT 프로젝트의 결과물을 기반으로 왓
슨 QA 개발이 시작되었다. 현재 DARPA는 자연어 의
미 이해를 위한 DEFT(Deep Exploration and Filtering
of Text) 프로젝트 추진하고 있다. 일본에서는 국립정
보학연구소(National Institute of Informatics)와 후지쯔
가 공동으로 슈퍼컴퓨터를 이용하여 2021년 동경대
입시 합격을 목표로 Todai 로봇 프로젝트를 2011년부
터 추진하다가 작년에 언어의 독해력 기술개발의 높
은 한계에 직면하여 포기를 선언하기도 했다.
최근에는 인간과 대화하며 일반지식과 서비스를 제
공하는 챗봇, 가상비서, AI스피커 등이 등장하여 언어
처리와 언어생성 기술이 점차 중요시 되고 있다. 마이
크로소프트는 2016년 3월 딥러닝 기반의 챗봇서비스
‘테이’를 공개했으나 통제되지 않은 학습과 대화 품질
문제로 서비스를 중단하는 해프닝도 있었다. 마이크
로소프트의 이와 같은 사례는 현재 기계가 언어의 의
미를 이해하는데 아직 초보적인 단계임을 증명하는
반증이다.
본 논문의 2절에서는 기계가 텍스트의 의미를 의해
하여 질의응답을 하기위해 최근 2-3년 이내에 여러
기관에서 구축하여 배포하고 있는 데이터셋에 대해
소개한다. 3절에서는 엑소브레인 1단계를 통해 개발
된 원천기술들에 대해 설명한다. 4절에서는 엑소브레
인 2단계의 개발방향 및 적용분야에 대해 설명한다.
마지막으로 5절에서 결론을 기술한다.
2. 최근의 질의응답 데이터셋 및 관련연구
기계가 다양한 주제의 글을 읽어서 뜻을 이해하고
(MRC: Machine Reading Comprehension), 읽은 글에
대한 이해력을 평가하기 위해 질의응답 기술 개발을
위해 질문-정답-정답단락의 트리플로 구성된 대규모의
데이터셋이 공개되고 있다. 이미 이미지넷(ImageNet)
에서는 1,000개의 분류된 객체에 대해 1천5백만장의
태깅된 데이터셋을 제공하여, 영상인식 기술의 진보
를 이루는데 큰 기여를 한 사례가 있다.
스탠포드 대학 뿐만 아니라 IBM, 구글, 마이크로소
프트, 페이스북 등의 글로벌 기업들도 질문에 포함된
단어 및 단어들의 어순을 매칭하여 정답을 추론하는
기존의 질의응답 기술에서 탈피하기 위해, 기계가 글
을 읽어서 뜻을 이해하는 능력인 독해력(Reading
Comprehension)과 읽은 글의 이해정도를 평가하기 위
해 질의응답(Question Answering) 기술을 딥러닝 기반
으로 개발하고 있다. 어휘와 문장의 문법분석에서 나
아가 “독해력을 갖는 기계”(Machine Reading
Comprehension)를 연구하는 단계인 것이다. 그러나
현재의 초기 연구단계에서는 QA 시스템에 질문-정답
단락이 입력되는 형태로 기계가 빅데이터에서 정답단
락을 찾아야 하는 문제는 제외되어 있고, 정답단락의
문장 수가 비교적 적다는 단점이 있다.
2015년부터 구축되어 배포되고 있는 대표적인 QA
데이터셋은 아래와 같다. 이외에도 WikiQA, Machine
Comprehension Test, CBT(Children’s Book Test),
BookTest 등이 있다.
• CNN/Daily Mail(Google DeepMind & University of Oxford, 2015): 구글 딥마인드는 실세계의 독
해력 문제를 반영하는 대용량 데이터셋 구축을
목표로, 미국의 CNN 뉴스기사를 2007년 4월
부터 2015년 4월까지, 영국 Daily Mail의 뉴스
기사를 2010년 6월부터 2015년 4월까지 각각
수집하여, 정답이 들어있는 문서셋 312,085건
을 구축함. 원본문서에서 나타나는 엔티티들을
익명화하여 변환 후, “X”로 명기된 엔티티(단
어 또는 구/절)를 찾아야 하는 질문셋
1,384,887건을 구축함[1]. 그러나 이 데이터셋
은 에러가 많이 포함되어 있다는 지적이 있으
며, 엔티티에 대한 빈칸 채우기 문제(Cloze
type question)는 독해력 난이도가 낮아 사람의
성능과 근접한 연구결과가 도출되고 있어 기
계의 독해력 판별에는 변별력이 낮다는 지적
이 제기되고 있음[2]
• SQuAD(Stanford Question Answering Dataset, 2016): 스탠포드 대학에서 위키피디아 문서 536