ISSN 2383-6318(Print) / ISSN 2383-6326(Online) KIISE Transactions on Computing Practices, Vol. 22, No. 1, pp. 50-55, 2016. 1 http://dx.doi.org/10.5626/KTCP.2016.22.1.50 ․이 논문은 2015년도 (주)알티베이스의 지원을 받아 수행된 연구임(R0190-15- 2016, (1세부) 분산환경 인메모리 기술 기반의 복합형 고속 스트림 빅데이터 처리 기술 개발) ․이 논문은 2015 한국컴퓨터종합학술대회에서 ‘구문 의미 이해 기반의 VOC 요약 시스템’의 제목으로 발표된 논문을 확장한 것임 논문접수 : 2015년 9월 11일 (Received 11 September 2015) 논문수정 : 2015년 10월 27일 (Revised 27 October 2015) 심사완료 : 2015년 11월 10일 (Accepted 10 November 2015) † †† 정 회 원 비 회 원 : : 와이즈넛 성장기술본부 [email protected][email protected][email protected](wisenut) (Corresponding author임) 와이즈넛 성장기술본부 [email protected]CopyrightⒸ2016 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작물 의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위 를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야 합니다. 정보과학회 컴퓨팅의 실제 논문지 제22권 제1호(2016. 1) 구문 의미 이해 기반의 VOC 요약 및 분류 (VOC Summarization and Classification based on Sentence Understanding) 김문종 † 이재안 †† 한규열 † 안영민 † (Moonjong Kim) (Jaean Lee) (Kyouyeol Han) (Youngmin Ahn) 요 약 VOC(Voice of Customer)는 기업의 제품 또는 서비스에 대한 고객의 의견이나 요구를 파악할 수 있는 중요한 데이터이다. 그러나 VOC 데이터는 대화체의 특징으로 인해 내용의 분절이나 중복이 다수 존재할 뿐 아니라 다양한 내용의 대화가 포함되어 유형을 파악하는데 어려움이 있다. 본 논문에서는, 문서 에서 중요한 의미를 갖는 키워드와 품사, 형태소 등을 언어 자원으로 선정하였고, 이를 바탕으로 문장의 구조 및 의미를 이해하기 위한 LSP(Lexico-Semantic-Pattern, 어휘 의미 패턴)를 정의하여 구문 의미 이 해 기반의 주요 문장을 요약문으로 추출하였다. 요약문을 생성함에 있어 분절된 문장을 연결하고 중복된 의미를 갖는 문장을 줄이는 방법을 제안하였다. 또한 카테고리 별로 어휘 의미 패턴을 정의하고 어휘 의 미 패턴에 매칭된 주요 문장이 속한 카테고리를 기반으로 문서를 분류하였다. 실험에서는 VOC 데이터를 대상으로 문서를 분류하고 요약문을 생성하여 기존의 방법들과 비교하였다. 키워드: 요약, 문서 분류, 구문 분석, 구문 의미 이해, VOC Abstract To attain an understanding of customers' opinions or demands regarding a companies’ products or service, it is important to consider VOC (Voice of Customer) data; however, it is difficult to understand contexts from VOC because segmented and duplicate sentences and a variety of dialog contexts. In this article, POS (part of speech) and morphemes were selected as language resources due to their semantic importance regarding documents, and based on these, we defined an LSP (Lexico- Semantic-Pattern) to understand the structure and semantics of the sentences and extracted summary by key sentences; furthermore the LSP was introduced to connect the segmented sentences and remove any contextual repetition. We also defined the LSP by categories and classified the documents based on those categories that comprise the main sentences matched by LSP. In the experiment, we classified the VOC-data documents for the creation of a summarization before comparing the result with the previous methodologies. Keywords: summarization, text classification, sentence analysis, sentence understanding, VOC
6
Embed
(VOC Summarization and Classification based on Sentence ...kiise.or.kr/e_journal/2016/1/KTCP/pdf/08.pdf · 제외하고 주요 문장을 중심으로 카테고리를 결정할 수
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
ISSN 2383-6318(Print) / ISSN 2383-6326(Online)
KIISE Transactions on Computing Practices, Vol. 22, No. 1, pp. 50-55, 2016. 1