1 | 중국어-일본어 번역 말뭉치 과제 | 한국어-중국어 번역 말뭉치 1(기술과학) 중국어-일본어 번역 말뭉치 과제 한국어-중국어 번역 말뭉치 1 (기술과학) 개요: “인공지능 학습용 한-중 기술과학 번역 말뭉치”란? 인공지능 한국어-중국어 기술과학 학습용 번역 말뭉치란 AI 번역엔진 구축을 위한 기계학습용 언어쌍을 뜻 한다. 해당 말뭉치는 의료/보건, 특허/기술, 자동차/교통/부품/소재, IT/컴퓨터/모바일의 총 4개 전문 분야의 한-중 번역 데이터 구축을 통해 고품질 번역엔진 기계학습의 초석을 다진다. 4차 산업혁명 시대를 맞아 인공지능 번역 엔진 개발을 위한 딥러닝 데이터의 중요성은 해를 거듭할 수록 더해가고 있다. 하지만 영세한 기업들과 연구기관들이 이를 실현하기 위해 필수적인 원천데이터 확보 및 가공·검수 과정에서의 큰 어려움을 겪고 있는 것이 국내의 현실이다. 따라서 이번 인공지능 학습용 번역 말뭉치 사업의 목표는 양질의 대규모 학습용 데이터를 구축·공개 하여 중소·벤처기업, 스타트업 등 민간 기업들의 인공지능 기술개발을 촉진하고, 이들 기업이 해당 기술을 바탕으로 인공지능 서비스 및 제품을 공급하는 등 인공지능 활용 산업의 활성화를 도모 하는 것이다. ㈜플리토 컨소시엄은 이러한 인공지능 산업의 활성화를 목표로, 한-중 기술과학 130만 문장(2차 사업 기준)의 분야별 특화 말뭉치 데이터를 구축한다. 인공지능 학습용 번역 말뭉치를 활용한 전문 분야의 특화 서비스 모델의 예시와 이를 통한 개인/ 민간기업 중심의 AI 데이터 생태계 선순환 조성 프로세스는 아래의 [그림 1]과 [그림 2]를 참고할 수 있다.
16
Embed
한국어-중국어 번역 말뭉치 1 (기술과학) · 2021. 6. 16. · 한국어-중국어 번역 말뭉치 1(기술과학) 개요: “인공지능 학습용 한-중 기술과학
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
| 중국어-일본어 번역 말뭉치 과제 | 한국어-중국어 번역 말뭉치 1(기술과학)
중국어-일본어 번역 말뭉치 과제
한국어-중국어 번역 말뭉치 1(기술과학)
개요: “인공지능 학습용 한-중 기술과학 번역 말뭉치”란?
인공지능 한국어-중국어 기술과학 학습용 번역 말뭉치란 AI 번역엔진 구축을 위한 기계학습용 언어쌍을
뜻 한다. 해당 말뭉치는 의료/보건, 특허/기술, 자동차/교통/부품/소재, IT/컴퓨터/모바일의 총 4개
전문 분야의 한-중 번역 데이터 구축을 통해 고품질 번역엔진 기계학습의 초석을 다진다.
4차 산업혁명 시대를 맞아 인공지능 번역 엔진 개발을 위한 딥러닝 데이터의 중요성은 해를 거듭할
수록 더해가고 있다. 하지만 영세한 기업들과 연구기관들이 이를 실현하기 위해 필수적인 원천데이터
확보 및 가공·검수 과정에서의 큰 어려움을 겪고 있는 것이 국내의 현실이다.
따라서 이번 인공지능 학습용 번역 말뭉치 사업의 목표는 양질의 대규모 학습용 데이터를 구축·공개
하여 중소·벤처기업, 스타트업 등 민간 기업들의 인공지능 기술개발을 촉진하고, 이들 기업이 해당
기술을 바탕으로 인공지능 서비스 및 제품을 공급하는 등 인공지능 활용 산업의 활성화를 도모 하는
것이다.
㈜플리토 컨소시엄은 이러한 인공지능 산업의 활성화를 목표로, 한-중 기술과학 130만 문장(2차
사업 기준)의 분야별 특화 말뭉치 데이터를 구축한다.
인공지능 학습용 번역 말뭉치를 활용한 전문 분야의 특화 서비스 모델의 예시와 이를 통한 개인/
민간기업 중심의 AI 데이터 생태계 선순환 조성 프로세스는 아래의 [그림 1]과 [그림 2]를 참고할 수 있다.
2
테크니컬 리포트 2020년 2차 인공지능 학습용 데이터 [자연어 영역]
그림1 | 기존/신규 사업 기반 실제 DB 확장 및 활용 모델
그림2 | 개인/민간기업 중심 AI 데이터 생태계 조성 프로세스
3
| 중국어-일본어 번역 말뭉치 과제 | 한국어-중국어 번역 말뭉치 1(기술과학)
데이터의 구성
번역 말뭉치를 구축하기 위한 원천 데이터의 자료 포맷은 XML, HWP, PDF, HTML 방식이며,
이를 각각 디렉토리 별로 분류하여 문장 단위로 DBMS에 저장을 한다. DBMS에선 중복되는 문장,
어절 수에 의한 문장 제외, 그리고 문장의 배분까지 관리를 하게 된다. 이때 일반 EUC-KR이나
KS5601 등의 포맷으로 관리할 경우, 데이터의 소실이 발생할 수 있기 때문에, 데이터들은 UTF-8
포맷으로 저장이 된다. 하단의 [그림 3]에서 실제 DB데이터 구조를 볼 수 있다.
그림과 같은 정제 과정을 거쳐 간단한 분류와 제목 등의 메타정보와 함께 번역팀에 엑셀 형태로
전달이 된다. 이후 번역팀에서는 번역한 결과를 추가하여 최종적으로 엑셀 형태로 말뭉치 데이터를
제공한다.
포맷 대상 예시 데이터 형식
XML 신문 자료
관리용 데이터 구조
id int
파일 nvarchar(200)
NewsItemId nvarchar(100)
seq int
URL nvarchar(MAX)
제목 nvarchar(MAX)
자동분류 nvarchar(MAX)
문장 nvarchar(500)
언론사 nvarchar(150)
날짜 nvarchar(150)
기고자 nvarchar(50)
어절수 int
used nvarchar(10)
확인 nvarchar(50)
구축여부 nvarchar(50)
중복 nvarchar(50)
유사도 nvarchar(10)
번역한 이후 데이터는 제목과 URL제목, url, 분류 항목, 어절수를 포한 형태의 엑셀 파일임
HWP가정통신문
등
HTML웹 사이트
수집(openApi)
PDF 정부기관
그림3 | DB테이블 구조
4
테크니컬 리포트 2020년 2차 인공지능 학습용 데이터 [자연어 영역]
한 예를 들어 DBMS에 신문 자료의 파일을 저장할 경우, 일반 신문 자료은 텍스트 자료이기 때문에
파일 명 이외의 정보는 대부분 문서 내에 메타데이터로 관리하고 있다. 자세한 관리 구조는 하단의
[그림 4]에서 확인할 수 있다.
그림4 | DBMS상 수집 데이터 관리 예시
데이터의 구축 기준과 분포
구축 분야 선정에서는 전문성과 범용성, 이 두 부분의 균형을 적절히 맞추는 것이 매우 중요하다.
너무 깊게 전문 분야에 함몰되면 필요 이상의 고난이도 데이터가 구축되면서 활용할 수 있는 시장이
협소해짐과 동시에 대중적 활용도가 떨어지면서 현실적 수요를 충족시키지 못하는 상황이 발생할
수 있다. 반면, 너무 광범위하거나 평이한 분야는 전문성이 떨어져 증분 학습의 효과를 저해할 수
있다. 기계번역의 수준을 높이기 위해서는 앞으로도 말뭉치를 지속해서 수집할 수 있어야 하므로
전문성을 유지하면서도 일반 수준의 활용도를 만족시키는 말뭉치를 최소한 20~30만 문장 이상
안정적으로 확보할 수 있는 분야를 선정하도록 해야 한다.
아울러 고려할 것은 하나의 전문분야 문장을 번역할 때 그 문장이 전문적인 용어로만 표현되지는
않는다는 것이다. 하나의 문장은 일반적인 언어 규칙을 따르면서 필요한 전문 용어가 곳곳에 포함될
수 있다. 그러므로 기계번역 학습은 해당 분야 내 적정 수준의 전문성을 띤 자료가 선 적용되고,
후에 나머지 전문분야의 자료를 보완하는 형태로 이루어진다.
5
| 중국어-일본어 번역 말뭉치 과제 | 한국어-중국어 번역 말뭉치 1(기술과학)
위의 기준으로 1차 검증 과정을 거친 후보군에서 사업자의 데이터 확보 역량을 고려하여 최종 원천
데이터 수집 분야를 선정한다. 상기 내용을 고려한 문장 단위의 세부 특성을 정리해 보면 다음과 같다.
- 공공성과 전문적 활용성을 동시에 염두에 둔 문장- 전문성이 있지만 지나치게 국소적이지 않아 여러 분야에 적용 가능한 범용적인 문장- 뉴스와 같이 인공지능 번역 학습의 기본이 되며 활용성이 높은 문장- 자료 수집이 용이하여 향후에도 안정적으로 확보할 수 있는 자료(자료량, 저작권)
이러한 다양한 사항들을 고려하여 문장의 획득·정제/가공을 위한 기준을 설립하여 이에 따라 데이터
구축을 실행한다. 데이터 구축 과정의 더 구체적인 기준들은 하단의 [그림 5]와 [그림 6]에서 확인할
수 있다.
그림5 | 문장 정제 기준
6
테크니컬 리포트 2020년 2차 인공지능 학습용 데이터 [자연어 영역]
그림6 | 문장 가공(번역) 기준
말뭉치는 원시 언어로 된 텍스트 문장과 목적 언어로 된 텍스트 문장쌍으로 이루어진 형태를 말한다.
본 인공지능 한-중 기술과학 학습용 번역 말뭉치 데이터는 용도가 높은 대략 4개의 분야(분포)
기준 하에 세분화된 말뭉치쌍 구축 목표숫자를 설정한 후 구축에 착수한다. 아래 [그림 7]을 통해
배정된 언어쌍과 분야별 문장 목표수의 규모를 확인할 수 있다.
7
| 중국어-일본어 번역 말뭉치 과제 | 한국어-중국어 번역 말뭉치 1(기술과학)
그림7 | 한국어-중국어 기술과학 분야별 구축 목표량
데이터 구조
말뭉치의 어노테이션(annotation)은 말뭉치를 활용한 추가적인 응용이나 연구를 수행하고자 하는
사용자에게 해당 데이터를 더 잘 이해할 수 있게 하는 언어적인 정보이다. 즉, 특정 말뭉치가 어떤
언어를 사용하였고, 어떻게 인코딩이 됐으며, 또는 어떤 장르 및 분야에 대해서 작성하였는지등의
정보를 담게 된다. 나아가 말뭉치의 각 문장은 얼마가 길며, 문장 속 용어는 어떤 어휘적 의미와
형태학적 정보를 갖는지 등까지 어노테이션할 수 있다. 대표적인 말뭉치 어노테이션은 형태소분석용,
구문분석용 태깅을 하게 되는데 이때 사용되는 태그 또는 라벨은 그 대상이 단어이다. 다음은 세종
말뭉치 한 문장을 형태소분석 태깅, 즉 어노테이션한 예제이다.
8
테크니컬 리포트 2020년 2차 인공지능 학습용 데이터 [자연어 영역]
그림8 | 어노테이션 예시
위의 예제에서 알 수 있듯이, 왼쪽은 용언의 형태소 관점에서 상세히 분석하였지만, 오른쪽은 표층형
관점에서 간략히 하였다. 둘 다 형태소분석용이지만 왼쪽은 언어학적 관점으로 어노테이션하였고,
오른쪽은 컴퓨터 응용 관점으로 어노테이션하였다. 어떻게 보면, 왼쪽보다 오른쪽이 말뭉치를 구축
하는데 들인 시간과 비용이 더 적다고 할 수 있다. 최근 들어, 말뭉치 활용하는 좋은 방법론이 많이
탄생되면서 점점 언어학적으로 심층 분석하지 않고도 좋은 결과를 내면서 언어학적으로 심층분석에
기반한 말뭉치 어노테이션도 점점 줄어들고 있는 추세이다.
자동번역 학습용 이중 말뭉치도 언어적 분석에 기반한 어노테이션으로부터 한 언어로 쓰어진 원시언어
문장과 다른 언어로 쓰여진 목적언어 문장만 있으면 인공지능 방법으로 양질의 자동번역이 가능해졌다.
이는 더 이상 불필요한 언어적인 분석 정보를 말뭉치에 어노테이션하지 않고도 자동번역용 말뭉치로
사용 가능하다. 오히려 불필요한 정보는 사용자 입장에서 사용의 불편함만 가중하게 된다.
이런 관점에서 이중 말뭉치 데이터 어노테이션 또는 레이블링 방법은 크게 다음과 같은 몇 가지
부분으로 나눌 수 있다.
- 이중 말뭉치에 대한 어노테이션- 문장쌍에 대한 어노테이션
9
| 중국어-일본어 번역 말뭉치 과제 | 한국어-중국어 번역 말뭉치 1(기술과학)
| 어노테이션/라벨링 기준(이중 말뭉치에 대한 라벨링 방법) |
• 이중 말뭉치에 대한 라벨링을 위한 기준을 설립하여 이에 따라 작업을 실행한다.
그림9 | 말뭉치 라벨링 기준
- 명칭: 이중 말뭉치의 명칭을 말한다. 예를 들면, “한-중 이중 말뭉치 – 기술과학”과 같은
경우를 말하는데, 다른 말뭉치 또는 이중 말뭉치와 구분이 되는 용어로 간결하게 작성하는
것이 바람직하다. 여기에는 언어 정보, 분야 정보 또는 구축 년도 등 정보가 포함될 수 있다.
- 말뭉치 고유번호: 말뭉치가 저장되고 구분될 수 있도록 하는 고유번호를 뜻한다.
- 구축 분야: 말뭉치 구축 분야를 말하며, 과학기술 뉴스와 같이 구체적인 명칭을 부여하여야 한다.
- 구축량: 본 이중 말뭉치의 구체적인 수량을 말한다.
- 응용분야: 본 말뭉치를 활용할 수 있는 자연어 응용 처리 분야를 말한다. 예를 들면, 언어
모델, 자동번역 등
- 언어: 본 말뭉치 구축에 사용된 언어를 말한다. 예를 들면, 한국어와 중국어
- 라이센스: 말뭉치의 라이센스에 관련된 내용을 말한다.
- 샘플 텍스트: 본 말뭉치의 샘플 텍스트를 말하며, 링크, pdf와 같은 형태로 쉽게 확인할 수
있도록 참조 텍스트를 제공할 수 있다.
- 기타: 본 말뭉치 특성을 나타내며 제공 가능한 정보를 말한다.[
10
테크니컬 리포트 2020년 2차 인공지능 학습용 데이터 [자연어 영역]
• 제공 형태
- 상기 필드 정보가 구체적으로 포함된 정보를 이중 말뭉치가 제공될 수 있는 웹이나 다운로드
가능한 공간에 제공한다.
- 제공 형태는 텍스트 기반이며 필요 시 여러 언어로 번역하여 제공할 수 있다.
- 상기 정보는 이중 말뭉치에 대한 간략한 정보만 소개하므로 필요 시 PDF와 같은 문서로
좀 구체적인 내용을 담아 제공할 수 있다.
| 어노테이션/라벨링 기준(문장쌍에 대한 라벨링 방법) |
- 원시언어: 원시언어 텍스트 문장을 말한다.
- 언어 정보: 원시언어 정보를 기재한다. 예를 들면, 한국어인 경우 “한국어”로 기입함.
- 어절 정보: 한국어의 경우 문장 중 띄어쓰기를 기준으로 어절의 수를 기입함.
- 문장: 원시언어 문장을 기입함.
- 목적언어: 목적언어 텍스트 문장을 말한다.
- 언어 정보: 목적언어 정보를 기입함
- 글자수: 중국어 문장 중 문장 부호를 포함한 글자수를 기입함.
- 문장: 목적언어 문장을 기입함.
- 분야: 어떤 분야의 문장인지를 나타낸다.
- 고유번호: 원시언어 또는 목적언어의 문장 고유번호를 말한다.
• 제공 형태
- 상기 필드는 주로 사용이 편한 텍스트 파일 형태로 구축되며, 원시언어 파일과 목적언어
파일로 제공된다. 사용된 인코딩은 표준화된 UTF-8로 인코딩하여 제공된다.
- 최근 들어, 구조화된 문서인 XML형식으로도 문장쌍을 구조화하여 제공하기도 한다.
- 요즘 JSON 파일의 사용이 많아지면서 문장쌍 포맷도 JSON 포맷도 변환하여 제공하기도
한다. 다음은 JSON형태로 문장쌍을 레이블링한 형태이다.
[“고유번호”: KC20201000100“분야”: “IT””원시언어“: {“언어”: “한국어”“어절수”: 12“문장”: “정부는 온라인 공청회를 개최하게 되면서 관심 있는 관계자들의 참여가 더욱 손쉬워졌다고 밝혔다.”}“목적언어”: {
11
| 중국어-일본어 번역 말뭉치 과제 | 한국어-중국어 번역 말뭉치 1(기술과학)
데이터 예시
원문 데이터는 획득·정제 과정을 거쳐 간단한 분류와 제목 등의 메타정보와 함께 가공(번역)기관에
엑셀 형태로 전달이 된 후 가공(번역)을 맡은 기관들은 번역한 결과를 추가하여 최종적으로 엑셀
형태로 말뭉치 데이터를 제공한다. 가공 과정이 마무리가 되면 기관들은 [그림 10]과 같은 형태로
납품을 하게 된다. 데이터 가공의 경우 고품질의 학습용 번역 말뭉치를 구축하기 위해선 세부적인
기준하에 진행이 되며 여러 차례의 검증 과정을 거치게 된다. [그림 11]과 같이 잘 정제된 원문