Top Banner
2자연언어처리의 역사
38

제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

Feb 05, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

제2장 자연언어처리의 역사

Page 2: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

Early History (1)

• 최초의 시도

– Warren Weaver : 기계번역 제안(1949)

– Idea: Translation is a process of dictionary lookup, plus substitution, plus grammatical reordering.

– Example

I must go home

Ich muss nach hause gehen

• 초기 기계번역 연구

– W.Weaver and A.D.Booth : 영어-불어 (Early 1950)

– George Town Univ.와 IBM : 러시아어-영어 (1954)

2

Page 3: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

Early History (2) - 초기 기계번역의 교훈 -

• Translation is really not possible without understanding. – Example (English Russian English) The spirit is willing but flesh is weak The vodka is strong but the meat is rotten.

• A great amount of world knowledge was needed, a program had to understand what was being said in order to be able to translate it properly.

The pen is in the box. The box is in the pen.

• Syntactic Ambiguities They are flying planes. Time flies like an arrow. He saw a man on the hill with a telescope.

• Give a great deal of impetus to work on syntactic theories.

3

Page 4: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

Early History (3) - 정보 검색 -

• IBM

– 1950년대말 대량의 연구 논문을 대상으로 한

정보검색 연구 시작

– 1964년에 의학문헌의 정보검색 시스템

MEDLARS 서비스 개시

4

Page 5: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

Early History (4) - 기타 관련 연구 -

• Automata Theory

– 1950년대말부터 1960년대에 여러 Automata 모델 제안

– 계산 이론의 기초일 뿐만 아니라, 언어 분석 모델로서 중요한 역할

• Introduction of the idea of heuristic search

– Newell and Simon (1956)

• Introduction of the LISP programming language

– John McCarthy (1960)

5

Page 6: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

Early History (5) - 언어학 이론 -

• Chomsky

– Syntactic Structure(1957), Aspect of the Theory of Syntax(1965)

– 변형 생성 문법 • 구구조 개념, 변형 개념

• 문장의 기본은 구구조이며, 문장은 구구조의 변형이다.

• C. Hockett

– Grammar for the Hearer(1961)

– 인간의 언어 이해는 문장을 끝까지 다 들은 후, 구문분석을 시도하는 것이 아니고, 문장을 들으면서 그 때까지의 구문구조를 이해하고 있으며, 다음에 어떤 어구, 문장의 구조가 발화되는지 예상하면서 듣는다.

6

Page 7: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

1960년대의 자연언어처리

• Ideas

– The use of limited domains for language-understanding systems

– The use of key words to trigger certain actions

– The translation of English into formal languages

• Some Systems

– Key-word systems : ELIZA, DOCTOR, PARRY, etc.

– Translating English into a Formal System : STUDENT

– Data-base Question Answering : BASEBALL

7

Page 8: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

BASEBALL (1)

• Bert F. Green, Jr., Alice K. Wolf, Carol Chomsky,

and Kenneth Laughery (1963)

• Database Question Answering system

– Database query generation from English

–미국 프로야구 자료를 자연언어로 검색하는

시스템

8

Page 9: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

BASEBALL (2)

• BASEBALL’S database

• Question: “Who did the Yankees play on July 7?”

• After Query Generator (OR (July 7 – Yankees/– ?ANSWER/–

(July 7 – ?ANSWER/– Yankees – ) )

• Answer : “Red Sox”

9

MONTH PLACE DAY GAME WINNER/SCORE LOSER/SCORE

July

July

July

Cleveland

Boston

Detroit

6

7

7

95

96

97

White Sox/2

Red Sox/5

Tigers/10

Indians/0

Yankees/3

Athletics/2

Page 10: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

ELIZA (1)

• Joseph Weizenbaum (at MIT), 1966

• 인간과 컴퓨터간의 대화 시스템

– Key-word에 의한 패턴 비교 기법 이용

– 상당한 지적 능력을 가진 시스템처럼 보여짐

10

Pattern Respond

(* computers *)

(* mother *)

(* I believe that *)

<nothing matched>

Do computers frighten you?

Tell me more about your family.

How long have you believe that .

Please go on.

Page 11: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

ELIZA (2) User : Men are all alike.

Eliza : In what way?

User : They’re always bugging us about something or other.

Eliza : Can you think of a specific example?

User : Well, my boyfriend made me come here.

Eliza : Your boyfriend made you come here.

User : He says I’m depressed much of the time.

Eliza : I am sorry to hear you are depressed.

User : It’s true. I am unhappy.

Eliza : Do you think coming here will help you not to be unhappy?

User : I need some help; that much seems certain.

Eliza : What would it mean to you if you got some help?

User : Perhaps I could learn to get along with my mother.

Eliza : Tell me more about your family.

11

Page 12: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

STUDENT

• Developed by Daniel Bobrow, 1968.

• Translates algebra problems into a set of linear equations

– John’s age now is two times Mary’s age. JA = 2 * MA

– In three years John will be 6 years older than Mary. JA + 3 = MA + 6

• 패턴 비교 기법 이용

– 패턴의 빈자리(slot)에 필요한 요소를 끼워넣는 방법

– 단순한 패턴 비교와 소수의 경험적 규칙만으로도 문장의 분석이 가능하다는 것을 보여준 프로그램

12

Page 13: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

격문법 (Case Grammar)

• C. Fillmore (1968)

• 문장의 각 주요 명사구가 술어 동사에 대해 어떤 격으로 역할하는가에 주목

• 격관계를 의미적으로 해석

• 행위자격(agent), 대상격(object), 도구격(instrument) 등

• 다음 두 문장의 표면구조는 다르나 심층격은 동일 He opened the door by the key. A key opened the door

• 기계적으로 처리하기 매우 어려움 – 하나 하나의 개별 동사에 대해 그 동사가 어떤 의미의

격(명사구)를 요구하는지 상세하게 사전에 기술해야 함 – 의미소라는 것을 수십 내지 수 백개 설정

13

Page 14: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

1970년대의 자연언어처리

• The flowering of Semantic Information

Processing and Seeds of Cognitive Science

• Systems

– SHRDLU (1972)

– LUNAR (1972)

– MARGIE (1973)

– NLPQ (1974)

14

Page 15: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

SHRDLU • Terry Winograd (1972)

• Transform sentences into programs (in Block-world domain) – Carry out various tasks(e.g., moving blocks on a table), or search for

information in SHRDLU’s database, or generate an answer for its user.

• Can handle sentences exhibiting a wide variety of linguistic phenomena – Interpreted declarative sentences as database updates, interrogative

sentences as database searches, and imperative sentences as specifications for goals; these goals were achieved

• Linguistic coverage was very broad compared to previous programs – Can handle quantifications, generate natural-sounding dialogue, and

answer questions about the history of its dialogue and plan execution.

15

Page 16: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

LUNAR • Woods, Kaplan, and Nash-Webber (1972)

• A Natural Language Front-end for a database

containing moon rock sample analysis

• Use ATNs (Augmented Transition Networks)

• Very general notion of quantification based on

predicate calculus

• Use sophisticated techniques to translate

questions into database queries.

16

Page 17: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

SHRDLU and LUNAR

• Use relatively unconstrained language

• Work in very narrow domain

– SHRDLU : Block-world

– LUNAR : Moon-rock sample analysis

• Have complete, privileged knowledge of their

work

17

Page 18: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

MARGIE (1)

• Shank, Goldman, Rieger, and Riesbeck (1973)

• Deal with much more unconstrained language, particularly language about human actions

• Based on Conceptual Dependency Theory (by Shank)

– Every EVENT has : an ACTOR an ACTION performed by that actor an OBJECT that the action is performed upon a DIRECTION in which that action is oriented

– CD primitive actions ATRANS MTRANS SPEAK INGEST PTRANS MBUILD GRASP EXPEL PROPEL ATTEND MOVE

18

Page 19: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

MARGIE (2) (e.g.) John gave Mary a book.

actor John action ATRANS /* transfer possession */ object book direction FROM John TO Mary

19

John ATRANS book P O R Mary

John

Page 20: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

1970년대의 교훈

• Knowledge Representation – Central importance to all natural processing

– Issues • How should items in memory be indexed and accessed

• How should context be represented

• How should memory be updated

• How can programs deal with inconsistency

• Common Sense

– Knowledge of the outside world

(e.g.) The city councilmen refused the women a permit because they feared violence // they : city councilmen they advocated revolution // they : women

20

Page 21: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

FRAMES

• Minskey, 1975

• Structures consisting of a core and slots

• Each slot corresponding to

– Either a facet or participant of a concept embodied in

the frame or a space for a pointer to a related concept

• Provide a neat explanation for “default reasoning”

21

Page 22: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

SCRIPTS

• Roger Shank and his collaborators at Yale (1977)

• (e.g.) Track : Coffee Shop

Props : Table Roles : S – Customers

Manu W – Waiters

F – Food C – Cook

Check M – Cashier

Money O – Owner

22

Page 23: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

Unification-based Grammar Formalisms

• Grammatical Theories – LFG (Lexical Functional Grammar) : Bresnan (1982)

– GPSP (Generalized Phrase Structure Grammar) : Gazdar (1985)

– HPSG (Head-driven Phrase Structure Grammar) : Pollard (1985)

• Grammatical Tools

– DCG (Definite Clause Grammar) : Pereira & Warren (1980)

– FUG (Functional Unification Grammar) : Kay (1983)

– PATR-II : Shieber et al. (1983)

23

Page 24: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

Unification-based Grammar Formalisms

• Augmented Phrase Structure Grammar

– Context-Free based grammar rules

– Use feature structures instead of simple grammar symbols

• Feature structure

– Complex-feature-based informational elements

– Associations between features and values

• Unification

– Information-combining operation

– main operation in unification-based grammar formalisms

24

Page 25: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

Feature Structure • 명사 “철수”와 동사 “먹다”의 자질 구조 (HPSG의 예)

25

LEX

N MAJ HEAD LOC SYN

철수"" PHON

LEX

OBJ GR

N MAJ HEAD|LOC|SYN

SUBJ GR

N MAJ HEAD|LOC|SYN

SUBCAT

V MAJ HEAD

LOC SYN

"먹다" PHON

Page 26: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

Unification

26

)2( third:person

singular:number:agreement FS

)1( NP:cat FS

)3(

third:person

singular:number:agreement

NP:cat

2 1 FSFSFS

Page 27: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

Unification

)3(

third:person

singular :number : agreement

NP :cat

FS

27

)4(

plural :number : agreement

NP :cat FS

FailednUnificatioFSFS 4 3

Unification of FS3 and FS4 is failed because the values of “agreement :

number” feature of them are not the same (conflict)

Page 28: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

최근 자연언어처리 연구동향

• 문법 규칙의 단순화, 사전의 대용량화

– 각종 대용량 분석 사전, 시소러스 등

• Corpus에 기반한 언어처리

– 원시 Corpus, Tagged Corpus

– 문법, 어휘 정보 등 각종 언어 정보 추출

– 통계 기반 언어 처리 기계학습 기반 언어처리

• 실용 수준의 자연언어처리 시스템 개발

– 상용 기계번역 시스템

– 정보 검색 시스템

– 문서 분류, 요약 시스템 등

• 딥 러닝 (Deep Learning) 기술의 발달 – 이미지 인식, 음성 인식 분야에서 딥 러닝 기술이 최고의 성능을 보여줌

– 자연어처리 분야에도 최근 딥 러닝 기술이 많은 응용 분야에서 최고 성능을 보여주고 있음

28

Page 29: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

기계 번역의 역사 (1)

• GAT

– 1952년에 시작하여 1965년에 완성

–소련어-영어 번역 시스템

–번역 대상 : 물리학 분야 논문

–단어 대 단어에 숙어 처리 가미

–번역의 질은 매우 떨어졌으나, 1979년까지 미국

원자에너지국에서 사용

29

Page 30: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

기계 번역의 역사 (2)

• CETA

– 1967년에 완성되어 1971년까지 사용

– 프랑스 Grenoble 대학에서 시작

– 언어학 이론에 기반한 번역

– Interlingua 방식 (Pivot approach)

• Interlingua : 개별 언어와 독립적 표현

• GETA

– CETA의 후속 시스템

– CETA의 실패를 거울 삼아 변환 방식(transfer approach) 채택

30

Page 31: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

기계 번역의 역사 (3)

• TAUM

– 일기예보 대상

– 영어-불어 번역 시스템

– 순수한 변환 방식

• METEO

– TAUM을 확장한 완전 자동 번역 시스템

– 번역 성공률이 90-95% 수준

• 실패하는 경우도 대부분 철자 오류 등임

31

Page 32: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

기계 번역의 역사 (4)

• SYSTRAN

– 최초로 상품화된 기계번역 시스템

– 1970년 미국 연방 정부 FTD 사용 (러시아-영어)

– 1974년 NASA 사용 (러시아-영어)

– 1976년 EC 사용 (영어-불어)

– 1978년 불어-영어

– 1979년 영어-이태리어

– 1985년 불어-독어, 영어-독어

32

Page 33: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

기계 번역의 역사 (5)

• METAL

– 1982년에 개발된 독어-영어 양방향 기계 번역 시스템

– GPSG를 이용한 영어 분석

• EUROTRA

– 유럽 공동체의 9개 언어 번역을 시도

– 1992년 1단계 연구 종료 : 시스템 개발에는 실패

– 유럽 공동체 예산의 40% 정도가 번역 비용으로 드는

만큼, 연구 개발이 계속될 전망

33

Page 34: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

기계 번역의 역사 (6)

• 일본의 연구

– 1964년 교토대학 Nagao 교수에 의해 시작

– 1990년 현재 20여개 시스템이 상품화

– 기계 번역 연구를 가장 활발히 진행하는 국가 중 하나임

• 한국의 연구

– 1980년 정도부터 대학 및 연구소에서 연구 시작

– 현재 영-한, 일-한, 한-일 번역 시스템 상품화

– 대학, 기업체 중심으로 연구 개발

34

Page 35: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

기계 번역의 역사 (7)

• Statistical Machine Translation (SMT)

– 구글 번역기, …

– Word based model • GIZA++ (IBM model 1~6)

– Phrase based model • Moses

• Parallel corpus (sentence aligned corpus) word alignment (GIZA++) phrase extraction reordering model language model (SRILM) decoding

35

Page 36: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

SMT: example

36

Page 37: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

기계 번역의 역사 (8)

• Neural Machine Translation (NMT)

– 딥 러닝을 이용한 end-to-end 기계번역 시스템

– Word-based Recurrent Neural Network (RNN) encoder + RNN decoder로 구성됨

• Parallel corpus (sentence aligned corpus) NMT training RNN decoding

– 최근에는 Attention Mechanism을 도입하여 더욱 높은 성능을 보임

– Phrase-based MT, Hierarchical Phrase-based MT 보다 높은 성능을 보임

37

Page 38: 제2장 자연언어처리의 역사cs.kangwon.ac.kr/~leeck/NLP/02_history.pdf · 2016-08-31 · –Syntactic Structure(1957), Aspect of the Theory of Syntax(1965) –변형 생성

NMT example

38