Top Banner
(19) 대한민국특허청(KR) (12) 등록특허공보(B1) (45) 공고일자 2014년07월14일 (11) 등록번호 10-1417757 (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21) 출원번호 10-2009-0104592 (22) 출원일자 2009년10월30일 심사청구일자 2012년10월04일 (65) 공개번호 10-2011-0047818 (43) 공개일자 2011년05월09일 (56) 선행기술조사문헌 박찬훈. 랜덤 하이퍼그래프 학습 기반 문장 생성 및 복원. 서울대학교 대학원 컴퓨터공학부. 2008. 8. (73) 특허권자 에스케이플래닛 주식회사 경기도 성남시 분당구 판교로 264 (삼평동) (72) 발명자 황영숙 서울특별시 성북구 북악산로 913, 풍림아파트 10 5동 502호 (돈암동) 정예원 서울특별시 서대문구 연희로 377, 102동 703호 ( 홍은동, 현대아파트) (뒷면에 계속) (74) 대리인 특허법인(유)화우 전체 청구항 수 : 총 11 항 심사관 : 이석형 (54) 발명의 명칭 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모 델 갱신장치 및 그 갱신방법 (57) 요 약 본 발명은 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신 장치 및 그 갱신방법에 관한 것으로서, 본 발명의 일 실시예에 다른 하이퍼그래프 언어모델 학습 및 적용 장치는, 코퍼스 데이터를 저장하는 데이터베이스부; 데이터베이스부에 저장된 코퍼스 데이터에 기초하여 하이퍼 에지를 생성하는 하이퍼에지 생성부; 하이퍼에지 생성부에 의해 생성된 하이퍼에지에 대응하는 가중치를 계산하 는 가중치 계산부; 및 하이퍼에지 생성부에 의해 생성된 하이퍼에지 및 가중치 계산부에 의해 계산된 가중치에 기초하여 하이퍼그래프를 생성하는 하이퍼그래프 생성부를 포함하는 것을 특징으로 한다. 본 발명에 의하면, 사 용자의 관심영역의 변화에 따라서 해당 관심영역의 데이터를 이용한 언어모델이 업데이트된 환경에서 시간에 따 른 언어의 변화를 즉시 반영하여 언어모델을 학습 및 적용할 수 있게 되며, 또한 사용자의 관심영역의 변화에 따 라서 해당 관심영역의 데이터를 이용한 언어모델을 업데이트 하며 급격하게 변화하는 인터넷 언어 환경에서 시간 에 따른 언어의 변화를 즉시 반영할 수 있게 된다. 대 표 도 - 도1 등록특허 10-1417757 -1-
20

(19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

Jul 24, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

(19) 민 특허청(KR)

(12) 등 특허공보(B1)

(45) 공고 2014 07월14

(11) 등 10-1417757

(24) 등 2014 07월03

(51) 특허 (Int. Cl.)

G06F 17/00 (2006.01) G06F 17/30 (2006.01)(21) 원 10-2009-0104592

(22) 원 2009 10월30

심사청 2012 10월04

(65) 공개 10-2011-0047818

(43) 공개 2011 05월09

(56) 술 사 헌

찬훈. 랜 그래 습 생 복원. 울 원 컴퓨 공 . 2008.

8.

(73) 특허

에스 래닛 주식 사

경 도 남시 당 264 (삼평동)

(72)

울특별시 악산 913, 림아 트 105동 502 (돈암동)

울특별시 연 377, 102동 703 (동, 아 트)

(뒷 에 계 )

(74) 리

특허 ( ) 우

체 청 수 : 11 심사 :

(54) 칭 그래 언어 습 치 그 습 , 그래 언어 갱신 치 그 갱신

(57) 약

본 그래 언어 습 치 그 습 , 그래 언어 갱신

치 그 갱신 에 것 , 본 실시 에 다 그래 언어 습

치는, 스 는 스 ; 스 에 스 에 여

에지 생 는 에지 생 ; 에지 생 에 생 에지에 는 가 치 계산

는 가 치 계산 ; 에지 생 에 생 에지 가 치 계산 에 계산 가 치에

여 그래 생 는 그래 생 포 는 것 특징 다. 본 에 , 사

심 역 변 에 라 당 심 역 언어 업 트 경에 시간에

언어 변 시 여 언어 습 수 게 , 또 사 심 역 변 에

라 당 심 역 언어 업 트 격 게 변 는 언어 경에 시간

에 언어 변 시 수 게 다.

도 - 도1

등록특허 10-1417757

- 1 -

Page 2: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

(72)

병탁

울특별시 21, 경남아 트 3동 202 ( 동)

울특별시 악 악 30 27, 지 아 트103동 1705 ( 천동)

찬훈

경 도 안양시 만안 안양4동 714-415 14통 4

울특별시 강 곰달래 44 25 ( 곡동)

주 역시 산 수등 205, 아 트 201동1002 (신가동)

등록특허 10-1417757

- 2 -

Page 3: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

특허청

청 1

스(Corpus) 는 스 ;

상 스 에 스 에 여 에지 생 는 에지 생 ;

상 에지 생 에 생 에지에 는 가 치 계산 는 가 치 계산 ;

상 에지 생 에 생 에지 상 가 치 계산 에 계산 가 치에 여

그래 생 는 그래 생 ;

질 에 여 질 그래 는 질 그래 ;

상 질 그래 에 질 그래 상 그래 생 에 생 그

래 에 치 는 에지 여 결과 그래 는 결과 그래 ;

상 결과 그래 내 에지 가 치 여 상 질 가 상 스

는 스 치 계산 는 계산 ;

포 는 것 특징 는 그래 언어 습 치.

청 2

1 에 어 ,

상 에지 생 에 생 는 에지 상 가 치 계산 에 계산 는 가 치 각각 누

는 누

포 는 것 특징 는 그래 언어 습 치.

청 3

1 에 어 ,

상 그래 생 에 생 그래 는

포 는 것 특징 는 그래 언어 습 치.

청 4

청 5

스 는 스 ;

상 스 에 여 에지, 가 치 업 트 업 트 가 치가 포 그래

생 는 그래 생 ;

상 그래 생 가 상 스 에 새 운 스 에 여 새 운 에

지 만드는 경우, 상 새 운 에지가 생 그래 에 재 는지 단 는 단 ;

상 새 운 에지가 상 생 그래 에 재 상 생 그래 에지

업 트 가 치 가시키 , 상 새 운 에지가 상 생 그래 에 재 지 않

상 새 운 에지 그에 는 가 치가 포 새 운 그래 가 는 갱신

포 는 것 특징 는 그래 언어 갱신 치.

청 6

5 에 어 ,

상 그래 생 는 상 업 트 가 치 값 0 는 것 특징 는 그래

등록특허 10-1417757

- 3 -

Page 4: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

언어 갱신 치.

청 7

5 에 어 ,

상 가 그래 내 에지 상 생 그래 내 에지 비

는 비 ;

상 가 그래 내 에지 가 치가 상 에지 가 치보다 크고 체 가

치 평균값보다 큰 경우, 상 생 그래 에지 상 가 그래

에지 체 는 체

포 는 것 특징 는 그래 언어 갱신 치.

청 8

스 스 에 여 에지 생 고, 생 상 에지에 는

가 치 계산 는 단계;

상 생 는 에지 상 계산 는 가 치 각각 누 여 그래 생 고, 는 스

트 독 질 상 스 독 는 스 가 치 계산 는

단계;

포 는 것 특징 는 그래 언어 습 .

청 9

8 에 어 ,

상 그래 생 단계에 생 그래 는 단계

포 는 것 특징 는 그래 언어 습

청 10

스 는 스 에 여 그래 습 는 단계;

질 에 여 질 그래 는 단계;

상 그래 상 질 그래 에 치 는 에지 여 결과 그래

는 단계;

상 결과 그래 내 에지 가 치 여 상 질 가 상 스

치 계산 는 단계;

포 는 것 특징 는 그래 언어 .

청 11

청 12

스에 스 에 여 에지, 가 치 업 트 업 트 가 치가

포 그래 생 는 단계;

상 스에 새 운 스 에 여 새 운 에지 만드는 경우, 상 새 운

에지가 생 그래 에 재 는지 단 는 단계;

상 새 운 에지가 상 생 그래 에 재 상 생 그래 에지

업 트 가 치 가시키는 단계;

상 새 운 에지가 상 생 그래 에 재 지 않 상 새 운 에지 그에

등록특허 10-1417757

- 4 -

Page 5: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

는 가 치가 포 새 운 그래 가 는 단계;

포 는 것 특징 는 그래 언어 갱신 .

청 13

청 14

12 에 어 ,

상 가 그래 내 에지 상 생 그래 내 에지 비

는 단계;

상 가 그래 내 에지 가 치가 상 생 그래 내

에지 가 치보다 크고 체 가 치 평균값보다 큰 경우, 상 가 그래 에지 상 새

운 그래 에지 체 는 단계

포 는 것 특징 는 그래 언어 갱신 .

술 야

본 실시 는 그래 언어 습 치 그 습 , 그래 언어[0001]

갱신 치 그 갱신 에 것 다. 욱 상 게는, 사 심 역 변 에 라 당 심

역 언어 업 트 경에 시간에 언어 변 시 여 언어

습 수 게 , 또 사 심 역 변 에 라 당 심 역 언어

업 트 격 게 변 는 언어 경에 시간에 언어 변 시 수 는

그래 언어 습 치 그 습 , 그래 언어 갱신 치 그

갱신 에 것 다.

경 술

언어 (LM: Language Model) 연어 안에 , , 단어 등에 어 규칙 찾아내고 그 규칙[0002]

것 다. 런 통 얻어진 언어 랫동안 식 나 계 역, 식,

철 등 다양 야에 시스 도 고 수 시간 는 각

아 다.

언어 크게 지식 (Knowledge-based Model)과 통계 (Statistical Model) 나눌 수 다.[0003]

지식 규 (RG: Regular Grammar) 나 맥 (CFG: Context-Free Grammar) 만들고,

러 에 어 난 탐색 공간에 거 탐색 고 식 는 식 다.

그러나 지식 만들 가 다 고 량 어 수 어 울 뿐만 아니라 언어

비 에 규칙 가 어 에 언어 나 새 운 역에 언어 많

시간과 게 다. 라 링 주 특 고 야 연언어처리 야에

사 고 뿐 규 처리 야 는 야에 는 어 운 근 다.

에 통계 량 스(Corpus)에 언어 규칙 나타내고 값 통 탐색 역[0004]

는 다. 그래 통계 언어 식에 뿐만 아니라 탐색 공간 격 는

과 보여 다. 통계 언어 주어진 식 역에 맞는 단어열 W 측 는 것 , 단어

열 s는 w1, w2, …, wi 루어진 단어열 라고 가 단어열 s P(s)는 수 식 1과 같다.

등록특허 10-1417757

- 5 -

Page 6: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

수 식 1

[0005]

그러나, 통계 언어 어 단어열에 i 째 단어 wi가 나타날 w1에 wi-1[0006]

지 (i-1)개 단어열 나타날 야 는 거 움 다. 그래 단어 단어에

라는 Markov 가 에 i 째 단어가 나타날 N-1개 단어 만 는

N-gram 통상 사 다. 특 s에 N-gram 수 식 2 같 다.

수 식 2

[0007]

wi는 에 i 째 단어 고 m 연 어 사 단어 수 다. bigram (m = 2) 앞 단어에 [0008]

어 단어가 나타날 사 측 다. , unigram (m = 1) 직 개별 단어 측

다. 식 나 계 역과 같 야에 는 단어 순 가 에, 량 습

가 가능 다 trigram (m = 3) 사 고, 량 습 가 가능 다 bigram 사

어 다.

N-gram 규 스에 습 쉽고 뿐 아니라, 실 에 어 도[0009]

trigram 도 사 만 도 능 보 다는 것 다. 그러나, 러 N-gram 리

어 는 단어간 나타낼 수 없다는 단 가지고 다. 러 단 n 크 가시킴

어느 도 극복 가능 지만, n 크 가 가 에 라 계산에 원 가 는 에도 습

에 스 크 가 격 게 가 야 다는 다.

에도 통계 언어 에 는 어 도 스가 사 었는가에 라 언어 능에 큰 차 가[0010]

나타나게 는 , 결 다양 도 스에 만들어 결 여 사

는 시 도 다.

연 "N-gram 트워크 는 어 연 식 언어 치 그 ( 특허 10-[0011]

704508 )"에 는 식 능 상시키 도 습 본 언어 본

사 고, 규 스트 스 스에 간 사도 여 N-gram 트워크 생

, 본 언어 사 식 간결과 여 안 단어 검 후, 재 식

역 보 고, 안 단어가 포 N-gram 여 N-gram 트워크 스에 검

색 후, 검색 N-gram 여 실시간 언어 갱신 여 갱신 언어 식에

는 시 다. 그러나 경우, 실시간 변 는 언어 상 언어 에 시에

가 어 우 , 또 결 에 사 는 라미 결 가 어 다는 다.

또 , 연 "Language model adaptation using semantic supervision(미 특허 7478038 )"에 는 도[0012]

미 보 여 리 는 클래스 언어 통 스트 어 주 어난

단어들 언어 스타 상 에 비 는 습 또는 스트 실 역 또는 도 내 간

미스매치 개 수 는 다루고 다. 심 역 변 지 않는다는 가

에 체 에 지 심 역 언어 심 역과 만

고 언어 는 , 동 도 라 지라도 빠 게 변 는 언어

상에 언어 에 게 다룰 수 는 시 지 못 고 다.

, 연 들 경우, 통계 언어 에 는 고 스 가 고 만들 에, [0013]

스 크 가 가 는 경우에는 새 만들어야 다는 다. 같 사

심 역 변 에 라 스 언어 동 변 가 는 야에 언

어 에 큰 어 움 가 게 다.

등록특허 10-1417757

- 6 -

Page 7: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

결 고 는 과

술 결 본 실시 는, 사 심 역 변 에 라 당 심 역[0014]

언어 업 트 경에 , 시간에 언어 변 시 여 언어 습

수 는 그래 언어 습 치 그 습 공 는

다.

또 , 술 결 본 다 실시 는, 사 심 역 변 에 라 당 심[0015]

역 언어 업 트 , 격 게 변 는 언어 경에 시간에 언어

변 시 수 는 그래 언어 갱신 치 그 갱신 공 는 다.

과 결수단

술 달 본 실시 에 그래 언어 습 치는, 스[0016]

(Corpus) 는 스 ; 스 에 스 에 여 에지

생 는 에지 생 ; 에지 생 에 생 에지에 는 가 치 계산 는 가

치 계산 ; 에지 생 에 생 에지 가 치 계산 에 계산 가 치에

여 그래 생 는 그래 생 포 는 것 특징 다.

람직 게는, 그래 언어 습 치는, 에지 생 에 생 는 에지 [0017]

가 치 계산 에 계산 는 가 치 각각 누 는 누 포 수 다.

또 , 그래 언어 습 치는, 그래 생 에 생 그래 [0018]

는 포 수도 다.

또 , 그래 언어 습 치는, 질 에 여 질 그래 는 질[0019]

그래 ; 질 그래 에 질 그래 그래 생 에

생 그래 에 치 는 에지 여 결과 그래 는 결과 그래

; 결과 그래 내 에지 가 치 여 질 가 스

는 스 치 계산 는 계산 포 수도 다.

술 달 본 다 실시 에 그래 언어 갱신 치는, 스 [0020]

는 스 ; 스 에 여 에지, 가 치 업 트 업 트 가

치가 포 그래 생 는 그래 생 ; 그래 생 가 스 에

새 운 스 에 여 새 운 에지 만드는 경우, 새 운 에지가 생 그

래 에 재 는지 단 는 단 ; 새 운 에지가 생 그래 에 재 생

그래 에지 업 트 가 치 가시키 , 새 운 에지가 생 그래 에

재 지 않 새 운 에지 그에 는 가 치가 포 새 운 그래 가 는 갱신

포 는 것 특징 다.

여 , 그래 생 는 업 트 가 치 값 0 수 다.[0021]

람직 게는, 그래 언어 갱신 치는, 가 그래 내 에지 생 [0022]

그래 내 에지 비 는 비 ; 가 그래 내 에지 가 치가

에지 가 치보다 크고 체 가 치 평균값보다 큰 경우, 생 그래 에

지 가 그래 에지 체 는 체 포 수 다.

술 달 본 또 다 실시 에 그래 언어 습 , [0023]

스 스 에 여 에지 생 고, 생 에지에 는 가 치 계산

는 단계; 생 는 에지 계산 는 가 치 각각 누 여 그래 생 는 단계 포

다.

여 , 그래 언어 습 , 그래 생 단계에 생 그래 는[0024]

단계 포 수 다.

술 달 본 또 다 실시 에 그래 언어 , [0025]

스 는 스 에 여 그래 습 는 단계; 질 에 여 질

등록특허 10-1417757

- 7 -

Page 8: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

그래 는 단계; 그래 질 그래 에 치 는 에지 여 결과

그래 는 단계 포 다.

여 , 그래 언어 , 결과 그래 내 에지 가 치 여 질[0026]

가 스 치 계산 는 단계 포 수 다.

술 달 본 또 다 실시 에 그래 언어 갱신 , [0027]

스에 스 에 여 에지, 가 치 업 트 업 트 가 치가 포

그래 생 는 단계; 스에 새 운 스 에 여 새 운 에지 만드

는 경우, 새 운 에지가 생 그래 에 재 는지 단 는 단계; 새 운 에지가

생 그래 에 재 생 그래 에지 업 트 가 치 가시키는 단

계 포 다.

여 , 그래 언어 갱신 , 새 운 에지가 생 그래 에 재 지 않[0028]

새 운 에지 그에 는 가 치가 포 새 운 그래 가 는 단계 포 수

다.

또 , 그래 언어 갱신 , 가 그래 내 에지 생 그래[0029]

내 에지 비 는 단계; 가 그래 내 에지 가 치가 생

그래 내 에지 가 치보다 크고 체 가 치 평균값보다 큰 경우, 가

그래 에지 새 운 그래 에지 체 는 단계 포 수도 다.

상에 같 본 실시 에 , 사 심 역 변 에 라 당 심 역[0030]

언어 업 트 경에 , 시간에 언어 변 시 여 언어

습 수 게 다.

또 , 본 다 실시 에 사 심 역 변 에 라 당 심 역 [0031]

언어 업 트 , 격 게 변 는 언어 경에 시간에 언어 변 시

수 게 다.

실시 체 내

, 본 실시 들 시 도 통 상 게 다. 각 도 들에 참[0032]

가 에 어 , 동 들에 는 비 다 도 상에 시 라도 가능 동

가지도 고 에 야 다. 또 , 본 에 어, 공지 또는 능에

체 본 지 릴 수 다고 단 는 경우에는 그 상 생략 다.

또 , 본 는 어 , 1, 2, A, B, (a), (b) 등 어 사 수 다.[0033]

러 어는 그 다 별 것 뿐, 그 어에 당 본

질 나 차 또는 순 등 지 않는다. 어 가 다 에 "연결", "결 " 또는 " "

다고 재 경우, 그 는 그 다 에 직 연결 거나 수 지만, 각

사 에 또 다 가 "연결", "결 " 또는 " " 수도 다고 어야 것 다.

도 1 본 실시 에 그래 언어 습 치 개략 도시 도 다.[0034]

도 참 , 그래 언어 습 치(100)는 스 (110), 에지 생

(120), 가 치 계산 (130), 그래 생 (140), 누 (150), (160), 질 그래

(170), 결과 그래 (180) 계산 (190) 포 수 다.

스 (110)는 스 다. , 스 (110)는 신 사, , 타 [0035]

상에 얻 수 는 료들 여 스 고 수 다. 또 , 스 는 습

스트 스에 단어 단어간 생빈도 그것 여 연산 그램(Bi-

gram), 트라 그램(Tri-gram) 또는 N-gram 생 포 수 다. 그램 개 단

어 루어지는 단어열 나타내고, 트라 그램 3 개 단어들 루어지는 단어열 나타내 , N-

gram N 개 단어들 루어지는 단어열 나타낸다.

에지 생 (120)는 스 (110)에 스 에 여 에지 생 다. [0036]

등록특허 10-1417757

- 8 -

Page 9: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

집 X = {x1, x2, …, xn}에 E= {Ei|i ∈ I} X 집 Ei들 리(family)라고 다.

리 E가 수 식 3 건 만 E는 X 상에 그래 (Hypergraphs)라고 다.

수 식 3

[0037]

여 , 각각 x1, x2,…, xn (vertices) 라 고, 집 E1, E2, …, Em 에지(hyperedge)[0038]

라고 다.

그래 는 과 들 연결 는 에지 는 , 그[0039]

래 는 개 상 들 에지에 연결 는 에지 태 가지고 다. 라 , 연 계가

개 상 사 에 재 는 에 시 그래 수 는 특징 갖는다.

도 2는 그래 나타낸다. 도시 같 그래 G는 집 V 에지[0040]

집 E 수 , 각각 에지 E1, E2, E3, E4 E5는 2개 상 들 연결 는 집

수 다. 여 , 그래 는 과 연결 는 그래 에 나아가 집

는 에지들 집 그래 다. 도 2에 나타낸 에지 E1 3개 v1, v3

v4 어 므 v1, v3, v4 에지라고 , 에지 차수(cardinality)는 3

다. 주어진 여 습 통 만들어지는 그래 에 는 포 특

에지 가 치 다.

가 치 계산 (130)는 에지 생 (120)에 생 에지에 는 가 치 계산 다. [0041]

그래 언어 습 고 그 습 결과 는 그래 여 주어진

포 수 어야 다. 포는 그래 에 지에 여 수 , 습

에 그래 에 지는 수 식 4 같 다.

수 식 4

[0042]

여 , W 는 그래 내에 재 는 에지 가 치 미 다. 라 , 그래 상에[0043]

는 수 식 5 같 수 , 그래 에 는 에지 그에

는 가 치들 집 포 는 것 가능 진다.

수 식 5

[0044]

여 , 수(Partition function) Z(W)는 수 식 6과 같 다.[0045]

수 식 6

[0046]

그래 습 과 통 포 여 새 운 는 에[0047]

사 수 다. 러 과 새 운 사 에지들 특 루어지게

등록특허 10-1417757

- 9 -

Page 10: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

는 , 과 에 욱 가 치 가진 에지들 새 운 클래스 결 는 역

게 다.

그래 가지고 는 러 특 단순 주어진 만 아니라 과 간 계,[0048]

그리고 내 단어 단어간 계에 가능 게 다. 러 특징 단순 또는

만 아니라 량 에 여 동 는 통계 계 역(Statistical Machine

Translation) 야에 가능 보여 주고 다. 통계 계 역 사 는 언어 에 는

포 열에 여 고 건 계산 게 다.

그래 습 과 통 결 가능 (joint probability) 습 게 는 , 습[0049]

결 가능 수 식 7과 같 계산 가능 다. , 는 차수 n i 째 에지 미

다.

수 식 7

[0050]

여 , 습 마친 그래 주어진 결 가능 근사 고 므 통 수[0051]

식 8과 같 건 는 것 가능 다.

수 식 8

[0052]

러 과 통 습 그래 습 과 에 포만 습 는 것 아니라 [0053]

고 는 들 간 지도 같 습 게 다.

그래 생 (140)는 에지 생 (120)에 생 에지 가 치 계산 (130)에 [0054]

계산 가 치에 여 그래 생 다. 스트에 가 치가 어 생 는 그래

도 3에 나타내었다. 여 , 각각 Computer, Network, Price, display 등 단어들 , 에

지는 각각 {Computer, Network}, {Computer, Price}, {Computer, Network, Price} 등 다. , 그

래 생 (140)는 가 는 스에 동 복 습 수 여 그래 생 는 것

람직 다.

러 그래 특 여 가 는 스에 동 습 루어지는 과 도[0055]

4에 나타나 다. 습 단계에 는 매 새 스 그래 여

그래 업 트 는 과 복 수 , 스 습 결

과만 아니라 가 는 스에 나타나는 새 운 경 여 업 트 시킬 수 게 다.

라 , 본 실시 에 그래 언어 습 치는 습 도 보

원 는 도 에 게 언어 공 수 , 또 경변 에 언어 변 상

진 시 갈 수 다는 측 에 큰 갖는다.

누 (150)는 에지 생 (120)에 생 는 에지 가 치 계산 (130)에 계산 는 가[0056]

치 각각 누 다. 누 에지 가 치에 여 복 습 는 과 에 새 운

그래 생 수 게 다.

(160)는 그래 생 (140)에 생 그래 수 다. 것 샘 링[0057]

통 언어 습 에 수 는 것 , 통 에지 생 (120)에 생

에지, 가 치 계산 (130)에 계산 가 치 그래 생 (140)에 생 그래

가 다.

질 그래 (170)는 는 스트 질 독 , 독 질 [0058]

여 질 그래 다.

등록특허 10-1417757

- 10 -

Page 11: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

결과 그래 (180)는 그래 생 (140)에 생 그래 질 그래[0059]

(170)에 는 질 그래 비 , 그 치 는 그래 들 여

결과 그래 다.

계산 (190)는 결과 그래 (180)에 결과 그래 내 에지 가[0060]

치 여 질 가 스 (110)에 스 독 는 스

치 계산 다.

도 5는 도 1 그래 언어 습 치에 그래 언어 습 나타낸 [0061]

도 다.

도 참 , (160)는 샘 링 통 언어 습 에 그래 생 (140)에 생[0062]

그래 다(S501). 통 에지 생 (120)에 생 에지, 가 치

계산 (130)에 계산 가 치 그래 생 (140)에 생 그래 가

다.

에지 생 (120)는 훈 X가 스 (110)에 스 에 포 어 는지[0063]

단 고, 훈 X가 스 에 포 경우에 스 (110)에 스

습 훈 X 다(S503).

에지 생 (120)는 훈 X에 여 에지 생 , 가 치 계산 (130)는 수[0064]

식 4 내지 수 식 7에 여 에지 생 (120)에 생 에지에 는 가 치 계산

다(S505).

그래 생 (140)는 에지 생 (120)에 생 에지 가 치 계산 (130)에 [0065]

계산 가 치에 여 그래 생 다(S507).

같 그래 언어 습과 그래 생 시마다 카운트 , 카운트[0066]

값 치 상 지 복 수 수 다(S509). 그러나, 복 습

그래 생 수 카운트 는 식에 는 것 아니 , 다양 통 복 습 수

수 다.

, 누 (150)는 복 습 통 에지 생 (120)에 생 는 에지 가 치 계산[0067]

(130)에 계산 는 가 치 각각 누 다. 누 에지 가 치는 다 습과 에 새 운

그래 다.

도 6 도 1 그래 언어 습 치에 그래 언어 나타낸 [0068]

도 다.

도 참 , 도 5 단계 S501 내지 단계 S509 통 주어진 스 그래 G 습[0069]

는 과 (S601)에 , 질 그래 (170)는 는 스트 질 X' 독

(S603), 독 질 X' 여 질 그래 G' 다(S605).

질 그래 (170)에 질 그래 G'가 , 결과 그래 (180)는 [0070]

그래 생 (140)에 생 그래 G 질 그래 (170)에 질

그래 G' 비 , 그 치 는 그래 들 여 결과 그래 G*

(S607).

계산 (190)는 결과 그래 (180)에 결과 그래 G* 내 에지[0071]

가 치 여 질 가 스 (110)에 스 독 는 스

치 계산 다(S609).

도 7 본 다 실시 에 그래 언어 갱신 치 개략 도시 도 다. 도[0072]

참 , 그래 언어 갱신 치(700)는 스 (710), 그래 생 (720), 단

(730), 갱신 (740), 비 (750) 체 (760) 포 수 다. 여 , 스 (710)는 도 1

스 (110) 능 동 동 므 , 그 상 생략 다.

그래 생 (720)는 스 (710)에 스 에 여 에지, 가 치 [0073]

등록특허 10-1417757

- 11 -

Page 12: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

업 트 업 트 가 치 생 다. 본 실시 에 그래 언어 갱신 치(700)

가 큰 특징 나는 각각 에지가 나 가 치 W 만 가지고 는 것 아니라, 업 트

업 트 가 치 W' 가 가지고 다는 다. 브샘 링 통 그래

는 시 에 , 그래 는 업 트 업 트 가 치 W' 값 0 가지고 지만,

에지 업 트가 루어지는 과 에 업 트 가 치 W' 값 같 업 트 나가 에지

업 트 는 사 게 다.

과 에 습 사 는 그래 는 별도 업 트 별도 그래 가 새 운[0074]

스 통 만들어지게 는 , 새 만들어지는 그래 에 도 식과 동 게 에지

가 나간다.

단 (730)는 그래 생 (720)에 새 운 그래 가 생 는 경우, 생 (720)에[0075]

생 새 운 에지가 에 생 그래 에 재 는지 단 다.

갱신 (740)는 그래 생 (720)에 새 게 생 에지가 에 생 그래 에 [0076]

재 생 그래 에지 업 트 가 치 가시킨다. , 새 게 생 에지

가 미 그래 에 재 는 에지라 에지가 가 지 않고 그래 에

재 는 에지에 는 업 트 가 치 W'i만 업 트 는 것 람직 다. 또 , 갱신 (740)

는 그래 생 (720)에 새 게 생 에지가 생 그래 에 재 지 않

그래 생 (720)에 새 게 생 그래 에 새 게 생 에지 그에 는

가 치 포 시 가 다. 같 가 또는 가 는 가 치가 업 트 가 치가 다.

비 (750)는 가 그래 내 에지 생 그래 내 에지[0077]

비 , 체 (760)는 가 그래 내 에지 가 치가 에지 가 치보다

크고 체 가 치 평균값보다 큰 경우에 생 그래 에지 가 그래

에지 체 다. , 그래 생 (720)에 새 게 만들어진 별도 그래 는 그 내 에

재 는 든 에지에 여 그래 에 는 에지들과 비 가 는 ,

새 만들어진 그래 에지 가 치가 그래 에 재 는 에지 가 치 W

보다 크고, 동시에 그래 체 가 치 W' 평균값보다 클 경우에는 에지가 새 만들어

진 그래 내 에지 체 다.

도 8 도 7 그래 언어 갱신 치에 그래 언어 갱신 나타낸 도 다. [0078]

도 참 , 도 5 단계 S501 내지 단계 S509 통 여 그래 언어 습 는 과 (S801)에[0079]

스 (710)에 새 운 스 가 가 는 경우, 그래 생 (720)는 스

(710)에 가 스 C'에 여 새 운 X' 독 고(S803), 그에 라 에지, 가

치 업 트 업 트 가 치 생 다(S805). 브샘 링 통 그래

는 시 에 , 그래 는 업 트 업 트 가 치 W' 값 0 가지고 지만, 에

지 업 트가 루어지는 과 에 업 트 가 치 W' 값 같 업 트 나가 에지 업

트 는 사 게 다.

단 (730)는 그래 생 (720)에 새 운 그래 G가 생 는 경우, 생 (720)에[0080]

생 새 운 에지가 에 생 그래 G에 재 는지 단 다(S807).

, 그래 생 (720)에 새 게 생 에지가 에 생 그래 에 재 ,[0081]

갱신 (740)는 생 그래 에지 업 트 가 치 가시킨다(S809). , 새 게 생

에지가 미 그래 에 재 는 에지라 에지가 가 지 않고

그래 에 재 는 에지에 는 업 트 가 치 W'i만 업 트 다.

또 , 그래 생 (720)에 새 게 생 에지가 생 그래 에 재 지 않[0082]

, 그래 생 (720)는 새 게 생 에지 그에 는 가 치가 포 새 운 그

래 G" 생 , 갱신 (740)는 그래 에 새 게 생 그래 G" 가 다(S811).

단계 S805 내지 단계 S811 과 스 (710)에 새 가 스 독 스 [0083]

X' 여 만들어진 든 에지에 여 순차 수 다(S813).

같 에 재 는 그래 언어 가 그래 언어 에 여 도 5에 도시[0084]

등록특허 10-1417757

- 12 -

Page 13: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

같 그래 언어 습과 수 다. , 그래 언어

습과 술 같 그래 생 시마다 숫 카운트 고, 카운트 값

치 상 지 복 수 수 다(S815). 그러나, 복 습 그래

생 수 카운트 는 식에 는 것 아니 , 다양 통 복 습 수 수 다.

비 (750)는 가 그래 내 에지 생 그래 내 에지[0085]

비 다(S817). , 가 그래 내 에지 가 치가 에지 가 치보다 크

고 체 가 치 평균값보다 큰 경우, 체 (760)는 생 그래 에지 가 그

래 에지 체 다.

상에 , 본 실시 는 든 들 나 결 거나 결 여 동 는 것 [0086]

었다고 , 본 드시 러 실시 에 는 것 아니다. , 본

안에 라 , 그 든 들 나 상 택 결 여 동 수도 다. 또 , 그 든

들 각각 나 독립 드웨어 수 지만, 각 들 그 또는 가 택

어 나 또는 복수 개 드웨어에 또는 능 수 는 그램 듈 갖

는 컴퓨 그램 수도 다. 그 컴퓨 그램 는 드들 드 그 트들 본

술 야 당업 에 게 수 것 다. 러 컴퓨 그램 컴퓨 가

수 는 매체(Computer Readable Media)에 어 컴퓨 에 여 지고 실 , 본 실

시 수 다. 컴퓨 그램 매체 는 매체, 매체, 캐리어 웨 브 매체

등 포 수 다.

또 , 상에 재 "포 다", " 다" 또는 "가지다" 등 어는, 특별 는 재가 없는 ,[0087]

당 가 내재 수 미 는 것 므 , 다 는 것 아니라 다

포 수 는 것 어야 다. 술 거나 과 어 포 든 어들 , 다 게

지 않는 , 본 는 술 야에 통상 지식 가진 에 는 것과

동 미가 다. 사 에 어 같 사 는 어들 술 맥상 미

치 는 것 어야 , 본 에 게 지 않는 , 상 거나 과도 게 식

미 지 않는다.

상 본 술 사상 시 것에 과 것 , 본 는 술 야에[0088]

통상 지식 가진 라 본 본질 특 에 어나지 않는 에 다양 수 변 가

능 것 다. 라 , 본 에 개시 실시 들 본 술 사상 것 아니라

것 고, 러 실시 에 여 본 술 사상 가 는 것 아니다. 본 보

는 아래 청 에 여 어야 , 그 동등 내에 는 든 술 사상 본

리 에 포 는 것 어야 것 다.

산업 가능

상에 같 본 실시 는 언어 습 야 갱신 야에 어, 사 심 역[0089]

변 에 라 당 심 역 언어 업 트 경에 , 시간에 언어 변

시 여 언어 습 수 도 , 또 사 심 역 변 에 라 당

심 역 언어 업 트 격 게 변 는 언어 경에 시간에

언어 변 시 수 도 는 과 생 는 매우 다.

도 간단

도 1 본 실시 에 그래 언어 습 치 개략 도시 도 다.[0090]

도 2는 그래 나타낸 도 다.[0091]

도 3 스트에 가 치가 어 생 는 그래 나타낸 도 다.[0092]

도 4는 동 언어 습과 도시 도 다.[0093]

도 5는 도 1 그래 언어 습 치에 그래 언어 습 나타낸 [0094]

도 다.

도 6 도 1 그래 언어 습 치에 그래 언어 나타낸 [0095]

등록특허 10-1417757

- 13 -

Page 14: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

도 다.

도 7 본 다 실시 에 그래 언어 갱신 치 개략 도시 도 다.[0096]

도 8 도 7 그래 언어 갱신 치에 그래 언어 갱신 나타낸 도 다.[0097]

< 도 주 에 >[0098]

100: 그래 언어 습 치[0099]

110: 스 120: 에지 생[0100]

130: 가 치 계산 140: 그래 생[0101]

150: 누 160: [0102]

170: 질 그래 180: 결과 그래 [0103]

190: 계산 [0104]

700: 그래 언어 갱신 치[0105]

710: 스 720: 그래 생[0106]

730: 단 740: 갱신[0107]

750: 비 760: 체[0108]

도 1

등록특허 10-1417757

- 14 -

Page 15: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

도 2

도 3

등록특허 10-1417757

- 15 -

Page 16: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

도 4

등록특허 10-1417757

- 16 -

Page 17: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

도 5

등록특허 10-1417757

- 17 -

Page 18: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

도 6

등록특허 10-1417757

- 18 -

Page 19: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

도 7

등록특허 10-1417757

- 19 -

Page 20: (19) 대한민국특허청(KR) (12) 등록특허공보(B1) · (24) 등록일자 2014년07월03일 (51) 국제특허분류(Int. Cl.) G06F 17/00 (2006.01) G06F 17/30 (2006.01) (21)

도 8

등록특허 10-1417757

- 20 -