Top Banner
Searching in Cooperative Patent Classification: Comparison between keyword and concept-based search Author Tiziano Montecchi, Davide Russo (Department of Industrial Engineering, University of Bergamo, Italy) Ying Liu (Department of Mechanical Engineering, National University of Singapore, Singapore) 14’ 논문 소개 세미나
25

Searching in cooperative patent classification 발표

Apr 15, 2017

Download

Data & Analytics

Jinpyo Lee
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Searching in cooperative patent classification 발표

Searching in Cooperative Patent Classification: Comparison between keyword and concept-based search

Author Tiziano Montecchi, Davide Russo (Department of Industrial Engineering, University of Bergamo, Italy)

Ying Liu (Department of Mechanical Engineering, National University of Singapore, Singapore)

14’ 논문 소개 세미나

Page 2: Searching in cooperative patent classification 발표

Contents

• Motivation & Main Problem

• Prior Works

• Main Idea: KOM

• Case Study

• Conclusion

Page 3: Searching in cooperative patent classification 발표

Motivation

Patent(특허)

- 새로운 것의 발명으로 인해 받을 수 있는 권리 - 기술의 산업화 지표로 사용 가능

“Patent database”

- 방대한 양의 기술정보 내재 → 전략적 지식 소스로 사용 가능 (기술의 uniqueness를 이용해 신제품 개발, 예측, 기술 이전, 문제 해결 등의 분야에 적용 가능)

- 실제 수 백만 개의 문서를 갖고 있으며, 매 해 그 양이 급격히 증가

Page 4: Searching in cooperative patent classification 발표

Motivation

- Patent의 중요성이 커짐에 따라, 기업들은 특허전략을 수립해 기업경영에 사용

- 특허 DB는 굉장히 방대(수백만개의 특허 존재) ,이를 일일이 찾아가며 관계된 특허를 찾는 일은 매우 어렵다

- 특허 가능성을 조사하는 경우에는, 단 한 개의 놓친 특허 만 존재하여도 실패하게 된다.

그러나, 아직까지 100%완벽한 Patent Search는 없다!

Page 5: Searching in cooperative patent classification 발표

BackGround

Patent Strategy(특허전략)

- 강한 특허를 통한 라이센싱 수익을 내는 혹은 방어하는 것 ex) SAMSUNG vs APPLE

- 특허로 인한 수익 창출 혹은 손해를 방지 하기 위한 행위

- 특허전략들은 PC(Patent Class)를 기반으로 찾음

Page 6: Searching in cooperative patent classification 발표

Main Problem

지금까지의 Patent Search는 주로 Keyword based Search (특허 내의 특정 keyword를 조사하여 검색하는 것)

1. 특허 Description에 있어 detail level이 다르다 • 같은 개념도 다르게 표현하기도 함(추상적이거나 상세하거나) • 저자들이 서로 다른 필드에서 왔기 때문일 수 도 있고, 특허 청구

범위를 넓히기 위해 전략적으로 모호하거나 일관되지 않은 용어를 사용하기 때문 일 수 도 있다.

2. 정확하지 않은 terminology • 새로운 기술을 발명하는 경우 새로운 용어를 만들기도 한다 • 과하게 축약하의 logical한 의미가 반영 안 되는 경우도 존재

3. Official language가 다르다 • 특허작성시 사용된 언어가 다르면, 부정확하게 번역이 될 수도있다

그러나, Keyword Based Search는 몇 가지 단점 존재!

Page 7: Searching in cooperative patent classification 발표

Main Problem

Keyword Based Search의 이러한 문제를 해결하기 위해 새로운 방식의 Search가 필요!

Patent Classification의 등장

Page 8: Searching in cooperative patent classification 발표

BackGround

Patent Classification(특허 분류 체계) ? - 특허에 적용된 다양한 기술들을 분류체계를 통해 정렬 - 비슷한 성격의 발명이 체계 안에서 같은 그룹화

ex) 특허 분류 체계: 개인 및 가정 문서와 관련된 IPC 코드의 예

A41 의류 A41F 의복 잠금 장치 A43 신발 A43C 잠금 장치, 레이스, 부착물 A44 재봉 도구, 장신구 A44B 버튼, 핀, 버클, 슬라이드 잠금 장치 등 http://www.kipris.or.kr/kpat/remocon/frame.jsp?kind=0&start=IPC_DETAIL&IPC_CODE=H04L7/00

정확하게 정의된 내용을 빠르게 검색하여 안정적인 결과를 얻고, 새로운 주제를 쉽게 분류하는 것이 모든 특허 체계의 궁극적인 목적

Page 9: Searching in cooperative patent classification 발표

BackGround

Page 11: Searching in cooperative patent classification 발표

BackGround

PC를 찾으면, 원하는 특허를 찾을 수 있으나, 그 양이 너무 많다!

- 물론 찾을 수 있지만, 굉장히 Time consuming! - 찾는 사람의 경험에 굉장히 의존도 큼

자동화 된 검색 툴 필요!

- Valkonen and nykanene: Keyword based. User-tool interaction But, IPC의 일부 특허에 대해서만 적용가능

- EPO & WIPO의 tool : Keyword based. Most General.

But, Low Recall - WIPO의 tool(IPC CAT): use NLP

Page 12: Searching in cooperative patent classification 발표

실제 정답 (by Gold Standard)

True False

실험 결과

Positive True Positive False Positive (Type1 error)

Negative True Negative (Type2 error)

False Negative

** Recall & Precision

* Recall(재현율) = 𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝐷𝑜𝑐 ∩ 𝑅𝑒𝑡𝑟𝑖𝑣𝑒𝑑 𝐷𝑜𝑐

𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝐷𝑜𝑐𝑢𝑚𝑒𝑛𝑡

= 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒

𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝑇𝑟𝑢𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒

실제 정답인 것들 중 얼마만큼을 정답이라 판단했는가!

* Precision(정밀도) = 𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝐷𝑜𝑐 ∩ 𝑅𝑒𝑡𝑟𝑖𝑣𝑒𝑑 𝐷𝑜𝑐

𝑅𝑒𝑡𝑟𝑒𝑖𝑣𝑒𝑑 𝐷𝑜𝑐𝑢𝑚𝑒𝑛𝑡

= 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒

𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒

정답이라 판단한 것 중, 실제 얼마 만큼이 정답인가!

Page 13: Searching in cooperative patent classification 발표

Prior Work

PC Description 찾는 tool

- Term Search & IPC Search - PC description을 조사하여 관

련된 PC code를 Return

- Index의 Catchword도 조사

- 그러나 User가 입력한 word와 완벽하게 일치해야 한다.

- 따라서 아무 결과가 나오지 않는 경우가 잦다

Figure. Term Search

Page 14: Searching in cooperative patent classification 발표

Prior Work

Patent Document 찾는 tool

- Classification Search(EPO) - CPC에서 동작 - 10개 이하의 keyword만 query에

조합가능 - Full-text가 아닌 abstract만 조사

- Patent Scope(WIPO) - IPC에서만 동작 - Full-text나 다른 위치도 동작 - Sub-class level에서 상위 10개를

제시 - EPO tool보다 덜 정확하여 Query

stemming을 통해 보완(recall & precision 조절)

Figure. Patent Scope

Page 15: Searching in cooperative patent classification 발표

Prior Work

Patent Document 찾는 tool

- 앞선 두 tool은 Precision의 증가를 위해 모두 가장 빈도 높은 PC를 결과로 제공

- 이렇게 되면 많은 관련된 PC를 찾고 싶은 경우에는 에러일 수 있다.

- 사실 PC는 아주 적은 수의 특허문서만 포함하고 있어도, 관련된 PC인데, 이런 경우는 상대적으로 수가 적으니 결과에 나타나지 않음.

Page 16: Searching in cooperative patent classification 발표

KOM: A concept based search tool

Concept based?

- User query 뒤에 숨겨진 concept을 추출하여 초기 query의 keyword만으로 matching하지 않음!

- Knowledge base를 통해 initial query를 expand

- 그러나, expand시 recall은 증가하나, precision은 감소될 것

- 따라서, 적절하지 않은 patent걸러내는 모듈이 필요

- 그것이 바로 KOM(Knowledge Organizing Module)

Page 17: Searching in cooperative patent classification 발표

KOM: A concept based search tool

KOM(Knowledge Organizing Module)

- CPC, IPC 등등 모든 classification 체계에서 사용가능

- Term의 개수 제한 없음

- 결과는 Class ~ sub-group까지 다 가능

Page 18: Searching in cooperative patent classification 발표

KOM: A concept based search tool

Page 19: Searching in cooperative patent classification 발표

KOM: A concept based search tool

1) Semantic Expansion of the query

- Expand Initial Query - Using pre-built Knowledge-base(e.g. 사전, 시소러스, 온톨로지 등)

- Synonym, Correlated terms, Morphological, Syntactic variant

Page 20: Searching in cooperative patent classification 발표

KOM: A concept based search tool

2) Boolean patent search

- Can choose field to search - Full-text search maximize the recall

Page 21: Searching in cooperative patent classification 발표

KOM: A concept based search tool

3) Tagger

- To clarify the Polysemy of word - Using stanford POS tagger

led(Noun) vs led(Verb)

Page 22: Searching in cooperative patent classification 발표

KOM: A concept based search tool

4) Parser

- Recognize role of words - Word sequences to find can not be related in some documents - Using Stanford parser

Page 23: Searching in cooperative patent classification 발표

KOM: A concept based search tool

5) CPC code Extraction

- Find deepest level - Can choose any level to represent from deepest level

Page 24: Searching in cooperative patent classification 발표

Case study

Page 25: Searching in cooperative patent classification 발표

Conclusion

- CPC에서 concept based 와 keyword based tool실험해봄

- 이론적으로 현재의 시스템들은 recall은 100%가능하나,

keyword를 based한 것 만으로는 불가능

- 이는 앞서 말한 여러 가지 언어적 특징 때문

- 따라서 concept based 필요

- Case study에서도 keyword base로 한 나머지 세 시스템을 다 합해도 KOM의 52%밖에 커버하지 못함