Top Banner
Google 을 을을을을 을을 By Sid
21

구글을 지탱하는 기술

Jan 24, 2015

Download

Technology

sid choi

구글을 지탱하는 기술
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 구글을 지탱하는 기술

Google 을 지탱하는 기술

By Sid

Page 2: 구글을 지탱하는 기술

구글을 지탱하는 기술

Page 3: 구글을 지탱하는 기술

구글을 지탱하는 기술 – chapter1.ppt

Page 4: 구글을 지탱하는 기술

Index

1. First Appearance of Google

2. Main Concepts3. Search Engine Structure

- ‘s Roll - Back-end Structure - Index Structure

4. Total Structure

Page 5: 구글을 지탱하는 기술

First Appearance of Google

• Why?

Get useful results

• Who?

Sergey Brin & Larry Page

Page 6: 구글을 지탱하는 기술

Main Concepts

Hardware expands

Ranking Function

– Page Rank

– Anchor Text– Word

Page 7: 구글을 지탱하는 기술

Search Engine Structure

Search EngineInternet

Page 8: 구글을 지탱하는 기술

Search Engine Structure

Search Server’s Roll

• 통신 관리

• 요청 해석하여 처리할 내용 판단

• 인덱스에서 필요한 정보 찾아냄

• 결과를 편집해 이용자에게 보냄

Search

ServerIndex

Back-end

Page 9: 구글을 지탱하는 기술

Search Engine Structure

Back-end’s Roll

• Crawling

•Web page 수집해 오는 기술

•많은 시간 -> 복수의 crawler 사용

•수집한 것을 Repository 에 보관

• Creating Index

•Repository 에 저장된 web page 로 Index 를 만들어 냄

•구조분석 , 단어처리 , 링크 처리 랭킹 등

Search

ServerIndex

Back-end

Page 10: 구글을 지탱하는 기술

Search Engine Structure

Index’s Roll

• 주어진 Data 를 안전하게 저장

• 요청 받은 Data 를 찾아냄

• Search Engine 의 Data Base 역할

Search

ServerIndex

Back-end

Page 11: 구글을 지탱하는 기술

Search Engine Structure Back-end Structure

Crawling

Web page 수집해 오는 기술

초기 Google 2400 만개 Web Page 등록

초당 avg40page 를 유지하기 위해선동시에 수백 개의 download 유지

-> 현재는 ??

구글 검색했을 때 3,070,000,000 개 결과

Page 12: 구글을 지탱하는 기술

Search Engine StructureBack-end Structure

Crawler

URL server 가 전체 crawler 지휘

각 crawler 는 지시에 따라 Web Page download

Repository 에 임시 저장

• docID – 고유 숫자 값• url – URL• text – 압축물 • etc. – date, page length…

URL server

crawler

crawler

crawler

Internet

Repository

Page 13: 구글을 지탱하는 기술

Search Engine StructureBack-end Structure

Crawler

주소해석이 시간 많이 소요-> 내부에 DNS cache 관리

Repository 에 저장후 URL server 가 다음주소 할당

URL server

crawler

crawler

crawler

Internet

Repository

Page 14: 구글을 지탱하는 기술

Search Engine StructureBack-end Structure

Creating Index

Analyzing Web Page struc-tures

DocIndex – Web Page 의 기본정보 저장– docID 를 key 로 사용

URLlist– url 을 key 로 사용– docID 를 가져오기 위함

<html><head>

<title> 세종대학교 </ti-tle>

</body><h1> 학사정보 <h1>

….

docIDurl1

Se-jong.ac.kr

• Title• 기타

• 세종대학교

• …

DocIndexdocID url title etc.

URLlisturl docID

Page 15: 구글을 지탱하는 기술

Search Engine StructureBack-end Structure

Creating Index

Word Index

Lexicon – word -> wordID

Barrels – docID wordID position size etc.

Inverted Index – wordID 를 Key 로 사용

Lexicon

word wordID

세종 101

대학교 102

학사 201

정보 202

Barrels

Barrels

docID wordID#1Position#

1Size#1 Etc.#1

Position#2

Size#2 Etc.#2

wordID#2Position#

1Size#1 Etc.#1

Position#2

Size#2 Etc.#2

Page 16: 구글을 지탱하는 기술

Search Engine StructureBack-end Structure

Creating Index

Link Index

URLlistLinks

Anchortext- A information of linked page

docIDurl1

Se-jong.ac.kr

URLlist Sejong.ac.kr 1 Cyworld.com 3

docIDurl3

Cyworld.-com

Link

Links 1 3

Page 17: 구글을 지탱하는 기술

Search Engine StructureBack-end Structure

Creating Index

Ranking Index

Page Rank - Link

Anchortext Word - Barrels

Web Page 사이의 link 를 일종의 투표처럼 분석 -> 더 많은 link 를 받은 문서 = 더 좋은 문서

Page 18: 구글을 지탱하는 기술

Search Engine Structure Index Structure

DocIndex– Web Page 의 기본정보 저장– docID 를 key 로 사용

Lexicon– word -> wordID

Barrels– storages

DocIndex

Lexicon

Barrels

Page 19: 구글을 지탱하는 기술

Total Structure

Internet

SearchServ

er

Index

DocIndex

Lexicon

BarrelsBarrelsBarrels

Back-end

URL server

Repository

crawler

crawler

crawler

Struc-ture

word

Link

RankingLink

s

URLlist

User

Page 20: 구글을 지탱하는 기술

Thanks for your attention

Page 21: 구글을 지탱하는 기술