Top Banner
하둡 아키텍트를 꿈꾸는 사람들
24

hadoop ch1

Jan 25, 2015

Download

Documents

cinari4

hadoop ch1
하둡
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: hadoop ch1

하둡

아키텍트를 꿈꾸는 사람들

Page 2: hadoop ch1

하둡

아키텍처를 꿈꾸는 사람들

Page 3: hadoop ch1

하둡을 시작하며..

1.1 데이터1.2 데이터 저장소와 분석1.3 다른 시스템과의 비교1.4 하둡의 역사1.5 아파치 하둡과 하둡 생태계

Page 4: hadoop ch1

1.1 데이터

Page 5: hadoop ch1

현재 사회의 큰 데이터(Big data?!)

현재 사회는 엄청난 데이터의 홍수- NYSE, 매일 1테라 바이트의 거래 데이터- facebook, 10억개의 사진 저장- 힉스 입자 가속기, 매년 15페타바이트

페타>테라>기가

Page 6: hadoop ch1

MyLifeBits

- Microsoft research - 개인이 생산하고 있는 모든 정보를 저장 - 한 달에 1GB -

Page 7: hadoop ch1
Page 8: hadoop ch1
Page 9: hadoop ch1

astrometry.net

Page 10: hadoop ch1

Big Data vs 알고리즘

- 일반적으로 더 많은 데이터가 더 좋은 알고리즘 보다 낫다- 구글 : 중국어 번역

이제는 Big Data는 우리 주변에,나쁜소식은 어떻게 처리를 할 것인가...

Page 11: hadoop ch1

1.2 데이터 저장소와 분석

Page 12: hadoop ch1

저장용량 / 엑세스 속도

- 저장용량 증가폭 > 엑세스 속도 증가폭

해결책 : 여러 하드에 분산, 병렬 처리but, 1. 장애 확률도 덩달아 높아짐2. 분할된 데이터를 다시 결합 하는 cost

Page 13: hadoop ch1

저장용량 / 엑세스 속도

- 저장용량 증가폭 > 엑세스 속도 증가폭

해결책 : 여러 하드에 분산, 병렬 처리but, 1. 장애 확률도 덩달아 높아짐2. 분할된 데이터를 다시 결합 하는 cost

1 -> HDFS2 -> MapReduce

Page 14: hadoop ch1

1.3 다른 시스템과의 비교

<Hadoop>MapReduce is a programming model for processing large data sets with a parallel, distributed algorithm on a cluster

Map(k1,v1) → list(k2,v2)Reduce(k2, list (v2)) → list(v3)

Page 15: hadoop ch1
Page 16: hadoop ch1

1.3.1 관계형 데이터베이스

- 구조화된 데이터 / 비구조화된 데이터- 정규화 / 정규화X- 비선형으로 확장 / 선형으로 확장

Page 17: hadoop ch1

1.3.2 그리드 컴퓨팅

- 수백 기가 바이트처리시, 네트워크 병목Hadoop, 데이터가 로컬 -> 빠름

- 복잡한 아키텍처Hadoop, 무공유 아키텍처

Page 18: hadoop ch1

1.3.3 자발적 컴퓨팅

- SETI@home, 메르센 소수 찾기, Folding@home(http://cafe.naver.com/setikah)

- CPU중심적, CPU > 전송시간

Page 19: hadoop ch1

1.4 하둡의 역사

- 조어(made-up name)"내 아이가 봉제 인형인 노란 코끼리에게 지어준 이름이다. 짧고, 상대적으로 맞춤법과 발음이 쉽고, 특별한 의미는 없다."

Page 20: hadoop ch1
Page 21: hadoop ch1

1.4 하둡의 역사

더그커팅

- 아파치 루씬 - 아파치 너치 - 하둡- GFS -> NDFS- 맵리듀스 -> NDFS

Page 22: hadoop ch1

1.5 아파치 하둡과 하둡 생태계

공통 : 분산 파일 시스템, 일반적인 I/O를 위한 컴포넌트와 인터페이스 집합

에이브로(Avro) : 교차언어 RPC와 영속적인 데이터 스토리지를 위한 데이터 직렬화 시스템

맵리듀스 : 범용 컴퓨터의 커다란 클러스터에서 수행되는 분산 데이터 처리 모델/실행환경

HDFS:범용 컴퓨터로 된 커다란 클러스터에서 수행되는 분산 파일 시스템

Page 23: hadoop ch1

1.5 아파치 하둡과 하둡 생태계

피그:탐색용 데이터 흐름 언어하이브:분산 데이터웨어하우스HBASE:분산 컬럼 지향DB주키퍼:고가용성 조정 서비스스쿱:관계형DB와 HDFS간 데이터를 이동시키기 위한 도구오지: 하둡 잡(맵리듀스,피그,하이브,스쿱)의 워크플로우를 실행/스케쥴링

Page 24: hadoop ch1