hadoop ch1

하둡

아키텍트를 꿈꾸는 사람들

하둡

아키텍처를 꿈꾸는 사람들

하둡을 시작하며..

1.1 데이터1.2 데이터 저장소와 분석1.3 다른 시스템과의 비교1.4 하둡의 역사1.5 아파치 하둡과 하둡 생태계

1.1 데이터

현재 사회의 큰 데이터(Big data?!)

현재 사회는 엄청난 데이터의 홍수- NYSE, 매일 1테라 바이트의 거래 데이터- facebook, 10억개의 사진 저장- 힉스 입자 가속기, 매년 15페타바이트

페타>테라>기가

MyLifeBits

- Microsoft research - 개인이 생산하고 있는 모든 정보를 저장 - 한 달에 1GB -

astrometry.net

Big Data vs 알고리즘

- 일반적으로 더 많은 데이터가 더 좋은 알고리즘 보다 낫다- 구글 : 중국어 번역

이제는 Big Data는 우리 주변에,나쁜소식은 어떻게 처리를 할 것인가...

1.2 데이터 저장소와 분석

저장용량 / 엑세스 속도

- 저장용량 증가폭 > 엑세스 속도 증가폭

해결책 : 여러 하드에 분산, 병렬 처리but, 1. 장애 확률도 덩달아 높아짐2. 분할된 데이터를 다시 결합 하는 cost

저장용량 / 엑세스 속도

- 저장용량 증가폭 > 엑세스 속도 증가폭

해결책 : 여러 하드에 분산, 병렬 처리but, 1. 장애 확률도 덩달아 높아짐2. 분할된 데이터를 다시 결합 하는 cost

1 -> HDFS2 -> MapReduce

1.3 다른 시스템과의 비교

<Hadoop>MapReduce is a programming model for processing large data sets with a parallel, distributed algorithm on a cluster

Map(k1,v1) → list(k2,v2)Reduce(k2, list (v2)) → list(v3)

1.3.1 관계형 데이터베이스

- 구조화된 데이터 / 비구조화된 데이터- 정규화 / 정규화X- 비선형으로 확장 / 선형으로 확장

1.3.2 그리드 컴퓨팅

- 수백 기가 바이트처리시, 네트워크 병목Hadoop, 데이터가 로컬 -> 빠름

- 복잡한 아키텍처Hadoop, 무공유 아키텍처

1.3.3 자발적 컴퓨팅

- SETI@home, 메르센 소수 찾기, Folding@home(http://cafe.naver.com/setikah)

- CPU중심적, CPU > 전송시간

http://cafe.naver.com/setikah

1.4 하둡의 역사

- 조어(made-up name)"내 아이가 봉제 인형인 노란 코끼리에게 지어준 이름이다. 짧고, 상대적으로 맞춤법과 발음이 쉽고, 특별한 의미는 없다."

1.4 하둡의 역사

더그커팅

- 아파치 루씬 - 아파치 너치 - 하둡- GFS -> NDFS- 맵리듀스 -> NDFS

1.5 아파치 하둡과 하둡 생태계

공통 : 분산 파일 시스템, 일반적인 I/O를 위한 컴포넌트와 인터페이스 집합

에이브로(Avro) : 교차언어 RPC와 영속적인 데이터 스토리지를 위한 데이터 직렬화 시스템

맵리듀스 : 범용 컴퓨터의 커다란 클러스터에서 수행되는 분산 데이터 처리 모델/실행환경

HDFS:범용 컴퓨터로 된 커다란 클러스터에서 수행되는 분산 파일 시스템

1.5 아파치 하둡과 하둡 생태계

피그:탐색용 데이터 흐름 언어하이브:분산 데이터웨어하우스HBASE:분산 컬럼 지향DB주키퍼:고가용성 조정 서비스스쿱:관계형DB와 HDFS간 데이터를 이동시키기 위한 도구오지: 하둡 잡(맵리듀스,피그,하이브,스쿱)의 워크플로우를 실행/스케쥴링

hadoop ch1

Documents