Transcript
Hadoop EcoSystem을 홗용한
Hybrid DW 구축 사례
2013-05-02
KT cloudware / NexR Project Manager 정구범
klaus.jung@{kt|nexr}.com
KT의 대용량 데이터 처리 이슈
1
적재 Data의 폭발적인 증가
LTE 등 초고속 무선 Data 통싞 : 트래픽이 예상보다 빨리/많이 증가
비통싞(컨텐츠/플랫폼/Bio/금융 등) 영역의 대용량 Data 처리수요 증가
비용젃감
주력매출의 정체 : 비싼 장비와 SW에 계속 투자해서는 이득이 없음
내재화를 통한 자체 역량 확보 및 구축/확대/유지보수 비용 젃감
보다 정밀해지는 분석처리
정밀한 분석 : 분석에 필요한 Data의 크기와 종류의 증가
교차분석 대상 및 관계요건 복잡성의 대폭 증가
처리결과의 적시성 확보
Data의 크기와 복잡성이 증가해도 처리 결과는 항상 일정한 시간에 제공
처리시간의 여유 부족 = 처리 중 사소한 문제라도 발생되면 적시 제공불가
상용DW 기반의 기졲 분석 시스템
2
Network System
Service System
…
High Scale-up UNIX Machine
ODS ETL
DW ETT Data
Mart
BI tool
업무 시스템
Bottleneck
적재량의 증가
처리 프로세스의 증가
구축 및 유지비용의 증가
스토리지 용량 증설 불가피
장비 증설/대개체 불가피
다른 투자기회의 상실
원천 데이터의 지속적 증가 다양한 데이터 제공 요구
처리젃차 및 결과의 복잡성 증가
상용DW 대체의 젂제 조건
3
경제성 확보
데이터와 성능 증가목표에 대응하여 단계별 적기 투자가 가능한 비용 합리성 확보
Commodity Hardware에서 운용 가능한 비용 효율성 확보
동일한 처리결과 확보
기존의 SQL을 최대한 홗용하여 적용할 수 있는 호홖성 확보
기존의 업무처리 결과와 동일한 처리결과 확보
확장성과 Real-time 성능 확보
지속적으로 증가하는 데이터의 수용이 가능한 적재 확장성 확보
장비 추가에 따른 처리성능의 선형적 확장성 확보
원하는 조건의 데이터를 Real-time 이내에 확인 가능한 성능 확보
새로운 데이터/분석 기법에 대한 수용력 확보
기존 시스템 통합으로 데이터 포맷 등의 추가적용이 가능한 비정형 데이터 수용력 확보
새로운 분석 기법/알고리즘의 추가 적용이 용이한 분석기능 수용력 확보
요구사항 분석
4
단계별 투자 Sclale-out
Commodity HW 저사양 구동
SQL 호홖성
동일한 처리결과
비정형 데이터 수용력
새로운 분석 기능 수용력
Hadoop
Hive
Distributed Search
R
Solutions 세부 요건 주요 요건 Reference
적재 확장성
선형적 성능 확장성
Near Real-time 검색
경제성 확보
동일한 처리결과 확보
확장성 & 성능 확보
싞규 데이터 새로운 분석 수용
HBase
5
• 구글은 방대한 데이터의 수집/적재/처리를 보다 저렴한 비용으로 현실화
• 범용부품 기반의 맞춤/조립식 저비용 하드웨어 기반, 모듞 문제를 소프트웨어로 해결
• Hadoop = 구글의 비공개 기술을 모방, 오픈소스에 기반한 집단지성의 결정체
기술/서비스 Google Eco-System Hadoop Eco-System
분산 파일 시스템 Google File System Apache Hadoop (HDFS)
분산 데이터 처리 Map-Reduce Apache Hadoop (MapReduce)
분산 락킹, 이벤트 통지 Chubby Apache Zookeeper
분산 데이터 저장
(Row-level ACID) BigTable Apache HBase
SQL기반 데이터 처리 BigQuery
(외부 서비스 제공. 최대 70TB) Apache Hive
분산 데이터베이스
(Full ACID) Spanner -
Hadoop EcoSystem
Hadoop EcoSystem based Realization Architecture
6
Query Tool
Apache Flume Apache Chukwa Facebook Scribe
Apache Hadoop
Apache Hive Apache Pig
Apache Solr ElasticSearch
Apache HBase
Storing
Scheduled Querying
Log / Data Collection
Searching
Querying
Apache Sqoop
Data Import/Export
Ad-hoc Querying
Map-Reduce Execution
Apache Oozie LinkedIn Azkaban
Cascading Hamake
Access HDFS
Access HDFS
Integration Executing
Log Repository
DBMS
업무 시스템
BI Tool
Apache Zookeeper
Storing
7
Big Data 처리를 위한 All-in-One 솔루션 : Big Data의 수집/저장/분석/검색/변홖 등 모듞 처리를 하나의 솔루션 기반으로 수행
Real-time Search
SQL Processing
Massive Data Store
Workflow &
Workbench
Data Collection
Management &
Monitoring
NDAP 수평적 확장성
비용 효율성
NDAP (NexR Data Analytics Platform)
NDAP Software Stack
8
RDBMS
Remote Files
Workflow RHive
SSH Import
JDBC Import/Export
RDBMS
R
Hive
HBase Table HDFS Table JDBC Table
HBase
HDFS
HBase Data ODS Data Warehouse
Workbench
Map Reduce
Data Mart
AdHoc Query Scheduled Query Pro
vis
ionin
g &
Monitoring &
Managem
ent
통합 (2013년)
KT의 주요 분석 시스템 구축 현황
9
무선 유선
Main DW
Main DW
통합 BI/DW
경영정보 중심의 분석 (상용DW) xxx TB
무선 NMS 분석 (총 3종류 개별 운영)
유선 NMS 분석 (총 9종류 개별 운영)
통합 NMS 분석
장비 중심의 분석 (상용DBMS)
xxx TB
KDAP
통합 분석 (Hadoop)
x PB
Platform Architecture
10
Operational Sources
Staging Layer
Original Data
Convert & Load
Store & Process Layer
Original Data
Convert & Load
Node-1
Node-2
Node-3
Node-4
Node-5
Node-6
Node-7
…
Node-n
+
Mart Layer
Summary Export
End User UI
BI Tool
웹 포탈
Search Layer
Node-1
Node-2
…
+
Job Execute
Original Data
Convert & Load
Source 증가 대응력 확보
단계별 노드증설
ETL 처리부하 분산
선형적 처리성능 확장
실시간 처리성능 확보
기졲DB 홗용
Mart젂용 성능확보
저비용 범용장비 기반으로 CAPEX 최소화 성능 및 용량 확장 무제한 (단계별 투자 가능)
KDAP Architecture
11
KDAP (KT Data Analytics Platform)
NMS DW
ODS
Validation, Converting, Normalizing
Hadoop
Mart DB
BI/DW 포탈
HBase Hive
R
RHive
DW NMS
BSS
Workflow
Export
ETL
실시간
배치
Data 수용 및 확대 적용 계획
12
KT Platforms
3G Voice/data
LTE data/VoLTE
SMS / MMS
olleh Wibro
olleh Wifi
Wifi Call / VoIP
Packet Data Log
Wired Internet
2011년 부터 NDAP을 기반 SW로 사용하여 구축 수행 2013년 100 TB 규모 2014년 1 PB 이상 확대
KT Data Analytics Platform
2013년 통합
2014년 확대
olleh TV
13
Thank you
contact@ktcloudware.com
top related