2014년 4월 17일 기업을 위한 Big data Analytics 접근 제언
2014년 4월 17일
기업을 위한 Big data Analytics 접근 제언
2
요즘 Big data 소식들…
정부 3.0 따른 Big data 사례
- 통계청 물가지수
- 충북 사과
- 경기도 빅데이터 …
정부 3.0 따른 Big data 사례
- 통계청 물가지수
- 충북 사과
- 경기도 빅데이터 …
5
Big Data
VelocityVariety
Volume
기술(Technology) 위주의 접근에서 가치(Value) 기반의 접근 중요
6
현재 상황 분석에서 미래의 예측으로 진화 중
Analytics
7
3V의 기술적 동인으로 전통적인 분석과 고급 분석의 활용, 가치(Value) 극대화
Big Data Analytics
Insight
Advanced AnalyticsTraditional AnalyticsBig Data (e.g 주식)
Big data Analytics
II. Technology(Hadoop 최신 아키텍처, Real-time Analytics 중심)
9
Big data Analytics는 데이터 수집, 저장, 처리, 분석의 반복적 과정이며, 다양한 기술 존재
Process & Technology
10
Data
IT Budgets
GROWING AT 40%
GROWING AT 2.5%
$9,000
$40,000
<$1,000
ENTERPRISE STORAGE
DATABASE WAREHOUSE
11
업무의 성격에 맞게 서버 구조 방식을 선택해야 하며, All or Nothing 아닌 필요에 따라혼합하여 사용하는 아키텍처도 필요함
Scale up, Scale out
12
Enterprise Data Hub를 지향하는 New 분산 병렬 처리 플랫폼 기술
Hadoop 2.0 (1/3)
13
보다 더 효율적인 Resource Management 가능
Hadoop 2.0 (2/3)
14
Hadoop 2.0 (3/3)
주요 기능 및 성능을 점검한 결과 당장 적용할 수 있는 부분과 조금 더 시간이 필요한 부분 존재확인
항목 성숙도 평가 적용 예상 비즈니스 고려사항
Performance Stable 모든 비즈니스 MapReduce의 경우 JDK7 유리HBase의 경우 JDK6 유리
YARN Scheduler GA 상호영향이 있는 서비스(Big Batch + OLTP)가 공존하는 빅데이터 시스템 구축
메모리 기준으로 자원 컨트롤됨으로 CPU에 대한 컨트롤이 아직 완벽하지 않는 것으로 확인됨, 차후 버전에서 해결 될 것으로 판단됨
HDFS HA Stable 고 가용성을 요구하는 엔터프라이즈환경 적용 가능
비즈니스 적용 가능
YARN HA Ready 고 가용성을 요구하는 엔터프라이즈환경 적용 가능
구성방식은 HDFS HA와 동일하나 안정성이 떨어짐. 1.x 의 HA방안(표준 HA Framework)을 대안으로 적용
HDFS Federation Stable 지역/그룹별 데이터관리가 필요한업무 적용 가능필요 시 두 지역/그룹영역의 데이터를 함께 작업 가능
확장성을 고려하여 개발된 기술이나, 업무 특성상 그룹핑이 필요한 경우 활용 가능할 것을 예상
HDFS Snapshot GA 중요 데이터의 백업으로 활용 현재 상태는 스냅샷에 의한 성능저하 리스크 예상됨. 전체가 아닌 중요 데이터에만 적용
HDFS Migration Stable 1.x 버전의 기 구축된 사이트에성능 및 고 가용성을 위해 적용
플랫폼은 성공이나 개발 영역(MR, python 등)은 마이그레이션 프로젝트를 통해 통합테스트 필요
YARN Migration Stable 1.x 버전의 기 구축된 사이트에성능 및 고 가용성을 위해 적용
MR의 경우 counter API의 수정과 재컴파일이 필요함. MRD의 기등록 workflow를 일괄 적용을 위한 도구또는 절차의 준비가 필요
15
Gartner는 올해 전통적인 DW 시장에 Hadoop 을 중요 기술로 포함시켰으며, DW 솔루션업체들은 Hadoop 간 연결성만 보장하다가, Hadoop을 적극적으로 끌어들이기 시작함
전통적인 DW, 새로운 변화, 변화 시도 중
16
데이터 저장 전 In memory 에서 처리 및 분석하는 것과 데이터 저장 후의 검색,쿼리 및 분석이혼용되고 있지만, 기술 낭비 방지를 위해서는 기업 업무에서의 실시간의 의미를 찾는 것이 중요
Real-time Analytics (1/3)
Architecture (확장성, Low latency, 가용성)
개발/운영편의
alert
Server log
Network event
Orders, Trades
.
.
.
Ingest
>In Memory After Store
Sensor
• 실시간 데이터 수집• 다양한 수집 대상• 무 중단 설정 반영
• Event 파티셔닝, Correlation• Rule 기반 처리• 집합 연산 및 쿼리, 패턴 분석
1 window
Rules
Stream Processing / Analytics Batch Processing /Analytics
• Search• Data Query• 데이터 통계 분석 (시계열)
• Advanced Analytics- predictive analytics- machine learning
2
17
Real-time Analytics (2/3)
Streaming Processing : ESP, CEP
구 분 특 징 솔루션
ESP(Event Stream Processing)
•시간에 따른 이벤트들의 일련의 연속된 흐름 처리•Computation 중심 처리 (Filtering, Aggregation)•Scale out 아키텍처 지향
IBM InfoSphere Streams, Storm, S4, Spark Streaming
CEP(Complex Event
Processing)
•시간에 따른 이벤트들의 일련의 연속된 흐름 처리•선언적 Rule 기반 처리•특정한 time window 연속적으로 처리•Scale up 아키텍처 지향•CEP = ESP & 패턴 감지
Tibco CEP, Oracle CEP, Esper
18
In-Memory Computing : HDD의 속도 문제를 해결하기 위해 Memory를저장 공간으로 사용하는 기술
Real-time Analytics (3/3)
III. 적용 모델
20
적용 모델 (많이 시도하는…)
구분 업무 특징 / 설명 사례 비고
Big Batch• 기존 RDBMS 기반 대용량 데이터 Batch 처리 à Hadoop 클러스터
à 처리시간 단축, 성능 개선
• 분석 회계 데이터 처리• 생산 품질 데이터 분석• 공급망 관리 Planning
• 가장 간단한 구성
HybridArchitecture
• DW의 성능, 데이터 저장 기간, 비정형 데이터 처리 이슈 보완 +빅 데이터 기술 접목
à ETL 성능 개선, 데이터 저장비용 절감, 대용량 데이터 준 실시간 조회
• 생산 품질 데이터 준 실시간조회
• OLAP 도구 의존성
Log Analytics
• 서버(접속 로그, 명령어 로그), N/W 로그, DB 접속 로그 및 쿼리 로그, Application 접속 및 조회/권한 로그 등을 수집하여 임직원 정보 유출 등에대한 잠재적 인자를 분석하여 사전 예방
à 기존에 버렸던 정보를 저장, 패턴 분석, 룰 적용 선 순환 실시간 분석 가능
• 보안 로그 분석
• 시스템 로그 분석
• 색인, 검색 서비스필수
Search & Text
Analytics
• 비정형/반정형 텍스트 및 문서 데이터를 색인하고 텍스트 마이닝을 통해의미에 기반한 분석, 리포팅 가능
à 컨텐츠 범주화, 긍/부정 판정, 연관 정보 등 의미 기반 데이터 분석
• Social Media Analytics (SMA)
• VoC분석
• KM 고도화
• 색인, 검색 서비스필수
Data mining /
machine learning
• 데이터에 대한 분류, 군집화, 예측 등으로 데이터에 숨겨 진 지식, 정보 발굴
• 컨텐츠/상품/서비스 추천, 이상 감지, 고객 이탈 감지 등
• 통신사 사용자 성향 분석
• 온라인 쇼핑몰 상품 추천
• 고급 분석 기법과기술 요소 필요
DataArchiving
• 데이터 생명주기에 따라 중장기 데이터를 보관하는 저장소로 활용
• 데이터 분석, 요약, 색인 등의 작업을 병행하여 백업 데이터의 활용성제고
• Facebook 사용자 메시지백업(1일 4TB HDFS 백업)
• 데이터 중요도에따른 copy수 조정으로 저장 공간 효율화 (3à2 copy)
21
Architecture
앞서 적용 모델들은 오픈 소스 기반의 기술을 이용하여 구현 가능하며, LG CNS는 아래와 같은오픈 소스 기반 아키텍처를 이용하여 구축 중임
실시간 로그 데이터
RDB Import
수집 데이터
저장 데이터
HDFS
HBase(NoSQL)Indexing
데이터 색인 서비스 데이터 검색 서비스
SearchEngine
Mahout
고급분석
AnalyticService
Web UI
조회/시각화
AnalyticTool
C/S UI
Web Crawler
Event Query Engine
[ EPL }
CEP / ESP
Input A
dap
ter
Outp
ut Adap
ter
Flume
Zookeeper(Hive Metastore)
API Coprocessor
HBase기반 (준)실시간 데이터 처리
MapReduce Hive Pig
HDFS기반 Batch 데이터 처리
Elastic Search
Source sink
Channel
수집 데이터
저장 데이터
22
Big Batch
실시간 로그 데이터
RDB Import
Indexing
데이터 색인 서비스 데이터 검색 서비스
SearchEngine
Mahout
고급분석
AnalyticService
Web UI
조회/시각화
AnalyticTool
C/S UI
Web Crawler
Event Query Engine
[ EPL }
CEP / ESP
Input A
dap
ter
Outp
ut Adap
ter
Flume
API Coprocessor
HBase기반 (준)실시간 데이터 처리
Elastic Search
Source sink
Channel
Result
Needs
수집 데이터
저장 데이터
HDFS
MapReduce Hive Pig
HDFS기반 Batch 데이터 처리
HBase(NoSQL)
수집 데이터
저장 데이터
23
Hybrid Architecture (1/2)
24
Hybrid Architecture (2/2)
RDB Import
수집 데이터
저장 데이터
HDFS
Indexing
데이터 색인 서비스 데이터 검색 서비스
SearchEngine
Mahout
고급분석
AnalyticService
Web UI
조회/시각화
AnalyticTool
C/S UI
Web Crawler
Event Query Engine
[ EPL }
CEP / ESP
Input A
dap
ter
Outp
ut Adap
ter
API Coprocessor
HBase기반 (준)실시간 데이터 처리
MapReduce Hive Pig
HDFS기반 Batch 데이터 처리
Elastic SearchRDB Export
HBase(NoSQL)
ODS/DW/DM
DW
수집 데이터
저장 데이터
실시간 로그 데이터
FlumeSource sink
Channel
LG CNS HBase Framework
IV. 마무리
26
LG CNS Big data Solutions
27
SBP – MR Designer
Drag&Drop Search and Click Top-down Workflow monitoring
28
제언
① 빅 데이터 플랫폼을 일단 도입하고, 데이터를 모으자는 생각은 버려야 함
② 기업 내에 어떤 데이터가 존재하는 지 파악 필요
③ 제품을 갖추었다고 분석이 저절로 되는 것은 아니다. 분석 모델링이 중요
④ 업무를 알아야 분석도 할 수 있다
⑤ 오픈 소스 그냥 써도 된다. 관리가 어렵다. 개발 어렵다. à 상용 사용도 고려
⑥ 규모가 작더라도 지금 바로 시작하세요