기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션...

2014년 4월 17일

기업을 위한 Big data Analytics 접근 제언

2

요즘 Big data 소식들…

정부 3.0 따른 Big data 사례

- 통계청 물가지수

- 충북 사과

- 경기도 빅데이터 …

정부 3.0 따른 Big data 사례

- 통계청 물가지수

- 충북 사과

- 경기도 빅데이터 …

5

Big Data

VelocityVariety

Volume

기술(Technology) 위주의 접근에서 가치(Value) 기반의 접근 중요

6

현재 상황 분석에서 미래의 예측으로 진화 중

Analytics

7

3V의 기술적 동인으로 전통적인 분석과 고급 분석의 활용, 가치(Value) 극대화

Big Data Analytics

Insight

Advanced AnalyticsTraditional AnalyticsBig Data (e.g 주식)

Big data Analytics

II. Technology(Hadoop 최신 아키텍처, Real-time Analytics 중심)

9

Big data Analytics는 데이터 수집, 저장, 처리, 분석의 반복적 과정이며, 다양한 기술 존재

Process & Technology

10

Data

IT Budgets

GROWING AT 40%

GROWING AT 2.5%

$9,000

$40,000

<$1,000

ENTERPRISE STORAGE

DATABASE WAREHOUSE

11

업무의 성격에 맞게 서버 구조 방식을 선택해야 하며, All or Nothing 아닌 필요에 따라혼합하여 사용하는 아키텍처도 필요함

Scale up, Scale out

12

Enterprise Data Hub를 지향하는 New 분산 병렬 처리 플랫폼 기술

Hadoop 2.0 (1/3)

13

보다 더 효율적인 Resource Management 가능

Hadoop 2.0 (2/3)

14

Hadoop 2.0 (3/3)

주요 기능 및 성능을 점검한 결과 당장 적용할 수 있는 부분과 조금 더 시간이 필요한 부분 존재확인

항목 성숙도 평가 적용 예상 비즈니스 고려사항

Performance Stable 모든 비즈니스 MapReduce의 경우 JDK7 유리HBase의 경우 JDK6 유리

YARN Scheduler GA 상호영향이 있는 서비스(Big Batch + OLTP)가 공존하는 빅데이터 시스템 구축

메모리 기준으로 자원 컨트롤됨으로 CPU에 대한 컨트롤이 아직 완벽하지 않는 것으로 확인됨, 차후 버전에서 해결 될 것으로 판단됨

HDFS HA Stable 고 가용성을 요구하는 엔터프라이즈환경 적용 가능

비즈니스 적용 가능

YARN HA Ready 고 가용성을 요구하는 엔터프라이즈환경 적용 가능

구성방식은 HDFS HA와 동일하나 안정성이 떨어짐. 1.x 의 HA방안(표준 HA Framework)을 대안으로 적용

HDFS Federation Stable 지역/그룹별 데이터관리가 필요한업무 적용 가능필요 시 두 지역/그룹영역의 데이터를 함께 작업 가능

확장성을 고려하여 개발된 기술이나, 업무 특성상 그룹핑이 필요한 경우 활용 가능할 것을 예상

HDFS Snapshot GA 중요 데이터의 백업으로 활용 현재 상태는 스냅샷에 의한 성능저하 리스크 예상됨. 전체가 아닌 중요 데이터에만 적용

HDFS Migration Stable 1.x 버전의 기 구축된 사이트에성능 및 고 가용성을 위해 적용

플랫폼은 성공이나 개발 영역(MR, python 등)은 마이그레이션 프로젝트를 통해 통합테스트 필요

YARN Migration Stable 1.x 버전의 기 구축된 사이트에성능 및 고 가용성을 위해 적용

MR의 경우 counter API의 수정과 재컴파일이 필요함. MRD의 기등록 workflow를 일괄 적용을 위한 도구또는 절차의 준비가 필요

15

Gartner는 올해 전통적인 DW 시장에 Hadoop 을 중요 기술로 포함시켰으며, DW 솔루션업체들은 Hadoop 간 연결성만 보장하다가, Hadoop을 적극적으로 끌어들이기 시작함

전통적인 DW, 새로운 변화, 변화 시도 중

16

데이터 저장 전 In memory 에서 처리 및 분석하는 것과 데이터 저장 후의 검색,쿼리 및 분석이혼용되고 있지만, 기술 낭비 방지를 위해서는 기업 업무에서의 실시간의 의미를 찾는 것이 중요

Real-time Analytics (1/3)

Architecture (확장성, Low latency, 가용성)

개발/운영편의

alert

Server log

Network event

Orders, Trades

.

.

.

Ingest

>In Memory After Store

Sensor

• 실시간 데이터 수집• 다양한 수집 대상• 무 중단 설정 반영

• Event 파티셔닝, Correlation• Rule 기반 처리• 집합 연산 및 쿼리, 패턴 분석

1 window

Rules

Stream Processing / Analytics Batch Processing /Analytics

• Search• Data Query• 데이터 통계 분석 (시계열)

• Advanced Analytics- predictive analytics- machine learning

2

17


Streaming Processing : ESP, CEP

구 분 특 징 솔루션

ESP(Event Stream Processing)

•시간에 따른 이벤트들의 일련의 연속된 흐름 처리•Computation 중심 처리 (Filtering, Aggregation)•Scale out 아키텍처 지향

IBM InfoSphere Streams, Storm, S4, Spark Streaming

CEP(Complex Event

Processing)

•시간에 따른 이벤트들의 일련의 연속된 흐름 처리•선언적 Rule 기반 처리•특정한 time window 연속적으로 처리•Scale up 아키텍처 지향•CEP = ESP & 패턴 감지

Tibco CEP, Oracle CEP, Esper

18

In-Memory Computing : HDD의 속도 문제를 해결하기 위해 Memory를저장 공간으로 사용하는 기술


III. 적용 모델

20

적용 모델 (많이 시도하는…)

구분 업무 특징 / 설명 사례 비고

Big Batch• 기존 RDBMS 기반 대용량 데이터 Batch 처리 à Hadoop 클러스터

à 처리시간 단축, 성능 개선

• 분석 회계 데이터 처리• 생산 품질 데이터 분석• 공급망 관리 Planning

• 가장 간단한 구성

HybridArchitecture

• DW의 성능, 데이터 저장 기간, 비정형 데이터 처리 이슈 보완 +빅 데이터 기술 접목

à ETL 성능 개선, 데이터 저장비용 절감, 대용량 데이터 준 실시간 조회

• 생산 품질 데이터 준 실시간조회

• OLAP 도구 의존성

Log Analytics

• 서버(접속 로그, 명령어 로그), N/W 로그, DB 접속 로그 및 쿼리 로그, Application 접속 및 조회/권한 로그 등을 수집하여 임직원 정보 유출 등에대한 잠재적 인자를 분석하여 사전 예방

à 기존에 버렸던 정보를 저장, 패턴 분석, 룰 적용 선 순환 실시간 분석 가능

• 보안 로그 분석

• 시스템 로그 분석

• 색인, 검색 서비스필수

Search & Text

Analytics

• 비정형/반정형 텍스트 및 문서 데이터를 색인하고 텍스트 마이닝을 통해의미에 기반한 분석, 리포팅 가능

à 컨텐츠 범주화, 긍/부정 판정, 연관 정보 등 의미 기반 데이터 분석

• Social Media Analytics (SMA)

• VoC분석

• KM 고도화

• 색인, 검색 서비스필수

Data mining /

machine learning

• 데이터에 대한 분류, 군집화, 예측 등으로 데이터에 숨겨 진 지식, 정보 발굴

• 컨텐츠/상품/서비스 추천, 이상 감지, 고객 이탈 감지 등

• 통신사 사용자 성향 분석

• 온라인 쇼핑몰 상품 추천

• 고급 분석 기법과기술 요소 필요

DataArchiving

• 데이터 생명주기에 따라 중장기 데이터를 보관하는 저장소로 활용

• 데이터 분석, 요약, 색인 등의 작업을 병행하여 백업 데이터의 활용성제고

• Facebook 사용자 메시지백업(1일 4TB HDFS 백업)

• 데이터 중요도에따른 copy수 조정으로 저장 공간 효율화 (3à2 copy)

21

Architecture

앞서 적용 모델들은 오픈 소스 기반의 기술을 이용하여 구현 가능하며, LG CNS는 아래와 같은오픈 소스 기반 아키텍처를 이용하여 구축 중임

실시간 로그 데이터

RDB Import

수집 데이터

저장 데이터

HDFS

HBase(NoSQL)Indexing

데이터 색인 서비스 데이터 검색 서비스

SearchEngine

Mahout

고급분석

AnalyticService

Web UI

조회/시각화

AnalyticTool

C/S UI

Web Crawler

Event Query Engine

[ EPL }

CEP / ESP

Input A

dap

ter

Outp

ut Adap

ter

Flume

Zookeeper(Hive Metastore)

API Coprocessor

HBase기반 (준)실시간 데이터 처리

MapReduce Hive Pig

HDFS기반 Batch 데이터 처리

Elastic Search

Source sink

Channel

수집 데이터

저장 데이터

22

Big Batch


RDB Import

Indexing


SearchEngine

Mahout

고급분석

AnalyticService

Web UI

조회/시각화

AnalyticTool

C/S UI

Web Crawler

Event Query Engine

[ EPL }

CEP / ESP

Input A

dap

ter

Outp

ut Adap

ter

Flume

API Coprocessor


Elastic Search

Source sink

Channel

Result

Needs

수집 데이터

저장 데이터

HDFS

MapReduce Hive Pig


HBase(NoSQL)

수집 데이터

저장 데이터

23

Hybrid Architecture (1/2)

24

Hybrid Architecture (2/2)

RDB Import

수집 데이터

저장 데이터

HDFS

Indexing


SearchEngine

Mahout

고급분석

AnalyticService

Web UI

조회/시각화

AnalyticTool

C/S UI

Web Crawler

Event Query Engine

[ EPL }

CEP / ESP

Input A

dap

ter

Outp

ut Adap

ter

API Coprocessor


MapReduce Hive Pig


Elastic SearchRDB Export

HBase(NoSQL)

ODS/DW/DM

DW

수집 데이터

저장 데이터


FlumeSource sink

Channel

LG CNS HBase Framework

IV. 마무리

26

LG CNS Big data Solutions

27

SBP – MR Designer

Drag&Drop Search and Click Top-down Workflow monitoring

28

제언

① 빅 데이터 플랫폼을 일단 도입하고, 데이터를 모으자는 생각은 버려야 함

② 기업 내에 어떤 데이터가 존재하는 지 파악 필요

③ 제품을 갖추었다고 분석이 저절로 되는 것은 아니다. 분석 모델링이 중요

④ 업무를 알아야 분석도 할 수 있다

⑤ 오픈 소스 그냥 써도 된다. 관리가 어렵다. 개발 어렵다. à 상용 사용도 고려

⑥ 규모가 작더라도 지금 바로 시작하세요

기업을위한Big data Analytics 접근제언 - entrue.com Gartner는올해전통적인DW시장에Hadoop을중요기술로포함시켰으며, DW 솔루션...

Documents