개인데이터기반활용 - dqc.or.kr · 직관적Data 모델링 • Auto Discovery →데이터 소스에서제공정보기반모델링 • 관계형모델링→Virtual Table간Relation

개인데이터기반활용

인공지능기반

서비스융합기반데이터산업생태계변화

데이터산업생태계변화

실시간빅데이터 분석 솔루션

데이터의이해

데이터처리기술의이해

데이터분석기획

데이터분석

데이터시각화

•병렬분산처리구조

•신속하고최적화된검색

다양한분석기능

효율적인데이터관리

대용량처리

고성능및고가용성

•다양한사용자인터페이스제공

•한글형태소분석

•인덱싱데이터의Materializing

•사용자직관적이고강력한 분석언어

•대용량데이터수명관리

•강력한보안아키텍처

• Index Sharding및Parallel Query

•Mirroring 및 Fail Over

빅데이터플랫폼

부정사용 감시, 보안관제

정책 발굴, 관리 기술,학술정보 분석

비정형성

1w

1d

1h

1m

1s

정형 반정형 비정형

실시간 상품 추천

도시 관제, 재난 대응

의료, 헬스케어 서비스

소셜 미디어 분석(트랜드,감성,이슈 분석 외)

고객,시민 목소리(VOC) 분석

국방,보안 관제/eDiscovery

실시간성

통합 로그 관리

장애 예방

구성요소 정형 데이터 비정형 데이터

정의 • 스키마가 정의된 데이터 • 정형 데이터가 아닌 것

데이터 소스 • RDBMS의 테이블 형태 데이터 • 텍스트 데이터, 로그

데이터 처리• 엄밀한 트랜잭션 처리, 완벽한 복구

(Commit or Rollback)• Read only 데이터 처리 고성능

(Eventually consistency )

데이터 증가량 • 증가 • 매우 빠르게 증가

데이터 조회 기술 • SQL, 수리통계 • NoSQL, 머신러닝

데이터 처리기술

분석 목적 • 과거 지향적 (정합성 보장 분석, 월별 과금 배치) • 미래 지향적 (추천, 예측)

Data

RDBMS

Data

Active – Active 클러스터Master Node

SlaveNode

SlaveNode

SlaveNode

SlaveNode

SlaveNode

운영 시스템마케팅분석

성능, 보안

1. 금융 상품 추천

2. IT 운영 관리

3. 스마트 팩토리

콜센터 어플리케이션

보안 장비

서버, 프로세스

네트워크 장비

VOC 어플리케이션

빅데이터 분석

로그 수집

(XML, CSV, Text 등)

실시간 분석 용이한

구조로 저장

등록된 룰과

비교검색

실시간 모니터링

제조관리

빅데이터이전시대 빅데이터시대

직감에의한 서비스/상품 제공방식

• 개별 고객 서비스/상품 선호 반영 불가• 개별 고객 특성을 반영한 서비스/상품 설계 불가• 다수 상품에서 고객 최적 서비스/상품 선택 불가

상담직원또는

지인추천에의한

서비스/상품선택

고객불만에대한

분석부족

빅데이터인프라구축

빅데이터활용마케팅

시스템 로그

음성 대화(음성변환)

최적의 상품

실시간 이벤트 처리

마이닝

데이터분석 기반서비스/상품 추천

• 분석되지 못 했던 시스템로그 및 음성데이터에 대한실시간 처리를 통한 서비스/상품 추천

상용소프트웨어오픈소스소프트웨어

[빅데이터플랫폼]

데이터수집

저장데이터조회

실시간처리

Informatica

Flume

IBM InfoSphereDataStage

Kafka HDFSMap

Reduce

Mongo

Cassandra

Storm

Spark

OracleTimesTen

분석솔루션

R

SAS

SPSS

Tableau

Teradata AsterTeradata AsterTibco

Stream Base

시각화

Kibana

Qliktech

Microstrategy

CEPEsper

Hive

Impala

Elastic Search

Scoop

상용 소프트웨어오픈 소스 소프트웨어

[AnyMiner Coverage]

데이터수집

저장데이터조회

실시간처리

Informatica

Flume

IBMInfoSphereDataStage

Kafka HDFSMap

Reduce

Mongo

Cassandra

Storm

Spark

OracleTimesTen

분석솔루션

R

SAS

SPSS

Tableau

Teradata AsterTeradata AsterTibco

Stream Base

시각화

Kibana

Qliktech

Micro

strategyCEP

EsperHive

Impala

Elastic Search

Scoop

[Key Features]

AnyMiner대응영역

빅데이터 조회, 분석, 대응

수집

적재

처리

Data Loader Data Loader Data Loader

Source Source Source

Storage Server

Storage Server

ElasticSearch

ElasticSearch

CEP Engine

Buffer Size 단위Agent

SQL EngineQuery Engine

Active

Active

Function Off Loading Index 생성 적재

Rule

AIFlow

Designer

AnyMiner Storage Server

특징

SQL Query Engine

Elasticsearch 활용 적재

Buffer Size 단위 데이터 수집

고가용성 및 복잡 Query 분석

시스템 IO 최소화 성능 극대화

CEP Engine

실시간 데이터 분석

Index 활용 고성능 데이터 조회

Storage Server 활용 적재

Function Off Loading 활용 데이터 필터링 처리

Agent Fail-Over

장애 발생시 지속적 데이터 수집

데이터 분석 통합 포털 활용 DataSet Management빅데이터 스키마 설계

빅데이터 스키마 설계

빅데이터 생성

분석 대상 시스템 Agent 설치

DataSet 생성

DataLoader, DataSet 매핑

Agent로 데이터 수집

빅데이터 생성 완료

Elasticsearch Segment Index

Data Loader

Agent

빅데이터 생성

DataSet 속성

1

2

3

4

5

[Agent/Agentless 데이터 수집]

Switch

JDBC Scripted Input

Remote 방식 수집(Agentless)

Local 방식 수집

Scripts

Router

File/Directory

Agent, Agentless 기반 데이터 수집

•Agent : 파일/디렉토리에서 데이터 추출

•Agentless : syslog 등과 같이 네트워크를 통해직접 전송되는 데이터를 수집

다양한 형태 수집 방식 지원

•File / Directory : 특정 File 이나 Directory에 변화인식하여 데이터 전달

•Scripted Input : Script의 실행 결과를 수집하는기능

• JDBC : RDBMS에 표준 프로토콜(JDBC)를 이용한데이터 룩업(Look up)

데이터분석 플랫폼수집

AgentAgentless

정형/비정형수집

Parsing

DB

품질지표 품질목표 결과치

로그 처리 성능 200,000 EPS 202,541 EPS

다수의 로그포맷 처리

10개 10개 이상

다수의 Alert 검출

5개 5개

분석 성능 50GB/sec 1,033 GB/sec

노드당 성능증가율

50% 65.4 %

실시간 검출지연 시간

10ms 1.9 ms

시험 조건

• 서버 1대 AnyMiner Server와 Agent 설치 Ubuntu 16.04 LTS(64bit) Intel Xeon E5-2660 v4 @2.00GHz * 14 128GB Memory, 600 GB HDD

• 시험 대상 로그 크기 : 1,046,720 KB(0..99 GB) 데이터 건수 : 11,879,501건 형식 : ACCESS_COMMON

측정 방법

• 로그 개수/처리 시간 EPS(Event Per Second)• 다수 로그 포맷 처리, Alert 검출 – 실측 값• 분석 성능 – 로그 사이즈/처리 시간• 실시간 검출 지연 시간 – 이벤트 검출 시간/개수

Hadoop 대비 6배 이상 고성능 데이터 적재

AnyMiner

Source

Agent

데이터 저장소

Data Loader

SQL Engine

수집 및 가공

처리 및 가공

[ 빅데이터 처리 흐름 ] [ 워크플로우 관련 도구 ]

Data Modeler

Flow Designer

View / Monitoring

직관적 Data 모델링

• Auto Discovery →데이터 소스에서 제공 정보 기반 모델링• 관계형 모델링 → Virtual Table간 Relation 정보 확인

유연한 Flow 개발

• Drag & Drop 방식, Task 재사용• 다양한 Task 제공 → Query, Join, Filter, Sort, FileWrite, FileRead,등• 조건형 Flow설계 → 선행Task성공 여부에 따른 분기, 후행Task 실행 순

서 지정

개발 가시성 확보

• Ad-hoc 쿼리구문 실행, 결과확인• Flow의 실행 Plan 확인• Flow Task 중간 결과 조회 가능• 실행 Log View 제공

PS – Primary Shard, R - Replica

Dataset

Part_2016.01

…

PS1 PS2

Part_2016.02PS2 PS3

Part_2016.08PS1 PS2

R2 R1

R3 R1 R2

R3 R1

…PS3

R2

Node 1 Node 2 Node 3

PS1

전체 Node의 분산 처리로고성능 보장

멀티 Node에 대한 가용성 확보

Anyminer 플랫폼 데이터 저장 구조

Index 형태의 데이터 저장

•텍스트 데이터 분석에 용이한 Inverted Index 형태로 데이터 인덱싱

•비정형 데이터에 대한 검색 속도 향상

비정형 데이터 최적 인덱싱

•일반적인 Hadoop 기반 솔루션은 index 가 없는구조 검색 속도 이슈 발생

• text search (inverted index) - 대부분의 필드가cardinality가 적은 특징 최적의 인덱싱 방식

Document 1

Document 2

Document 3

aandaroundforfromInIsItnotOnOnethetounder

Stopword list Inverted index

ID Term Document

1 Best 2

2 Blue 1,3

3 Bright 1,3

4 Butterfly 1

5 Breeze 1

6 Forget 2

7 Great 2

8 Hangs 1

9 Need 3

10 Retire 2

11 Search 3

12 Sky 2,3

13 wind 2

비정형정형

Query Engine

App

SQL

App

SPL Select abc from Table search abc | top 5

※ SPL(Search Processing Language): 검색 프로세싱 언어

•SPL 장점 : 파이프 라인, join 손쉬운 언어

•SQL 장점 : 개발자 익숙, 정교함

SPL과 SQL 모두 제공

강력한 Query Power

•전문 RDBMS 쿼리 엔진 비용기반 옵티마이저고성능 지원

•Hive, Impala 등 오픈소스의 근본적 차별성

스트림데이터

Complex Event

Time Range = 5초

A S A B F I C U ……

인메모리

CEP

Services Action Notification

룰예시 : ABC, 5초

구성요소Real-time

AlertScheduled

Alert

시간 구간비교적 짧다

(sec, min)

비교적길다

(hour, day)

언제검사하나?

Event-driven Time-driven

동작 방식In-memory processing

Store &

Processing

Rule정의는?

CQL SQL

구현은? CEP Querying

통계 패키지

Query Engine

비정형데이터저장소

AnyMiner

표준프로토콜 표준 SQL 조회

다양한분석솔루션연동

• 글로벌 상용 소프트웨어 : SPSS, SAS 등• 오픈소스 : R, Python scikit-learn, Tensorflow 등• 국산 상용 소프트웨어 : ECMiner

표준프로토콜/SQL

• 정형 뿐 만 아니라, 비정형 데이터도 Query Engine 을통해 연동

• JDBC, ODBC 등 표준 프로토콜 지원• ANSI 표준 SQL 을 통한 데이터 조회

호튼윅스, 클라우데라, 맵알 등의 벤더(상용하둡)이용하여 단일 솔루션들의 조합의 구축 어려움의단점을 해결하고자 노력

AnyMinerHadoop

급변하는S

/W

의Life

cycle

Hadoop인터페이스에 대한 지원 등으로 단점을극복하고자 진화 중

단일

플랫폼으로

계속적인

지원

단점

구성의 복잡성(구축)

성능 이슈(구축 & 관리)

장애대응 어려움(관리)

장점

• 빅데이터 기반마련• 다양한 Component 소유• 인력 인프라

장점

단일제품(구축)

빠른수집/최소의 오버헤드(구축 & 관리)

통합플랫폼(관리)

단점

• 시각화, 분석기능 활용 툴 부족(진화중)• 인력/교육적 인프라 부족

기능 구분 AnyMiner Hadoop

플랫폼 제공 관점 • 통합 제품(플랫폼)으로 제공 • 단위 솔루션 조합

수집Agent관리 • 웹기반 관리 툴로 편의성 제공 • 오픈소스 이용으로 관리 툴 부족 및 관리 어려움 존재

데이터 파싱 • 정규식 형태의 유연성 제공 • 복잡하고 유연성 부족

수집 정합성 • 중복 없고, 데이터 유실도 없음 • 데이터 중복 및 유실에 대한 이슈 많음

이벤트 수집 속도 • 수집 시 빠른 성능 보장 • 수집에 부하가 많고 느림

저장 형태 • Index형태로 검색 속도 빠름 • Raw data저장 검색, 상대적으로 느림

SQL 조회 기능• 강력한 Query Power• Tibero의 강력한 옵티마이저 이용

• 기본적은 SQL Like기능 제공(Hive)• 상용 DBMS Tibero 엔진기반으로 하는 AnyMiner보다 적은

지원범위 및 성능 상 느림

이벤트 처리• CEP(Complex Event Processing)

기반 실시간 처리• 실시간 처리 제공 어려움(일괄처리기반)

- SPARK와 같은 별도S/W설치

빅데이터 = 오픈소스 ?

•빅데이터 개념 초창기 Hadoop 기반의 오픈소스 기반프로젝트 진행

•프로젝트 진행 과정 중 인프라 제품 기술력 한계, 요구사항 반영 부족 등의 한계

•수집/저장/분석 전 영역에 여러 오픈소스로 산재되어있는 기술을 단일 솔루션으로 대체 가능

•국내 원천기술 보유 기술력을 통한 보다 확실한기술지원 서비스 확보

빅데이터 시대에 걸맞는 상용 소프트웨어

[Without AnyMiner] [With AnyMiner]

‘17 년 하반기

’18년 상반기

’18년 하반기

XML 데이터파싱기능

필드별암호화/마스킹기능

스토리지데이터스캔성능개선

쿼리엔진병렬처리기능개선

CEP 기능고도화

Virtual DB 연동 (ETL)

사용자별권한관리

Machine Learning 엔진탑재

TmaxIaaS에통합

CEP 분산처리

신분석툴개발

시각화도구

개인데이터기반활용 - dqc.or.kr · 직관적Data 모델링 • Auto Discovery →데이터 소스에서제공정보기반모델링 • 관계형모델링→Virtual Table간Relation

Documents