Top Banner
ZDNet Korea Tech Inside 빅 데이터 분석의 새로운 패러다임을 제시합니다 Powered by
10

빅 데이터 분석의 새로운 패러다임을 제시합니다 · 빅 데이터 분석의 새로운 패러다임을 제시합니다.5 다양한 데이터 커넥터 다양한 데이터

Sep 26, 2019

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 빅 데이터 분석의 새로운 패러다임을 제시합니다 · 빅 데이터 분석의 새로운 패러다임을 제시합니다.5 다양한 데이터 커넥터 다양한 데이터

ZDNet Korea Tech Inside

빅 데이터 분석의 새로운 패러다임을 제시합니다

Powered by

Page 2: 빅 데이터 분석의 새로운 패러다임을 제시합니다 · 빅 데이터 분석의 새로운 패러다임을 제시합니다.5 다양한 데이터 커넥터 다양한 데이터

빅 데이터 분석의 새로운 패러다임을 제시합니다.2

Bigdata Cluster Part

Cubedoop ClusterTM

BICube는 빅데이터 머신러닝 플랫폼을 보유한 회사로써 빅데이터 머신러닝 플랫폼 내에 파일을 저장

하고 MapRedue를 실행 해야 하는 요소가 필 수였다. 이에 BICube는 플랫폼 내에서 안정성과 성능, 그

리고 효율성을 위해서 Apache Hadoop 을 이용해 Cubedoop Cluster™라는 빅데이터 클러스터 플랫

폼을 만들었으며, 자체 빅데이터 클 러스터를 개발 운영하면서 축적한 노하우를 바탕 으로 Cubedoop

Cluster™를 상품화 했다.

Cluster Appliance

Cubedoop Cluster™ 는 Rack 단위로 확장 해 갈 수 있는 S/W & H/W 일체형의 Cluster Appliance

이다. 일단 Cluster 전문가에 의해 고객의 문제 해결 에 적합한 클러스터 사이즈가 결정되면, 성능 최적

화 H/W Spec을 따라 구성된 Cluster 위에 최적화 Parameter를 갖는 Cubedoop이 얹어진 Cubedoop

Cluster™이 고객에게 제공 된다.

Cluster S/W 특징

Cubedoop 최적화 파라메터 가이드를 통해 각 클러스터 타입에 맞는 Cubedoop Cluster가 세팅 이 되며,

일정 주기 별로 Cubedoop 설정 파라메터 에 대한 평가가 클러스터 사용자에게 레포팅되어 분산작업 시

간을 최소화 시켜준다. 또한 다른 Hadoop 배포판과 마찬가지로 노드들 을 효율적으로 관리 할 수 있는

모니터링 Tool이 별도로 제공이 되며, 분산 Job 처리시에 각 노드로 분산되는 로깅을 일괄적으로 편하게

확인 할 수 있 는 등 Job 처리 편의성을 높였다.

Cluster H/W 특징

클러스터를 구성하는 노드들의 하드웨어 관리를 편하고 효율적으로 하기 위해서 메인보드와 하드 디스

크 그리고 파워서플라이를 분리 시켜 그룹화 했으며, 각 노드들의 상태(Status)와 전력 상태등 을 전담

모니터링하는 서버를 각 Rack 마다 하나 씩 추가했다. 그 결과 고장난 노드 교체 비용을 최 소화 했으며,

복잡한 클러스터 운영을 많은 부분 단순화 시켰다.

Page 3: 빅 데이터 분석의 새로운 패러다임을 제시합니다 · 빅 데이터 분석의 새로운 패러다임을 제시합니다.5 다양한 데이터 커넥터 다양한 데이터

빅 데이터 분석의 새로운 패러다임을 제시합니다. 3

Cluster 종류(노드수)

Type – A : 16 * 8 = 128 nodes

Type – B : 16 * 16 = 256 nodes

Type – C : 16 * 24 = 384 nodes

Type – D : 24 * 24 = 576 nodes

Cluster 종류

표준형 : 실행 잡이 CPU 계산 혹은 파일 I/O 작업 어느 한쪽으로 편중 되지 않고 분산처리 작업의 유 형

이 다향한 경우 선택 CPU 편중형 : 데이터 마이닝 혹은 파생 데이터를 이용한 계산이 많은 경우 선택

(예: 자연어처리, HPPC) I/O 편중형 : 파일 입/출력이 많은 작업의 비중이 높은 경우 선택 (예:전형적인

MapReduce job, Sorting)

Appliance + 지원 서비스

거대 규모의 빅데이터 클러스터를 안정적으로 운 영하기 위해서는 클러스터 전문가의 기술이 절대적 으

로 필요하다. 일반적으로 클러스터 운영의 노하우는 오랜 기간 에 걸쳐 쌓이기 때문에 빅데이터 클러스

터 전문가 를 보유하기가 쉽지 않은 고객사는 빅데이터 클러 스터 도입을 망설일 수 밖에 없다. 당사는

고객사에 대한 빅데이터 클러스터 전문가 의 지속적인 지원 계획을 통해, 빅데이터 클러스터 어플라이언

스를 도입한 고객이 안정적인 클러스터 운영을 보장 받을 수 있도록 최대한 노력할 것이다.

CubePi ClusgterTM

CubePi Cluster는 분산처리의 성능을 벤치마킹하 기 위해 BICube가 디자인한 Raspberry Pi 2 Cluster

에서 시작되어 상품화 되었다. Raspberry Pi 2 각각의 성능은 PC와 비교가 안될 정도로 미약하지만

다수의 Raspberry Pi 2가 클러 스터링 됐을 때 분산처리의 성능은 엔터프라이즈 용도로도 손색이 없

을 정도로 훌륭하다. BICube는 CubePi Cluster™의 잠재적 고객 니 즈를 예상해 제품화했다. (HPCC

(HighPerformance Computing Cluster), or DAS (Data Analytics Supercomputer)

Page 4: 빅 데이터 분석의 새로운 패러다임을 제시합니다 · 빅 데이터 분석의 새로운 패러다임을 제시합니다.5 다양한 데이터 커넥터 다양한 데이터

빅 데이터 분석의 새로운 패러다임을 제시합니다.4

BICubeTM: 빅데이터 머신러닝 플랫폼 Part

BICube™는 빅데이터 비즈니스 모델을 고객의 니즈에 맞게 One-stop 으로 구현하기 위한 빅데이터 머

신러닝 플랫폼이다.

빅데이터 솔루션의 한계

대부분의 빅데이터관련 솔루션들은 단일 기능을 구현 하는데 촛점이 맞춰져 있기 때문에 원하는비즈니

스 모델을 구현하기 위해서는 아키텍터가 다양한 솔루션을 직접 선택해서 조합해야한다. 이러한 상황은

툴간의 호환성 문제와 솔루션 추가 구매 시 발생하는 비용문제 그리고 새롭게 추가된 솔루션의 안정적인

운영과 기술지원등 다양한 이슈를 야기하게 되고 결국 고객이 원하는 빅데이터 비즈니스 모델을 구현하

는데 어려움을 겪을 가능성이 높아지게 된다.

BICubeTM: 단일 플랫폼

BICube™는 각각의 기능별 레이어가 합해진 단일 빅데이터 플랫폼이다.

▶ Layer 1 - 데이터 추출, 변환 및 로딩

▶ Layer 2 - 데이터 저장

▶ Layer 3 - 머신러닝 엔진

▶ Layer 4 - 애플리케이션 레이어 (비즈니스 모델이 구현되는 레이어) 이렇게 Vertical 한 구조를 갖는

빅데이터 플랫폼은 세계에서도 유일한 플랫폼이며 비즈니스 모델 구현 이 단일 플랫폼에

서 이뤄진다.

Page 5: 빅 데이터 분석의 새로운 패러다임을 제시합니다 · 빅 데이터 분석의 새로운 패러다임을 제시합니다.5 다양한 데이터 커넥터 다양한 데이터

빅 데이터 분석의 새로운 패러다임을 제시합니다. 5

다양한 데이터 커넥터 다양한 데이터 커넥터

빅데이터 분석 플랫폼에서 데이터의 연결은 가장 기본이며 중요한 부분이다. BICube™의 기본데이터

저장소인 HDFS로 데이터를 가져오기 위한 다양한 데이터 커넥터가 제공 되며 이를 이용하여 다양한 소

스의 데이터를 BICube™로 가져 올 수 있다.

리얼타임 스트리밍

BICube™는 실시간 분석을 위해 스트리밍을 위한 오픈소스를 다수 채택하고 있으며, 성능 향상을 위해

자체적으로 개발된 스트리밍 처리 모듈도 보유하고 있다.

데이터 변환 모듈

정형데이터를 전처리 하는 다양한 데이터 변환 모듈 이 내장되어 있어 플랫폼 안에서 기본적인 데이터

변 환을 간편하게 수행할 수 있다. - 데이터 탐색기, table 관련 연산, row/column 연산, summary 연산,

릴레이션 연결등.

Cubedoop

BICube™는 기본 저장소로 Hadoop을 사용한다. Apache에서 제공되는 Hadoop을 그대로 엔터프라

이즈 용으로 사용하면 운영상 번거로운 점들이 많이 있다. Hadoop의 원활한 모니터링과 관리를 위해

Cubedoop 이라는 BICube에 특화된 Hadoop 배포판을 만들었으며 BICube™의 저장소로 사용된다.

왜 머신러닝인가?

업계에서 빅데이터 붐이 시작된지 4~5년이 다 되어 가지만 아직 이렇다할 빅데이터 관련 성공 사례가 전

무 하다시피 하다. 빅데이터 관련 성공사례가 없는 가장 큰 이유는 비즈니스 접근이 잘못됐기 때문이다.

많은 사람들이 빅데이터 비즈니스를 과거 그대로의 데이터 분석 모델에 분석할 데이터만 많아진 상태로

인지했다. 이러한 답보 상태에서 벗어나게 해줄 가장 중요한 Key가 바로 머신러닝이다. 분석대상이 되

는 엄청난 데이터위에 머신러닝의 기술이 올라가면 이전에 생각하지 못했던 새로운 가치들이 창출 될 수

Page 6: 빅 데이터 분석의 새로운 패러다임을 제시합니다 · 빅 데이터 분석의 새로운 패러다임을 제시합니다.5 다양한 데이터 커넥터 다양한 데이터

빅 데이터 분석의 새로운 패러다임을 제시합니다.6

있다. 실제로 여러 회사들이 머신러닝을 이용해서 새로운 비즈니스를 만들고 있으며 활용사례도 보고되

고 있다.

비즈니스 로직의 구현

BICube™의 애플리케이션 레이어는 프레임워크의 가장 상위 레이어로써 비즈니스 로직이 구현되는 레

이어다. 총 8개의 그룹으로 나눌 수 있으며 각 그룹의 역할은 아래와 같다.

▶ Manipulation: 각종 리모트 시스템 제어관련 컴포넌트 (java, Spark, Scalar, Python, R, Hadoop,

Graph)

▶ Mashup: 데이터 커넥터와 크롤러, 오픈API 컴포넌트

▶ Preprocess: 자연어처리, 각종파서, 인코더 컴포넌트

▶ Classify: 각종 분류 알고리즘이 구현된 컴포넌트

▶ Cluster: 각종 군집 알고리즘이 구현된 컴포넌트

▶ Associate: 연관분석 관련 알고리즘이 구현된 컴포넌트

▶ Bioinfomatic: 바이오 분석을 위한 컴포넌트

▶ Visual: 각종 시각화 컴포넌트 → 각 컴포넌트들을 이용하여 고객이 원하는 비즈니스 모델을 구현할

수 있다.

Page 7: 빅 데이터 분석의 새로운 패러다임을 제시합니다 · 빅 데이터 분석의 새로운 패러다임을 제시합니다.5 다양한 데이터 커넥터 다양한 데이터

빅 데이터 분석의 새로운 패러다임을 제시합니다. 7

왜 머신러닝인가?

리카온-에프(Lycaon-F)는 이상금융거래 탐지를 위해 (주)비아이큐브에서 제작한 Neural Stream-

FDS(Fraud Detection System) 어플라이언스이다.

NeuralStream 구조 채택

Neural Steam은 복잡한 대량의 데이터를 빠르고 정확하게 처리하기 위해 고안된 BICube만의 독자적

인 스트림 처리 방식이다.

뇌신경이 동작하는 방식에 아이디어를 얻어 만들어 졌으며 기능단위의 뉴런들을 원하는 순서와 구조로

구성할 수 있다.

[Neural Stream에서 뉴런]

입력을 받아들여 연산/저장 후 결과를 내보내는 가장 작은 단위의 계산 유닛

NeuralStream 특징

▶ 빠른 스트림 처리

뉴런 - 초당 최대 200만 메세지 처리

▶ 뉴런을 서로 이어서 원하는 동작을 구현

→ 프로그래밍 언어 방식의 코딩 아님

→ 프로그래밍이 힘든 기능을 구현 가능

→ 일부 CQL(continuous query language)방식처리

▶ 분산처리 가능

→ 뉴런의 기능그룹을 코텍스로 묶어서 원하는 만큼 복제 가능

▶ 가독성 높음

→ 뉴런의 구성을 GUI 작업 공간에서 한눈으로 조망할 수 있음

FDS part

Page 8: 빅 데이터 분석의 새로운 패러다임을 제시합니다 · 빅 데이터 분석의 새로운 패러다임을 제시합니다.5 다양한 데이터 커넥터 다양한 데이터

빅 데이터 분석의 새로운 패러다임을 제시합니다.8

사용자 프로파일 생성

모든 사용자의 거래 프로파일, 고객속성 프로파일, 기기정보 프로파일을 실시간 분석하면서 검사한다

FP를 낮추기 위한 기법

▶ Danger Zone

Danger Zone 이라는 용어는AIS(인공면역시스템) 의 Danger Theory에서 사용되는 용어이다.

Danger Theory는 면역 시스템이 위험을 감지했을 때 항원이나 외부 침입자를 kill하는 하는 매커니

즘으로써 이상 거래가 의심되는 트랜젝션을 Danger Zone으로 넘겨서 재 검사 함으로써 탐지 정확

도를 높인다.

Danger Zone → AIS(인공면역시스템)으로 구성

▶ Artificial Immune System(AIS)

인간의 면역체계의 메커니즘을 그대로 재현한 인공면역시스템을 오탐/과탐을 낮추는데 사용

Page 9: 빅 데이터 분석의 새로운 패러다임을 제시합니다 · 빅 데이터 분석의 새로운 패러다임을 제시합니다.5 다양한 데이터 커넥터 다양한 데이터

빅 데이터 분석의 새로운 패러다임을 제시합니다. 9

False Positive & False Negative

구분 오류 종류 결과

False Positive정상 → 사기

(과탐)정상거래 차단고객항의 빈발

False Negative사기 → 정상

(오탐)사기거래발생

은행 피해

기존 FDS와의 차별성

기존 FDS NeuralStream FDS

Batch 처리 ○ ○

실시간 Stream 처리 △ ○

Low Latency × ○

온라인 러닝 × ○

머신러닝 × ○

분산처리 △ ○

Scal Out × ○

유연한 기능 확장 × ○

Page 10: 빅 데이터 분석의 새로운 패러다임을 제시합니다 · 빅 데이터 분석의 새로운 패러다임을 제시합니다.5 다양한 데이터 커넥터 다양한 데이터

•주소: 서울시 서초구 반포대로12길 33 305호

•구매 및 상담 문의: 070-7568-1166

•E_mail: [email protected]

•홈페이지: www.bicube.co.kr