A New Experience In Big Data Analytics 대용량 빅데이터 실시간 처리를 위한 분산 DBMS Enterprise DB
A New ExperienceIn Big Data Analytics
대용량 빅데이터 실시간 처리를 위한 분산 DBMS
Enterprise DB
목 차
01. IRIS DB 개요
02. IRIS DB 주요 기능 및 기술
03. IRIS DB 일반 기능 및 기술
04. Appliance 사양
05. 구축사례
지능형 빅데이터 분석 플랫폼
개 요
IRIS DB
A New Experience in Big Data Analytics
4
IRIS DB 개요
IRIS DB 개요
Data Node 다중화 구성으로데이터 유실 없는
연속성/안정된 서비스 제공
Continuity
1 2 3 4 5 6 7 200만
Now
초당 100만 레코드 이상인덱싱 처리 및 검색 속도
일일 수백억 레코드 처리 성능
High Performance
In-Memory, SSD Disk를사용하는 Hybrid 구조
Real Time
A New Experience in Big Data Analytics
5
Server 1-Active
Master Active
Server 3
Data Node #1
IP Address 1
VIP Address 1
IP Address 3
NETWORK
Server 4
Data Node #2
IP Address 4
Server 2-Standby
Master Standby
IP Address 2
VIP Address 2
Server 5
Data Node #3
IP Address 5
Server 6
Data Node #4
IP Address 6
• IRIS는 기본적으로 마스터 노드 2대와 다수의 데이터 노드로구성
• 하나의 물리적 노드에 두 개의 노드가 설치되어 데이터 유실방지
IRIS DB 개요
IRIS DB 개요
Master
(Active)
Master
(Standby)
Master Node: 노드 관리를 위한 프로세스 및IRIS 전반을 관리하는 프로세스 동작
Data Node: 실제 데이터를 관리하기 위한 프로세스 및쿼리 실행 관련 프로세스 동작
지능형 빅데이터 분석 플랫폼
주요 기능 및 기술
IRIS DB
A New Experience in Big Data Analytics
7
주요 기능 및 기술
IRIS 지능형 빅데이터 분석 플랫폼 제품 구성도
RDBMS
HDFS
정형 데이터
비정형 데이터
오픈 데이터
머신 데이터
배치 처리
스트리밍 처리
Parsing
고속적재IRISDB
IRISAnalyzer
분석 인프라
고급분석 라이브러리 샘플링 데이터 변환
데이터 브라우저
검색 고급검색
시각화
보고서대쉬보드 고급시각화
관리
시각화 관리 사용자/그룹 관리
분석/머신러닝
피벗분석 이상탐지
오픈소스 분석도구
Jupyter ZeppelinR
상용 BI 도구
BI Matrix Metatron
고속전문(FTS) 검색
암호화 Spark
데이터셋 관리
데이터셋
분산 DBMS
모니터링, 내부관리, 분석엔진, 분석도구
하둡 HDFS
NVAccell
인메모리실시간 처리
공간데이터검색
A New Experience in Big Data Analytics
8
주요 기능 및 기술
시스템 아키텍처
Indexed data
In-Memory
IRIS SQL
IRIS DB [분산DBMS]
권한관리
내부 관리
시스템관리
클러스터 관리 사용자관리
Master(S) DATA#1
Memory SSD HDDMemory HDD
Master(A)
Memory HDD
DATA#2
Memory SSD HDD
DATA#N
Memory SSD HDD
HDFS
FTS data(full text data)Message queue
전문(FTS 검색)
geom data(공간데이터)
Redis공간 데이터 검색
RocksDBcsv data Parquet data
하드웨어가속엔진
암호화 데이터
암호화
NVAccell
Spark QL(쿼리)
데이터 모델링
DSL QL(쿼리)
모니터링
리소스
시스템 세션
이상탐지
분석엔진
고급시각화
피벗 샘플링
Zepllen
분석도구
Rstudio
Jupyter
하드웨어
데이터베이스
응용프로그램
A New Experience in Big Data Analytics
9
주요 기능 및 기술
검색을 위한 Full Text Search 엔진
Full Text Search
검색 성능
구분IRIS DB
[Full Test Search]ELK
(Elastic Search, Logstash, Kibana)
• 기본 기능
• IRIS DB 제품내 선택사항
• IoT, 로그, 트래픽 데이터 처리
• 구조화된 DB데이터, 시계열 텍
스트, 숫자 데이터
• Scale-out 확장지원
성능저하 거의 없음
• 다양한 언어의 API 지원
(Python, Java, C, C#, JDBC,
ODBC 등)
• 오픈 검색엔진, Lucene Library
이용 구현 필요
• Log, 텍스트 데이터 처리
• 텍스트 데이터 처리만 가능
• Scale-out확장 지원
성능저하 발생
• Restful API 제공
Description
응용 분야
데이터 타입
분산 처리
API Interface
• 데이터 고속 검색
• 특정 키워드가 포함된 이벤트를
고속 검색
(숫자, 문자, 단어, 문장)
• 일반 검색에 비하여 20배 이상
증가
**자체 테스트 결과**
50억건 저장된 테이블에서 1초
이내 특정 문자열 검색 가능
• Full Text Search 엔진 탑재
• 로딩 시 Full text Index를
생성하여 저장
A New Experience in Big Data Analytics
10
주요 기능 및 기술
데이터 표본 Sampling 및 학습용 데이터 셋 관리
• 쿼리문(Select) Sampling Hint 이용
• 쿼리의 데이터를 설정한 퍼센트만큼
샘플링 추출
• 데이터 셋은 DB에서 사용되는 테이블,
CSV 파일
• 하나의 데이터 셋에서 여러 개의
데이터 모델을 생성 가능
• 데이터 셋 관리 기능은 데이터 셋 생성,
수정, 삭제등의 관리를 수행
DB
샘플링[테이블생성]
샘플링 [Hint 쿼리]배치 처리
스트리밍 처리
Parsing
고속적재
결과[CSV]
결과[Table]
• 대용량 실시간 데이터에서 특정 이벤트를 찾아내기 위하여 샘플링 수행
• SQL 쿼리 SELECT Hint 구문 적용 : 출력 결과를 설정한 비율 만큼 출력
SAMPLING = {퍼센트:실수} ** 퍼센트 : 0 ~ 100 사이의 실수 예) /*+ SAMPLING = 33.33 */
• 샘플링 테이블 생성 : 특정 테이블을 샘플링 데이터를 Insert 가능하도록 생성
실시간 데이터 상에서 자동화 추출 가능
메모리에 저장된 실시간 데이터를 추출하므로 실시간/고속 샘플링이 가능
• 특정 테이블에 샘플링을 Insert 할 수
있도록 생성
• 생성된 전용 테이블에 적용된 방식의
샘플링 데이터를 자동 수집 및 저장저장
샘플데이터 자동 추출
추출
A New Experience in Big Data Analytics
11
주요 기능 및 기술
메모리/SSD/HDD 하이브리드
데이터 노드의 메모리 상에서 블럭파일(backend) 단위로 인덱스와 함께 저
장
인덱스와 함께 메모리에 저장된 backend 파일은 가용자원 범위 내에서 일
정시간 데이터를 메모리에 유지한 이후, 디스크로 이전하여 저장
고속 검색을 위하여 메모리 상에서 레코드 단위로 인덱스 처리 하며 단일 노
드에 저장
각 노드의 메모리 허용 범위 내에서 메모리를 디스크와 동일하게 사용 가능
I/O 대기시간 최소화, 거의 실시간 검색 성능을 제공
1 코어당 초당 최대 1만 레코드 처리, 대형 고객 사이트에서 초당 1백만 ~
1천만 레코드의 실시간 색인을 성능저하 없이 처리, 충분히 검증되고 안정
화된 시스템NODE 40
NODE 6
NODE 5
NODE 4
NODE 3
NODE 2
NODE 1
색인 생성데이터 저장
MEMORY
DATA
INDEX
INDEX
00:00 ~ 00:59
DISKSSD
Flush Flush
Memory (RAM)
Index
Data
Disk (SSD)
Time-ordered
Data
Raw data search Raw data batch analysis
1Gbyte
Index
Data
Index
Data
Index
Data
Index
Data
Disk (HDD)
Index
Data
Index
Data
DATA
INDEX
INDEX
00:00 ~ 00:59
DATA
INDEX
INDEX
00:00 ~ 00:59
DATA
INDEX
INDEX
01:00 ~ 01:59
DATA
INDEX
INDEX
01:00 ~ 01:59
DATA
INDEX
INDEX
01:00 ~ 01:59
DATA
INDEX
INDEX
11:00 ~ 11:59
DATA
INDEX
INDEX
11:00 ~ 11:59
DATA
INDEX
INDEX
11:00 ~ 11:59
색인 생성데이터 저장
색인 생성데이터 저장
A New Experience in Big Data Analytics
12
주요 기능 및 기술
SQL을 통한 분산쿼리
Step 1.
쿼리 분석
Step 2.
노드 탐색
Step 3.
분산 쿼리 실행
Step 4.
병합 쿼리 실행
• 마스터 노드에서는 입력된 쿼리를 분석할 데이터 노드를
선택, 해당 노드로 쿼리를 전달
• 해당 데이터 노드의 Query Executer에서 쿼리를 분석
• Query Executer는 각 데이터 노드에서 개별적으로 수행된
쿼리의 결과값을 병합하여 최종 결과를 생성한 후 마스터 노드
를 통하여 사용자에게 전달
• Query Executer는 마스터 노드의 메타 데이터로부터 쿼리
에 해당되는 데이터가 위치한 데이터 노드 들의
정보를 획득
• Query Executer는 쿼리에 해당되는 데이터가 위치한
데이터 노드들에 쿼리를 요청
• 각 데이터 노드로 부터 쿼리의 실행 결과값 수집
SQL 명령어 지원DDL : CREATE TABLE, DROP TABLE, CREATE INDEX,
DROP INDEX, ALTER TABLE
DML : SELECT, JOIN, INSERT, UPDATE, DELETE, PURGE, FLASHBACK
Advanced : Dot Command, HINT
SQL 분산 병렬 데이터 처리• 부하분산을 통한 처리 속도 및 성능 향상
• 신규노드 확장 용이
• 기본적인 SQL 지원으로 단기간에 효율적인 시스템 운용가능
Data Node 1
CPU CPU CPU CPU
Backend(Memory / Disk)
Data Node 2
CPU CPU CPU CPU
Backend(Memory / Disk)
Data Node N
CPU CPU CPU CPU
Backend(Memory / Disk)
Job Master Node
Job¹ Job² Jobⁿ
A New Experience in Big Data Analytics
13
주요 기능 및 기술
Spark 및 하둡지원 및 대용량 병렬 처리
• 대량의 데이터를 마스터노드의 개입없이 직접 분산데이터노드(분산 데이터베이스)에 직접 저장 및 처리
• 각 노드의 메모리와 디스크를 활용 데이터를 병렬처리 하여 대량의데이터를 고속으로 처리 가능
• 데이터의 처리부하가 각 데이터 노드로 분산되어 성능저하 방지
• Spark 및 하둡을 통합함으로써, 오픈소스를 사용하던 고객들이 기존application을 사용하여 IRIS DB에 저장된 데이터에 쉽게 접근할 수있도록 편의성을 제공
• IRIS DB는 Spark 통합을 지원하므로 약간의 수정만으로 기존application을 사용 가능
IRISContext
IRISDataSource
SparkContext
QueryExecutionQueryPlanner
RecordReader
RecordWriter
DSD
UDM
IRISRelationListener
PGD
DLD
PartitionPartitionPartition
Dataframe
Data
Master
Partition
Meta Store
<schema>
<privileges>
<location>
<create>
<append>
<remote scan>
<direct scan>
<required columns, filters>
<HiveQL Query>
<result set>Partitioner
PartitionLoader
PartitionLocation ZipVFS
Connector
RDD[Row]
Schema
DSDConnector
RemoteQuery
DirectQuery
<write>
LocationResolver
Authenticator
Spark 엔진에서 IRIS 파티션 backend파일을 직접 접근하여Spark가 처리 가능한 논리적인 Dataset(RDD)으로 변환
수집된 데이터를 직접 데이터 노드에 분할하여 동시에저장/처리하는 파티션 레벨의 병렬처리 기능
Master Node
Slave Node
Slave Node
Slave Node
Slave Node
L-TableVoice CDR
L-TableData CDR
G-TableUser Info
G-TableUser Info
사용자SQL
TMPMaster
SchemaResolver
A New Experience in Big Data Analytics
14
주요 기능 및 기술
이상징후 탐지
이상탐지
분석엔진
참조모델계산(요일/시간별)
SPC, IQR에의한 이상판단
데이터 특성Rule에의한 이상판단
현재의 실시간 변동 데이터
탐지된 변수및 이상종류
SPC(Statistical process control)IQR(Inter Quartile range)
이상탐지처리절차
과거의 정상데이터
A New Experience in Big Data Analytics
15
주요 기능 및 기술
무중단 선형확장(Scale-out)
• 단일 시스템은 처리해야 할 데이터의 양이 폭증할 경우, 기존 시스템
자체를 고성능의 대용량 시스템으로 변경(scale-up)이 필요
• 이때 용량 변경 작업이 진행되는 동안 시스템 운용이 일시적으로
정지될 수 있으므로 서비스 공백이 발생
• 단일 시스템은 수용할 수 있는 용량이 커지면 그에 따른 증설 비용도
기하급수적으로 증가, 확장 가능용량의 한계가 있음
1. Scale-out이 가능한 분산 아키텍처 기반으로 설계
하여 노드 추가만으로 확장(Scale-out) 가능
2. 시스템 운용 중에도 무중단으로 데이터 노드를 추가
확장 가능
3. 노드 추가 시 마스터 노드가 이를 감지하여 자동으로
추가된 노드에서 데이터 저장 및 연산 가능
4. Scale-out 확장성은 소규모의 고객 사이트부터 하루
데이터 처리량이 terabyte급인 대형 사이트까지
용량이나 성능에 제한을 받지 않고 수용가능
5. 시스템 관리자는 데이터의 증가로 용량 확장이 필요한
경우에도, 용량 증설을 위하여 서비스를 중단할
필요가 없음
6. 사용자는 확장 용량의 제한을 받지 않고 저비용으로
시스템을 확장(Scalability) 가능
IRIS Scale-out
Data Node 1
CPU CPU CPU CPU
Backend(Memory / Disk)
Data Node 2
CPU CPU CPU CPU
Backend(Memory / Disk)
Data Node N
CPU CPU CPU CPU
Backend(Memory / Disk)
Master Node
Data Node
CPU CPU CPU CPU
Backend(Memory / Disk)
추가 DATA Node
무정지 증설
A New Experience in Big Data Analytics
16
주요 기능 및 기술
라이선스 정책 및 인증
하이브리드 방식의
분산 병렬 빅데이터
DB 클러스터
고속 처리 엔진 기반 대량 데이터의 분산처리를 통한 성능 및 속도 향상
GS인증[IRIS](2012년 12월)
EventFlow 기반의
전용 ETL
오픈소스 기반 ETL Designer 및 EventFlow기반으로 다양한 ETL Job 생성 및 처리
분석가 관점의
지능형 빅데이터 분석기
빅데이터 분석 시간의 획기적인 단축이 가능한GUI기반의 통합 분석 환경 제공
머신러닝/딮러닝/AI
학습 전용 머신머신러닝, 딥러닝, 인공지능의 학습을 위한 전용GPU 전용 환경 제공
기업용 Hardoop
패키지
관리자, 개발자, 분석가를 위한 통합 UI 제공(망분리 환경 고려)
• Permanent(영구) License
• Per Server(서버당) License
• Maintenance fee 15%
• 저장용량 무제한
• 향후 노드 증설 시 라이선스 정책 동일
• Core, User수 무제한
지능형 빅데이터 분석 플랫폼
일반 기능 및 기술
IRIS DB
A New Experience in Big Data Analytics
18
일반 기능 및 기술
분산 및 다중화
• 다중화 데이터 저장 옵션 선택 가능
• 특정서버 장애 발생 시 서비스는 정상적으로 처리
• 입력되는 데이터는 데이터 노드에 분산 저장/처리
• 분산병렬 처리 기반의 빅데이터 DBMS 기능
• 마스터 노드 HA 구성, 서버 장애 시 서비스 중단 없음
• 데이터 노드 장애 시 다른 데이터 노드에 저장된 복제본으로데이터 복구
• 백그라운드로 데이터 복구 수행
• 장애 발생 Node에는 데이터 저장 및 검색하지 않음
• 서비스 장애 없이 데이터 저장 및 검색 수행
Data E Data D
Data Node 1
Data
AData
B
Data Node 2
Data
AData
C
Data Node 3
Data
BData
D
Data Node 4
Data
EData
C
Data
DData
E
Master Node
Write 수행 시 실시간 이중화
Data Node 5
Data D
Data Node 1
Data
A
Master Node(A)
Write 수행 시 실시간 이중화
Data
BData
D
Data Node 1
Data
B
Data
CData
E
Data Node 1
Data
A
Data
E
Data Node 1
Data
CData
D
Master Node(S)HA
Node Recovery
데이터 검색
노드장애
A New Experience in Big Data Analytics
19
일반 기능 및 기술
데이터 복구 및 관리 프로세스
Partition Remover [ PR ]
• 데이터 삭제를 담당
• Disk 보관주기가 지난 파일을 삭제하며, Lock, TMP 파일
등을 삭제하는 데몬
• 손상된 파일을 복구
Partition Locator [ PL ]:
• 데이터 위치를 관리하는 프로세스
• RAM, SSD, HDD 보관 주기에 따라 데이터 위치를 이동
Data Transfer[ DTD ]:
• Global/System 테이블의 동기화 담당
• 마스터 노드의 데이터를 데이터 노드로 동기화
Data #2
Master
DATA #1
Local Data
Local Data
Clobal Table
System Table
Clobal Table
System Table
Clobal Table
System Table
A New Experience in Big Data Analytics
20
일반 기능 및 기술
시스템 관리
Event Handler [ EHD ] • 각각의 노드에서 발생하는 이벤트 및 상태 정보를
이용하여 노드 상태를 확인 / 관리
• 장애 발생시 노드의 상태를 변경
• 사용자가 확인할 수 있는 메시지 생성
System Monitor [ SM ] • 실행된 각 노드의 시스템 정보, 테이블
• 정보, 상태 정보를 주기적으로 Event Handler로 전송
클러스터 노드 장애, 상태 변경 등의 관리자 레벨의 관리 기능
• 노드추가, 상태확인, 재시작
• 노드 IP변경, 노드 삭제
클러스터 노드 관리
시스템 모니터링 프로세스
Data #2
Data #3
Data #1
Heartbit & Node Status
Master
A New Experience in Big Data Analytics
21
일반 기능 및 기술
Join 연산 지원
로컬 테이블
• 각 데이터 노드에서 실제로 수집된 데이터가 분산되어저장되는 테이블
글로벌 테이블
• 데이터의 규모가 작고 자주 변경되지 않는 구성 정보 등 모든데이터 노드의 로컬 테이블에서 공통으로 사용할 수 있는데이터를 저장
• 마스터 노드와 모든 데이터 노드에는 동일한 글로벌 테이블이유지
JOIN 허용
• IRIS DB는 공통 정보를 저장하는 글로벌 테이블과 로컬테이블간, 혹은 글로벌 테이블과 글로벌 테이블간에 join을허용
• 로컬 테이블과 로컬 테이블간의 join은 불허
• 일반적인 빅데이터 시스템은 노드간에 데이터를 공유하지 않는
"Shared Nothing" 개념을 따라 join 지원 하지않음
• 공통정보를 포함하여 가공해야 할 경우, IRIS DB는 글로벌 테이블과
로컬 테이블의 개념을 도입하여 제한적인 join을 지원
Master Node
GLOBAL TABLE #1
GLOBAL TABLE #2
LOCAL TABLE #1BLOCK#1
LOCAL TABLE #1BLOCK#2
GLOBAL TABLE #1
GLOBAL TABLE #2
LOCAL TABLE #1BLOCK#1
LOCAL TABLE #1BLOCK#2
GLOBAL TABLE #1
GLOBAL TABLE #2
LOCAL TABLE #1BLOCK#1
LOCAL TABLE #1BLOCK#2
X
O
O
O
Data Node #1 Data Node #2 Data Node #3
XX
LOCAL TABLE #1META DATA
LOCAL TABLE #2META DATA
GLOBAL TABLE #1
GLOBAL TABLE #2
A New Experience in Big Data Analytics
22
일반 기능 및 기술
암호화
개발자는 별도의 암호화없는 일반 SQL을사용하여 개발
JDBC 변경없이보통의 API사용
유출된 블록 파일로는정보를 탈취할 수 없음X
개발자는 별도의 암호화 없는 일반 SQL을사용하여 개발평문(Plain Text)테이블
시스템 테이블
키관리 테이블(암호화 되어 있음)
테이블1 테이블2 테이블3
분산 노드에 파티셔닝되어 적재되는DB블록 파일들(암호화 되어 있음)
DB 파일(백엔드)단위 암호화
• DB 파일 단위 암호화는 각 데이터 노드에 블록 단위로저장되는 파일을 암호화
• 특정 파일이 외부로 유출 시 암호화된 파일로부터 정보를탈취하는 것을 차단
• 기존 어플리케이션을 수정할 필요가 없어, 사용자의DB접근이 편리 함
컬럼단위 암호화
• 개인정보나 기업의 민감한 정보를 담고 있는 특정테이블의 컬럼만을 암호화
• 데이터 로딩시 암호화 할 컬럼 정보(암호화할 컬럼 이름,
암호화 종류, 암호키)를 설정하여 컬럼을 암호화
• 암호키는 데이터 로딩시에 설정, 복호화 시 해당 암호이용 평문을 추출
암호화 알고리즘: AES-256
Hash 알고리즘: SHA256 (Secure Hash Algorithm)
1. DB 파일 자체를 암호화
2. 기밀 정보를 담고 있는 특정 컬럼만을 암호화
• 관리자는 설치할 때 2가지 방식 중 선택 적용
A New Experience in Big Data Analytics
23
일반 기능 및 기술
시스템 관리
iPlus 접속환경[CLI]
IRIS Client
iPlus
iLoader
API
IRIS Cluster
Master Node
Data NodeData Node Data Node
CLI 명령어 세부 내용
iPlus CLI 명령어• iPlus CLI를 통해 사용할 수 있는 명령어, 명령/쿼리 실행 기록 등 다양한 명
령어 지원
정보 조회/수정 명령어
• IRIS DB의 테이블 관리, 세션 관리, 파일 관리, 계정 관리 등을 수행하기 위한명령어
시스템 정보조회 명령어
• IRIS DB 시스템의 정보(각 노드별 리소스 사용, 테이블 사용 등 관련 통계) 조회를 위한 명령어
노드 명령어 • 각 노드의 상태 정보와 활성화/비활성화 기능 명령어
프로세스 명령어• 각 노드의 다양한 프로세스의 상태를 조회, 각 데몬 프로세스의 시작/종료를
관리
GUI 관리기능 세부 내용
통합모니터링• 각 노드의 자원(CPU, 메모리, 디스크 등) 상태 감시
• 쿼리 에러 발생 노드 감시 세션 상태 감시
DB 테이블 관리• DB 테이블의 정보 조회 및 신규 테이블 생성
• 쿼리 실행
프로세스 관리 • 각 노드에서 실행되는 프로세스의 동작 관리
리소스 상태 관리• 각 노드별 자원의 상태관리(CPU, 메모리, 디스크, 테이블 등)
• 각 노드의 자원 사용율 통계화, 자원 사용율, 히스토리 관리
세션 관리 • 쿼리 세션 현황 관리, 쿼리 실행 정보 관리
ETL 상태 관리 • 모비젠 ETL을 운영할 경우, 해당 ETL의 상태 관리
사용자 관리 • 접속중인 사용자의 접근 권한 등 사용자 정보 관리
GUI 관리환경
A New Experience in Big Data Analytics
24
일반 기능 및 기술
외부 인터페이스 및 SQL 지원
다양한 API 제공
표준 SQL 함수 라이브러리
CLI 명령어 세부 내용 사용절차
• Python
• Java
• C
• C#
• JDBC
• ODBC
외부 시스템이 IRIS DB에 접속하여
데이터를 로드하거나, 저장된 데이터를
조회하거나 수정하는 경우, 또는 IRIS DB
시스템의 상태를 확인할 수 있도록 다양한
언어의 API를 제공
• Step 1. Connection IRIS DB에 접속
• Step 2. GetCursor 쿼리문을 실행을 위한 커서(cursor) 획득
• Step 3. Execute 쿼리문 실행
• Step 4. Fetch Select 쿼리문의 경우, 쿼리의 결과값을 획득
• Step 5. Close 접속 종료
표준 SQL 함수 지원 데이터 인터페이스 지원
• 분산 환경에서 데이터를 저장하고 조회등 기본적인 표준
SQL을 지원
• ANSI SQL-92 기준으로 동작
• Standard SQL interface
• Cli interface
• Simple JDBC[소용량, 저속적재]
• Fast loader[대용량, 고속 적재]
A New Experience in Big Data Analytics
25
일반 기능 및 기술
사용자 관리
관리 항목 세부 내용
계정 관리 • IRIS WEB 사용자 계정을 관리. 계정 목록을 조회하고 계정을 생성하거나 수정/삭제
그룹 관리 • IRIS WEB 사용자 그룹을 관리. 그룹 목록을 조회하고 그룹을 생성하거나 수정/삭제
계정 권한 관리 • 계정별로 메뉴 접근 권한을 관리. 권한을 부여하거나 해제
그룹권한 • 그룹별로 메뉴 접근 권한을 관리. 권한을 부여하거나 해제
사용자계정관리
그룹관리
사용자권한관리
그룹권한
A New Experience in Big Data Analytics
26
일반 기능 및 기술
대시보드
관리 항목 세부 내용
노드 상태 데이터 노드별 리소스를 임계치 설정 가능
자동 넘김 ON/OFF 및 설정 자동 넘김은 대시보드에서 자동으로 노드의 탭이 넘어가는 부분을 설정
알림 현황 장애 정보를 확인
세션 현황 현재 세션 수와 실행된 세션 수를 분 단위 그래프로 확인
테이블 스페이스 현황 전체 디스크 대비 테이블별 용량을 확인
메모리/디스크 크기, 블록 개수 램 디스크와 디스크의 블록 및 개수를 설정
테이블 스페이스 데이터가 로딩될 때 전체 테이블의 로딩되는 용량을 시간 단위 그래프로 확인
A New Experience in Big Data Analytics
27
일반 기능 및 기술
DB 관리
관리 항목 세부 내용
세션 관리 • IRIS의 세션의 정보를 조회할 수 있으며 사용자가 세션을 중지 시킬 수 있는 기능
프로세스 관리 • IRIS 노드 별 프로세스 목록을 확인할 수 있으며, 실행 및 중지를 할 수 있는 기능
테이블 스페이스(사용률 조회)• 전체 또는 테이블 리스트에서 선택한 테이블의 용량, 파일 개수, 램 디스크 상주 용량, 램 디스크 상주 파일 개수 등을 시간 단
위로 정보를 확인
테이블 스페이스(사용률 현황) • IRIS의 사용하는 모든 테이블의 사용 현황 및 간략한 테이블 정보를 확인 기능
세션관리
프로세스관리
테이블스페이스(사용율조회)
테이블스페이스(사용율현황)
A New Experience in Big Data Analytics
28
일반 기능 및 기술
시스템 관리
관리 항목 세부 내용
노드 정보 조회 • 시스템 노드 정보를 상세하게 확인
장애 정보 조회 • 시스템의 치명, 에러, 경고, 알림, 바쁨, 재시도 6개의 알림을 전체 또는 노드 별로 조회
리소스 사용률 (모니터링) • 시스템 노드 리소스 상태를 실시간으로 모니터링
리소스 사용률 (이력조회) • 시스템 노드별 리소스 사용률에 대한 정보를 시간별로 조회
노드정보조회
장애정보조회
리소스사용률(모니터링)
리소스사용률(이력조회)
A New Experience in Big Data Analytics
29
일반 기능 및 기술
관리(테이블권한) 관리
관리 항목 세부 내용
테이블권한 • 사용자별로 DB 테이블에 접근 및 SQL 실행 권한을 부여
지능형 빅데이터 분석 플랫폼
Appliance 사양
IRIS DB
A New Experience in Big Data Analytics
31
Appliance 사양
IRIS Appliance - DB Master
Front Back
Rack(Type 1)
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
L2 Switch #1
L2 Switch #2
IRIS Master #1(Active)
IRIS Master #2(Standby)
IRIS Data #1
IRIS Data #2
IRIS Data #3
IRIS Data #4
IRIS Data #6
IRIS Data #7
IRIS Data #5
IRIS ETL #1
IRIS ETL #2
IRIS APP #1
IRIS APP #2구분 내용 비고
Server Type Rack Mount Type
Unit Size 1U Size
CPUIntel Xeon-S 4114 (10 Core, 2.2GHz) x 2CPU
Total : 20 Core
Memory 256 GByte
SSD 1.6 TB PCIe x 2EA Total : 3.2TB
Disk9.6TByte ( SFF SAS 12Gbps, 10K RPM), Usable 4.8TB
1.2TByte x 8EA, RAID 1+0
NIC 1G NIC 4Port & 10G NIC 2Port Internal NIC, External NIC
RAID Controller
HPE Smart Array P408i-a SR Gen10 Ctrlr(8C/2GB Cache)
Power Dual-Power 800w
A New Experience in Big Data Analytics
32
Appliance 사양
IRIS Appliance - DB Data(T1)
Rack(Type 1)
구분 내용 비고
Server Type Rack Mount Type
Unit Size 1U Size
CPUIntel Xeon-S 4114 (10 Core, 2.2GHz) x 2CPU
Total : 20 Core
Memory 256 GByte
SSD 1.6 TB PCIe x 2EA Total : 3.2TB
Disk16 TByte ( LFF SAS 12Gbps, 7.2K RPM), Useable 12TB
4TByte x 4EA, RAID 5
NIC 1G NIC 4Port & 10G NIC 2Port Internal NIC, External NIC
RAID Controller
HPE Smart Array P408i-a SR Gen10 Ctrlr(8C/2GB Cache)
Power Dual-Power 800w
Front Back
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
L2 Switch #1
L2 Switch #2
IRIS Master #1(Active)
IRIS Master #2(Standby)
IRIS Data #1
IRIS Data #2
IRIS Data #3
IRIS Data #4
IRIS Data #6
IRIS Data #7
IRIS Data #5
IRIS ETL #1
IRIS ETL #2
IRIS APP #1
IRIS APP #2
A New Experience in Big Data Analytics
33
Appliance 사양
IRIS Appliance - DB Data(T2)
구분 내용 비고
Server Type Rack Mount Type
Unit Size 2U Size
CPUIntel Xeon-S 4114 (10 Core, 2.2GHz) x 2CPU
Total : 20 Core
Memory 256 GByte
SSD 1.6 TB PCIe x 2EA Total : 3.2TB
Disk48 TByte ( LFF SAS 12Gbps, 7.2K RPM), Useable 40TB
6TByte x 8EA, RAID 5
NIC 1G NIC 4Port & 10G NIC 2Port Internal NIC, External NIC
RAID Controller
HPE Smart Array P816i-a SR Gen10 Ctrlr(16C/4GB Cache)
Power Dual-Power 800w
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
IRIS Data #2
IRIS Data #6
IRIS Data #3
IRIS Data #4
IRIS Data #5
IRIS Data #7
Front Back
L2 Switch #1
L2 Switch #2
IRIS Master #1(Active)
IRIS Master #2(Standby)
IRIS Data #1
IRIS ETL #1
IRIS ETL #2
IRIS APP #1
IRIS APP #2
Rack(Type 2)
지능형 빅데이터 분석 플랫폼
구축 사례
IRIS DB
A New Experience in Big Data Analytics
35
구축 사례
실시간 대용량 빅데이터 시스템 적용 사례
Application 서버
Search CDMA InCDR
Search WCDMA InCDR
Search LTE InCDR
Loading CDMA InCDR
Loading WCDMA InCDR
Loading LTE InCDR
ETC
Search CDMA OutCDR
Search WCDMA OutCDR
Search LTE OutCDR
Loading CDMA OutCDR
Loading WCDMA OutCDR
Loading LTE OutCDR
Loading CDMA InCDR
Loading WCDMA InCDR
Loading LTE InCDR
ETC
MartODS
IRIS35 Cluster
Exadata
7일 보관
3개월 보관
보관주기
과금 장비
ETL Procedure : 63 job/cycleETL Procedure : 18 job/cycle
ETL Procedure : 16 job/cycle
ETL Procedure16 job/cycle
ETL Procedure : 63 job/cycle
원시데이터저장/검색
원시 데이터 처리량 증가650억 1000억(day)
가입자단위 실시간 검색가능5조 9조 record
Mart Data생성
Legacy DataWarehouse
Table
A New Experience in Big Data Analytics
36
구축 사례
실시간 대용량 빅데이터 적용 사례
• 일본 KDDI 의 기지국 품질측정 로그 데이터를 실시간으로 수집 및 처리하여
전파품질정보를 지도상에 표시, 기지국 최적화 용도로 사용하는 시스템
• 기존 IBM 의 Netezza(빅데이터 DB 어플라이언스) 를 도입하여 개발 및
사용중이나 성능이슈가 있어 자사 솔루션(IRIS) 로 대체하는 프로젝트
• 대용량 기지국 품질측정 로그데이터의 실시간 색인 및 실시간 검색
• 대용량의 기지국 전파품질을 화면에 고속으로 표시하기 위한 고속
분산처리 필요
• 기 적용되어 있는 IBM Netezza 솔루션 보다 월등한 검색속도 요구
• 시뮬레이션 데이터로 자체 성능 자료 제출
• 제안 평가 및 계약 (성능향상 및 기능추가 전제)
- 총 3식, 계약금액 1억9백만원
• 장비 납품 및 설치
• 성능향상 및 기능추가
• IBM Netezza 와 비교 BMT 및 인수시험
• 프로젝트 종료
• 2017년 3식 추가 증설
IRIS DB 도입으로 SP품질체커로그를VAAQS2 에서유지관리, 현 Netezza의검색성능저하극복
• TP品質管理
• 能動的エリア改善(3G/LTE)
• Wifiオフロード• WiMAX品質管理
C2 K LTE
アプリ
• MAP化• フィルタ表示• MAP기반
帳票出力
• 로그데이터저장• VAAQS2MAP서비스
제공• 현데이터량의 2배
증가대응• 14일간의데이터검
색표시성능보장
• データ集約• 通信検知• 無線情報収集• 位置測位• TP算出• ログフォーマット作成• ログ一時保管• 暗号化• ログ送信• 同意取得
マルチネッ ト ワーク
W eb Se r v ice
KFS
: チェッカ ローグ
I RI S
VAAQS2
データ活⽤データ取得 データ集約 データ保管 データ可視化
A New Experience in Big Data Analytics
37
구축 사례
실시간 대용량 빅데이터 적용 사례
eNB
TAP
PGW
SGW
MME
HSS
Mirror
Mirror
Mirror
EPC EMS
eUTRAN EMS
RNC
Mirror
GGSN TAP
SGSN
NodeBCG
Packet Collector
(Signal Data)
eNB
Packet Collector
(User Data)
Call Collector
(CDR & Call Log)
Aggregator
xDRs
IRIS IRIS
Distributed Cloud DB
(IRIS)
Manager & App
Server
DB Server
Operation
(Web GUI)
S1-U
S1-MME
S11
S6a
Gp
SGi
NE Layer
Data
Collection
Layer
Aggregation
Layer
Big Data Processing
Layer
Manager & App.
Layer
Configuration
Management
SystemConfiguration
Data
Signaling DataPacket
User Data Packet
개요
◦ LTE 망에서 망 주요 요소에 패킷수집 장비를 설치 전수패킷 데이터를 수집
◦ 사용자 사용패턴 및 서비스 사업자 서비스 패턴을 마이닝하여 망 품질에 영향을 미치는 요소 분석
시스템구성
◦ IRIS™ 50식
◦ 데이터 용량 2 Tbyte/일, 300억 레코드/일, 총 1.5 Petabyte
◦ 1분주기로 실시간 집계하여 매분 100여개의 상세 분석테이블 생성
구현 기능
◦ 실시간 품질 분석
장비별/위치별/서비스별 품질분석
사용자 사용패턴 실시간 추적
각종 로그데이터 검색
◦ 사용자 패턴 분석
Heavy User/Heavy Service 마이닝 및 분석
단말기 종류별 품질분석
사용자별 사용패턴 분석
위치정보기반 사용패턴 분석
발전 기능
◦ 마케팅 전략분석을 위한 메타데이터 생성
◦ 스팸 및 Fraud 패턴 분석
Big Data 분석 시스템
A New ExperienceIn Big Data Analytics
감사합니다.