Oracle: 기업의 빅 데이터 · Oracle 백서 - 기업의 빅 데이터 6 Hadoop은 대규모 데이터 볼륨을 원래 데이터 스토리지 클러스터에 보관한 채 구성하고

Oracle 백서

2013년 6월

Oracle: 기업의 빅 데이터

Oracle 백서 - 기업의 빅 데이터

요약 ....................................................................................................................... 2

서론 ....................................................................................................................... 3

빅 데이터 정의................................................................................................... 3

빅 데이터의 중요성 ........................................................................................... 4

빅 데이터 플랫폼 구축 ........................................................................................... 5

인프라 요구 사항 ............................................................................................... 5

솔루션 스펙트럼 ................................................................................................ 6

Oracle의 빅 데이터 솔루션 .................................................................................... 8

Oracle Big Data 어플라이언스 ........................................................................... 8

Oracle NoSQL Database ................................................................................. 10

Oracle Big Data 커넥터 ................................................................................... 10

데이터베이스 내 분석 ...................................................................................... 12

결론 ..................................................................................................................... 14


2

요약

현재 빅 데이터라는 용어가 많은 관심을 끌고 있지만 이러한 과도한 관심의 이면에는

단순한 개념이 자리합니다. 지난 수십 년간 기업에서는 관계형 데이터베이스에 저장된

트랜잭션 데이터를 기반으로 비즈니스 의사 결정을 내려왔습니다. 그런데 이 중요한

데이터 이외에 구조화된 정도는 낮지만 잠재적으로 귀중한 새로운 데이터가 존재합니다.

수집하여 유용한 정보로 활용할 수 있는 웹로그, 소셜 미디어, 전자 메일, 센서, 사진 등이

이러한 데이터에 해당됩니다. 스토리지 및 컴퓨팅 능력에 소모되는 비용이 감소함에 따라,

불과 몇 년 전까지만 해도 폐기되었던 이러한 데이터를 수집하는 것이 가능해졌습니다.

따라서 점점 더 많은 기업들이 비즈니스 인텔리전스 분석에 기존의 기업 데이터와 함께

잠재적으로 중요한 새로운 데이터를 활용하는 방안을 고려하고 있습니다.

빅 데이터에서 진정한 비즈니스 가치를 얻기 위해서는 다양한 소스에서 광범위한 데이터

유형을 캡처하고 구성하며, 모든 기업 데이터의 맥락에서 손쉽게 분석할 수 있는 적합한

도구가 필요합니다. Oracle은 이와 같은 다양한 데이터 유형을 수집 및 구성하고 기존

데이터와 함께 분석하여 새로운 통찰력을 얻고 숨은 관계를 활용할 수 있도록 도와주는,

업계에서 가장 폭넓고 통합 수준이 높은 제품 포트폴리오를 갖추고 있습니다.


3

서론

최근 Oracle Big Data 어플라이언스 및 Oracle Big Data 커넥터를 도입하면서 Oracle은

기업의 빅 데이터와 관련된 모든 요구 사항을 충족하는 완벽한 통합형 솔루션을

제공하는 최초의 벤더가 되었습니다. Oracle의 빅 데이터 전략은 고객이 현재 기업

데이터 아키텍처를 확장하여 빅 데이터를 통합하고 비즈니스 가치를 제공한다는

개념에 초점을 맞춥니다. 즉, 기존의 기업 아키텍처를 확장함으로써 Oracle 시스템의

검증된 안정성, 유연성 및 성능을 활용하여 빅 데이터 요구 사항을 만족시킬 수

있습니다.

빅 데이터 정의

빅 데이터는 일반적으로 다음과 같은 데이터 유형을 가리킵니다.

기존 기업 데이터 – CRM 시스템의 고객 정보, 트랜잭션 ERP 데이터, 웹 스토어

트랜잭션, 총계정원장 데이터 등.

기계 생성/센서 데이터 – CDR(통화 상세 기록), 웹로그, 스마트 미터, 제조 센서,

장비 로그(디지털 출력), 거래 시스템 데이터 등.

소셜 데이터 – 고객 피드백 스트림, 마이크로 블로그 사이트(예: Twitter), 소셜

미디어 플랫폼(예: Facebook) 등.

McKinsey Global Institute에서는 데이터 볼륨이 매년 40%씩 늘어나고 있으며

2009년에서 2020년 사이에 44배로 증가할 것으로 추정하고 있습니다. 그런데 대개

데이터 볼륨이 빅 데이터의 가장 가시적인 특성이긴 하지만 다른 중요한 특성들도

존재합니다. 실제로 다음 네 가지 주요 특징으로 빅 데이터를 정의할 수 있습니다.

볼륨. 기계 생성 데이터는 새로운 데이터보다 양이 훨씬 많습니다. 예를 들어,

한 대의 제트 엔진에서 30분 안에 10TB의 데이터를 생성할 수 있습니다. 하루

항공편 수가 25,000건이 넘으므로 이 하나의 데이터 소스에서 매일 수

페타바이트 볼륨의 데이터가 생성됩니다. 정유 정제 장치, 시추 장치와 같은

중장비와 스마트 미터에서도 유사한 볼륨의 데이터가 생성되므로 문제가 더

심각해집니다.

속도. 소셜 미디어 데이터 스트림 – 기계 생성 데이터만큼 엄청난 양은 아니지만

고객 관계 관리에 중요한 역할을 하는 관계 정보와 의견이 대량으로 유입되어

대규모 데이터 볼륨이 생성됩니다. 단 140자의 트윗도 Twitter 데이터의 높은

속도 또는 빈도로 인해 매일 8TB가 넘는 대량의 볼륨이 생성됩니다.

다양성. 기존 데이터 형식은 데이터 스키마에 의해 비교적 잘 정의되어 있고

느리게 변화합니다. 반면에, 새로운 데이터 형식은 아찔할 만큼 빠른 속도로

변합니다. 새로운 서비스가 추가되거나, 새로운 센서가 구축되거나, 새로운

마케팅 캠페인이 실행되면 결과 정보를 캡처하기 위해 새로운 데이터 유형이

필요합니다.


4

가치. 데이터의 경제적인 가치는 데이터의 종류별로 큰 차이가 있습니다.

일반적으로 대규모의 새로운 데이터 중에는 유용한 정보가 숨겨져 있습니다.

문제는 여기서 중요한 정보를 가려내어 분석을 위해 이러한 정보를 변환하고

추출하는 일입니다.

기업에서 빅 데이터를 최대한 활용하려면 다양한 출처에서 다양한 유형으로 빠르게

제공되는 새로운 방대한 데이터 볼륨을 처리하고 조직의 다른 기업 데이터와

통합하여 분석해야 합니다.

빅 데이터의 중요성

빅 데이터를 추출하여 기존 기업 데이터와 함께 분석하면 기업에서 비즈니스를 더욱

철저하고 통찰력 있게 파악하여 생산성을 향상시키고 경쟁 우위를 확보하며 더 큰

혁신을 얻을 수 있습니다. 그리고 이러한 모든 이점은 수익에 막대한 영향을 미칠 수

있습니다.

예를 들어, 의료 서비스가 제공되면서 만성 질환이나 장기 질환 관련 관리 비용이

증가했습니다. 가정용 모니터링 장치를 사용하여 맥박, 체온, 혈압 등을 측정하고

진행 상태를 모니터링하면, 센서 데이터를 활용하여 환자의 건강을 향상시키고 병원

방문이나 입원 횟수를 줄일 수 있습니다.

제조 회사에서는 제품에 센서를 부착하여 원격 측정 정보를 얻을 수 있습니다. 자동차

산업의 경우 General Motors의 OnStar ® 또는 Renault의 R-Link ® 와 같은 시스템이

통신, 보안 및 내비게이션 서비스를 제공합니다. 더욱 중요한 것은 이러한 원격 측정

정보를 통해 사용 패턴과 실패율뿐 아니라 그 외 제품 향상 기회도 알 수 있어, 개발 및

조립 비용을 감축할 수 있다는 점입니다.

스마트폰을 비롯한 기타 GPS 장치가 널리 보급됨에 따라 광고주들에게 매장, 커피숍

또는 음식점 근처에 있는 고객을 집중적으로 공략할 수 있는 기회가 제공됩니다. 이에

따라 서비스 공급업체는 새로운 수익을 창출할 수 있게 되고 많은 기업은 신규 고객을

포섭할 수 있게 되었습니다.

소매업체들은 보통 어떤 고객이 자사의 제품을 구입하는지 알고 있습니다. 이들은

소셜 미디어와 전자 상거래 사이트에서 얻은 웹로그 파일을 기반으로 구매하지 않은

고객과 그 이유를 손쉽게 파악할 수 있는데, 이러한 정보는 당장 입수할 수 있는 내용이

아닙니다. 따라서 이러한 정보를 바탕으로 더욱 효과적으로 고객층을 세분화하고

명확한 대상 고객에게 마케팅 캠페인을 전개할 수 있을 뿐 아니라 보다 정확한 수요

계획을 통해 공급망의 효율성을 높일 수 있습니다.

마지막으로 Facebook 및 LinkedIn과 같은 소셜 미디어 사이트는 빅 데이터 없이는

존재할 수 없습니다. 이러한 사이트의 비즈니스 모델에는 개인화된 웹 환경이

필요한데, 사용자 및 회원에 대해 얻을 수 있는 모든 데이터를 캡처하고 활용해야만

이러한 환경을 제공할 수 있습니다.


5

빅 데이터 플랫폼 구축

데이터 웨어하우징, 웹 스토어 또는 IT 플랫폼과 마찬가지로 빅 데이터의 인프라에는

고유한 요구 사항이 따릅니다. 빅 데이터 플랫폼의 모든 구성 요소를 고려할 때는 빅

데이터를 기존 기업 데이터와 손쉽게 통합하여 통합된 데이터 집합에 대한 심층

분석을 수행할 수 있게 하는 것이 최종 목표라는 점을 기억해야 합니다.

인프라 요구 사항

빅 데이터 인프라의 요구 사항으로는 데이터 수집, 데이터 구성 및 데이터 분석이

있습니다.

빅 데이터 수집

수집 단계는 빅 데이터가 등장하기 이전부터 인프라에서 대대적으로 변경되었던

부분입니다. 빅 데이터는 더 빠른 속도와 더 많은 다양성을 가진 데이터 스트림을

말합니다. 빅 데이터 수집을 지원하는데 필요한 인프라는 데이터를 캡처하고 짧고

간단한 쿼리를 실행하는 과정에서 짧고 예측 가능한 지연 시간을 제공해야 하며, 대개

분산 환경에서 매우 큰 트랜잭션 볼륨을 처리하고, 유연한 동적 데이터 구조를 지원할

수 있어야 합니다.

빅 데이터의 수집과 저장에는 주로 NoSQL 데이터베이스가 사용됩니다. 이

데이터베이스는 동적 데이터 구조에 매우 적합하며 확장성이 뛰어납니다. NoSQL

데이터베이스에는 일반적으로 매우 다양한 데이터가 저장되는데 이러한 시스템은

데이터를 범주화하거나 고정 스키마로 구문 분석하지 않고 모든 데이터를 캡처만

하도록 설계되었기 때문입니다.

예를 들어, NoSQL 데이터베이스는 대부분 소셜 미디어 데이터를 수집하고

저장하는데 사용됩니다. 고객이 접하는 애플리케이션은 자주 변경되지만 기본

스토리지 구조는 단순하게 유지됩니다. 이러한 단순 구조의 경우, 개체 간의 관계로

스키마를 설계하는 대신 데이터 포인트를 식별하는 주요 키만 포함하고 고객 ID와

고객 프로필과 같은 관련 데이터는 콘텐츠 컨테이너에 저장하는 경우가 많습니다.

이와 같은 단순하고 동적인 구조 덕분에 많은 비용을 들여 스토리지 계층을

재구성하지 않고도 고객 프로필에 새 필드를 추가하는 등의 변경 작업을 수행할 수

있습니다.

빅 데이터 구성

전형적인 데이터 웨어하우징 용어에서는 데이터 구성을 데이터 통합이라고 말합니다.

빅 데이터는 볼륨이 매우 크기 때문에 대부분 최초 대상 위치에서 데이터 구성이

이루어지므로 대규모 데이터 볼륨을 이동하지 않아도 되어 시간과 비용이 모두

절약됩니다. 빅 데이터를 구성하는데 필요한 인프라는 원래의 스토리지 위치에서

데이터를 처리 및 조작할 수 있어야 하고, 대규모 데이터 처리 단계를 다루기 위해 매우

높은 처리량(대개 배치 작업)을 지원할 수 있어야 하며, 비구조적 데이터에서 구조적

데이터에 이르는 매우 다양한 데이터 형식을 처리할 수 있어야 합니다.


6

Hadoop은 대규모 데이터 볼륨을 원래 데이터 스토리지 클러스터에 보관한 채

구성하고 처리하는데 사용되는 새로운 기술입니다. 예를 들어, HDFS(Hadoop

Distributed File System)는 웹로그에 적합한 장기 보관 시스템입니다. 이러한 웹로그는

클러스터에서 MapReduce 프로그램을 실행하여 동일한 클러스터에 집계 결과를

생성함으로써 탐색 동작(세션)으로 변환됩니다. 그런 다음 이러한 집계 결과는 관계형

DBMS 시스템에 로드됩니다.

빅 데이터 분석

데이터가 구성 단계에서 항상 이동되는 것은 아니므로 일부 데이터가 원래 저장된

위치에 보관되고 데이터 웨어하우스를 통해 투명하게 액세스되는 분산 환경에서

분석을 수행할 수도 있습니다. 빅 데이터를 분석하기 위한 인프라는 다양한 시스템에

저장된 광범위한 데이터 유형을 대상으로 통계 분석 및 데이터 마이닝과 같은 심층

분석을 지원하고, 매우 큰 데이터 볼륨으로 확장할 수 있어야 하는 것은 물론, 동작

변화 시 더 빠른 응답 시간을 제공하고, 분석 모델에 기반하여 자동으로 의사 결정을

내릴 수 있어야 합니다. 무엇보다 빅 데이터와 기존 기업 데이터의 조합에 대한 분석을

통합할 수 있어야 합니다. 새로운 통찰력은 새 데이터를 분석할 때뿐 아니라 새

데이터를 기존 데이터와 관련지어 분석하여 이전의 문제에 대한 새로운 관점을

제공할 때도 얻을 수 있습니다.

예를 들어, 자동 판매기의 재고 데이터를 이 판매기가 설치된 장소의 행사 달력과

결합하여 분석하면 해당 판매기에서 최적의 제품 조합과 제품 보충 일정을 파악할

수 있습니다.

솔루션 스펙트럼

앞서 설명한 IT 인프라 요구 사항을 만족시키기 위해 다양한 신기술이 출현했습니다.

최종적으로 빅 데이터를 수집하고 저장하는 오픈 소스 키-값 데이터베이스가 120개가

넘게 등장하였고, Hadoop가 빅 데이터 구성을 위한 주요 시스템으로 부상하는 한편

관계형 데이터베이스는 데이터 웨어하우스로서의 입지를 그대로 유지하면서 빅

데이터 분석을 위해 구조화 수준이 낮은 데이터 집합까지 포함하게 되었습니다. 이러한

새 시스템들은 다음으로 구성된 분리된 솔루션 스펙트럼을 만들었습니다.

NoSQL(Not Only SQL) 솔루션: 개발자 중심의 전문화된 시스템

SQL 솔루션: RDBMS(관계형 데이터베이스 관리 시스템)의 관리 용이성,

보안성 및 신뢰성과 일반적으로 동일

NoSQL 시스템은 데이터가 시스템에 입력될 때 범주화하거나 구문 분석하지 않고 모든

데이터를 캡처하도록 설계되었기 때문에 데이터가 매우 다양합니다. 반면에 SQL

시스템은 대개 데이터를 잘 정의된 구조에 배치하고 캡처된 데이터에 대해

메타데이터를 도입하여 일관성을 보장하고 데이터 유형을 검증합니다.


7

그림 1 분리된 솔루션 스펙트럼

분산 파일 시스템 및 트랜잭션 키-값 저장소는 주로 데이터를 캡처하는데 사용되며

일반적으로 본 백서의 앞부분에서 설명한 요구 사항과 일치합니다. 이러한 솔루션의

데이터에서 정보를 추출하고 해석하기 위해 MapReduce라는 프로그래밍 패러다임이

사용됩니다. MapReduce 프로그램은 분산된 데이터 노드에서 병렬로 실행되는

맞춤형으로 작성된 프로그램입니다.

키-값 저장소 또는 NoSQL 데이터베이스는 빅 데이터 분야에서 OLTP 데이터베이스에

해당되며 매우 빠른 데이터 캡처 및 단순한 쿼리 패턴에 맞게 최적화되었습니다.

NoSQL 데이터베이스는 캡처된 데이터가 해석된 후 스키마로 캐스팅되지 않고 단일

식별 키를 사용하여 신속하게 저장되므로 매우 빠른 성능을 제공할 수 있습니다.

NoSQL 데이터베이스는 이런 식으로 대량의 트랜잭션을 빠르게 저장할 수 있습니다.

하지만 NoSQL 데이터베이스에서 데이터가 변경되는 특성으로 인해 모든 데이터

구성 활동에는 사용된 스토리지 로직을 해석하기 위한 프로그래밍이 필요합니다.

이러한 요구 사항은 복잡한 쿼리 패턴을 지원하지 않는 문제와 맞물려 최종 사용자가

NoSQL 데이터베이스의 데이터에서 가치를 추출해 내는 것을 어렵게 만듭니다.

NoSQL 솔루션을 최대한 활용하고 개발자 중심의 전문화된 솔루션에서 기업용

솔루션으로 전환하기 위해서는 SQL 솔루션과 결합하여 오늘날 기업의 관리 용이성 및

보안 요구 사항을 충족하는 하나의 검증된 인프라로 만들어야 합니다.


8

Oracle의 빅 데이터 솔루션

Oracle은 기업의 빅 데이터와 관련된 모든 요구 사항을 충족하는 완벽한 통합형

솔루션을 제공하는 최초의 벤더입니다. Oracle의 빅 데이터 전략은 고객이 현재 기업

데이터 아키텍처를 확장하여 빅 데이터를 통합한다는 개념에 초점을 맞춥니다. Hadoop

및 Oracle NoSQL Database와 같은 새로운 빅 데이터 기술은 비즈니스 가치를 제공하고

빅 데이터 요구 사항을 충족할 수 있도록 Oracle 데이터 웨어하우스와 함께 실행됩니다.

그림 2 Oracle의 빅 데이터 솔루션

Oracle Big Data 어플라이언스

Oracle Big Data 어플라이언스는 최적화된 하드웨어와 포괄적인 빅 데이터

소프트웨어 스택이 결합된 엔지니어드 시스템으로, 빅 데이터의 수집 및 구성을

위한 간편하게 구축할 수 있는 완벽한 솔루션을 제공합니다.

Oracle Big Data 어플라이언스는 Sun 서버 18대가 포함되고 총 스토리지 용량이

648TB인 Full Rack 구성으로 제공됩니다. 랙의 모든 서버는 각각 8코어의 CPU 2개가

탑재되어 있으며 Full Rack당 총 코어 수는 288개입니다. 각 서버의 메모리 용량은

64GB1이며 Full Rack당 메모리 용량은 총 1152GB입니다.

1 노드당 최대 512GB로 업그레이드 가능


9

그림 3 Big Data 어플라이언스의 소프트웨어 개요

Oracle Big Data 어플라이언스에는 기업의 빅 데이터 요구 사항을 만족시키기 위해

오픈 소스 소프트웨어와 Oracle에서 개발한 전문 소프트웨어가 결합되어 있습니다.

Oracle Big Data 어플라이언스 소프트웨어에는 다음과 같은 기능이 포함되어 있습니다.

CDH4(Cloudera's Distribution including Apache Hadoop) 전체 배포 솔루션

Oracle Big Data Appliance Plug-In for Enterprise Manager

Cloudera CDH의 모든 측면을 관리하기 위한 Cloudera Manager

Oracle 통계 패키지 R의 배포 솔루션

Oracle NoSQL Database Community Edition2

Oracle Enterprise Linux 운영 체제 및 Oracle Java VM

2 Oracle NoSQL Database Enterprise Edition은 별도의 라이센스 구성 요소로 Oracle Big Data 어플라이언스에 제공됩니다.


10

Oracle NoSQL Database

Oracle NoSQL Database는 Oracle Berkeley DB 기반의 확장성이 뛰어난 분산형 키-값

데이터베이스입니다. 이 제품은 분산형 Berkeley DB에 지능형 드라이버를 추가하여

범용 엔터프라이즈급 키 값 저장소를 제공합니다. 이 지능형 드라이버는 기본 스토리지

토폴로지를 계속 추적하고 데이터를 공유하며 최소한의 지연 시간으로 데이터를

배치할 위치를 파악합니다. 경쟁사 솔루션과 달리 Oracle NoSQL Database는 설치, 구성

및 관리가 간편하고 광범위한 작업을 지원하며 Oracle의 엔터프라이즈급 지원을 받아

엔터프라이즈급 안정성을 제공합니다.

그림 4 NoSQL Database 아키텍처

일반적으로 Oracle NoSQL Database는 낮은 지연 시간으로 데이터를 캡처하고 주로 키

조회를 통해 이러한 데이터를 빠르게 쿼리하는데 사용됩니다. Oracle NoSQL Database는

쉽게 사용할 수 있는 Java API 및 관리 프레임워크와 함께 제공됩니다. 이 제품은 오픈

소스 커뮤니티 버전과 대규모 분산 데이터 센터를 위한 합리적인 가격의 엔터프라이즈

버전으로 제공됩니다. 커뮤니티 버전은 Big Data 어플라이언스 통합 소프트웨어의

일부로 설치됩니다.

Oracle Big Data 커넥터

Oracle Big Data 어플라이언스는 조직에서 새로운 유형의 데이터를 손쉽게 수집하고

구성할 수 있게 해주며, Oracle Big Data 커넥터는 모든 데이터를 최고의 성능으로

분석할 수 있도록 빅 데이터 환경과 Oracle Exadata 및 Oracle Database를 긴밀하게

통합합니다. Oracle Big Data 커넥터는 4가지 요소로 구성되어 있습니다.

Oracle Loader for Hadoop

OLH(Oracle Loader for Hadoop)를 사용하면 Hadoop MapReduce 처리를 기반으로

최적화된 데이터 집합을 생성하여 Oracle Database 11g에서 효율적으로 로드하고

분석할 수 있습니다. 다른 Hadoop 로더와 다르게 Oracle 내부 형식을 생성하므로

데이터를 더 빠르게 로드하고 데이터베이스 시스템 리소스를 더 적게 사용합니다.


11

OLH는 MapReduce 변환의 마지막 단계에서 별도의 맵 – 파티션 – 감소 단계로

추가됩니다.

이 마지막 단계는 Hadoop 클러스터의 CPU를 사용하여 Oracle의 내부 데이터베이스

형식으로 데이터 형식을 지정하므로 Oracle Database 플랫폼의 CPU 로드가 감소하고

데이터 수집 속도가 빨라집니다. 로드된 데이터는 데이터베이스에서 영구적으로

사용할 수 있으므로 SQL 또는 비즈니스 인텔리전스 도구를 활용하는 일반

데이터베이스 사용자가 이러한 데이터에 매우 빠르게 액세스할 수 있습니다.

Oracle SQL Connector for HDFS(Hadoop Distributed File System)

Oracle SQL Connector for HDFS(Hadoop Distributed File System)는 Oracle Database에서

직접 HDFS의 데이터에 액세스하도록 지원하는 고속 커넥터입니다. Oracle SQL

Connector for HDFS는 사용자가 애플리케이션에서 필요할 때 언제든지 HDFS의

데이터를 쿼리할 수 있도록 하는 유연성이 특징입니다.

또한 Oracle Database에 외부 테이블을 생성하도록 지원하므로 SQL에서 직접 HDFS에

저장된 데이터에 액세스할 수 있도록 합니다. 그러면 HDFS에 저장된 데이터를 SQL을

통해 쿼리하거나 Oracle Database에 저장된 데이터와 결합하거나 Oracle Database로

로드할 수 있습니다. HDFS의 데이터 액세스는 신속한 데이터 이동을 위해

최적화되었으며 자동 분산 처리를 사용하여 병렬화됩니다. HDFS의 데이터는 구분된

파일의 형식이거나 Oracle Loader for Hadoop에서 생성된 Oracle Data Pump 파일 형식일

수 있습니다.

Oracle Data Integrator Application Adapter for Hadoop

Oracle Data Integrator Application Adapter for Hadoop은 Oracle Data Integrator의 간편한

인터페이스를 통해 Hadoop과 Oracle Database에서의 데이터 통합을 간소화합니다.

데이터베이스에서 데이터에 액세스할 수 있게 되면 최종 사용자가 SQL 및 Oracle BI

Enterprise Edition을 통해 데이터에 액세스할 수 있습니다.

이미 Hadoop 솔루션을 사용하고 있고 Oracle Big Data 어플라이언스와 같은 통합

솔루션이 필요하지 않은 기업에서는 Big Data 커넥터를 독립 실행형 소프트웨어

솔루션으로 사용하여 HDFS의 데이터를 통합할 수 있습니다.

Oracle R Connector for Hadoop

Oracle R Connector for Hadoop은 Hadoop 및 HDFS에 저장된 데이터에 대한 투명한

액세스를 제공하는 R 패키지입니다.

R Connector for Hadoop을 통해 오픈 소스 통계 환경 R 사용자는 HDFS에 저장된

데이터를 분석하고 MapReduce 처리를 활용하여 대규모 데이터 볼륨을 대상으로

규모에 맞춰 R 모델을 실행할 수 있으므로 다른 API 또는 언어를 배울 필요가

없습니다. 최종 사용자는 3,500개가 넘는 오픈 소스 R 패키지를 활용하여 HDFS에

저장된 데이터를 분석할 수 있고 관리자는 R에 대해 배우지 않고도 운영 환경에서

R MapReduce 모델을 스케줄링할 수 있습니다.


12

필요할 경우 R Connector for Hadoop을 Oracle Advanced Analytics Option for Oracle

Database와 함께 사용할 수도 있습니다. Oracle Advanced Analytics Option을 통해 R

사용자는 SQL 또는 데이터베이스라는 개념을 모르더라도 데이터베이스 내에서 직접

R 계산을 실행하여 데이터베이스에 상주하는 데이터로 투명하게 작업할 수 있습니다.

데이터베이스 내 분석

Oracle Big Data 어플라이언스에서 Oracle Database 또는 Oracle Exadata로 데이터가

로드되면 최종 사용자가 사용이 간편한 아래 도구 중 하나를 사용하여 데이터베이스

내에서 고급 분석을 수행할 수 있습니다.

Oracle R Enterprise – 널리 사용되는 Oracle의 Project R Oracle 통계 환경

버전으로, 통계 전문가가 최종 사용자 환경을 변경하지 않고 대규모 데이터

집합을 대상으로 R 제품을 사용할 때 활용됩니다. R 버전은 특정 공항에서

항공편 지연을 예측하고 임상 실험 분석 및 결과를 전송하는 등의 작업에

사용됩니다.

In-Database Data Mining – 복잡한 모델을 생성하여 대규모의 데이터 볼륨에

배포하고 예측 분석을 진행하는 기능을 제공합니다. 최종 사용자는 분석

모델을 구축하는 방법을 모르더라도 자신의 BI 도구에서 이러한 예측 모델의

결과를 활용할 수 있습니다. 예를 들어, 회귀 모델을 사용하여 구매 행태 및

인구 통계 데이터를 기반으로 고객의 연령을 예측할 수 있습니다.

In-Database Text Mining – Oracle Text와 Oracle Data Mining을 결합하여,

마이크로 블로그, CRM 시스템의 설명 필드 및 검토 사이트에서 텍스트를

수집하는 기능을 제공합니다. 텍스트 수집의 한 예로 설명에 기반한 감성

분석이 있습니다. 감성 분석을 수행하면 특정 회사, 제품 또는 활동에 대해

고객이 어떻게 생각하고 있는지 알 수 있습니다.

In-Database Graph Analysis – 다양한 데이터 포인트 및 데이터 집합 간의

그래프와 연결을 생성하는 기능을 제공합니다. 예를 들어, 그래프 분석을

수행하면 고객의 친구 교제 범위에서 가치를 결정하는 관계 네트워크가

생성됩니다. 고객 이탈을 분석할 때 고객의 가치는 고객 자체의 가치가 아닌

관계 네트워크의 가치에 따라 결정됩니다.

In-Database Spatial – 데이터에 공간 크기를 부여하고 맵에 도표로 그려

데이터를 보여 주는 기능을 제공합니다. 이 기능을 통해 최종 사용자는 지리

공간적 관계와 추세를 훨씬 더 효율적으로 파악할 수 있습니다. 예를 들어, 공간

데이터는 관계 네트워크와 지리 공간적 근접성을 시각적으로 표시할 수

있습니다. 근접성이 높은 고객은 손쉽게 서로의 구매 행태에 영향을 미칠 수

있으므로 공간적 시각화를 사용하지 않을 경우 간과되기 쉬운 기회를 포착할

수 있습니다.

In-Database MapReduce – 절차적 로직을 작성하고 Oracle Database 병렬 실행을

원활하게 활용하는 기능을 제공합니다. 데이터 과학자들은 In-database

MapReduce를 통해 복잡한 로직을 사용하는 고성능 루틴을 작성할 수


13

있습니다. In-database MapReduce는 SQL을 통해 노출할 수 있습니다. In-

database MapReduce를 활용하는 예로는 웹로그의 세분화 또는 CDR(통화 상세

기록)의 구성이 있습니다.

Oracle Database의 분석 구성 요소는 모두 다 중요합니다. 이러한 구성 요소를 결합하여

사용하면 비즈니스의 가치를 한층 높일 수 있습니다. SQL 또는 BI 도구를 활용하여

이러한 분석 결과를 최종 사용자에게 노출함으로써 조직은 Oracle Database 분석의 모든

잠재 기능을 활용하지 않는 다른 조직에 비해 경쟁 우위를 점할 수 있습니다.

Oracle Big Data 어플라이언스와 Oracle Exadata는 InfiniBand를 통해 연결되므로 배치

또는 쿼리 작업의 데이터를 고속으로 전송할 수 있습니다. Oracle Exadata는 데이터

웨어하우스 및 트랜잭션 처리 데이터베이스 호스팅에 있어서 탁월한 성능을

발휘합니다.

이제는 데이터가 대량 소비 형식을 취하므로 Oracle Exalytics를 사용하여 비즈니스

분석가에게 풍부한 정보를 제공할 수 있습니다. Oracle Exalytics는 비즈니스

커뮤니티에 대한 신속한 데이터 액세스를 제공하는 엔지니어드 시스템으로, 인메모리

집계 기능이 시스템에 내장된 Oracle Business Intelligence Enterprise Edition을 최적으로

실행합니다.

그림 5 Oracle, 통합 빅 데이터 솔루션 제공

Oracle Big Data 어플라이언스는 Oracle Exadata Database Machine 및 새로운 Oracle

Exalytics Business Intelligence Machine과 연계되어 고객이 기업 내 빅 데이터를 수집,

구성 및 분석하여 그 가치를 극대화하는데 필요한 모든 요소를 제공합니다.


14

결론

새롭고 다양한 디지털 데이터 스트림을 분석하면 새로운 경제적 가치의 기회를

파악하고 고객의 행태에 대한 새로운 통찰력을 얻어 시장 추세를 조기에 파악할 수

있습니다. 하지만 이러한 새로운 데이터가 유입됨에 따라 IT 부서에는 많은 과제가

발생합니다. 빅 데이터에서 진정한 비즈니스 가치를 얻기 위해서는 다양한 소스에서

광범위한 데이터 유형을 캡처하고 구성하며, 모든 기업 데이터의 맥락에서 손쉽게

분석할 수 있는 적합한 도구가 필요합니다. 기업은 Oracle Big Data 어플라이언스 및

Oracle Big Data 커넥터를 Oracle Exadata와 함께 사용함으로써 구조적/비구조적

데이터를 비롯한 모든 기업 데이터를 수집, 구성 및 분석하여 정확한 정보를 바탕으로

올바른 의사 결정을 내릴 수 있습니다.

Oracle: 기업의 빅 데이터

2013년 6월

저자: Jean-Pierre Dijcks

한국오라클 유한회사

서울시 강남구 삼성동 159-1

무역센터 아셈타워 12층

135-798

대표전화: 02-2194-8000

제품구입문의: 080-2194-114

www.oracle.com/kr

Copyright © 2013, Oracle and/or its affiliates. All rights reserved. 본 문서는 정보 제공의 목적으로만 제공되며 본 문서의

내용은 사전 공지 없이 변경될 수 있습니다. 오라클은 본 문서에 오류가 존재하지 않음을 보증하지 않으며, 상업성 또는 특정

목적의 적합성에 대한 암시적 보증이나 조건을 포함하여 구두로 표현했거나 법적으로 암시되거나 관계 없이 어떠한 보증이나

조건도 제시하지 않습니다. 오라클은 본 문서와 관련하여 어떠한 책임도 지지 않으며 이 문서로 인해 직접적 또는 간접적인

계약상의 의무가 발생하지 않습니다. 본 문서는 오라클의 사전 서면 승인 없이는 어떠한 목적으로도 전자적, 기계적 또는

어떠한 형태나 수단으로도 복제되거나 전송될 수 없습니다.

Oracle은 Oracle Corporation 및/또는 그 자회사의 등록 상표입니다. Cloudera, Cloudera CDH 및 Cloudera Manager는

Cloudera, Inc.의 등록 및 미등록 상표이며 기타의 명칭들은 각 해당 명칭을 소유한 회사의 상표일 수 있습니다.

0109

Oracle: 기업의 빅 데이터 · Oracle 백서 - 기업의 빅 데이터 6 Hadoop은 대규모 데이터 볼륨을 원래 데이터 스토리지 클러스터에 보관한 채 구성하고

Documents