Top Banner
장애 관리 방안 Junho Lee
13

장애 관리 방안

Apr 15, 2017

Download

Internet

Junho Lee
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 장애 관리 방안

장애 관리 방안

Junho Lee

Page 2: 장애 관리 방안

1. 개요

2. 장애 관리 체계

3. 장애 관리 참조 모델

4. 장애 관리 체계 구축 후 기대 효과

2

목차

Page 3: 장애 관리 방안

•현행 시스템의 각종 이슈에 대하여 장애 관점의 정리가 필요함•여러 요소 중에서 장애 관리, 문제 관리의 적절한 분류가 필요함

q IT 관점에서 장애란 정보시스템의 통제 가능한 요인들로 인한 기능저하, 오류, 고장을의미합니다.

3

1. 개요>장애의 정의

발생원인 관점에서 직접적으로영향을 미치는 인적 장애, 시스템 장애, 기반구조 장애(운영 장애, 설비 장애 등 포함) 등과 같은 통제 가능한 요인들에 의한정보시스템의 기능저하, 오류, 고장’을 의미한다.

장애(Incident)의 정의

Page 4: 장애 관리 방안

•장애 식별 및 장애 범위 지정이 필요함•장애에 대하여 문제의 분류 방법이 필요함

q 장애는 프로세스 관점, 발생 원인 관점, 위협 요소 관점, 발생 위치 관점으로 아래와 같이분류할 수 있습니다.

4

1. 개요>장애의 종류

프로세스 관점

장애(Incident)

문제(Problem)

알려진 오류(Known Error)

발생 원인 관점

인적 장애

시스템 장애

운영장애기

술적장애 기반 구조 장애

위협 요소 관점

불규칙적 장애

규칙적 장애

사람무관

조직 내부인의장애

조직 외부인의장애

사람연관

발생 위치 관점

Data

Process

System

Network

사람

환경

기타 유형 자산

무형 자산

Page 5: 장애 관리 방안

•적합한 장애 등급 여부 확인 및 처리 방안 정의 필요함•장애 등급에 대한 서비스 품질 관점의 정의 필요함

영향도

q 장애 등급이란 장애 복구 우선 순위를 의미하고 장애 영향도와 긴급도에 따라 등급을책정합니다.

5

1. 개요>장애 등급의 분류

l영향도: 업무 영향 범위를 기준으로 정의1. 낮음: 개인적인 업무2. 중간: 일반 업무 프로세스의 기능3. 높음: 특정 부서의 특정 업무4. 매우 높음: 전체 조직과 관련된 업무 프로세스

l긴급도: 복구 지연 시간을 기준으로 정의1. 낮음: 단순한 관리적 조치로 해결2. 중간: 어느 정도 대응 시간을 가지고 해결3. 높음: 가능한 신속한 해결4. 매우 높음: 즉각적인 해결

영향도 낮음(3등급)

영향도 중간(2등급)

영향도 높음(1등급)

3급 장애•1시간 내 미해결 시 보고•1시간 간격으로 경과 보고

2급 장애•20분 이내 보고•30분 간격으로 경과 보고

1급 장애•10분 이내 보고•30분 간격으로 경과 보고

4급 장애•자체 해결•등급 상향 시 보고

3급 장애•1시간 내 미해결 시 보고•1시간 간격으로 경과 보고

2급 장애•20분 이내 보고•30분 간격으로 경과 보고

5급 장애•자체 해결

4급 장애•자체 해결•등급 상향 시 보고

3급 장애•1시간 내 미해결 시 보고•1시간 간격으로 경과 보고

긴급도 높음(1등급) 긴급도 중간(2등급) 긴급도 낮음(3등급)긴급도

예시

Page 6: 장애 관리 방안

•장애 관리를 위한 조직 및 R&R이 요구됨•문제 관리를 위한 조직 및 R&R이 요구됨

q 장애 처리를 위해서 6개의 관리 조직이 요구됩니다.

6

2. 장애 관리 체계>조직

장애관리책임자

서비스데스크

문제 관리조직

운영 조직 개발 조직 공급 업체

(시스템 운영실)

(인프라 연구소)(인프라 운영팀)(보안 검증팀) (장비 공급사)(고객 만족실)

서비스데스크

시스템문제분석가

시스템운영자

어플리케이션개발팀

시스템공급 업체

DBMS문제분석가

DBMS운영자

솔루션공급 업체

네트워크문제분석가

네트워크운영자

보안문제분석가

보안운영자

어플리케이션문제분석가

어플리케이션운영자

Page 7: 장애 관리 방안

장애 모니터링

q 장애 관리를 위한 프로세스는 8개의 세부 프로세스로 구성되어 있고, 이 중 문제 관리프로세스는 7개로 구성되어 있습니다.

2. 장애 관리 체계>장애 관리 프로세스

장애 관리책임자

서비스데스크

문제 관리조직

운영 조직

개발 조직

공급 업체

개인장애처리

요청

모니터링도구

장애접수

신규장애?

장애 등록 및등급 지정

1차 해결시도

해결?장애배정

2

차해결시도

해결?

장애종료

프로세스점검

YES

NO

YES

문제등록

근본원인도출

해결방안선택

해결방안모니터

해결방안실행

해결방안점검

문제종료

NO

장애 관리시스템 장애 관리 시스템

•장애 관리 프로세스의 정립이 필요함•문제 관리 프로세스의 정립이 필요함

7

문제 관리

Page 8: 장애 관리 방안

•장애 및 문제에 대한 성과 측정 지표 식별이 요구됨•장애 및 문제에 대한 품질 지표 연계 필요함

q 장애에 대한 성과 측정은 장애 처리 절차에 따라 정의할 수 있습니다.

2. 장애 관리 체계>장애에 대한 성과 측정

8

장애 관리책임자

서비스데스크

문제 관리조직

운영 조직

개발 조직

공급 업체

장애 처리절차

장애접수

장애등록 및

등급 지정1차 해결 장애 배정 2차 해결 문제 관리 장애 종료 프로세스

점검

알려진 오류에 대한 해결 시간

장애 감지시간

동일 오류 재발 여부원인 규명

결과

장애 해결시간

원인 규명횟수/시간

평균 가동률/등급별 장애 횟수

Page 9: 장애 관리 방안

q A는 분기 별로 장애 건수, MTBSI, 가용성 등에 대한 목표치를 두고 실제 결과를 비교하여 성과측정을 했습니다.

2. 장애 관리 체계>장애에 대한 성과 측정 예시

9

핵심 지표 1분기 2분기 3분기 집계

장애 내부 2 0 0 2

가용성

MTBSI 28.5d 100d 60d 63d

Availability 99.99% 100.0% 100.0% 99.99%

SDT 10m 0m 0m 3m

MDT 2m 0m 0m 0.6m

효율성 API 활용률 51% 51% 51% 51%

적시성 적시성 100% 96% 100% 99%

[기준:2009년 11월 20일]

핵심 지표(내부) 핵심 지표(외부 포함)

목표장애 MTBSI SDT 활용률 적시성

2 40 20 76 97

*) 성과

핵심 지표 1분기 2분기 3분기 집계

장애 외부 포함 6 2 0 8

가용성

MTBSI 19.0d 60d 60d 46d

Availability 99.99% 100.0% 100.0% 99.99%

SDT 30m 6.6m 0m 12m

MDT 8m 2.6m 0m 3.5m

효율성 API 활용률 51% 51% 51% 51%

적시성 적시성 97% 96.6% 87% 94%

[기준:2009년 11월 20일]

목표장애 MTBSI SDT 활용률 적시성

2 40 20 76 97

*) 성과

시사점

l 지속적인 API 리엔지니어링 요구

시사점

l 장애가 빈번하게 발생하였지만, SDT를 만족함

0

20

40

60

80

100

장애

SDT

적시성활용률

MTBSI

목표

성과

0

20

40

60

80

100

장애

SDT

적시성활용률

MTBSI

목표

성과

*MTBSI: Mean Time Between System Incidents(평균 가동 시간, 시)*MDT: Mean Detection Time(평균 감지 시간, 분)*SDT: Service Down Time(서비스 다운 시간, 분)

Page 10: 장애 관리 방안

q ITIL(IT Infrastructure Library)은 IT 전반적인 프로세스에 대한 Best Practice를 제시하고있습니다.

3. 장애 관리 참조 모델>ITIL

10

Business, Customers, Users

BusinessStrategy

ServicePlanning

OrganizationPlanning

Service LevelManagement

AvailabilityManagement

SystemManagement

CapacityManagement

NetworkManagement

App & DBManagement

StorageManagement

SecurityManagement

DesktopManagement

IT - Business Alignment

ITIL Service Delivery

ServiceContinuity

Management

FinancialManagement

Infrastructure Management

IncidentManagement

ProblemManagement

ReleaseManagement

ConfigurationManagement

ChangeManagement

Service Desk

ITIL Service Support

TechnologyPlanning

Page 11: 장애 관리 방안

q eTOM(Enhanced Telecom Operations Map)은 통신 사업자 영역의 비즈니스 표준 프로세스를제시하고 있습니다(ITU-T).

3. 장애 관리 참조 모델>eTOM Level 1

11

장애 관리 영역

Page 12: 장애 관리 방안

Resource Performance Management

q eTOM의 장애 관리 영역은 4개의 기능 모듈로 구분되어 있습니다.

3. 장애 관리 참조 모델>eTOM 장애 관리 기능 모델

12

Service Problem Management Service Quality Management

Resource Trouble Management

Survey & AnalysisService Problem

Create ServiceTrouble Report

DiagnoseService Problem

Track & ManageService Problem

Report ServiceProblem

Correct & ResolveService Problem

Close ServiceTrouble Report

Monitor ServiceQuality

Create ServicePerformance

Degradation Report

Analyze ServiceQuality

Improve ServiceQuality

Report ServiceQuality

Performance

Close ServicePerformance

Degradation Report

Track & ManageService Quality Performance Resolution

Survey & AnalysisResource Trouble

Create Resource Trouble Report

Localize Resource Trouble

Correct & ResolveResource Trouble

Track & ManageResource Trouble

ReportResource Trouble

Close Resource Trouble Report

Monitor ResourcePerformance

Create ResourcePerformance

Degradation Report

Analyze ResourcePerformance

Control ResourcePerformance

Report ResourcePerformance

Close ResourcePerformance

Degradation Report

Track & ManageResource

Performance Resolution

Page 13: 장애 관리 방안

q 장애 관리 체계 구축을 통해 Total Cost of Ownership을 절감시킬 수 있습니다.

7. 장애 관리 체계 구축 후 기대 효과

13

요구사항 정성적 기대 효과 정량적 기대 효과

명확한 장애 식별 가능함

장애 발생 시 조직 배분이용이함

장애 등급에 따른 적절한조치 가능해 짐

장애 처리 역량이 강화됨

성과 연계를 통한 장애 예방 활동 강화됨

품질 수준 파악 가능(월간, 주간 장애 건수 비교)

장애 감지 시간 단축(10분à1분)

품질 수준 파악 가능(월간, 주간 등급별 장애 건

수)

장애 처리 시간 단축(1시간à30분)

장애 수를 줄일 수 있음(10건/월à0건/월)

체계적인관리를통한

TCO 절감실현

• 현행 시스템의 각종 이슈에 대한 장애관점의 정리

• 장애 식별 및 장애 범위 지정 필요함

• 적합한 장애 등급 여부 확인 및 처리방안 정의 필요함

• 장애 관리를 위한 조직 및 R&R이 요구됨

• 장애 관리 프로세스의 정립이 필요함

• 장애 및 문제에 대한 성과 측정 지표식별이 요구됨

• 여러 요소 중에서 장애 관리, 문제 관리의 적절한 분류가 필요함

• 장애에 대하여 문제의 분류 방법이 필요함

• 장애 등급에 대한 서비스 품질 관점의정의 필요함

• 문제 관리를 위한 조직 및 R&R이 요구됨

• 문제 관리 프로세스의 정립이 필요함

• 장애 및 문제에 대한 품질 지표 연계필요함