장애 관리 방안 Junho Lee
장애 관리 방안
Junho Lee
1. 개요
2. 장애 관리 체계
3. 장애 관리 참조 모델
4. 장애 관리 체계 구축 후 기대 효과
2
목차
•현행 시스템의 각종 이슈에 대하여 장애 관점의 정리가 필요함•여러 요소 중에서 장애 관리, 문제 관리의 적절한 분류가 필요함
q IT 관점에서 장애란 정보시스템의 통제 가능한 요인들로 인한 기능저하, 오류, 고장을의미합니다.
3
1. 개요>장애의 정의
발생원인 관점에서 직접적으로영향을 미치는 인적 장애, 시스템 장애, 기반구조 장애(운영 장애, 설비 장애 등 포함) 등과 같은 통제 가능한 요인들에 의한정보시스템의 기능저하, 오류, 고장’을 의미한다.
장애(Incident)의 정의
•장애 식별 및 장애 범위 지정이 필요함•장애에 대하여 문제의 분류 방법이 필요함
q 장애는 프로세스 관점, 발생 원인 관점, 위협 요소 관점, 발생 위치 관점으로 아래와 같이분류할 수 있습니다.
4
1. 개요>장애의 종류
프로세스 관점
장애(Incident)
문제(Problem)
알려진 오류(Known Error)
발생 원인 관점
인적 장애
시스템 장애
운영장애기
술적장애 기반 구조 장애
위협 요소 관점
불규칙적 장애
규칙적 장애
사람무관
조직 내부인의장애
조직 외부인의장애
사람연관
발생 위치 관점
Data
Process
System
Network
사람
환경
기타 유형 자산
무형 자산
•적합한 장애 등급 여부 확인 및 처리 방안 정의 필요함•장애 등급에 대한 서비스 품질 관점의 정의 필요함
영향도
q 장애 등급이란 장애 복구 우선 순위를 의미하고 장애 영향도와 긴급도에 따라 등급을책정합니다.
5
1. 개요>장애 등급의 분류
l영향도: 업무 영향 범위를 기준으로 정의1. 낮음: 개인적인 업무2. 중간: 일반 업무 프로세스의 기능3. 높음: 특정 부서의 특정 업무4. 매우 높음: 전체 조직과 관련된 업무 프로세스
l긴급도: 복구 지연 시간을 기준으로 정의1. 낮음: 단순한 관리적 조치로 해결2. 중간: 어느 정도 대응 시간을 가지고 해결3. 높음: 가능한 신속한 해결4. 매우 높음: 즉각적인 해결
영향도 낮음(3등급)
영향도 중간(2등급)
영향도 높음(1등급)
3급 장애•1시간 내 미해결 시 보고•1시간 간격으로 경과 보고
2급 장애•20분 이내 보고•30분 간격으로 경과 보고
1급 장애•10분 이내 보고•30분 간격으로 경과 보고
4급 장애•자체 해결•등급 상향 시 보고
3급 장애•1시간 내 미해결 시 보고•1시간 간격으로 경과 보고
2급 장애•20분 이내 보고•30분 간격으로 경과 보고
5급 장애•자체 해결
4급 장애•자체 해결•등급 상향 시 보고
3급 장애•1시간 내 미해결 시 보고•1시간 간격으로 경과 보고
긴급도 높음(1등급) 긴급도 중간(2등급) 긴급도 낮음(3등급)긴급도
예시
•장애 관리를 위한 조직 및 R&R이 요구됨•문제 관리를 위한 조직 및 R&R이 요구됨
q 장애 처리를 위해서 6개의 관리 조직이 요구됩니다.
6
2. 장애 관리 체계>조직
장애관리책임자
서비스데스크
문제 관리조직
운영 조직 개발 조직 공급 업체
(시스템 운영실)
(인프라 연구소)(인프라 운영팀)(보안 검증팀) (장비 공급사)(고객 만족실)
서비스데스크
시스템문제분석가
시스템운영자
어플리케이션개발팀
시스템공급 업체
DBMS문제분석가
DBMS운영자
솔루션공급 업체
네트워크문제분석가
네트워크운영자
보안문제분석가
보안운영자
어플리케이션문제분석가
어플리케이션운영자
장애 모니터링
q 장애 관리를 위한 프로세스는 8개의 세부 프로세스로 구성되어 있고, 이 중 문제 관리프로세스는 7개로 구성되어 있습니다.
2. 장애 관리 체계>장애 관리 프로세스
장애 관리책임자
서비스데스크
문제 관리조직
운영 조직
개발 조직
공급 업체
개인장애처리
요청
모니터링도구
장애접수
신규장애?
장애 등록 및등급 지정
1차 해결시도
해결?장애배정
2
차해결시도
해결?
장애종료
프로세스점검
YES
NO
YES
문제등록
근본원인도출
해결방안선택
해결방안모니터
해결방안실행
해결방안점검
문제종료
NO
장애 관리시스템 장애 관리 시스템
•장애 관리 프로세스의 정립이 필요함•문제 관리 프로세스의 정립이 필요함
7
문제 관리
•장애 및 문제에 대한 성과 측정 지표 식별이 요구됨•장애 및 문제에 대한 품질 지표 연계 필요함
q 장애에 대한 성과 측정은 장애 처리 절차에 따라 정의할 수 있습니다.
2. 장애 관리 체계>장애에 대한 성과 측정
8
장애 관리책임자
서비스데스크
문제 관리조직
운영 조직
개발 조직
공급 업체
장애 처리절차
장애접수
장애등록 및
등급 지정1차 해결 장애 배정 2차 해결 문제 관리 장애 종료 프로세스
점검
알려진 오류에 대한 해결 시간
장애 감지시간
동일 오류 재발 여부원인 규명
결과
장애 해결시간
원인 규명횟수/시간
평균 가동률/등급별 장애 횟수
q A는 분기 별로 장애 건수, MTBSI, 가용성 등에 대한 목표치를 두고 실제 결과를 비교하여 성과측정을 했습니다.
2. 장애 관리 체계>장애에 대한 성과 측정 예시
9
핵심 지표 1분기 2분기 3분기 집계
장애 내부 2 0 0 2
가용성
MTBSI 28.5d 100d 60d 63d
Availability 99.99% 100.0% 100.0% 99.99%
SDT 10m 0m 0m 3m
MDT 2m 0m 0m 0.6m
효율성 API 활용률 51% 51% 51% 51%
적시성 적시성 100% 96% 100% 99%
[기준:2009년 11월 20일]
핵심 지표(내부) 핵심 지표(외부 포함)
목표장애 MTBSI SDT 활용률 적시성
2 40 20 76 97
*) 성과
핵심 지표 1분기 2분기 3분기 집계
장애 외부 포함 6 2 0 8
가용성
MTBSI 19.0d 60d 60d 46d
Availability 99.99% 100.0% 100.0% 99.99%
SDT 30m 6.6m 0m 12m
MDT 8m 2.6m 0m 3.5m
효율성 API 활용률 51% 51% 51% 51%
적시성 적시성 97% 96.6% 87% 94%
[기준:2009년 11월 20일]
목표장애 MTBSI SDT 활용률 적시성
2 40 20 76 97
*) 성과
시사점
l 지속적인 API 리엔지니어링 요구
시사점
l 장애가 빈번하게 발생하였지만, SDT를 만족함
0
20
40
60
80
100
장애
SDT
적시성활용률
MTBSI
목표
성과
0
20
40
60
80
100
장애
SDT
적시성활용률
MTBSI
목표
성과
*MTBSI: Mean Time Between System Incidents(평균 가동 시간, 시)*MDT: Mean Detection Time(평균 감지 시간, 분)*SDT: Service Down Time(서비스 다운 시간, 분)
q ITIL(IT Infrastructure Library)은 IT 전반적인 프로세스에 대한 Best Practice를 제시하고있습니다.
3. 장애 관리 참조 모델>ITIL
10
Business, Customers, Users
BusinessStrategy
ServicePlanning
OrganizationPlanning
Service LevelManagement
AvailabilityManagement
SystemManagement
CapacityManagement
NetworkManagement
App & DBManagement
StorageManagement
SecurityManagement
DesktopManagement
IT - Business Alignment
ITIL Service Delivery
ServiceContinuity
Management
FinancialManagement
Infrastructure Management
IncidentManagement
ProblemManagement
ReleaseManagement
ConfigurationManagement
ChangeManagement
Service Desk
ITIL Service Support
TechnologyPlanning
q eTOM(Enhanced Telecom Operations Map)은 통신 사업자 영역의 비즈니스 표준 프로세스를제시하고 있습니다(ITU-T).
3. 장애 관리 참조 모델>eTOM Level 1
11
장애 관리 영역
Resource Performance Management
q eTOM의 장애 관리 영역은 4개의 기능 모듈로 구분되어 있습니다.
3. 장애 관리 참조 모델>eTOM 장애 관리 기능 모델
12
Service Problem Management Service Quality Management
Resource Trouble Management
Survey & AnalysisService Problem
Create ServiceTrouble Report
DiagnoseService Problem
Track & ManageService Problem
Report ServiceProblem
Correct & ResolveService Problem
Close ServiceTrouble Report
Monitor ServiceQuality
Create ServicePerformance
Degradation Report
Analyze ServiceQuality
Improve ServiceQuality
Report ServiceQuality
Performance
Close ServicePerformance
Degradation Report
Track & ManageService Quality Performance Resolution
Survey & AnalysisResource Trouble
Create Resource Trouble Report
Localize Resource Trouble
Correct & ResolveResource Trouble
Track & ManageResource Trouble
ReportResource Trouble
Close Resource Trouble Report
Monitor ResourcePerformance
Create ResourcePerformance
Degradation Report
Analyze ResourcePerformance
Control ResourcePerformance
Report ResourcePerformance
Close ResourcePerformance
Degradation Report
Track & ManageResource
Performance Resolution
q 장애 관리 체계 구축을 통해 Total Cost of Ownership을 절감시킬 수 있습니다.
7. 장애 관리 체계 구축 후 기대 효과
13
요구사항 정성적 기대 효과 정량적 기대 효과
명확한 장애 식별 가능함
장애 발생 시 조직 배분이용이함
장애 등급에 따른 적절한조치 가능해 짐
장애 처리 역량이 강화됨
성과 연계를 통한 장애 예방 활동 강화됨
품질 수준 파악 가능(월간, 주간 장애 건수 비교)
장애 감지 시간 단축(10분à1분)
품질 수준 파악 가능(월간, 주간 등급별 장애 건
수)
장애 처리 시간 단축(1시간à30분)
장애 수를 줄일 수 있음(10건/월à0건/월)
체계적인관리를통한
TCO 절감실현
• 현행 시스템의 각종 이슈에 대한 장애관점의 정리
• 장애 식별 및 장애 범위 지정 필요함
• 적합한 장애 등급 여부 확인 및 처리방안 정의 필요함
• 장애 관리를 위한 조직 및 R&R이 요구됨
• 장애 관리 프로세스의 정립이 필요함
• 장애 및 문제에 대한 성과 측정 지표식별이 요구됨
• 여러 요소 중에서 장애 관리, 문제 관리의 적절한 분류가 필요함
• 장애에 대하여 문제의 분류 방법이 필요함
• 장애 등급에 대한 서비스 품질 관점의정의 필요함
• 문제 관리를 위한 조직 및 R&R이 요구됨
• 문제 관리 프로세스의 정립이 필요함
• 장애 및 문제에 대한 품질 지표 연계필요함