Top Banner
OpenStack как облако для Disaster Recovery Максим Боженко, CTO, Hystax
17

OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

Sep 12, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

OpenStackкакоблакодляDisasterRecovery

МаксимБоженко,CTO,Hystax

Page 2: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

ЧтотакоеDisasterRecovery

Page 3: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

«Аварийноевосстановление»илиDisasterRecovery

Ø РепликацияITинфраструктуры(физическиеивиртуальныемашины,сети)клиентаиготовностьс

минимальнойзадержкойвоссоздатьпоопределенномузаранеесценариюинфраструктурудля

бесперебойногофункционированиябизнесаклиента.

Ø Директивныйсроквосстановления(RPO) – времямеждупериодамирепликацииилимаксимальный

размерданных,которымиклиентготовпожертвоватьвслучаеаварии

Ø Директивноевремявосстановления(RTO) – время,котороепроходитотмоментареакциинааварию

довоссозданияинфраструктуры.Обычноэтотпараметррассматриваютдля случаявосстановления

одноймашины.

Page 4: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

Мировойбизнесежедневносталкиваетсясразличнымитипамиаварий…

Ø Внутренние:сбойиавариявоборудовании,ошибкаприложения,человеческаяошибка

Ø Внешние:отключениеэлектричества,кражаоборудования,пожар,воздействиевирусныхатак,чрезвычайныебедствияит.д.

…к которым,частооказываетсянеготов…

~59%Не имеют DR плана

$164KСредние потери в час

…несмотрянаежегоднорастущиеубытки.

ВызовыиндустриибесперебойнойработыIT

75%

14%

8% 3% Человеческаяошибка

Софтвернаяошибка

Отказоборудования

Стихийныебедствияидругие ~75%

Человеческие ошибки

Человеческиеошибки– доминирующаяпричинааварий.

Reputablestudieshaveconcludedthatasmuchas75%ofdowntimeistheresultofsomesortof humanerror.It'salwayseasytosay"lackoftraining,"buteventhebesttrainedpeoplestillmakemistakes…

Only41%ofmediumandlargeU.S.businessessaytheyhaveadisasterrecoveryandbusinesscontinuityplanandtestitregularly,accordingto InformationWeek's2014StateofEnterpriseStorageSurvey.

Downtimecostsarerisingdramatically.In2013,companiesthatexperiencedabusinessinterruptionlostanaverageofnearly $164,000perhour,comparedwithjust$100,000in2010,accordingtotheAberdeenGroup.

Page 5: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

Случайизжизни– GitLab,1февраля2017года

Ø Buttheissue escalatedintoemergencydatabasemaintenance afterdatawasdeletedaccidentally— followed

by anapparentinabilitytorestorethedatafrombackups,accordingtoaseriesoftweetsfrom

the @GitLabStatus account.

Ø AccordingtoTheRegister afoldercontaining300GBofliveproductiondata waserroneouslydeletedbyaGitLab

sysadmin— withjust 4.5GBremainingbythetimethedeletecommandwascancelled.

https://techcrunch.com/2017/02/01/gitlab-suffers-major-backup-failure-after-data-deletion-incident/

Page 6: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

Предпринимаемыедействия:

Ø HighAvailabilityузловбизнес-

приложенийиинфраструктуры

Ø Redundancyданныхиинфраструктуры

Ø Backupблочныхустройствмашин и

общихданных

Ø ИспользованиеDRрешенийи

проработкаDRпланов

ТрадиционныеBCDRстратегиииихслабыеместа

Слабыеместатрадиционныхрешений:

Ø ВысокаястоимостьоборудованиядляHA

иRedundancy

Ø Отсутствиеконсистентностисистеми

приложенийпритрадиционныхбэкапах

Ø ВысокиезначенияRecoveryPoint

Objective(RPO) и RecoveryTimeObjective

(RTO)

Ø Отсутствиерешениядляаварий,

связанныхсвируснымиатакамиили

человеческойошибкой

Page 7: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

• Репликация - внутренняя/внешняя;volume/disk-based

• Хранение - поблочно вдедуплицированном хранилище

• Планирование - написаниеDRплана

• Failover - поднятиебизнес-приложенияпоподготовленномуDRпланув

случаеаварииилидлятестированияилимиграции

• Возвратвproduction- миграциявосстановленногоприложения

обратновисходноеокружение/отвязкаотAcuraвслучаемиграции

ЭтапыработыDRрешения

Page 8: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

РепликациязащищаемыхмашинвAcura

WindowsInternal,Volume

физическиемашины,Openstack,Virtuozzo

• VSSснапшоты свызовомVSSWriters(SQLServer,ExchangeServer)

• ВозможностьвызоваAPIдлясбросаданныхпользовательскихприложений

• Засечение измененийспомощьюсобственнойбиблиотекиVSSDeltaTracker

LinuxInternal,Disk

физическиемашины,Openstack,Virtuozzo

• Снапшоты блочныхустройствспомощьюсобственногодрайвера

• ВозможностьвызоваAPIдлясбросаданныхпользовательскихприложений

• Засечение изменениймеждуснапшотамисамимдрайвером

vSphere/ESXiExternal,DiskWindows,Linux

• Снапшоты машиниспользуяVMWareAPI

• Работаиспользуяquiesceснапшоты

• Засечение измененийиспользуяVMWareCBTAPI

Page 9: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

DisasterRecoveryвOpenStack

Page 10: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

Компоненты,используемыевOpenStack

Page 11: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

Cinder

Ø Воссозданиеисходнойразметкидляvolume-basedреплик

Ø iSCSItargetдлякаждогореплицированногодиска

Ø Copy-on-Writeдляданных,полученныхвпроцессеработывосстановленноймашины

Ø ИспользованиенакопленныхданныхвFailbackсценарии

Ø Специальный Cinderдрайвердляподключения

Page 12: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

Neutron

Ø Восстановлениеисходныхподсетей

Ø СохранениеисходныхIP

Ø Использованиесвободногоадресногопространствадляподнятияслужебноймашины

Page 13: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

Nova

Ø ЗагрузкассозданныхCinderтомов

Ø Необходимапредварительнаяподготовкамашинкзагрузке:

Ø Дляvolume-basedреплик– восстановлениеисходнойразметки,склейкатомоввдиски

Ø Windows– установкаVirtIO драйверов

Ø WindowsGPT– подготовкакзагрузкеUEFI

Ø Сетевыенастройки– привязканастроеккновымустройствам

Page 14: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

Heat

Ø HeatдаетвсечтонеобходимодляDR плана,нослишкомсложен

Ø ИспользуемпростойформатDRпланасавтогенерацией шаблонаизреплицированныхмашин

Ø ПреобразуемнашDRplanвHeatOrchestrationTemplate

Ø Дляуниверсальности– HeatвключенвсоставAcura

Page 15: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

DisasterRecoveryпланиHeat

Page 16: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

Ø HystaxAcura написаннаPython иС++.

Ø ПолноепокрытиеRESTAPI.

Ø СерверныекомпонентызапакованывDocker контейнеры.

Ø Агентыклиентскойчастинафизическихмашинахзапускаютсяввидесервисовна

Windows/Linux.

Ø vSphereагент– VMWareмашинаразворачиваемаянакаждыйESXi хост.

Ø Мониторинг/Алерты:TICKstack

Ø Хранениеипоискпологам:ELK

Ø Вкачествесистемыуправленияоблакомдляаварийноговосстановлениямашиниспользуется

OpenStackLiberty,Mitaka,Newton,Ocata (гипервизорKVM).

ОсновныетехническиехарактеристикиAcura

Page 17: OpenStack как облако для Disaster Recovery · 2017. 7. 5. · Случай из жизни – GitLab, 1 февраля 2017 года Ø But the issue escalated into emergency

МаксимБоженко

Email:[email protected]

Skype:mbozhenko

https://linkedin.com/in/mbozhenko

Контакты