Що буде з даними, якщо датацентр опиниться в зоні стихійного лиха

30 квітня •

4 читачі

Повінь, землетрус, ураган або пожежа можуть знищити серверну інфраструктуру за лічені хвилини. Те, що відбудеться з даними після цього, залежить від одного: наскільки добре центр обробки даних спроєктований для роботи в екстремальних умовах.

У цій статті команда датацентру GigaCenter розповість про те, які загрози є найнебезпечнішими та які інженерні рішення реально захищають дані від втрати.

Реальні лиха, з якими стикалися ЦОД

Стихійні лиха є причиною кожного третього інциденту з простоєм датацентрів — близько 33,9% від усіх зафіксованих випадків. Механізми руйнування при цьому різні.

Повінь — один із найнебезпечніших сценаріїв, оскільки вода уражає не лише обладнання, а й резервні системи живлення.

Під час урагану «Сенді» у 2012 році центр обробки даних компанії Peer 1 у Нью-Йорку зіткнувся з ситуацією, яку менеджмент не передбачив. Через відключення електроенергії сервери, розташовані на другому поверсі, перемкнули на генератори й вони продовжили працювати.

Проте вода затопила підвал, де зберігалося паливо для генераторів і помп. Таким чином шторм вивів з ладу міську електромережу та навіть резервну систему самого датацентру.

Блискавки показово руйнують репутацію навіть надійних провайдерів.

У 2015 році електричний розряд з неба чотири рази вдарив в один із європейських ЦОД Google, що призвело до серйозних збоїв на п'яти відсотках дисків, які обслуговували екземпляри Google Compute Engine.

За оцінками, безповоротно втраченим виявилося приблизно 0,000001% даних, що торкнулося кількох клієнтів. Дрібна цифра, але лише тому, що за нею стоїть масштабна резервна інфраструктура.

Землетруси є ще однією серйозною загрозою, адже можуть повністю знищити саму будівлю. Так у Токіо у 2011 році негода спричинила значні збої в хмарній і IT-інфраструктурі Японії, що вплинуло на фінансові ринки й міжнародний бізнес.

Дослідження компанії Zenium Technology Partners 2015 року виявило, що половина майданчиків у світі не переживе стихійні лиха без збоїв, а клієнти будуть відключені від сервісів на години або навіть дні.

Як датацентр готують до катастрофи

Вибір місця розташування

Проєктування стійкого об'єкта починається задовго до закладення фундаменту.

Провідні провайдери розміщують датацентри за межами потенційних зон затоплення і значних сейсмічних зон, використовують підвищені платформи та розвинені дренажні системи, а також проєктують будівлі для роботи при температурах щонайменше до 49°C.

Є й менш очевидний аспект: підняття обладнання дає захист від повені, але може бути недоцільним у сейсмічних зонах, де додаткова вага на верхніх поверхах збільшує структурну вразливість.

Тобто жодного універсального рішення не існує — кожен майданчик вимагає індивідуального аналізу ризиків.

Конструктивне зміцнення

Для захисту від землетрусів і сильних вітрів використовуються армований сталевий каркас і залізобетон. Сейсмічні датчики забезпечують попередження в реальному часі, кліматичний моніторинг відстежує температуру, вологість та інші параметри всередині об'єкта.

У сейсмічних зонах застосовується базова ізоляція — спеціальні підвіси й амортизатори між фундаментом і конструкцією, які дозволяють будівлі рухатися незалежно від ґрунту.

Серверні стійки в таких зонах монтуються на конструкціях, що рухаються незалежно від будівлі, а сама будівля проєктується за сейсмостійкими принципами.

Резервне живлення

Розгортання кількох джерел живлення — резервних генераторів і джерел безперебійного живлення (ДБЖ) — є обов'язковим елементом захисту від перебоїв, що зазвичай супроводжують стихійні лиха.

Проте одного обладнання недостатньо: потрібна логістика. Під час зимової бурі в Техасі один із провайдерів заздалегідь поповнив запаси палива і домовився про постачання з інших штатів. Попри повідомлення про затримки, жодних перебоїв у роботі датацентрів не сталося.

Facebook підтримує запас палива для резервних генераторів на 48 годин і більше. Це стандарт, на який орієнтуються великі гравці.

Пожежний захист

Система VESDA (Very Early Smoke Detection Apparatus) використовує лазерне виявлення для ідентифікації диму до того, як виникне відкрите полум'я.

Газові системи пожежогасіння на основі FM-200, Novec 1230 або CO₂ не пошкоджують обладнання на відміну від водяних систем, які можуть знищити сервери так само ефективно, як і вогонь.

RPO і RTO: метрики, які визначають реальний ризик втрати даних

Технічна стійкість будівлі — лише частина захисту. Другий вимір — наскільки швидко і з яким обсягом втрат організація може відновити роботу після катастрофи. Тут у гру входять два стандартні показники.

RPO (Recovery Point Objective) визначає максимально допустиму давність даних при відновленні — тобто скільки даних компанія може дозволити собі втратити. Завдяки сучасним технологіям реплікації RPO може досягати 5–10 секунд.

RTO (Recovery Time Objective) — максимально допустимий час простою до повного відновлення систем. Згідно зі звітом Uptime Institute за 2024 рік, 20% значущих інцидентів з простоєм обходяться компаніям у понад мільйон доларів.

Фреймворк кібербезпеки NIST 2.0, опублікований у лютому 2024 року, визначає RTO і RPO як обов'язкові компоненти у функції відновлення (Recover).

Для досягнення низького RPO використовують синхронну реплікацію — дані записуються одночасно в основне і резервне сховища в реальному часі.

Для менш критичних систем застосовують асинхронну реплікацію — дешевше, але з ризиком часткової втрати даних при аварії.

Географічна реплікація: єдиний надійний захист від регіональної катастрофи

Жодне інженерне рішення всередині одного датацентру не захистить дані, якщо сам об'єкт буде фізично знищений або відрізаний від зовнішнього світу. Єдиний гарантований захист від регіональної катастрофи — географічно розподілена реплікація.

Зберігання даних у хмарі або в географічно віддалених датацентрах гарантує збереження інформації навіть у разі ураження локальної інфраструктури.

Стандартна відстань між основним і резервним майданчиком у серйозних провайдерів становить від 200 км — достатньо, щоб регіональна катастрофа не торкнулася обох об'єктів одночасно.

AWS, наприклад, реалізує реплікацію між кількома зонами доступності в межах одного регіону — це забезпечує стійкість до відмови цілого датацентру через технічну помилку, кібератаку або стихійне лихо. При цьому кожна зона доступності ізольована від збоїв в інших зонах того ж регіону.

Гарячий (hot), теплий (warm) і холодний (cold) резервні майданчики — три рівні готовності відновлення. Hot site підтримується в повністю робочому стані з реплікованими даними й може прийняти навантаження практично миттєво.

Cold site — просто підготовлений простір, де відновлення займе дні. Вибір між ними — компроміс між вартістю і допустимим часом простою.

Висновок

Захист даних від стихійних лих — це багаторівнева система з правильним місцем розташування об'єкта, сейсмо- і вогнестійкою конструкцією, резервним живленням з паливним запасом, газовим пожежогасінням, географічною реплікацією і чітко відпрацьованими планами відновлення.

Стихійне лихо — це розрахований ризик, до якого варто готуватися компаніям у вразливих регіонах. Для них питання не в тому, чи станеться катастрофа, — а в тому, чи були дані захищені до того, як вона сталася.