Files
knowledge-base/DATACENTERS.md
Stanislav Hubacek b53714113c new files
2026-06-16 15:47:45 +02:00

56 KiB
Raw Permalink Blame History

🏭 Datová centra

Tier klasifikace (TIA-942 / Uptime Institute)

Tier Dostupnost Downtime / rok Redundance
Tier I 99.671 % 28.8 h N — bez redundance
Tier II 99.741 % 22.7 h N+1 — redundantní komponenty
Tier III 99.982 % 1.6 h N+1 — současně udržovatelné
Tier IV 99.995 % 26.3 min 2N+1 — fault tolerant

Klíčové subsystémy

Systém Popis
Power UPS, generátory (diesel), ATS, PDU, redundantní přívody (A/B feed)
Cooling CRAC/CRAH, chilled water, free cooling, containment (hot/cold aisle)
Fyzická bezpečnost Kamerový systém, biometric access, mantrap, bezpečnostní zámky racků
Cabling Structured cabling (Cat6A/7/8, OM3/OM4 single-mode fiber), patch panely
Fire suppression Poplach, inertní plyny (Novec, FM-200), VESDA (very early smoke detection)
Monitoring DCIM (Data Center Infrastructure Management), SNMP, BMS (Building Management System)

Aisle containment

         ┌────────────────────────────────────┐
         │             Rack Row               │
         │ ┌──┐ ┌──┐ ┌──┐ ┌──┐ ┌──┐ ┌──┐  │
Cold     │ │  │ │  │ │  │ │  │ │  │ │  │  │ Cold
Aisle <──│ └──┘ └──┘ └──┘ └──┘ └──┘ └──┘  ──> Aisle
         │ ┌──┐ ┌──┐ ┌──┐ ┌──┐ ┌──┐ ┌──┐  │
Hot      │ │  │ │  │ │  │ │  │ │  │ │  │  │ Hot
Aisle ──>│ └──┘ └──┘ └──┘ └──┘ └──┘ └──┘  <── Aisle
         └────────────────────────────────────┘

Environmental třídy (ASHRAE TC 9.9)

ASHRAE Technical Committee 9.9 definuje teplotní a vlhkostní obálky pro IT zařízení v DC.

Třída Teplota (doporučeno) Teplota (allowable) Použití
A1 18-27 °C 15-32 °C Enterprise DC, přísná kontrola
A2 18-27 °C 10-35 °C Běžné DC
A3 18-27 °C 5-40 °C Volnější prostředí
A4 18-27 °C 5-45 °C Maximální úspora chlazení
H1 18-22 °C 5-25 °C High-density air-cooled (AI/ML)
    1. edice (2021) přidala třídu H1 pro high-density a rozšířila liquid cooling W-třídy (W17, W27, W32, W40, W45, W+)
  • 2024: nové S-třídy pro Technology Cooling System (TCS) chlazení kapalinou
  • Vlhkost: doporučeno 9 °C DP až 70 % RH (při nízkých polutantech); max 50 % RH při vysoké korozivitě

Power

Power chain

Grid ──> Transformer ──> UPS ──> PDU ──> Rack PDU ──> Server PSU
                           │
                           ├──> Generator (ATS přepíná při výpadku)
                           └──> STS/ATS (Static Transfer Switch)

A/B feed topology:

Grid A ──> UPS A ──> PDU A1 ──> Rack PDU A ──> PSU A (server)
                                    │
Grid B ──> UPS B ──> PDU B1 ──> Rack PDU B ──> PSU B (server)

Každý server má 2 PSU — každá napájena z jiné větve (A/B). Při výpadku jedné větve server pokračuje bez přerušení.

UPS typy

Klasifikace IEC 62040-3 Popis Přepínání Use case
VFD (Voltage & Frequency Dependent) Passive standby UPS v bypassu, při výpadku přepne na invertor 4-10 ms SOHO, edge
VI (Voltage Independent) Line-interactive Regulace napětí přes autotransformátor 2-4 ms Menší racky, office
VFI (Voltage & Frequency Independent) Double-conversion AC → DC → AC, plná izolace, žádný přepínací čas 0 ms Enterprise DC, Tier III/IV

Pro DC je standard VFI (double-conversion) — online UPS, nulový přepínací čas, plná izolace od sítě.

Battery technologies

Typ Hustota (Wh/L) Životnost (cykly) Životnost (roky) Teplota Cena/kWh Poznámka
VRLA (AGM/Gel) 50-80 200-500 3-5 20-25 °C ~$150-200 Levné, velké, těžké, citlivé na teplotu
Li-ion (LFP) 200-350 3000-5000 10-15 0-40 °C ~$300-500 Malé, lehké, dlouhá životnost, BMS nutný
Li-ion (NMC) 250-400 1000-2000 8-12 0-40 °C ~$250-400 Vyšší hustota, riziko thermal runaway
NiCd 80-150 1000-2000 10-15 20-50 °C ~$400-600 Extrémní teploty, paměťový efekt
Flow battery (V/Zn/Br) 20-40 10,000+ 20+ 10-35 °C ~$500-800 Neomezené cykly, velké, dlouhodobé zálohování

Li-ion (LFP) se stává standardem pro nové DC díky delší životnosti, menšímu půdorysu a lepšímu chování při vysokých teplotách.

Generator sizing

Varianta Velikost Fuel Start time Run time Use case
Diesel 500-2500 kVA Diesel (Nafta) 10-30 s 24-72 h (dle nádrže) Standard pro enterprise DC
Nat. gas 200-1500 kVA Zemní plyn 10-30 s Neomezeno (plynovod) Méně časté, nižší emise
CHP (cogeneration) 500-2000 kVA Zemní plyn 5-15 min Neomezeno Kombinace power + cooling (absorption chiller)

Sizing: Generator by měl pokrýt 100 % IT loadu + 100 % cooling loadu (vč. chillerů) — typicky 1.3-1.8× IT load. Dieselová nádrž min. na 24 h provozu, běžně 48-72 h. Denní spotřeba ~0.3-0.4 L/kWh.

ATS vs STS

Vlastnost ATS (Automatic Transfer Switch) STS (Static Transfer Switch)
Přepínání 4-10 ms (mechanické relé) < 4 ms (tyristorové)
Životnost ~10,000 přepnutí Neomezená (solid-state)
Cena Nízká Vysoká (~3-5× ATS)
Use case Generátor → UPS feed Mezi dvěma UPS výstupy

PDU typy

Typ Popis Use case
Basic Pasivní rozbočení (no monitoring) Edge, office
Metered Měření proudu na úrovni PDU Standard DC
Monitored Měření per outlet, SNMP, web GUI Enterprise DC
Switched On/off per outlet, remote reboot Enterprise DC, colo
High-density 3-phase, 60-100 A, C19 outlets GPU/HPC/AI racky

Power calculation

Total Power = Σ(P_server + P_storage + P_network + P_cooling + P_losses)

P_server = P_idle + (P_max - P_idle) × Utilization%
P_cooling = P_IT / PUE

Příklad:
  100 serverů × 500 W (avg) = 50 kW IT load
  PUE = 1.5 → celkem 75 kW
  UPS + generátor → dimenzováno na 75 kW × 1.2 (safety factor) = 90 kW

PUE (Power Usage Effectiveness)

PUE = Total Facility Energy / IT Equipment Energy
PUE Efektivita Typ
1.0-1.1 Vynikající Hyperscale (Google, Meta)
1.1-1.3 Velmi dobrý Moderní DC
1.3-1.6 Dobrý / průměr Enterprise DC
1.6-2.0 Podprůměr Starší DC
>2.0 Špatný Legacy

PUE se měří na úrovni celého DC, nikoliv per rack. Zahrnuje: UPS ztráty, chlazení, osvětlení, ztráty v rozvodu. Nezahrnuje: výrobu paliva (well-to-tank), embodied carbon. Cíl pro moderní DC: PUE < 1.2.

WUE a CUE

Metrika Popis Vzorec Cíl
WUE (Water Usage Effectiveness) Spotřeba vody na IT energii WUE = Annual Water Usage / IT Energy (L/kWh) < 0.5 L/kWh
CUE (Carbon Usage Effectiveness) CO₂ emise na IT energii CUE = Total CO₂ / IT Energy (kg CO₂/kWh) < 0.2 kg CO₂/kWh

WUE je kritický v suchých oblastech (jihozápad USA, Austrálie, Střední východ). Adiabatické chlazení spotřebuje výrazně více vody než chlazení s uzavřeným okruhem.

3-phase vs Single-phase

Vlastnost Single-phase (230 V) 3-phase (400 V)
Napětí 230 V (L-N) 230/400 V (L-N/L-L)
Výkon per feed ~7.4 kW (32 A) ~22 kW (32 A, 3-f)
Efektivita Nižší (více ztrát) Vyšší (nižší proud)
Use case Menší racky, office Standard v DC, high-density
PDU Single-phase (C13/C19) 3-phase (C13/C19, 3-f monitoring)
Balancování Automatické Nutné balancovat fáze (L1/L2/L3)

Rack power density

Kat. Typ kW/rack Napájení Cooling
Nízká Office, storage 1-3 kW 1-f, 16 A Air (free cooling)
Střední Standard compute 5-10 kW 3-f, 32 A Air (CRAC/CRAH)
Vysoká GPU, HPC 15-30 kW 3-f, 60 A Air + liquid assist
Ultra AI/ML clusters 40-100+ kW 3-f, 100+ A Direct-to-chip / immersion

Rack PDU konektory

Konektor Max proud Typ zařízení
C13 10 A (250 V) Servery, switche, 1U
C19 16 A (250 V) Servery s vyšším výkonem, UPS
IEC 60309 (3-f) 16-125 A Rack PDU vstupy
NEMA L6-30 30 A (250 V) US spec

Cooling

Chlazení — přehled technologií

Technologie Typ Výkon (kW/rack) PUE typický CAPEX Use case
Free air cooling Air < 5 1.05-1.15 Nízký Klimaticky vhodné lokality
CRAC (DX) Air 5-10 1.4-1.8 Střední Menší DC, retrofit
CRAH (CW) Air 5-15 1.2-1.5 Vysoký Enterprise DC
In-row cooling Air 10-25 1.2-1.4 Vysoký High-density racky
Rear-door HX Hybrid 15-30 1.1-1.3 Střední Retrofity, GPU
Direct-to-chip Liquid 40-100+ 1.05-1.15 Vysoký AI/ML, HPC
Immersion (single-phase) Liquid 50-100+ 1.03-1.10 Vysoký Bitcoin, hyperscale
Immersion (two-phase) Liquid 100-200+ 1.03-1.08 Velmi vysoký Extreme density

Chilled water vs Direct Expansion (DX)

Vlastnost Chilled water (CW) Direct Expansion (DX)
Medium Voda + glycol Freon (R134a, R410A, R454B)
CRAC/CRAH CRAH (Coolant-based) CRAC (refrigerant compressor)
Efektivita Vyšší (COP 5-7) Nižší (COP 2-4)
Teplota vody 7-12 °C (standard), 18-22 °C (high-temp) 5-10 °C (evaporator)
Komplexita Vyšší (chillers, pumps, pipes, cooling tower) Jednodušší
Údržba Vyšší (vodní úprava, prevence legionely) Nižší
Use case Velké DC > 500 kW, enterprise Menší DC, edge, retrofit

Containment typy

Typ Popis Efektivita Implementace
Cold aisle containment (CAC) Uzavřená studená ulička, teplý vzduch se vrací do místnosti Vysoká Dveře na koncích uličky, stropní panely
Hot aisle containment (HAC) Uzavřená teplá ulička, teplý vzduch jde přímo do zpátečky Vyšší Dveře + stropní panely, zpátečka do CRAH
Chimney / rear duct Každý rack má vlastní výfukový komín do stropu Nejvyšší Samostatné ducty per rack, nákladné
Open aisle Bez containmentu, studený a teplý vzduch se mísí Nízká Legacy, levné

Doporučení: CAC/HAC při hustotě > 5 kW/rack. HAC je o 5-10 % efektivnější než CAC (teplý vzduch je přímo odváděn, nemísí se s místností).

CFD modeling

Computational Fluid Dynamics (CFD) simuluje proudění vzduchu v DC před fyzickou implementací:

  • Identifikace hot spots (recirkulace teplého vzduchu do studené uličky)
  • Optimalizace pozice perforovaných dlaždic
  • Návrh bypass airflow (kabelové otvory, nezakryté pozice)
  • Simulace výpadku CRAH jednotky (what-if scénáře)
  • Nástroje: Future Facilities (6Sigma DC), Ansys Fluent, OpenFOAM

Free cooling

  • Air-side — nasávání venkovního vzduchu při vhodné teplotě (filtrace, humidifikace)
  • Water-side — využití chladné vody z venkovních chillerů (strainer cycle) bez kompresoru
  • Klimatické pásmo — free cooling využitelný ~2000-8000 hodin/rok podle lokality
    • Skandinávie: 7000-8000 h/rok
    • Střední Evropa: 4000-6000 h/rok
    • Jižní Evropa: 2000-4000 h/rok
  • Hybrid — kombinace free cooling + mechanical cooling (nejběžnější)
  • Economizer types: Class A1 (dry cooler), Class A2 (evaporative), Class B (air-side)

Liquid cooling detail

Typ Teplota vstupu Kapacita (kW/rack) Medium Instalace
Cold plate (D2C) 20-45 °C 40-100+ Voda, propylenglykol CDU per rack nebo per row
Rear-door HX 18-27 °C 15-30 Voda Pasivní, bez úpravy serveru
Immersion (1-f) 35-50 °C 50-100+ Dielektrický olej Nádrž, CDU, heat exchanger
Immersion (2-f) 25-35 °C 100-200+ Dielektrikum (var) Nádrž + kondenzátor

CDU (Coolant Distribution Unit):

  • Zajišťuje teplotu a tlak chladiva do racků
  • Primární okruh (facility water) + sekundární okruh (rack coolant)
  • Dimenzování: 1 CDU na 4-8 racků (40-100 kW per CDU)
  • Redundance: N+1 CDU, dual coolant loops

Water quality requirements:

  • Vodivost: < 1 µS/cm (demineralizovaná voda)
  • pH: 6.5-8.0
  • Částice: < 50 µm (filtrace)
  • Prevence koroze: inhibitory, glykol (10-30 %)
  • Prevence biologického růstu: UV, biocidy

Adiabatic cooling

Využití odpařování vody pro ochlazení vzduchu:

  • Direct adiabatic — vzduch prochází vodou (media pad), ochlazuje se a zvlhčuje
  • Indirect adiabatic — vzduch se ochlazuje přes heat exchanger bez přímého kontaktu s vodou
  • Spotřeba vody: 3-5 L/kWh (direct), 1-2 L/kWh (indirect)
  • Účinnost závisí na vlhkosti vzduchu — v suchém klimatu efektivnější

Kabeláž a structured cabling

TIA-942 cabling hierarchy

Entrance Room (ER)
    │
    ├── Backbone cabling (fiber single-mode / multi-mode)
    │       │
    │       ├── Main Distribution Area (MDA)
    │       │       │
    │       │       ├── Horizontal Distribution Area (HDA)
    │       │       │       │
    │       │       │       └── Equipment Distribution Area (EDA) → rack
    │       │       │
    │       │       └── Intermediate Distribution Area (IDA) — volitelný
    │       │
    │       └── Telecommunication Room (TR) — pro office
    │
    └── Backbone cabling (fiber / copper)

Copper cabling categories

Kategorie Frekvence Rychlost Délka Konektor Use case
Cat5e 100 MHz 1 GbE 100 m RJ45 Legacy, voice
Cat6 250 MHz 1 GbE (10 GbE do 55 m) 100 m (10 GbE: 55 m) RJ45 Běžné DC, enterprise
Cat6A 500 MHz 10 GbE 100 m RJ45 Standard pro nové DC
Cat7 (GG45) 600 MHz 10 GbE 100 m GG45/TERA Niche, nahrazen Cat6A/8
Cat8.1 2000 MHz 25/40 GbE 30 m RJ45 Top-of-rack, storage
Cat8.2 2000 MHz 25/40 GbE 30 m GG45/TERA Top-of-rack, storage

V DC se standardně používá Cat6A (10 GbE do 100 m) pro horizontální rozvody. Cat8 pouze pro propojky v rámci racku (do 30 m).

Fiber optic typy

Typ Core Modal BW Rychlost Max délka Use case
OS1 (SM) 9 µm 100 GbE - 800 GbE 10-80 km Backbone, campus, WAN
OS2 (SM) 9 µm 100 GbE - 800 GbE 2-80 km (CWDM/DWDM) Backbone, DWDM
OM1 (MM) 62.5 µm 200 MHz·km 1 GbE 275 m Legacy
OM2 (MM) 50 µm 500 MHz·km 10 GbE 82 m Legacy
OM3 (MM) 50 µm 2000 MHz·km 10 GbE do 300 m, 100 GbE do 100 m 300 m (10G) Standard DC, VCSEL
OM4 (MM) 50 µm 4700 MHz·km 100 GbE do 150 m, 400 GbE do 100 m 550 m (10G) Výkonný standard DC
OM5 (MM) 50 µm 4700+ MHz·km 200/400 GbE SWDM 150 m (100G) Emerging, SWDM

Pro nové DC: OM4 jako standard pro multi-mode, OS2 pro single-mode backbone (LR, DWDM). OM5 není široce nasazen — OM4 + paralelní optika (SR4) je běžnější.

Connector types

Konektor Typ Insertion loss Počet vláken Use case
LC Duplex < 0.15 dB 2 Standard pro SFP/SFP+/QSFP
SC Duplex < 0.2 dB 2 Starší instalace, patch panely
MPO/MTP (12-f) Multi-fiber < 0.35 dB 12/24 40/100/400 GbE paralelní
MPO/MTP (24-f) Multi-fiber < 0.5 dB 24 400 GbE (SR4.2, DR4)
SN Duplex (mini) < 0.15 dB 2 High-density (QSFP-DD, OSFP)
CS Duplex (mini) < 0.15 dB 2 High-density (QSFP-DD, OSFP)

MPO/MTP polarity

Metoda Popis Use case
Type A (Straight) Vlákno 1→1, 2→2, ... Duplex aplikace s cross-over na obou koncích
Type B (Crossed) Vlákno 1→12, 2→11, ... Paralelní optika (SR4, SR8) — standard
Type C (Pairs crossed) Páry 1-2→2-1, 3-4→4-3 40 GbE SR4 (4×10G)

Breakout kazety

MPO (12-f) ──> Breakout kazeta ──> 6× LC duplex (12 vláken = 6× duplex)
MPO (24-f) ──> Breakout kazeta ──> 12× LC duplex (24 vláken = 12× duplex)

Use case: Propojení MPO portu (switch) s LC porty (servery, storage). Kazety jsou v patch panelu, ne v aktivní cestě.

Copper vs fiber decision

Kritérium Copper (Cat6A/8) Fiber (OM4/OS2)
Dosah 30-100 m 100 m - 80 km
Rychlost 1-40 GbE 1-800 GbE
Cena transceiveru Nižší (RJ45) Vyšší (SFP+/QSFP)
Cena kabelu Nižší Vyšší (patch cord)
Spotřeba portu 2-5 W (25 GbE) 1-3 W (25 GbE SR)
Elektromagnetické rušení Citlivý Imunní
Váha (100 m) ~3-4 kg ~0.5-1 kg
Doporučení Do 30 m, server→ToR switch Backbone, storage, >30 m

Cabling best practices

  • Horizontal cabling: max 90 m permanent link + 10 m patch cords (TIA-942)
  • Fiber management: slack spools, cable managers, minimální poloměr ohybu 10× průměr kabelu
  • Color coding: OS1/OS2 (yellow), OM3 (aqua), OM4 (magenta/purple), OM5 (lime green)
  • Labeling: oba konce, patch panely, faceplates — standard ANSI/TIA-606-B
  • Overhead vs underfloor: overhead (ladder rack) je preferován v DC (lepší airflow, jednodušší změny)
  • MPO cassettes: plánovat 15-20 % rezervu vláken pro budoucí potřeby

Fyzická bezpečnost

Multi-layer security model (defense in depth)

Layer 1: Perimeter (plot, brána, stráže)
Layer 2: Building (zdi, zámky, CCTV, čtečky karet)
Layer 3: DC hall (biometrie, mantrap, CCTV, detekce pohybu)
Layer 4: Rack / Cage (elektronické zámky, senzory)
Layer 5: Data (šifrování, HSM, access control)

Access control

Metoda Faktor Úroveň Poznámka
RFID / proximity card Něco, co máte Standard Základní přístup, levné
Smart card (PKI) Něco, co máte + PIN Střední Certifikát na kartě, anti-passback
Biometric (fingerprint) Něco, co jste Vysoká Rychlý, hygienický (čtečky bez dotyku)
Biometric (palm/finger vein) Něco, co jste Velmi vysoká Těžko falšovatelný, bezkontaktní
Biometric (iris/retina) Něco, co jste Nejvyšší Velmi přesný, pomalý, drahý
Multi-factor 2+ faktory Nejvyšší Karta + biometrie + PIN — Tier IV DC

Mantrap design

Vnější dveře ──> Mantrap (prostor) ──> Vnitřní dveře
                     │
                     ├── Weight sensor (anti-tailgating)
                     ├── CCTV (obě dveře)
                     ├── Intercom (nouzový východ)
                     └── Motion detector (v mantrapu)
  • Otevírá se vždy jen jedny dveře
  • Anti-tailgating: váhový senzor detekuje více osob
  • Výstup (exit) přes breakout button + detekce pohybu
  • Nouzový východ: panic bar + alarm

CCTV

Prvek Doporučení
Rozlišení Min. 1080p, ideálně 4K (6 MP+)
FPS 15-30 FPS (záznam), 30+ FPS (realtime monitoring)
Retence Min. 30 dní (90 dní pro audit)
Storage NVR (on-prem), cloud (AWS KVS, Azure Video Indexer)
AI analytics Detekce obličeje, ANPR (poznávací značky), object detection
Zorné pole Každé dveře, každá ulička — bez slepých míst

Asset tracking

Technologie Přesnost Cena Use case
Barcode Rack-level Velmi nízká Manuální inventura
RFID (passive) Rack-level (door sweep) Nízká Automatická detekce otevření racku
RFID (active, UWB) 10-30 cm Střední Real-time tracking v reálném čase
Bluetooth BLE 1-3 m Nízká Orientační pozice
GPS 1-10 m Střední Venkovní tracking

DC layout a design

Raised floor vs Slab

Vlastnost Raised floor Slab (pevná podlaha)
Airflow Underfloor air distribution (zvednutá podlaha jako plénum) Overhead air, in-row cooling
Flexibilita Snadné přidání perforovaných dlaždic Omezené (nutné overhead cooling)
Hmotnost Limit 500-1000 kg/m² (závisí na výšce) Neomezené
Cena Vyšší (~$200-400/m²) Nižší (~$100-200/m²)
Výška 600-900 mm (standard), 900-1200 mm (high-density)
Trend Klesající (přechod na in-row/overhead cooling) Rostoucí (nové DC, high-density)

Moderní high-density DC (AI/ML, GPU) se odklánějí od raised floor k slab + overhead/in-row cooling — vyšší hmotnost racků (1000-2000 kg), nemožnost dostatečného airflow podlahou.

Rack layout a rozměry

Parametr Standard High-density Poznámka
Rack šířka 600 mm (19") 600-750 mm 750 mm pro GPU (kabeláž, chlazení)
Rack hloubka 1000-1200 mm 1200-1500 mm GPU servery, delší kabely
Rack výška 42U 48U / 52U Vyšší rack = lepší power density
Ulička šířka (studená) 1200-1500 mm 1500-1800 mm Servisní přístup, airflow
Ulička šířka (teplá) 900-1200 mm 1200-1500 mm Užší než studená
Max zatížení racku 500-800 kg 1000-2000 kg Nutné podlahové nosníky

Space planning

Pro Tier III DC (příklad):
  IT prostor: 1000 m²
    └── 20 řad × 10 racků = 200 racků při 42U
    └── 200 racků × 5 kW avg = 1 MW IT load
    └── PUE 1.4 → 1.4 MW facility
  Podpůrné prostory:
    └── UPS + baterie: 200 m²
    └── Generátory: 100 m² (venkovní)
    └── Chlazení (chillery, cooling tower): 300 m²
    └── Kanceláře, sklady, loading dock: 400 m²
  Celkem: ~2000 m² (50% IT, 50% support)

Zone approach (TIA-942)

Zóna Popis Přístup Security
Z1 (Veřejná) Recepce, kanceláře Volný Minimální
Z2 (Kancelářská) Administrativa, NOC Zaměstnanci + hosté RFID
Z3 (DC support) UPS, generátory, chlazení DC operátoři RFID + biometrie
Z4 (DC hall) Servery, storage, networking DC operátoři + schválení RFID + biometrie + mantrap
Z5 (Rack/cage) Konkrétní rack nebo cage Pouze oprávněný personál Elektronický zámek

Fire suppression

Detekce

Systém Typ Doba detekce Falešné poplachy Use case
VESDA (Very Early Smoke Detection) Aspirační, laserové čidlo < 30 s (4 stupně alarmu) Velmi nízké Standard pro DC
Spot detection Ionizační / optický kouřový detektor 2-5 min Střední Legacy, menší DC
Heat detection Tepelný detektor (teplota / rychlost nárůstu) 5-10 min Velmi nízké Záloha za VESDA
Line-type (LHD) Lineární tepelný kabel 2-5 min Nízké Cable trays, nad stropem

VESDA je standard — aktivní aspirace nasává vzduch z DC, laserové čidlo detekuje částice kouře ve 4 úrovních (Alert → Action → Fire 1 → Fire 2). Umožňuje zásah ještě před viditelným kouřem.

Suppression systémy

Systém Medium Výhody Nevýhody Typ DC
Novec 1230 (FK-5-1-12) Plyn Bezpečný pro lidi, nulový ODP, krátký atmospheric lifetime (5 dní) Vyšší cena Enterprise DC
FM-200 (HFC-227ea) Plyn Rychlý (10 s), účinný Vysoký GWP (3220), ODP nemá Legacy DC
Inergen (IG-541) Inertní plyn (52% N₂, 40% Ar, 8% CO₂) Zcela bezpečný, přírodní plyn Velké množství (objem), vysoký tlak Enterprise DC
Argonite (IG-55) 50% Ar, 50% N₂ Bezpečný, přírodní Velké množství, vyšší tlak Enterprise DC
Water mist Voda (jemná mlha) Chlazení, potlačení kouře, nízká cena Voda v DC (riziko), jen local application Retrofity
Pre-action sprinkler Voda Dvojí spuštění (detekce + sprinkler) Riziko vody, nutné odvodnění Tier I-II

Koncentrace: Novec (4-6 % objemu), FM-200 (7-9 %), Inergen (35-50 %). Novec a Inergen jsou bezpečné pro dýchání (min. 5-7 min evakuace).

Detekční zóny

DC hall ──> zóny po ~200 m² (max)
               │
               ├── VESDA (každá zóna vlastní aspirátor)
               ├── Kouřové detektory (podhled + podlaha)
               └── Heat detection (záložní)

DCIM (Data Center Infrastructure Management)

Co DCIM pokrývá

Oblast Metriky Výstup
Power Per PDU, per outlet, per rack, celkem Capacity planning, PUE, kW/rack
Cooling Teplota, vlhkost, airflow (senzory per rack) Hot spot mapy, airflow optimalizace
Asset Co je v kterém racku, U pozice, serial, warranty Asset inventory, lease management
Network Port utilization, patch panel propojení Patch management, port tracking
Space Volné U v racku, volné racky Capacity planning, "what-if" simulace

Nástroje

Nástroj Typ Platforma Cena Poznámka
Nlyte (Carrier) Enterprise DCIM On-prem / Cloud $$$ Tržní leader, complex
Sunbird DCIM Enterprise DCIM Cloud $$$ Power monitoring, asset tracking
Device42 DCIM + IPAM On-prem / Cloud $$ Integrovaný IPAM, CMDB
NetBox Open source DCIM On-prem Zdarma IPAM, DCIM, asset tracking
OpenDCIM Open source On-prem Zdarma Základní DCIM, asset management
RackTables Open source On-prem Zdarma Jednoduchý, asset + networking
Vendor-specific Dell OME, HPE OneView On-prem Součást hw Pouze daný vendor

Site selection

Kritéria pro výběr lokality DC

Kategorie Kritérium Váha
Power Dostupnost elektřiny (grid capacity), cena/kWh, možnost dvou nezávislých přívodů Vysoká
Connectivity Dostupnost fiber backbone, počet poskytovatelů konektivity, latency k major POP Vysoká
Přírodní rizika Zemětřesení, povodně, hurikány, tornáda, lesní požáry — historická data + predikce Vysoká
Klima Průměrná teplota, vlhkost (free cooling potenciál) Střední
Pracovní síla Dostupnost techniků, DC operátorů, network/admin inženýrů Střední
Daně a regulace Daňové pobídky, environmental regulations, stavební povolení Střední
Bezpečnost Kriminalita, politická stabilita, teroristické riziko Vysoká
Dopravní dostupnost Blízkost letiště, dálnice (pro dodávky HW, personál) Nízká

Přírodní rizika — mapování

Riziko Oblasti Mitigace
Zemětřesení Pacific Ring of Fire (CA, Japonsko, Chile) Base isolation, seismic bracing, flexibilní propojení
Hurikány Karibik, jihovýchod USA, jihovýchodní Asie Zesílená konstrukce, generátory nad úrovní záplav
Povodně Říční údolí, pobřežní oblasti Umístění mimo záplavovou zónu, bariéry
Lesní požáry Kalifornie, Austrálie, Středomoří Defenzivní zóny, filtrace vzduchu, monitoring

Power availability po regionech

Region Grid reliability Cena/kWh (industriální) Poznámka
Severní Evropa (SE, NO, FI) Vysoká (99.99 %) $0.04-0.08 Levná zelená energie, chladné klima
Střední Evropa (DE, NL, CZ) Vysoká (99.99 %) $0.10-0.20 Stabilní, renewables rostou
Východní USA (VA, NC) Vysoká $0.05-0.08 Největší DC hub (Ashburn, VA)
Západní USA (CA, OR) Střední (PG&E issues) $0.10-0.15 CALISO grid, blackout risk
Singapur Vysoká $0.15-0.20 Moratorium na nová DC (2023), voda
Dubai / UAE Vysoká $0.06-0.10 Levná energie, vysoká teplota (cooling)

Compliance a certifikace

Standard / Certifikace Oblast Popis
TIA-942 (Rated 1-4) DC design Klasifikace redundance, kabeláže, bezpečnosti (analogický k Uptime Tier)
Uptime Institute (Tier I-IV) DC design Provozní certifikace, konstrukční dokumentace
ISO 27001 ISMS Informační bezpečnost, řízení rizik
ISO 27701 Privacy Rozšíření ISO 27001 pro GDPR compliance
SOC 2 (Type I/II) Service org Controls: Security, Availability, Confidentiality, Integrity, Privacy
PCI DSS Platební karty Fyzická bezpečnost, přístup k cardholder data
HIPAA Zdravotnictví USA, ochrana zdravotních dat
FedRAMP US government Cloud service authorization, DC security
GDPR EU Ochrana osobních údajů, data residency
NIST SP 800-53 DC security Security control catalog pro US federal
ISO 14001 EMS Environmental management, sustainability

Sustainability

Uhlíková stopa DC

Celkové emise = Scope 1 (přímé) + Scope 2 (energie) + Scope 3 (dodavatelský řetězec)
  Scope 1: Generátory (diesel), úniky chladiva
  Scope 2: Nakoupená elektřina (grid mix)
  Scope 3: Výroba HW, transport, EOL recyklace (~60-80 % celkových emisí)

Redukce emisí

Opatření Dopad na PUE Snížení emisí Návratnost
Zvýšení teploty (22→27 °C) 0.1-0.2 10-20 % chlazení Ihned
Free cooling 0.1-0.3 20-40 % chlazení 1-2 roky
Liquid cooling 0.2-0.4 30-50 % chlazení 2-4 roky
LED osvětlení + senzory 0.01-0.02 < 1 % 1 rok
PPA (Power Purchase Agreement) 100 % Scope 2 Variabilní
Obnovitelné zdroje (solární na střeše) 5-15 % spotřeby 5-10 let
Zelený generátor (HVO biodiesel) 90 % CO₂ redukce +30 % fuel cost

Certifikace udržitelnosti

Certifikace Popis
LEED (BD+C: DC) U.S. Green Building Council — design a konstrukce
BREEAM UK, European sustainability assessment
Climate Neutral Data Centre Pact (EU) Self-regulatory, PUE < 1.4 do 2030
ISO 50001 Energy management system
Energy Star EPA, energetická účinnost (jen US)

Decision diagram — návrh DC topologie

flowchart TD
    Start(["DC design"]) --> TIER{"Požadovaný Tier?"}
    TIER -->|"Tier I / II"| T1["N / N+1 redundance<br/>Jednoduché napájení, single path<br/>CRAC/CRAH, free cooling<br/>PUE 1.4-1.6, cena 1×"]
    TIER -->|"Tier III"| T3["N+1, současně udržovatelné<br/>Dual path (A/B feed)<br/>Hot aisle containment<br/>PUE 1.2-1.4, cena 2×"]
    TIER -->|"Tier IV"| T4["2N+1, fault tolerant<br/>Dual redundant + STS<br/>Hot + cold containment<br/>PUE 1.1-1.3, cena 3×"]

    TIER --> POWER{"Power chain"}
    POWER -->|"UPS"| UPS{"UPS typ"}
    UPS -->|"Enterprise DC"| UPS1["VFI double-conversion<br/>Li-ion (LFP), 10-15 let<br/>N+1 nebo 2N modulární"]
    UPS -->|"Edge / office"| UPS2["VI line-interactive<br/>VRLA, 3-5 let"]
    POWER -->|"Generátor"| GEN["Diesel 500-2500 kVA<br/>Nádrž na 24-72 h<br/>ATS 4-10 ms přepnutí"]
    POWER -->|"PDU"| PDU["3-phase 400 V<br/>Monitored/Switched<br/>A/B feed do racků"]

    Start --> DENS{"Hustota výkonu"}
    DENS -->|"< 10 kW/rack"| COOL1["Air cooling<br/>CRAC/CRAH, raised floor<br/>Hot aisle containment<br/>ASHRAE A1-A2"]
    DENS -->|"10-25 kW/rack"| COOL2["Hybrid<br/>In-row cooling<br/>Rear door HX<br/>ASHRAE A1-H1"]
    DENS -->|"> 25 kW/rack"| COOL3["Liquid cooling<br/>CDU, direct-to-chip<br/>Immersion single/two-phase<br/>ASHRAE W-třídy"]

    Start --> CLIM{"Klimatická zóna"}
    CLIM -->|"Mírná (ČR, DE)"| FC1["Free cooling 4000-6000 h/rok<br/>Chiller + economizer<br/>PUE saving 0.2-0.3"]
    CLIM -->|"Teplá (ES, US South)"| FC2["Chiller celoročně<br/>Adiabatic cooling<br/>PUE 1.3-1.6"]
    CLIM -->|"Chladná (SE, NO)"| FC3["Free cooling 7000+ h/rok<br/>Air-side economizer<br/>PUE < 1.2"]

Topologie sekundárního datového centra

Při plánování druhého DC je klíčová volba topologie podle vzdálenosti, RPO/RTO a rozpočtu.

Klasifikace vzdáleností

Kategorie Vzdálenost Latence (round-trip) Use case
Metro (Campus) 120 km < 1 ms Synchronní replikace, stretched cluster
Metro 20100 km 15 ms Metro cluster, většinou sync replikace
Regional 100500 km 520 ms Asynchronní replikace, warm standby
Continent 5003000 km 20100 ms Asynchronní replikace, cold standby
Global 3000+ km > 100 ms Pouze async, žádné real-time závislosti

Topologie podle provozního režimu

Active-Active (Hot-Hot)

DC-A (Primary)                 DC-B (Active)
┌────────────────────┐        ┌────────────────────┐
│  App Active        │        │  App Active        │
│  DB Active         │◄─sync─►│  DB Active         │
│  Users → LB → A    │        │  Users → LB → B    │
└────────────────────┘        └────────────────────┘
           │                         │
           └──── Global Load Balancer ────┘
Parametr Hodnota
RTO 0vteřiny (automatický failover, traffic se přesměruje)
RPO 0 (sync replikace, commit je potvrzen až po zápisu do obou DC)
Max distance < 100 km (latence < 5 ms RTT pro sync DB replikaci)
Provozní náklady 2× (obě DC plně aktivní, obě plně vybavené)
Výhody Nulový výpadek, okamžité přepnutí, plné využití obou DC
Nevýhody Nutná synchronní replikace → limit vzdálenosti, komplexní networking, split-brain risk

Split-brain řešení: STONITH (Shoot The Other Node In The Head), watchdog, quorum (3. node v 3. lokaci / cloud), fencing, SCSI-3 persistent reservation.

Use case: Finanční služby, telco, platební brány — kde i minuta výpadku = miliony.

Active-Passive (Hot-Warm, MetroCluster)

DC-A (Primary)                 DC-B (Standby)
┌────────────────────┐        ┌────────────────────┐
│  App Active        │        │  App Standby       │
│  DB Primary        │──sync──►│  DB Standby        │
│  Users → LB → A    │        │  ~~~ (čeká) ~~~    │
│  DNS: A-record     │        │  DNS: health check │
└────────────────────┘        └────────────────────┘
Parametr Hodnota
RTO desítky vteřinminuty (DNS failover + startup App)
RPO 0 (sync) nebo sekundy (async)
Max distance sync < 100 km, async neomezeně
Provozní náklady 1,51,8× (druhé DC má zmenšený nebo idle compute)
MetroCluster Specifická implementace: FC SAN přes DWDM, sync mirror, automatický failover

MetroCluster (NetApp, Dell EMC, HPE):

  • Storage-based cluster se synchronním mirroringem mezi DC
  • Automatic failover při selhání celého DC
  • Vyžaduje dedikované DWDM nebo dark fiber propojení
  • Typická vzdálenost: do 50 km (pro latenci < 1 ms RTT)
  • Use case: enterprise storage, primary+secondary DC v metropolitní oblasti

Hot-Cold (Warm Standby → Cold)

DC-A (Primary)                 DC-B (Cold Standby)
┌────────────────────┐        ┌────────────────────┐
│  App Active        │        │  ~~~ powered off ~~~│
│  DB Active         │──async─►│  Backup storage    │
│  Users → A         │        │  ~~~ no compute ~~~│
└────────────────────┘        └────────────────────┘
Parametr Hodnota
RTO hodinydny (nákup/najmutí HW, obnova z backupu)
RPO hodiny (poslední backup)
Max distance neomezena
Provozní náklady 1,11,3× (jen storage a facility, compute až při failoveru)
Typ use case Low-cost DR, compliance, poslední záchrana

Pilot Light

DC-A (Primary)                 DC-B (Pilot Light)
┌────────────────────┐        ┌────────────────────┐
│  App Active        │        │  ~~~ off ~~~       │
│  DB Active         │──async─►│  DB replica (mini) │
│  Všechny služby    │        │  Core services jen │
│                    │        │  (DNS, LDAP, mon)  │
└────────────────────┘        └────────────────────┘
                              Při DR: spin-up compute
                              z IaC, zbytek z backupu
  • DC-B běží s minimem compute (jen core služby a DB replica)
  • Aplikační vrstva se spin-up z IaC (Terraform, Ansible) až při DR
  • Kompromis mezi náklady a RTO

Srovnávací tabulka

Topologie RTO RPO Náklady (× primár) Max distance Failover
Active-Active 0s 0 2,0× < 100 km Auto (traffic)
MetroCluster smin 0 1,82,0× < 50 km Auto (storage)
Active-Passive (sync) min 0 1,51,8× < 100 km Polo-auto
Active-Passive (async) minh smin 1,31,5× neomezena Polo-auto
Pilot Light h minh 1,21,4× neomezena Manuální
Warm Standby minh smin 1,51,8× neomezena Polo-auto
Cold Standby dny h 1,11,3× neomezena Manuální

Stretched Cluster

┌──── Site A (50 km) ────┐    ┌──── Site B ──────────┐
│  ┌──────────────────┐   │    │  ┌──────────────────┐ │
│  │  ESXi / Hyper-V  │   │    │  │  ESXi / Hyper-V  │ │
│  │  VM               │   │    │  │  VM (komplement) │ │
│  └────────┬─────────┘   │    │  └────────┬─────────┘ │
│           │             │    │           │            │
│  ┌────────▼─────────┐  │    │  ┌────────▼─────────┐  │
│  │  Storage (SAN)   │──┼────┼──│  Storage (SAN)   │  │
│  │  MetroCluster    │  │    │  │  MetroCluster    │  │
│  └──────────────────┘  │    │  └──────────────────┘  │
└────────────────────────┘    └────────────────────────┘
                │
          ┌─────▼──────┐
          │  vCenter / │
          │  Cluster   │
          │  (single)  │
          └────────────┘
  • Jeden cluster roztažený přes dvě lokality (single management domain)
  • VM mohou live-migrovat mezi site (vMotion nad vzdálenost)
  • Storage synchronně mirrorovaná (MetroCluster, VPLEX, vSAN延伸)
  • Požadavky: dark fiber / DWDM, nízká latence (< 5 ms), vysoká spolehlivost linky
  • Riziko: split-brain, brain drain (split-site cluster), závislost na síti
  • Use case: enterprise s vlastní dark fiber mezi dvěma DC v metropolitní oblasti

Rozhodovací strom

flowchart TD
    Start(["Sekundární DC"]) --> RPO{"Požadované RPO?"}
    RPO -->|"0 (žádná ztráta dat)"| SYNC{"Sync replikace možná?"}
    SYNC -->|"Ano, < 100 km"| ACT{"Chceš nulový výpadek?"}
    ACT -->|"Ano"| AA["Active-Active<br/>RTO=0, RPO=0, 2× náklady"]
    ACT -->|"Ne"| AP["Active-Passive<br/>RTO=min, RPO=0, 1,5×"]
    SYNC -->|"Ne, > 100 km"| ASYNC["Active-Passive (async)<br/>RTO=min, RPO=s, 1,3×"]

    RPO -->|"minutyhodiny"| WARM{"Chceš rychlý failover?"}
    WARM -->|"Ano"| PILOT["Pilot Light<br/>RTO=h, RPO=min, 1,2×"]
    WARM -->|"Ne"| COLD["Cold Standby<br/>RTO=dny, RPO=h, 1,1×"]

    Start --> DIST{"Vzdálenost mezi DC"}
    DIST -->|"< 50 km, vlastní fiber"| MC["MetroCluster / Stretched Cluster<br/>Single management, sync storage"]
    DIST -->|"50300 km"| REG["Regionální DR<br/>Active-Passive, async replikace"]
    DIST -->|"> 300 km"| GLOBAL["Globální DR<br/>Cold standby, backup & restore"]

Fyzická infrastruktura pro propojení DC

Technologie Bandwidth Max distance Latence Use case
Dark fiber 100 GbE800 GbE 1080 km (single-mode) < 0,1 ms MetroCluster, stretched cluster
DWDM 400 GbE1,6 TbE (per lambda) 80120 km (bez zesilovače) < 0,5 ms Metro, metro cluster
CWDM 1025 GbE (per channel) 1040 km < 0,3 ms Campus, menší metro
MPLS L2VPN 10100 GbE neomezena 110 ms Regional DR, async replikace
Internet IPsec 110 GbE neomezena 550 ms Cold standby, backup

Vliv jednotlivých technologií na výběr DC topologie

Volba topologie sekundárního DC není čistě infrastrukturní rozhodnutí — každá vrstva (DB, hypervisor, orchestrace, messaging) přináší vlastní omezení.

Databáze

DB technologie Sync replikace Max distance Auto-failover Split-brain řešení Poznámka
PostgreSQL Synchronous commit (synchronous_standby_names) < 100 km (latence < 10 ms) Patroni / repmgr + etcd Quorum (etcd, 3+ node) Streaming replication, nutné wal_keep_segments
MySQL Group Replication (multi-primary, single-primary) < 100 km MySQL InnoDB Cluster + MySQL Router Paxos (Group Replication, 3+ node) Semi-sync jako kompromis
Oracle Data Guard (SYNC/FASTSYNC/ASYNC), RAC extended sync < 100 km, async neomezena Data Guard Broker / FSFO (Fast Start Failover) Observer (3. node) Far Sync pro vzdálená DC
MSSQL AlwaysOn Availability Groups (SYNCHRONOUS_COMMIT) < 100 km AlwaysOn + Cluster quorum File share majority / cloud witness Multi-site cluster podpora
MongoDB Majority write concern + journaling < 100 km Replica set auto-election Arbitration node (voting member) Priority-based failover
Cassandra N/A (multi-master, eventual consistency) neomezena Ano (peer-to-peer) Žádné (multi-master, gossip protokol) Snitch-aware topologie, NetworkTopologyStrategy
Redis Redis Sentinel / Redis Cluster (async) neomezena (async) Sentinel / Cluster failover Quorum (Sentinel, majority) PSYNC replikace, replication lag

Klíčové omezení pro sync replikaci: latence < 5 ms RTT (commit musí počkat na potvrzení z obou DC). Při 100 km je RTT ~1 ms v pořádku. Při 1000 km (~10 ms RTT) sync replikace snižuje výkon transakcí o 80+ %.

Pro Active-Active jsou vhodné:

  • Cassandra / ScyllaDB — nativní multi-DC, eventual consistency, žádný split-brain
  • MySQL Group Replication (multi-primary) — 3+ DC pro kvorum
  • CockroachDB / TiDB — nativní multi-region, ACID napříč DC
  • Redis Enterprise — Active-Active (CRDT-based)

Pro Active-Passive jsou vhodné:

  • PostgreSQL + Patroni — auto-failover, etcd kvorum
  • Oracle Data Guard — FSFO, far sync pro vzdálené DC
  • MSSQL AlwaysOn — cloud witness
  • MongoDB Replica Set — arbitration node v 3. lokaci

Hypervisory

Hypervisor Cluster technologie Stretched cluster Max distance Split-brain
VMware vSphere vSAN延伸, Metro vCenter, Site Recovery Manager Ano (vSAN延伸, Metro Cluster) < 50 km (vSAN延伸), < 10 ms RTT Fencing (STONITH), witness host
Hyper-V Storage Replica + Failover Cluster Ano (Cluster Sets) < 50 km (sync), neomezena (async) File share witness / cloud witness
Proxmox VE Proxmox HA + Ceph Omezeně (Ceph stretch cluster) < 50 km (Ceph sync) Ceph monitor quorum (3+ DC)
XCP-ng / XenServer Xen Orchestra HA + SR (Storage Repository) replication Omezeně závisí na storage replikaci
Nutanix AHV Metro Availability (sync), Async DR Ano (Metro) < 100 km (sync), neomezena (async) Witness VM (cloud / 3. site)
KVM / oVirt oVirt HA + GlusterFS / NFS Omezeně závisí na storage replikaci

vSAN延伸 specifické požadavky:

  • Dedikovaná síť pro vSAN (25 GbE min., < 5 ms RTT)
  • Witness host v 3. lokaci (nebo cloud witness)
  • Všechny VM protokoly (FTT=1, mirroring striped)
  • Storage policy: site-A + site-B + witness

Kubernetes a kontejnerové platformy

Platforma Multi-cluster DR Replikace Max distance Failover
Vanilla K8s KubeFed, Cluster API, Velero + Restic Velero (backup/restore), Rook (Ceph) neomezena Manuální (Velero restore)
OpenShift ACM (Advanced Cluster Management), Velero OADP (OpenShift API for Data Protection) neomezena ACM failover (subscription)
Rancher Rancher Multi-Cluster App, Velero Longhorn (sync/async DR), Velero neomezena Polo-auto
Google GKE Multi-cluster Services, Backup for GKE Config Sync, Backup for GKE neomezena Manuální
Azure AKS Azure ARC + Velero + Azure Traffic Manager AKS backup (velero), Azure Site Recovery neomezena Manuální (Velero)
AWS EKS EKS multi-cluster, Velero + S3 cross-region Velero (S3), Rook (EBS snapshots) neomezena Manuální

Klíčové principy K8s DR:

  • Aplikace musí být stateless (nebo state externalizovaný do DB/storage)
  • Velero — backup/restore celého clusteru (PV, resources, helm releases)
  • Rook/Ceph — cross-region mirroring RBD volumes
  • KubeFed / ACM — subscription-based deploy do více clusterů
  • Ingress/Gateway API — traffic routing mezi clustery
  • External DNS — DNS failover při výpadku clusteru

Messaging / streaming

Platforma Replikace Topologie DR podpora Max distance
Apache Kafka MirrorMaker 2, Confluent Cluster Linking, KRaft quorum Active-Passive (MM2), Active-Active (Cluster Linking) MM2: async, Cluster Linking: async neomezena
RabbitMQ Classic Queue Mirroring, Quorum Queues Active-Passive (Warm Standby) Federation / Shovel (async) neomezena
Red Hat AMQ (Artemis) Cluster + HA Active-Passive (shared store / replication) Live-backup pair < 100 km (sync)
NATS NATS JetStream (cluster + cross-account) Active-Active (Leaf nodes, cross-account) Super-cluster, failover neomezena
Apache Pulsar BookKeeper (bookie rack-aware), geo-replication Active-Active (geo-replication) Built-in (cluster-level) neomezena (async)
AWS SQS/SNS Managed, AWS region pairs Active-Active (multi-region) Built-in (AWS managed) neomezena
Azure Service Bus Managed, paired region Active-Passive (paired region) Built-in (geo-recovery) neomezena
Oracle Service Bus (OSB) Oracle WebLogic Cluster + JDBC store + AQ Active-Passive (WebLogic Cluster + Data Guard) OSB/WLS cluster + Oracle RAC/Data Guard sync < 100 km (Data Guard sync), neomezena (async)

Doporučení pro DR messagingu:

  • Kafka: použít Cluster Linking pro Active-Active, nebo MirrorMaker 2 pro Active-Passive; replikovat jen kritická témata
  • RabbitMQ: Quorum Queues + Federation upstream pro DR; vyhnout se Classic Queue Mirroring (deprecated)
  • Pulsar: nativní geo-replication, bookie rack-aware pro stretch cluster; nejjednodušší DR mezi messaging platformami
  • OSB: WebLogic cluster + Oracle RAC/Data Guard; DR závisí na DB vrstvě, ne na OSB samotném

Hlavní omezení per vrstva (shrnující tabulka)

Vrstva Omezující faktor pro sekundární DC Max distance pro sync Dopad na výběr topologie
Storage Latence sync mirroru, DWDM náklady < 50 km (MetroCluster) Stretched cluster jen v metru
Databáze Commit wait pro sync replikaci < 100 km (5 ms RTT) Active-Active jen s DB podporující multi-master
Hypervisor Stretched cluster quorum + fencing < 50 km (vSAN, 5 ms) MetroCluster / stretched cluster
Kubernetes Velero restore time, Rook mirror latency neomezena (async) Active-Passive, cold standby
Messaging Replication lag, offset management neomezena (async) Active-Active (Kafka, Pulsar, NATS) nebo Active-Passive
Network Dark fiber/DWDM náklady, latency < 100 km (metro fiber) Omezuje možnosti sync replikace
Aplikace Stateful/stateless, connection draining závisí na architektuře Stateless app → libovolná topologie

Monitoring disků — S.M.A.R.T.

Self-Monitoring, Analysis and Reporting Technology — prediktivní monitoring HDD/SSD.

Klíčový atribut ID Popis
Reallocated Sectors Count 5 Počet přemapovaných sektorů (nárůst = konec disku)
Power-On Hours 9 Celková doba provozu v hodinách
Reported Uncorrectable Errors 187 Nekorigovatelné chyby (červená kontrolka)
CRC Error Count 199 Chyby na SATA lince (kabel/controller)
SSD Life Left 231 % zbývající životnosti SSD
Media Wearout Indicator 233 Celkový zápis do NAND

Nástroje: smartmontools (smartctl, smartd), Prometheus exporter (node_exporter), OTeL collector.

Zdroje

Odkazy, knihy a standardy: sources/infrastructure/sources.md

Doporučená literatura

Kniha Autoři ISBN Popis
The Data Center as a Computer (4th ed., 2025) Barroso, Hölzle, Ranganathan 978-3-031-99488-3 Komplexní vývoj designu warehouse-scale computer (WSC) od Google architektů. Pokrývá hardware, software, power, cooling, networking a 25 let zkušeností s WSC. Klíčová publikace pro architekturu datových center.
Electronics Cooling: From the Chip to the Datacenter (Vol. 62) Abraham et al. 978-0-443-47084-4 Praktický průvodce tepelným managementem od úrovně tranzistoru po datové centrum. Zahrnuje conduction, convection, liquid immersion a phase change cooling. Nezbytný zdroj pro návrh chlazení DC.

Páteřní služby datového centra

Při stavbě nového DC je potřeba nejdříve nasadit základní infrastrukturní služby — bez nich nelze provozovat vyšší vrstvy:

DNS

Role Služba Popis
Authoritative Bind, PowerDNS, NSD Primární DNS zóna pro interní domény
Recursive Unbound, Bind (caching), CoreDNS Resolver pro interní + externí dotazy
Anycast DNS anycast (BGP) Redundance, nižší latence
Integrace Infoblox, BlueCat, dnsmasq IPAM + DNS + DHCP v jednom

Best practices: oddělené auth a recursive resolvery, DNSSEC, split-horizon (interní vs externí pohled), TSIG pro přenos zón, monitoring (DNS query latency, NXDOMAIN rate).

NTP (časová synchronizace)

  • Primary: GPS-disciplinované NTP servery (Microchip S600, Meinberg)
  • Secondary: Stratum 1/2 NTP (ntpd, chrony, NTPsec)
  • All nodes: chrony (moderní náhrada ntpd), lokální NTP server na každém rack switchi (boundary clock)
  • Precision: PTP (IEEE 1588) pro telco/fintech — sub-microsecond accuracy
  • DC topologie: GPS anténa → Grandmaster (PTP) → Boundary clock (rack switch) → Ordinary clock (server)

DHCP + IPAM

Nástroj Popis
ISC DHCP Legacy, stále široce nasazen
Kea Moderní náhrada ISC DHCP (ISC + Linux Foundation)
Infoblox / BlueCat Enterprise IPAM + DHCP + DNS
NetBox / phpIPAM Open-source IPAM

LDAP / Identity Management

Nástroj Popis
FreeIPA Integrované IDM (LDAP + Kerberos + DNS + CA) — Linux
Active Directory Microsoft, LDAP + Kerberos + Group Policy
389 Directory Server Open-source LDAP (Red Hat)
OpenLDAP Klasický open-source LDAP
Keycloak / Authentik Moderní OIDC/SAML/LDAP brány

PKI a certifikáty

  • Enterprise CA: EJBCA, Smallstep, HashiCorp Vault (PKI engine)
  • ACME: Cert-Manager (Kubernetes), certbot (Let's Encrypt)
  • mTLS: Vault PKI, spire (SPIFFE), Cilium
  • Best practices: root CA offline, intermediate CA per prostředí, certifikáty s krátkou platností (max 90 dní), revocation (CRL/OCSP)

Monitoring a observabilita

Viz MONITORING.md. Před spuštěním prvních workloadů musí DC mít:

  • Sběr metrik (Prometheus, Zabbix)
  • Centralizované logy (Loki, ELK)
  • Alerting (Alertmanager, PagerDuty)
  • Uptime monitoring (heartbeat checky)

Logistika nasazení — pořadí kroků

1. DNS (alespoň recursive + local resolver)
2. NTP (časová synchronizace)
3. DHCP + IPAM (první servery dostanou IP)
4. LDAP / IAM (uživatelé, skupiny, přístupová práva)
5. PKI (certifikáty pro šifrování)
6. Configuration management (Ansible, Puppet)
7. Monitoring + logging (vidět co se děje)
8. Container registry / Package repo (docker registry, apt/yum mirror)
9. Load balancer (pro služby)
10. Storage backend (Ceph, NFS, SAN)
11. Orchestrace (Kubernetes, OpenStack)

OpenStack v datacentru

OpenStack přináší do DC softwarovou abstrakční vrstvu, která umožňuje multi-tenancy a self-service:

Control plane architektura

  • Controller nodes — management služby (Keystone, Nova API, Neutron API, Horizon, RabbitMQ, DB)
  • Compute nodes — hypervisor (KVM), Nova Compute, Neutron agent
  • Storage nodes — Ceph OSD, Cinder volumes, Swift object storage
  • Network nodes — Neutron L3 router, DHCP agent, DVR

Požadavky na DC infrastrukturu

Komponenta Požadavek
Controller 3-5 node HA cluster, 16+ vCPU, 32+ GB RAM, SSD
Compute Hustý výkon na rack (GPU, high-core), NUMA-aware design
Storage (Ceph) 10-25 GbE networking, NVMe/SSD OSD, 3+ replica
Network 25/100 GbE spine-leaf, L3 BGP underlay, VXLAN overlay
Rack power 10-30 kW/rack pro GPU compute

Use cases

  • Privátní cloud pro enterprise (multi-tenant, self-service Horizon)
  • NFVI pro telco (DPDK, SR-IOV, low-latency)
  • Akademické / HPC clustery (Ironic, Cyborg, Manila)
  • Government / regulated prostředí (on-prem, audit trail)

Poslední revize: 2026-06-12