Záchrana dat z RAID pole - Průvodce pro IT administrátory
RAID pole selhalo. Server je offline. Uživatelé volají. Management tlačí. A vy přemýšlíte, jestli bude výhodnější emigrovat, nebo to nějak vyřešit.
Tento průvodce vám pomůže zorientovat se v situaci, vyhnout se fatálním chybám a rozhodnout se o dalším postupu. Vychází z 25 let zkušeností se záchranu dat z enterprise systémů všech typů.
Co je RAID a proč není záloha
RAID (Redundant Array of Independent Disks) kombinuje více pevných disků do jednoho logického celku. Cílem je zvýšit výkon, redundanci, nebo obojí.
Co RAID dělá
- Zvyšuje propustnost (striping)
- Poskytuje redundanci (mirroring, parita)
- Umožňuje přežít selhání disku/disků
Co RAID NEDĚLÁ
- Nechrání před smazáním souborů
- Nechrání před ransomwarem
- Nechrání před firmware bugy
- Nechrání před chybami obsluhy
- Nechrání před selháním více disků najednou
RAID ≠ Backup
Toto je kritické pochopení, které mnoho firem nedostává:
RAID chrání před: Selhání jednoho (nebo několika) disků
RAID NECHRÁNÍ před:
- Smazáním dat (úmyslným i náhodným)
- Poškozením souborů aplikací
- Ransomwarem
- Selháním controlleru
- Selháním více disků najednou
- Požárem, povodní, krádeží
Záloha je jediná skutečná ochrana. RAID je doplněk, ne náhrada.
Typy RAID konfigurací
Přehled RAID úrovní
| RAID | Min. disků | Odolnost | Využití kapacity | Typické použití |
|---|---|---|---|---|
| 0 | 2 | Žádná | 100% | Scratch disky, rendering |
| 1 | 2 | 1 disk | 50% | Boot disky, malé servery |
| 5 | 3 | 1 disk | (n-1)/n | File servery, NAS |
| 6 | 4 | 2 disky | (n-2)/n | Enterprise storage |
| 10 | 4 | 1 na mirror | 50% | Databáze, virtualizace |
Důležité: Odolnost neznamená bezpečnost. RAID 5 s 8 disky po 5 letech provozu má vysokou pravděpodobnost selhání při rebuildu.
Detailní srovnání RAID konfigurací →
Nejčastější příčiny selhání RAID
1. Multiple Disk Failure
Selhání více disků, než pole toleruje. U RAID 5 stačí 2 disky, u RAID 6 tři.
Proč k tomu dochází:
- Disky ze stejné výrobní šarže (stejné opotřebení)
- Dominový efekt při rebuildu (stres odhalí další vadný disk)
- Nedostatečný monitoring
2. Controller Failure
RAID controller selže – mechanicky, elektricky, nebo firmware bug.
Důsledky:
- Pole není rozpoznáno
- Metadata v controlleru nedostupná
- Potřeba kompatibilního náhradního controlleru
3. URE při rebuildu
Unrecoverable Read Error – chyba čtení, kterou nelze opravit.
Proč je kritická:
- Rebuild čte VŠECHNY sektory všech disků
- U velkých disků (8TB+) je URE statisticky pravděpodobná
- U RAID 5 jeden URE = selhání rebuildu
4. Human Error
Chyby obsluhy – nejčastější příčina ztráty dat z RAID.
Typické chyby:
- Inicializace místo rebuildu
- Výměna špatného disku
- Změna konfigurace
- Vyjmutí více disků najednou
Podrobně o příčinách selhání →
Varovné příznaky
Degraded status
Nejdůležitější varování. Znamená, že jeden disk selhal a pole běží na redundanci.
Co dělat:
- Neignorovat
- Neprodleně řešit
- Nezkoušet rebuild bez přípravy
Urgentní kroky při degraded stavu →
Slow performance
Náhlé zpomalení může indikovat:
- Disk s problémy (opakované čtení)
- Plný rebuild na pozadí
- Selhávající controller
SMART warnings
Varování SMART na jednotlivých discích předchází selhání. Monitorujte pravidelně.
Event logs
Controller logy obsahují kritické informace:
- Predictive failure alerts
- Sector errors
- Communication errors
Co NIKDY nedělat při selhání RAID
Toto jsou fatální chyby, které vidíme opakovaně. Každá z nich může způsobit nevratnou ztrátu dat.
1. Neforcovat rebuild
"Force Rebuild" nebo "Force Online" může zničit poslední šanci na záchranu. Používejte pouze pokud přesně víte, co děláte.
2. Neměnit více disků najednou
Při výměně více disků ztrácíte redundanci a riskujete inicializaci celého pole.
3. Neinicializovat pole
"Initialize" ≠ "Rebuild". Initialize smaže vše a vytvoří prázdné pole.
4. Neměnit konfiguraci
Neměňte RAID level, stripe size, ani další parametry. Jakákoli změna může zničit metadata.
5. Nepoužívat recovery software přímo na pole
Recovery software na degraded nebo failed RAID může situaci zhoršit. Vždy pracujte s kopiemi.
Hardware vs Software RAID
Hardware RAID
- Samostatný controller s vlastním procesorem
- Metadata uložena na controlleru
- Rychlejší, ale závislý na konkrétním hardware
Pro recovery: Vyžaduje kompatibilní controller nebo specializované nástroje.
Software RAID
- Řízeno operačním systémem
- Metadata na discích
- Flexibilnější, ale pomalejší
Pro recovery: Obvykle jednodušší – disky lze připojit k jinému systému.
Příklady
| Typ | Příklady |
|---|---|
| Hardware RAID | Dell PERC, HP Smart Array, LSI MegaRAID |
| Software RAID | Windows Dynamic Disks, Linux mdadm, ZFS |
| Hybrid | Intel RST, AMD RAIDXpert |
Proces profesionální RAID recovery
Krok 1: Diagnostika
Zjištění stavu každého disku, identifikace konfigurace, analýza SMART hodnot.
Co zjišťujeme:
- Stav každého disku (healthy, degraded, failed)
- Typ RAID, stripe size, pořadí disků
- Příčinu selhání
- Rozsah poškození
Trvání: 2-24 hodin podle složitosti
Krok 2: Imaging
Vytvoření sektorové kopie každého disku. Všechna další práce probíhá na kopiích.
Proč kopie:
- Originály se nezhoršují
- Můžeme zkoušet různé postupy
- Máme fallback při chybě
Trvání: Hodiny až dny podle kapacity a stavu disků
Krok 3: Rekonstrukce pole
Virtuální sestavení RAID pole ze sektorových obrazů.
Co určujeme:
- Stripe size (obvykle 64KB, 128KB, 256KB)
- Rotace parity (left/right symmetric/asymmetric)
- Start offset
- Pořadí disků
Nástroje: PC-3000 RAID, R-Studio, UFS Explorer
Krok 4: Oprava souborového systému
Rekonstrukce metadata souborového systému (NTFS, ext4, XFS, ZFS, VMFS...).
Co opravujeme:
- MFT (Master File Table) u NTFS
- Superblock a inody u ext4
- ZIL a metadata u ZFS
Krok 5: Extrakce a verifikace dat
Kopírování dat, kontrola integrity, testování vzorku souborů.
Výstup:
- Data na novém médiu
- Log zachráněných souborů
- Informace o případných ztrátách
Enterprise RAID systémy
Dell PowerEdge (PERC)
Dell servery používají PERC controllery (H710, H730, H740...). Proprietární metadata vyžadují specializované nástroje nebo kompatibilní controller.
HP ProLiant (Smart Array)
HP Smart Array controllery (P410, P420, P440) mají vlastní formát metadata a podporují ADG (RAID 6).
NetApp
NetApp používá vlastní file system WAFL a RAID-DP. Velmi specifická architektura vyžadující specializované znalosti.
Synology / QNAP NAS
Synology používá SHR (Synology Hybrid RAID) nad Linux mdadm. QNAP obdobně. Relativně standardní přístup, kompatibilní s Linux nástroji.
Detailně o enterprise systémech →
RAID rebuild rizika
Proč je rebuild rizikový
Rebuild je stress test pro zbývající disky:
- 100% čtení všech sektorů
- Zvýšené tepelné zatížení
- Odhalení latentních defektů
URE pravděpodobnost
Unrecoverable Read Error se statisticky vyskytuje:
- 1 na 10^14 bitů u consumer disků
- 1 na 10^15 bitů u enterprise disků
U 12TB disku je pravděpodobnost URE při plném čtení 50-90% u consumer disků.
Doporučení
- Před rebuildem: Záloha + SMART kontrola
- Během rebuildu: Minimální I/O, monitoring
- Zvažte: Profesionální recovery místo riskantního rebuildu
Kompletně o rizicích rebuildu →
Kolik stojí RAID recovery
Faktory ovlivňující cenu
Počet disků: Více disků = více práce = vyšší cena
Typ poškození:
- Logické (smazání, formát): Levnější
- Firmware/controller: Střední
- Multiple disk failure + mechanické: Nejdražší
Urgence: Express služba (24/7) je dražší než standardní
Orientační cenové rozsahy
| Situace | Cenový rozsah |
|---|---|
| Software RAID, 2-4 disky, logické poškození | od 8 000 Kč |
| Hardware RAID, 4-8 disků, 1-2 vadné disky | od 15 000 Kč |
| Enterprise storage, multiple failures | od 25 000 Kč |
| Komplexní případy (NetApp, EMC...) | individuálně |
Důležité:
- Přesná cena po diagnostice
- Diagnostika je zdarma
- Platíte pouze za úspěšnou záchranu
Prevence selhání RAID
Monitoring
- SMART hodnoty všech disků
- Controller health
- Event logs
- Alerting na degraded status
Hot spare
Záložní disk připravený k automatickému rebuildu. Zkracuje dobu degraded stavu, ale neodstraňuje rizika rebuildu.
Pravidelné zálohy
Jediná skutečná ochrana. Testujte restore – záloha, kterou nelze obnovit, není záloha.
Test restore
Pravidelně testujte obnovu ze záloh. Mnoho firem zjistí, že zálohy nefungují, až když je potřebují.
Dokumentace konfigurace
Zaznamenejte:
- RAID level a stripe size
- Pořadí disků (fyzické pozice)
- Model controlleru a firmware
- Sériová čísla disků
FAQ
Kolik disků může selhat?
Záleží na RAID typu:
- RAID 0: Žádný (jakýkoli = ztráta všeho)
- RAID 1: 1 z 2
- RAID 5: 1
- RAID 6: 2
- RAID 10: 1 na každý mirror pair
Jak dlouho trvá RAID recovery?
Obvykle 3-10 pracovních dní. Záleží na:
- Počtu a kapacitě disků
- Typu poškození
- Stavu jednotlivých disků
- Urgenci (express služba rychleji)
Můžeme použít server během recovery?
Ne. Originální disky potřebujeme pro diagnostiku a imaging. Po recovery dostanete data na novém médiu.
Je RAID 6 bezpečný?
Bezpečnější než RAID 5, ale ne neprůstřelný. Při rebuildu po selhání 2 disků je pole bez redundance a další selhání = ztráta dat.
Proč nestačí rebuild?
Rebuild je rizikový proces, který může odhalit další problémy a způsobit kompletní selhání. U kritických dat je profesionální recovery bezpečnější varianta.
Proč DataHelp pro RAID recovery
25 let enterprise zkušeností
Řešíme RAID od dob, kdy RAID 5 bylo "enterprise only" řešení.
Všechny RAID typy a systémy
Dell, HP, IBM, NetApp, EMC, Synology, QNAP – máme zkušenosti se všemi.
24/7 emergency service
Business critical systémy nečekají do pondělí. Jsme k dispozici nonstop.
Vysoká úspěšnost
Díky specializovaným nástrojům a zkušenostem dosahujeme úspěšnosti 80-95% podle typu poškození.
Reference
Spolupracujeme s firmami všech velikostí – od SMB po enterprise.
Potřebujete zachránit data z RAID?
RAID pole selhalo a potřebujete pomoc? Diagnostika je zdarma a zjistíme, jaké jsou možnosti.
Nonstop linka: 775 220 440 Pro firmy: 24/7 emergency service
[Objednat diagnostiku →]