RAID pole selhalo. Server je offline. Uživatelé volají. Management tlačí. A vy přemýšlíte, jestli bude výhodnější emigrovat, nebo to nějak vyřešit.

Tento průvodce vám pomůže zorientovat se v situaci, vyhnout se fatálním chybám a rozhodnout se o dalším postupu. Vychází z 25 let zkušeností se záchranu dat z enterprise systémů všech typů.

Co je RAID a proč není záloha

RAID (Redundant Array of Independent Disks) kombinuje více pevných disků do jednoho logického celku. Cílem je zvýšit výkon, redundanci, nebo obojí.

Co RAID dělá

Zvyšuje propustnost (striping)
Poskytuje redundanci (mirroring, parita)
Umožňuje přežít selhání disku/disků

Co RAID NEDĚLÁ

Nechrání před smazáním souborů
Nechrání před ransomwarem
Nechrání před firmware bugy
Nechrání před chybami obsluhy
Nechrání před selháním více disků najednou

RAID ≠ Backup

Toto je kritické pochopení, které mnoho firem nedostává:

RAID chrání před: Selhání jednoho (nebo několika) disků

RAID NECHRÁNÍ před:

Smazáním dat (úmyslným i náhodným)
Poškozením souborů aplikací
Ransomwarem
Selháním controlleru
Selháním více disků najednou
Požárem, povodní, krádeží

Záloha je jediná skutečná ochrana. RAID je doplněk, ne náhrada.

Typy RAID konfigurací

Přehled RAID úrovní

RAID	Min. disků	Odolnost	Využití kapacity	Typické použití
0	2	Žádná	100%	Scratch disky, rendering
1	2	1 disk	50%	Boot disky, malé servery
5	3	1 disk	(n-1)/n	File servery, NAS
6	4	2 disky	(n-2)/n	Enterprise storage
10	4	1 na mirror	50%	Databáze, virtualizace

Důležité: Odolnost neznamená bezpečnost. RAID 5 s 8 disky po 5 letech provozu má vysokou pravděpodobnost selhání při rebuildu.

Detailní srovnání RAID konfigurací →

Nejčastější příčiny selhání RAID

1. Multiple Disk Failure

Selhání více disků, než pole toleruje. U RAID 5 stačí 2 disky, u RAID 6 tři.

Proč k tomu dochází:

Disky ze stejné výrobní šarže (stejné opotřebení)
Dominový efekt při rebuildu (stres odhalí další vadný disk)
Nedostatečný monitoring

2. Controller Failure

RAID controller selže – mechanicky, elektricky, nebo firmware bug.

Důsledky:

Pole není rozpoznáno
Metadata v controlleru nedostupná
Potřeba kompatibilního náhradního controlleru

3. URE při rebuildu

Unrecoverable Read Error – chyba čtení, kterou nelze opravit.

Proč je kritická:

Rebuild čte VŠECHNY sektory všech disků
U velkých disků (8TB+) je URE statisticky pravděpodobná
U RAID 5 jeden URE = selhání rebuildu

4. Human Error

Chyby obsluhy – nejčastější příčina ztráty dat z RAID.

Typické chyby:

Inicializace místo rebuildu
Výměna špatného disku
Změna konfigurace
Vyjmutí více disků najednou

Podrobně o příčinách selhání →

Varovné příznaky

Degraded status

Nejdůležitější varování. Znamená, že jeden disk selhal a pole běží na redundanci.

Co dělat:

Neignorovat
Neprodleně řešit
Nezkoušet rebuild bez přípravy

Urgentní kroky při degraded stavu →

Slow performance

Náhlé zpomalení může indikovat:

Disk s problémy (opakované čtení)
Plný rebuild na pozadí
Selhávající controller

SMART warnings

Varování SMART na jednotlivých discích předchází selhání. Monitorujte pravidelně.

Event logs

Controller logy obsahují kritické informace:

Predictive failure alerts
Sector errors
Communication errors

Co NIKDY nedělat při selhání RAID

Toto jsou fatální chyby, které vidíme opakovaně. Každá z nich může způsobit nevratnou ztrátu dat.

1. Neforcovat rebuild

"Force Rebuild" nebo "Force Online" může zničit poslední šanci na záchranu. Používejte pouze pokud přesně víte, co děláte.

2. Neměnit více disků najednou

Při výměně více disků ztrácíte redundanci a riskujete inicializaci celého pole.

3. Neinicializovat pole

"Initialize" ≠ "Rebuild". Initialize smaže vše a vytvoří prázdné pole.

4. Neměnit konfiguraci

Neměňte RAID level, stripe size, ani další parametry. Jakákoli změna může zničit metadata.

5. Nepoužívat recovery software přímo na pole

Recovery software na degraded nebo failed RAID může situaci zhoršit. Vždy pracujte s kopiemi.

Hardware vs Software RAID

Hardware RAID

Samostatný controller s vlastním procesorem
Metadata uložena na controlleru
Rychlejší, ale závislý na konkrétním hardware

Pro recovery: Vyžaduje kompatibilní controller nebo specializované nástroje.

Software RAID

Řízeno operačním systémem
Metadata na discích
Flexibilnější, ale pomalejší

Pro recovery: Obvykle jednodušší – disky lze připojit k jinému systému.

Příklady

Typ	Příklady
Hardware RAID	Dell PERC, HP Smart Array, LSI MegaRAID
Software RAID	Windows Dynamic Disks, Linux mdadm, ZFS
Hybrid	Intel RST, AMD RAIDXpert

Proces profesionální RAID recovery

Krok 1: Diagnostika

Zjištění stavu každého disku, identifikace konfigurace, analýza SMART hodnot.

Co zjišťujeme:

Stav každého disku (healthy, degraded, failed)
Typ RAID, stripe size, pořadí disků
Příčinu selhání
Rozsah poškození

Trvání: 2-24 hodin podle složitosti

Krok 2: Imaging

Vytvoření sektorové kopie každého disku. Všechna další práce probíhá na kopiích.

Proč kopie:

Originály se nezhoršují
Můžeme zkoušet různé postupy
Máme fallback při chybě

Trvání: Hodiny až dny podle kapacity a stavu disků

Krok 3: Rekonstrukce pole

Virtuální sestavení RAID pole ze sektorových obrazů.

Co určujeme:

Stripe size (obvykle 64KB, 128KB, 256KB)
Rotace parity (left/right symmetric/asymmetric)
Start offset
Pořadí disků

Nástroje: PC-3000 RAID, R-Studio, UFS Explorer

Krok 4: Oprava souborového systému

Rekonstrukce metadata souborového systému (NTFS, ext4, XFS, ZFS, VMFS...).

Co opravujeme:

MFT (Master File Table) u NTFS
Superblock a inody u ext4
ZIL a metadata u ZFS

Krok 5: Extrakce a verifikace dat

Kopírování dat, kontrola integrity, testování vzorku souborů.

Výstup:

Data na novém médiu
Log zachráněných souborů
Informace o případných ztrátách

Enterprise RAID systémy

Dell PowerEdge (PERC)

Dell servery používají PERC controllery (H710, H730, H740...). Proprietární metadata vyžadují specializované nástroje nebo kompatibilní controller.

HP ProLiant (Smart Array)

HP Smart Array controllery (P410, P420, P440) mají vlastní formát metadata a podporují ADG (RAID 6).

NetApp

NetApp používá vlastní file system WAFL a RAID-DP. Velmi specifická architektura vyžadující specializované znalosti.

Synology / QNAP NAS

Synology používá SHR (Synology Hybrid RAID) nad Linux mdadm. QNAP obdobně. Relativně standardní přístup, kompatibilní s Linux nástroji.

Detailně o enterprise systémech →

RAID rebuild rizika

Proč je rebuild rizikový

Rebuild je stress test pro zbývající disky:

100% čtení všech sektorů
Zvýšené tepelné zatížení
Odhalení latentních defektů

URE pravděpodobnost

Unrecoverable Read Error se statisticky vyskytuje:

1 na 10^14 bitů u consumer disků
1 na 10^15 bitů u enterprise disků

U 12TB disku je pravděpodobnost URE při plném čtení 50-90% u consumer disků.

Doporučení

Před rebuildem: Záloha + SMART kontrola
Během rebuildu: Minimální I/O, monitoring
Zvažte: Profesionální recovery místo riskantního rebuildu

Kompletně o rizicích rebuildu →

Kolik stojí RAID recovery

Faktory ovlivňující cenu

Počet disků: Více disků = více práce = vyšší cena

Typ poškození:

Logické (smazání, formát): Levnější
Firmware/controller: Střední
Multiple disk failure + mechanické: Nejdražší

Urgence: Express služba (24/7) je dražší než standardní

Orientační cenové rozsahy

Situace	Cenový rozsah
Software RAID, 2-4 disky, logické poškození	od 8 000 Kč
Hardware RAID, 4-8 disků, 1-2 vadné disky	od 15 000 Kč
Enterprise storage, multiple failures	od 25 000 Kč
Komplexní případy (NetApp, EMC...)	individuálně

Důležité:

Přesná cena po diagnostice
Diagnostika je zdarma
Platíte pouze za úspěšnou záchranu

Prevence selhání RAID

Monitoring

SMART hodnoty všech disků
Controller health
Event logs
Alerting na degraded status

Hot spare

Záložní disk připravený k automatickému rebuildu. Zkracuje dobu degraded stavu, ale neodstraňuje rizika rebuildu.

Pravidelné zálohy

Jediná skutečná ochrana. Testujte restore – záloha, kterou nelze obnovit, není záloha.

Test restore

Pravidelně testujte obnovu ze záloh. Mnoho firem zjistí, že zálohy nefungují, až když je potřebují.

Dokumentace konfigurace

Zaznamenejte:

RAID level a stripe size
Pořadí disků (fyzické pozice)
Model controlleru a firmware
Sériová čísla disků

FAQ

Kolik disků může selhat?

Záleží na RAID typu:

RAID 0: Žádný (jakýkoli = ztráta všeho)
RAID 1: 1 z 2
RAID 5: 1
RAID 6: 2
RAID 10: 1 na každý mirror pair

Jak dlouho trvá RAID recovery?

Obvykle 3-10 pracovních dní. Záleží na:

Počtu a kapacitě disků
Typu poškození
Stavu jednotlivých disků
Urgenci (express služba rychleji)

Můžeme použít server během recovery?

Ne. Originální disky potřebujeme pro diagnostiku a imaging. Po recovery dostanete data na novém médiu.

Je RAID 6 bezpečný?

Bezpečnější než RAID 5, ale ne neprůstřelný. Při rebuildu po selhání 2 disků je pole bez redundance a další selhání = ztráta dat.

Proč nestačí rebuild?

Rebuild je rizikový proces, který může odhalit další problémy a způsobit kompletní selhání. U kritických dat je profesionální recovery bezpečnější varianta.

Proč DataHelp pro RAID recovery

25 let enterprise zkušeností

Řešíme RAID od dob, kdy RAID 5 bylo "enterprise only" řešení.

Všechny RAID typy a systémy

Dell, HP, IBM, NetApp, EMC, Synology, QNAP – máme zkušenosti se všemi.

24/7 emergency service

Business critical systémy nečekají do pondělí. Jsme k dispozici nonstop.

Vysoká úspěšnost

Díky specializovaným nástrojům a zkušenostem dosahujeme úspěšnosti 80-95% podle typu poškození.

Reference

Spolupracujeme s firmami všech velikostí – od SMB po enterprise.

Potřebujete zachránit data z RAID?

RAID pole selhalo a potřebujete pomoc? Diagnostika je zdarma a zjistíme, jaké jsou možnosti.

Nonstop linka: 775 220 440 Pro firmy: 24/7 emergency service

[Objednat diagnostiku →]

Záchrana dat z RAID pole - Průvodce pro IT administrátory