1. Domů
  2. /Magazín
  3. /Záchrana dat z RAID pole - Průvodce pro IT administrátory
Zpět na magazín
Záchrana dat z RAID pole - Průvodce pro IT administrátory
15. srpna 2024DataHelp Team

Záchrana dat z RAID pole - Průvodce pro IT administrátory

RAID pole selhalo. Server je offline. Uživatelé volají. Management tlačí. A vy přemýšlíte, jestli bude výhodnější emigrovat, nebo to nějak vyřešit.

Tento průvodce vám pomůže zorientovat se v situaci, vyhnout se fatálním chybám a rozhodnout se o dalším postupu. Vychází z 25 let zkušeností se záchranu dat z enterprise systémů všech typů.


Co je RAID a proč není záloha

RAID (Redundant Array of Independent Disks) kombinuje více pevných disků do jednoho logického celku. Cílem je zvýšit výkon, redundanci, nebo obojí.

Co RAID dělá

  • Zvyšuje propustnost (striping)
  • Poskytuje redundanci (mirroring, parita)
  • Umožňuje přežít selhání disku/disků

Co RAID NEDĚLÁ

  • Nechrání před smazáním souborů
  • Nechrání před ransomwarem
  • Nechrání před firmware bugy
  • Nechrání před chybami obsluhy
  • Nechrání před selháním více disků najednou

RAID ≠ Backup

Toto je kritické pochopení, které mnoho firem nedostává:

RAID chrání před: Selhání jednoho (nebo několika) disků

RAID NECHRÁNÍ před:

  • Smazáním dat (úmyslným i náhodným)
  • Poškozením souborů aplikací
  • Ransomwarem
  • Selháním controlleru
  • Selháním více disků najednou
  • Požárem, povodní, krádeží

Záloha je jediná skutečná ochrana. RAID je doplněk, ne náhrada.


Typy RAID konfigurací

Přehled RAID úrovní

RAID Min. disků Odolnost Využití kapacity Typické použití
0 2 Žádná 100% Scratch disky, rendering
1 2 1 disk 50% Boot disky, malé servery
5 3 1 disk (n-1)/n File servery, NAS
6 4 2 disky (n-2)/n Enterprise storage
10 4 1 na mirror 50% Databáze, virtualizace

Důležité: Odolnost neznamená bezpečnost. RAID 5 s 8 disky po 5 letech provozu má vysokou pravděpodobnost selhání při rebuildu.

Detailní srovnání RAID konfigurací →


Nejčastější příčiny selhání RAID

1. Multiple Disk Failure

Selhání více disků, než pole toleruje. U RAID 5 stačí 2 disky, u RAID 6 tři.

Proč k tomu dochází:

  • Disky ze stejné výrobní šarže (stejné opotřebení)
  • Dominový efekt při rebuildu (stres odhalí další vadný disk)
  • Nedostatečný monitoring

2. Controller Failure

RAID controller selže – mechanicky, elektricky, nebo firmware bug.

Důsledky:

  • Pole není rozpoznáno
  • Metadata v controlleru nedostupná
  • Potřeba kompatibilního náhradního controlleru

3. URE při rebuildu

Unrecoverable Read Error – chyba čtení, kterou nelze opravit.

Proč je kritická:

  • Rebuild čte VŠECHNY sektory všech disků
  • U velkých disků (8TB+) je URE statisticky pravděpodobná
  • U RAID 5 jeden URE = selhání rebuildu

4. Human Error

Chyby obsluhy – nejčastější příčina ztráty dat z RAID.

Typické chyby:

  • Inicializace místo rebuildu
  • Výměna špatného disku
  • Změna konfigurace
  • Vyjmutí více disků najednou

Podrobně o příčinách selhání →


Varovné příznaky

Degraded status

Nejdůležitější varování. Znamená, že jeden disk selhal a pole běží na redundanci.

Co dělat:

  • Neignorovat
  • Neprodleně řešit
  • Nezkoušet rebuild bez přípravy

Urgentní kroky při degraded stavu →

Slow performance

Náhlé zpomalení může indikovat:

  • Disk s problémy (opakované čtení)
  • Plný rebuild na pozadí
  • Selhávající controller

SMART warnings

Varování SMART na jednotlivých discích předchází selhání. Monitorujte pravidelně.

Event logs

Controller logy obsahují kritické informace:

  • Predictive failure alerts
  • Sector errors
  • Communication errors

Co NIKDY nedělat při selhání RAID

Toto jsou fatální chyby, které vidíme opakovaně. Každá z nich může způsobit nevratnou ztrátu dat.

1. Neforcovat rebuild

"Force Rebuild" nebo "Force Online" může zničit poslední šanci na záchranu. Používejte pouze pokud přesně víte, co děláte.

2. Neměnit více disků najednou

Při výměně více disků ztrácíte redundanci a riskujete inicializaci celého pole.

3. Neinicializovat pole

"Initialize" ≠ "Rebuild". Initialize smaže vše a vytvoří prázdné pole.

4. Neměnit konfiguraci

Neměňte RAID level, stripe size, ani další parametry. Jakákoli změna může zničit metadata.

5. Nepoužívat recovery software přímo na pole

Recovery software na degraded nebo failed RAID může situaci zhoršit. Vždy pracujte s kopiemi.


Hardware vs Software RAID

Hardware RAID

  • Samostatný controller s vlastním procesorem
  • Metadata uložena na controlleru
  • Rychlejší, ale závislý na konkrétním hardware

Pro recovery: Vyžaduje kompatibilní controller nebo specializované nástroje.

Software RAID

  • Řízeno operačním systémem
  • Metadata na discích
  • Flexibilnější, ale pomalejší

Pro recovery: Obvykle jednodušší – disky lze připojit k jinému systému.

Příklady

Typ Příklady
Hardware RAID Dell PERC, HP Smart Array, LSI MegaRAID
Software RAID Windows Dynamic Disks, Linux mdadm, ZFS
Hybrid Intel RST, AMD RAIDXpert

Proces profesionální RAID recovery

Krok 1: Diagnostika

Zjištění stavu každého disku, identifikace konfigurace, analýza SMART hodnot.

Co zjišťujeme:

  • Stav každého disku (healthy, degraded, failed)
  • Typ RAID, stripe size, pořadí disků
  • Příčinu selhání
  • Rozsah poškození

Trvání: 2-24 hodin podle složitosti

Krok 2: Imaging

Vytvoření sektorové kopie každého disku. Všechna další práce probíhá na kopiích.

Proč kopie:

  • Originály se nezhoršují
  • Můžeme zkoušet různé postupy
  • Máme fallback při chybě

Trvání: Hodiny až dny podle kapacity a stavu disků

Krok 3: Rekonstrukce pole

Virtuální sestavení RAID pole ze sektorových obrazů.

Co určujeme:

  • Stripe size (obvykle 64KB, 128KB, 256KB)
  • Rotace parity (left/right symmetric/asymmetric)
  • Start offset
  • Pořadí disků

Nástroje: PC-3000 RAID, R-Studio, UFS Explorer

Krok 4: Oprava souborového systému

Rekonstrukce metadata souborového systému (NTFS, ext4, XFS, ZFS, VMFS...).

Co opravujeme:

  • MFT (Master File Table) u NTFS
  • Superblock a inody u ext4
  • ZIL a metadata u ZFS

Krok 5: Extrakce a verifikace dat

Kopírování dat, kontrola integrity, testování vzorku souborů.

Výstup:

  • Data na novém médiu
  • Log zachráněných souborů
  • Informace o případných ztrátách

Enterprise RAID systémy

Dell PowerEdge (PERC)

Dell servery používají PERC controllery (H710, H730, H740...). Proprietární metadata vyžadují specializované nástroje nebo kompatibilní controller.

HP ProLiant (Smart Array)

HP Smart Array controllery (P410, P420, P440) mají vlastní formát metadata a podporují ADG (RAID 6).

NetApp

NetApp používá vlastní file system WAFL a RAID-DP. Velmi specifická architektura vyžadující specializované znalosti.

Synology / QNAP NAS

Synology používá SHR (Synology Hybrid RAID) nad Linux mdadm. QNAP obdobně. Relativně standardní přístup, kompatibilní s Linux nástroji.

Detailně o enterprise systémech →


RAID rebuild rizika

Proč je rebuild rizikový

Rebuild je stress test pro zbývající disky:

  • 100% čtení všech sektorů
  • Zvýšené tepelné zatížení
  • Odhalení latentních defektů

URE pravděpodobnost

Unrecoverable Read Error se statisticky vyskytuje:

  • 1 na 10^14 bitů u consumer disků
  • 1 na 10^15 bitů u enterprise disků

U 12TB disku je pravděpodobnost URE při plném čtení 50-90% u consumer disků.

Doporučení

  • Před rebuildem: Záloha + SMART kontrola
  • Během rebuildu: Minimální I/O, monitoring
  • Zvažte: Profesionální recovery místo riskantního rebuildu

Kompletně o rizicích rebuildu →


Kolik stojí RAID recovery

Faktory ovlivňující cenu

Počet disků: Více disků = více práce = vyšší cena

Typ poškození:

  • Logické (smazání, formát): Levnější
  • Firmware/controller: Střední
  • Multiple disk failure + mechanické: Nejdražší

Urgence: Express služba (24/7) je dražší než standardní

Orientační cenové rozsahy

Situace Cenový rozsah
Software RAID, 2-4 disky, logické poškození od 8 000 Kč
Hardware RAID, 4-8 disků, 1-2 vadné disky od 15 000 Kč
Enterprise storage, multiple failures od 25 000 Kč
Komplexní případy (NetApp, EMC...) individuálně

Důležité:

  • Přesná cena po diagnostice
  • Diagnostika je zdarma
  • Platíte pouze za úspěšnou záchranu

Prevence selhání RAID

Monitoring

  • SMART hodnoty všech disků
  • Controller health
  • Event logs
  • Alerting na degraded status

Hot spare

Záložní disk připravený k automatickému rebuildu. Zkracuje dobu degraded stavu, ale neodstraňuje rizika rebuildu.

Pravidelné zálohy

Jediná skutečná ochrana. Testujte restore – záloha, kterou nelze obnovit, není záloha.

Test restore

Pravidelně testujte obnovu ze záloh. Mnoho firem zjistí, že zálohy nefungují, až když je potřebují.

Dokumentace konfigurace

Zaznamenejte:

  • RAID level a stripe size
  • Pořadí disků (fyzické pozice)
  • Model controlleru a firmware
  • Sériová čísla disků

FAQ

Kolik disků může selhat?

Záleží na RAID typu:

  • RAID 0: Žádný (jakýkoli = ztráta všeho)
  • RAID 1: 1 z 2
  • RAID 5: 1
  • RAID 6: 2
  • RAID 10: 1 na každý mirror pair

Jak dlouho trvá RAID recovery?

Obvykle 3-10 pracovních dní. Záleží na:

  • Počtu a kapacitě disků
  • Typu poškození
  • Stavu jednotlivých disků
  • Urgenci (express služba rychleji)

Můžeme použít server během recovery?

Ne. Originální disky potřebujeme pro diagnostiku a imaging. Po recovery dostanete data na novém médiu.

Je RAID 6 bezpečný?

Bezpečnější než RAID 5, ale ne neprůstřelný. Při rebuildu po selhání 2 disků je pole bez redundance a další selhání = ztráta dat.

Proč nestačí rebuild?

Rebuild je rizikový proces, který může odhalit další problémy a způsobit kompletní selhání. U kritických dat je profesionální recovery bezpečnější varianta.


Proč DataHelp pro RAID recovery

25 let enterprise zkušeností

Řešíme RAID od dob, kdy RAID 5 bylo "enterprise only" řešení.

Všechny RAID typy a systémy

Dell, HP, IBM, NetApp, EMC, Synology, QNAP – máme zkušenosti se všemi.

24/7 emergency service

Business critical systémy nečekají do pondělí. Jsme k dispozici nonstop.

Vysoká úspěšnost

Díky specializovaným nástrojům a zkušenostem dosahujeme úspěšnosti 80-95% podle typu poškození.

Reference

Spolupracujeme s firmami všech velikostí – od SMB po enterprise.


Potřebujete zachránit data z RAID?

RAID pole selhalo a potřebujete pomoc? Diagnostika je zdarma a zjistíme, jaké jsou možnosti.

Nonstop linka: 775 220 440 Pro firmy: 24/7 emergency service

[Objednat diagnostiku →]


Související články