1. Domů
  2. /Magazín
  3. /RAID rebuild: Proč může vést ke ztrátě všech dat
Zpět na magazín
RAID rebuild: Proč může vést ke ztrátě všech dat
20. září 2024DataHelp Team

RAID rebuild: Proč může vést ke ztrátě všech dat

Vyměnili jste vadný disk. Spustili rebuild. Indikátor postupu ukazuje 47%. A pak... další disk selhal. Všechna data ztracena.

Toto není noční můra. Je to reálný scénář, který se děje častěji, než by měl. RAID rebuild, který má data obnovit, je paradoxně jeden z nejrizikovějších procesů pro vaše data.


Co je RAID rebuild

Definice

RAID rebuild je proces obnovy redundance po selhání disku. Controller přečte data a paritu ze zbývajících disků a dopočítá chybějící data na nový disk.

Jak funguje

RAID 5:

  1. Controller čte všechny sektory ze zdravých disků
  2. Pro každý stripe počítá: Nový sektor = Disk1 XOR Disk2 XOR ... XOR Parity
  3. Výsledek zapisuje na nový disk

RAID 6: Podobný princip, ale s využitím dvou nezávislých parit.

RAID 1/10: Jednodušší – prostá kopie z mirror disku.

Doba trvání

Kapacita RAID Přibližná doba rebuildu
1 TB 2-4 hodiny
4 TB 8-16 hodin
12 TB 24-48 hodin
24 TB+ 2-4 dny

Záleží na rychlosti disků, controlleru a zatížení.


Proč je rebuild rizikový

Stress test pro zbývající disky

Během rebuildu musí controller přečíst každý sektor zbývajících disků. To je kompletní čtení celé kapacity – něco, co se při běžném provozu nikdy nestane.

Co to znamená:

  • 100% využití I/O kapacity
  • Zvýšená teplota disků
  • Mechanické zatížení (u HDD)
  • Odhalení latentních defektů

Odhalení skrytých problémů

Některé sektory nebyly přečteny měsíce nebo roky. Mohou být degradované, ale běžný provoz to nezjistí – soubory v těchto sektorech nikdo nepoužívá.

Rebuild přečte všechno. A najde problémy, o kterých jste nevěděli.

URE – Unrecoverable Read Error

Klíčový pojem pro pochopení rizik rebuildu.


URE: Tichý zabiják RAID

Co je URE

Unrecoverable Read Error je chyba čtení, kterou disk nedokáže opravit. Sektor je nečitelný i po opakovaných pokusech.

Statistika výskytu

Každý disk má specifikaci URE rate – pravděpodobnost výskytu neopravitelné chyby:

Typ disku URE rate
Consumer HDD 1 na 10^14 bitů
Enterprise HDD 1 na 10^15 bitů
Enterprise SSD 1 na 10^17 bitů

Matematika – proč je to problém

Spočítejme pravděpodobnost URE při rebuildu 12TB RAID 5 s consumer disky:

12 TB = 12 × 10^12 bytes = 96 × 10^12 bitů

URE rate = 10^14 bitů na chybu

Pravděpodobnost BEZ chyby při čtení 12TB:
P(OK) = (1 - 1/10^14)^(96×10^12) ≈ e^(-0.96) ≈ 38%

Pravděpodobnost alespoň 1 URE:
P(URE) ≈ 62%

U 12TB consumer disku je ~60% šance na URE při plném čtení.

Důsledky pro RAID 5

U RAID 5 jeden URE při rebuildu = selhání celého rebuildu. Controller nemá jak dopočítat chybějící data, pokud jeden z vstupních sektorů je nečitelný.

Výsledek: Pole zůstane v degraded stavu, rebuild selže, a pokud selže další disk – ztráta všech dat.

Proč je RAID 6 bezpečnější

RAID 6 má dvě nezávislé parity. Jeden URE při rebuildu nepředstavuje problém – controller může data dopočítat z druhé parity.

Proto doporučujeme RAID 6 pro:

  • Velká pole (6+ disků)
  • Velké disky (4TB+)
  • Consumer disky (horší URE rate)

Srovnání RAID konfigurací →


Pravděpodobnost selhání při rebuildu

Tabulka rizik

Situace Pravděpodobnost selhání
RAID 5, 4×1TB, nové disky ~1-5%
RAID 5, 4×4TB, 3 roky ~10-20%
RAID 5, 8×8TB, 4 roky ~30-40%
RAID 5, 8×12TB, 5 let ~40-60%
RAID 6, 8×12TB, 5 let ~5-15%

Faktory zvyšující riziko

Stáří disků: Starší disky = více opotřebení = vyšší pravděpodobnost URE a selhání.

Velikost disků: Větší disky = více dat k přečtení = vyšší pravděpodobnost URE.

Počet disků: Více disků = více potenciálních míst selhání.

SMART warnings: Disky s varováními mají výrazně vyšší pravděpodobnost selhání při rebuildu.


Hot Spare – řešení nebo iluze?

Co je hot spare

Záložní disk připojený k RAID poli, ale nepoužívaný. Při selhání disku automaticky nahradí vadný a zahájí rebuild.

Výhody

Automatický start: Žádné čekání na nový disk, rebuild začne ihned.

Kratší doba degraded: Menší okno, kdy je pole zranitelné.

Nevýhody

Rebuild je stále rizikový: Hot spare nezmenšuje rizika rebuildu – URE, dominový efekt, zatížení disků.

False sense of security: "Máme hot spare, jsme v bezpečí." Ne, jste jen rychleji v rebuild fázi.

Náklady: Disk, který běžně nic nedělá.

Doporučení

Hot spare ANO, ale s vědomím limitů. Je to doplněk k zálohám, ne náhrada.


Správný postup při rebuildu

Před rebuildem

1. Plná záloha (pokud možné) Pokud pole čitelné, zálohujte kritická data. Je to pojistka pro případ selhání rebuildu.

2. SMART check všech disků Zkontrolujte SMART hodnoty zbývajících disků:

  • Reallocated Sector Count
  • Current Pending Sector
  • Spin Retry Count

Pokud některý disk vykazuje varování, nerebuilďte – raději profesionální recovery.

3. Dokumentace Zaznamenejte:

  • Model a sériová čísla disků
  • Pozice disků
  • RAID konfigurace
  • SMART hodnoty

4. Plán B Co uděláte, pokud rebuild selže? Mějte připravený kontakt na profesionály.

Během rebuildu

1. Minimalizujte I/O Vypněte aplikace, které používají RAID. Méně zatížení = nižší riziko.

2. Monitoring Sledujte progress a teplotu disků. Vysoká teplota = riziko.

3. Buďte připraveni na selhání Pokud rebuild selže nebo se objeví chyby, okamžitě zastavte a volejte pomoc.

Po rebuildu

1. Verify integrity Spusťte kontrolu konzistence (scrub), pokud controller podporuje.

2. Test zálohy Ověřte, že záloha je aktuální a funkční.

3. SMART check Zkontrolujte znovu SMART hodnoty – rebuild mohl odhalit latentní problémy.


Alternativy k rebuildu

Profesionální recovery

Místo riskantního rebuildu lze data zachránit profesionálně:

  • Sektorová kopie každého disku
  • Virtuální rekonstrukce RAID
  • Práce s kopiemi, ne originály

Výhody:

  • Bezpečnější (nepracujeme s originály)
  • Lze zachránit i při multiple failures
  • Expertní diagnostika

Nevýhody:

  • Náklady
  • Čas (dny místo hodin)

Obnova ze zálohy

Nejbezpečnější varianta. Pokud máte funkční zálohu:

  1. Vytvořte nové RAID pole
  2. Obnovte data ze zálohy
  3. Hotovo

Toto je důvod, proč mít zálohy.

Upgrade na RAID 6

Pokud už musíte řešit selhání, zvažte upgrade:

  • Nový controller podporující RAID 6
  • Nové disky (různé šarže)
  • Migrace dat ze zálohy

Kdy raději nerebuildit

Více než 1 disk se SMART warning

Pokud některý ze zbývajících disků vykazuje SMART varování, rebuild je hazard. Profesionální recovery je bezpečnější.

Velmi staré disky (5+ let)

U starých disků je pravděpodobnost URE a dominového selhání velmi vysoká. Zvažte recovery místo rebuildu.

Kritická data bez zálohy

Pokud nemáte zálohu a data jsou kritická, rebuild je příliš rizikový. Profesionální recovery je jediná bezpečná cesta.

Již proběhlý neúspěšný pokus

Pokud první rebuild selhal, druhý pokus má ještě menší šanci. Disky jsou dále opotřebené. Volejte profesionály.

Co dělat při degraded stavu →


FAQ

Jak dlouho trvá rebuild?

Záleží na kapacitě, rychlosti disků a zatížení. Orientačně:

  • 4TB: 8-16 hodin
  • 8TB: 16-32 hodin
  • 12TB+: 1-3 dny

Můžu server používat během rebuildu?

Můžete, ale zpomalíte rebuild a zvýšíte riziko. Pro kritická data doporučujeme minimalizovat provoz.

Je rebuild na SSD bezpečnější?

Ano. SSD mají lepší URE rate (10^17 vs 10^14) a nejsou náchylné na mechanické selhání. Rebuild je rychlejší a méně rizikový.

Selhal rebuild, co teď?

Okamžitě zastavte další pokusy. Disky jsou v horším stavu než před rebuildem. Kontaktujte profesionály.


Potřebujete bezpečnější řešení?

Pokud máte RAID v degraded stavu a bojíte se rebuildu, můžeme pomoci. Profesionální recovery je bezpečnější než riskantní rebuild.

Nonstop linka: 775 220 440

[Objednat diagnostiku →]


Související články