
RAID rebuild: Proč může vést ke ztrátě všech dat
Vyměnili jste vadný disk. Spustili rebuild. Indikátor postupu ukazuje 47%. A pak... další disk selhal. Všechna data ztracena.
Toto není noční můra. Je to reálný scénář, který se děje častěji, než by měl. RAID rebuild, který má data obnovit, je paradoxně jeden z nejrizikovějších procesů pro vaše data.
Co je RAID rebuild
Definice
RAID rebuild je proces obnovy redundance po selhání disku. Controller přečte data a paritu ze zbývajících disků a dopočítá chybějící data na nový disk.
Jak funguje
RAID 5:
- Controller čte všechny sektory ze zdravých disků
- Pro každý stripe počítá:
Nový sektor = Disk1 XOR Disk2 XOR ... XOR Parity - Výsledek zapisuje na nový disk
RAID 6: Podobný princip, ale s využitím dvou nezávislých parit.
RAID 1/10: Jednodušší – prostá kopie z mirror disku.
Doba trvání
| Kapacita RAID | Přibližná doba rebuildu |
|---|---|
| 1 TB | 2-4 hodiny |
| 4 TB | 8-16 hodin |
| 12 TB | 24-48 hodin |
| 24 TB+ | 2-4 dny |
Záleží na rychlosti disků, controlleru a zatížení.
Proč je rebuild rizikový
Stress test pro zbývající disky
Během rebuildu musí controller přečíst každý sektor zbývajících disků. To je kompletní čtení celé kapacity – něco, co se při běžném provozu nikdy nestane.
Co to znamená:
- 100% využití I/O kapacity
- Zvýšená teplota disků
- Mechanické zatížení (u HDD)
- Odhalení latentních defektů
Odhalení skrytých problémů
Některé sektory nebyly přečteny měsíce nebo roky. Mohou být degradované, ale běžný provoz to nezjistí – soubory v těchto sektorech nikdo nepoužívá.
Rebuild přečte všechno. A najde problémy, o kterých jste nevěděli.
URE – Unrecoverable Read Error
Klíčový pojem pro pochopení rizik rebuildu.
URE: Tichý zabiják RAID
Co je URE
Unrecoverable Read Error je chyba čtení, kterou disk nedokáže opravit. Sektor je nečitelný i po opakovaných pokusech.
Statistika výskytu
Každý disk má specifikaci URE rate – pravděpodobnost výskytu neopravitelné chyby:
| Typ disku | URE rate |
|---|---|
| Consumer HDD | 1 na 10^14 bitů |
| Enterprise HDD | 1 na 10^15 bitů |
| Enterprise SSD | 1 na 10^17 bitů |
Matematika – proč je to problém
Spočítejme pravděpodobnost URE při rebuildu 12TB RAID 5 s consumer disky:
12 TB = 12 × 10^12 bytes = 96 × 10^12 bitů
URE rate = 10^14 bitů na chybu
Pravděpodobnost BEZ chyby při čtení 12TB:
P(OK) = (1 - 1/10^14)^(96×10^12) ≈ e^(-0.96) ≈ 38%
Pravděpodobnost alespoň 1 URE:
P(URE) ≈ 62%
U 12TB consumer disku je ~60% šance na URE při plném čtení.
Důsledky pro RAID 5
U RAID 5 jeden URE při rebuildu = selhání celého rebuildu. Controller nemá jak dopočítat chybějící data, pokud jeden z vstupních sektorů je nečitelný.
Výsledek: Pole zůstane v degraded stavu, rebuild selže, a pokud selže další disk – ztráta všech dat.
Proč je RAID 6 bezpečnější
RAID 6 má dvě nezávislé parity. Jeden URE při rebuildu nepředstavuje problém – controller může data dopočítat z druhé parity.
Proto doporučujeme RAID 6 pro:
- Velká pole (6+ disků)
- Velké disky (4TB+)
- Consumer disky (horší URE rate)
Pravděpodobnost selhání při rebuildu
Tabulka rizik
| Situace | Pravděpodobnost selhání |
|---|---|
| RAID 5, 4×1TB, nové disky | ~1-5% |
| RAID 5, 4×4TB, 3 roky | ~10-20% |
| RAID 5, 8×8TB, 4 roky | ~30-40% |
| RAID 5, 8×12TB, 5 let | ~40-60% |
| RAID 6, 8×12TB, 5 let | ~5-15% |
Faktory zvyšující riziko
Stáří disků: Starší disky = více opotřebení = vyšší pravděpodobnost URE a selhání.
Velikost disků: Větší disky = více dat k přečtení = vyšší pravděpodobnost URE.
Počet disků: Více disků = více potenciálních míst selhání.
SMART warnings: Disky s varováními mají výrazně vyšší pravděpodobnost selhání při rebuildu.
Hot Spare – řešení nebo iluze?
Co je hot spare
Záložní disk připojený k RAID poli, ale nepoužívaný. Při selhání disku automaticky nahradí vadný a zahájí rebuild.
Výhody
Automatický start: Žádné čekání na nový disk, rebuild začne ihned.
Kratší doba degraded: Menší okno, kdy je pole zranitelné.
Nevýhody
Rebuild je stále rizikový: Hot spare nezmenšuje rizika rebuildu – URE, dominový efekt, zatížení disků.
False sense of security: "Máme hot spare, jsme v bezpečí." Ne, jste jen rychleji v rebuild fázi.
Náklady: Disk, který běžně nic nedělá.
Doporučení
Hot spare ANO, ale s vědomím limitů. Je to doplněk k zálohám, ne náhrada.
Správný postup při rebuildu
Před rebuildem
1. Plná záloha (pokud možné) Pokud pole čitelné, zálohujte kritická data. Je to pojistka pro případ selhání rebuildu.
2. SMART check všech disků Zkontrolujte SMART hodnoty zbývajících disků:
- Reallocated Sector Count
- Current Pending Sector
- Spin Retry Count
Pokud některý disk vykazuje varování, nerebuilďte – raději profesionální recovery.
3. Dokumentace Zaznamenejte:
- Model a sériová čísla disků
- Pozice disků
- RAID konfigurace
- SMART hodnoty
4. Plán B Co uděláte, pokud rebuild selže? Mějte připravený kontakt na profesionály.
Během rebuildu
1. Minimalizujte I/O Vypněte aplikace, které používají RAID. Méně zatížení = nižší riziko.
2. Monitoring Sledujte progress a teplotu disků. Vysoká teplota = riziko.
3. Buďte připraveni na selhání Pokud rebuild selže nebo se objeví chyby, okamžitě zastavte a volejte pomoc.
Po rebuildu
1. Verify integrity Spusťte kontrolu konzistence (scrub), pokud controller podporuje.
2. Test zálohy Ověřte, že záloha je aktuální a funkční.
3. SMART check Zkontrolujte znovu SMART hodnoty – rebuild mohl odhalit latentní problémy.
Alternativy k rebuildu
Profesionální recovery
Místo riskantního rebuildu lze data zachránit profesionálně:
- Sektorová kopie každého disku
- Virtuální rekonstrukce RAID
- Práce s kopiemi, ne originály
Výhody:
- Bezpečnější (nepracujeme s originály)
- Lze zachránit i při multiple failures
- Expertní diagnostika
Nevýhody:
- Náklady
- Čas (dny místo hodin)
Obnova ze zálohy
Nejbezpečnější varianta. Pokud máte funkční zálohu:
- Vytvořte nové RAID pole
- Obnovte data ze zálohy
- Hotovo
Toto je důvod, proč mít zálohy.
Upgrade na RAID 6
Pokud už musíte řešit selhání, zvažte upgrade:
- Nový controller podporující RAID 6
- Nové disky (různé šarže)
- Migrace dat ze zálohy
Kdy raději nerebuildit
Více než 1 disk se SMART warning
Pokud některý ze zbývajících disků vykazuje SMART varování, rebuild je hazard. Profesionální recovery je bezpečnější.
Velmi staré disky (5+ let)
U starých disků je pravděpodobnost URE a dominového selhání velmi vysoká. Zvažte recovery místo rebuildu.
Kritická data bez zálohy
Pokud nemáte zálohu a data jsou kritická, rebuild je příliš rizikový. Profesionální recovery je jediná bezpečná cesta.
Již proběhlý neúspěšný pokus
Pokud první rebuild selhal, druhý pokus má ještě menší šanci. Disky jsou dále opotřebené. Volejte profesionály.
FAQ
Jak dlouho trvá rebuild?
Záleží na kapacitě, rychlosti disků a zatížení. Orientačně:
- 4TB: 8-16 hodin
- 8TB: 16-32 hodin
- 12TB+: 1-3 dny
Můžu server používat během rebuildu?
Můžete, ale zpomalíte rebuild a zvýšíte riziko. Pro kritická data doporučujeme minimalizovat provoz.
Je rebuild na SSD bezpečnější?
Ano. SSD mají lepší URE rate (10^17 vs 10^14) a nejsou náchylné na mechanické selhání. Rebuild je rychlejší a méně rizikový.
Selhal rebuild, co teď?
Okamžitě zastavte další pokusy. Disky jsou v horším stavu než před rebuildem. Kontaktujte profesionály.
Potřebujete bezpečnější řešení?
Pokud máte RAID v degraded stavu a bojíte se rebuildu, můžeme pomoci. Profesionální recovery je bezpečnější než riskantní rebuild.
Nonstop linka: 775 220 440
[Objednat diagnostiku →]