Žádný konec cloudu. Jen havárie letadla Amazon.

V neděli večer, krátce po půl osmé, udeřil kdesi v Dublinu blesk. A polovina evropského Amazon EC2 cloudu se ocitla bez proudu.

Petr Olmer 12.8.2011
 | na serveru Lidovky.cz | aktuální zprávy foto: © ČESKÁ POZICE, Richard CortésČeská pozice

V neděli večer, krátce po půl osmé, udeřil kdesi v Dublinu blesk. A polovina evropského Amazon EC2 cloudu se ocitla bez proudu. Tisíce služeb přestaly fungovat, včetně některých českých.

Toho dne se na celém světě staly miliony dalších, nesouvisejících havárií. Ve školách se rozbilo mnoho pevných disků, v bankách spadlo mnoho nočních dávek zpracování datového skladu, o domácnostech ani nemluvě. Poruchy a výpadky se dějí dnes a denně a zcela běžně se řeší a opravují.

Tříhodinový výpadek

Je to jako s letadly a automobilovou dopravou. V médiích se neřeší, že se dnes zabilo na silnicích víc než tři tisíce lidí, zato jedno havarované letadlo je hlavní událostí. Amazon je takovým letadlem. Letadlem, na něž se kdekdo spoléhá – od obřích společností po jednotlivce, kteří se už nechtějí bát, že se jejich disk jednou neroztočí a záložní DVD nebude možné přečíst.

Výpadek proudu trval v neděli tři hodiny. To však byl teprve začátek. Asi polovinu strojů se podařilo uvést do provozu rychle, během dalších 30 minut. Teprve druhý den v půl sedmé ráno, tedy po jedenácti hodinách, hlásil Amazon 75 procent instancí funkčních. V úterý ráno konečně běželo všechno, co bylo v době výpadku v konzistentním stavu. V podstatě disky, na něž se zrovna nezapisovalo. Začalo obnovování ze záloh, které by mělo trvalo až do čtvrtka.

Zóny dostupnosti

V minulém půlroce je to druhý závažný výpadek Amazonu. Prvním byly v dubnu postiženy USA. Tenkrát nebyl na vině blesk, ale lidská chyba. Podobně jako teď v Evropě šlo v případě některých společností až o několikadenní výpadek. Amazon jeho závažnost ocenil deseti dny zdarma pro všechny postižené.

Blesk nespálil jen transformátor, ale poškodil i řídící systém fázování záložních generátorů, a proto se nemohly automaticky spustit

Lze tedy cloud snadno odrovnat? Stačí jeden blesk, pár řádků špatně napsaného kódu? Amazon tvrdí, že tento blesk byl výjimečný. Nespálil jen transformátor, ale poškodil i řídící systém fázování záložních generátorů, a proto se nemohly automaticky spustit. Amazon také soustavně upozorňuje, že vlastní systém v cloudu má několik úrovní a že mít vše v jedné zóně dostupnosti může být neprozíravé. Navíc Amazon hlásí jen skutečné problémy. Kolikrát už blesk uhodil, a záložní generátory se samy spustily, se nedozvíme.

Amazon svá datová centra dělí do regionů, a ty pak do zón dostupnosti. Region Evropa má dvě zóny – EU-WEST-1A a EU-WEST-2B –, obě v Irsku. Tento výpadek se stejně jako v dubnu týkal jen jedné zóny. A kdo své počítače chytře rozprostřel a duplikoval v obou zónách, nemusel pocítit žádný problém.

Záležitost peněz

To samozřejmě stojí peníze. Mnoho lidí a malých společností nic neduplikuje a výběr zóny nechává na Amazonu. Pokud si na Amazonu zálohujete jen své fotky, je to určitě úplně v pořádku, ale pro začínající firmu může být dvoudenní výpadek v nevhodnou dobu smrtící.

To, co v obou případech zabralo Amazonu nejvíc času, byla obnova virtuálních disků Elastic Block Storage (EBS). Ty mají spoustu výhod. Například je lze jednoduše odpojit od jednoho počítače a připojit k druhému, ale bohužel fungují pouze v rámci jedné zóny. Ve více zónách si musíte sami zajistit replikování.

Konec cloudu se určitě nekoná. Někdo možná přechází k jinému providerovi, ale nikdo se z cloudu nestahuje. Naopak, tyto výpadky pomáhají tomu, aby společnosti cloudu lépe rozuměly. Jako nástroji, který jim pomáhá být levnější a efektivnější. Cloud je pořád bezpečný, globálně jsou výpadky marginální. Musíme však chápat, že není stoprocentní. Míru rizika si volíme sami.

Počet příspěvků: 1, poslední 11.8.2011 10:19 Zobrazuji posledních 1 příspěvků.