Globální výpadek IT systémů způsobený aktualizací bezpečnostní služby CrowdStrike vyřadil z provozu miliony počítačů po celém světě. Podle českých odborníků mohli tvůrci softwaru udělat lépe řadu věcí. Podobný incident však podle nich byl jen otázkou času.
Co přesně se stalo? V pátek 19. července v ranních hodinách došlo k rozsáhlým problémům s počítači a servery běžícími na operačním systému Windows. Microsoft za chybu nicméně nemůže. Technická podstata problému spočívala v aktualizaci ovladače Falcon Sensor, kterou využívá bezpečnostní řešení od společnosti CrowdStrike. Tento ovladač, jako většina bezpečnostního softwaru, funguje v režimu jádra (kernel mode) systému Windows, což mu umožňuje monitorovat systémovou aktivitu na nízké úrovni. Chybná aktualizace způsobila, že ovladač (jehož název začíná „C-00000291“ a končí „.sys“) provedl nesprávné čtení paměti na adrese 0x9c, což vedlo k tzv. kernel panic – kritické chybě jádra operačního systému.
Na rozdíl od běžných aplikací, které běží v uživatelském režimu a mohou být jednoduše restartovány, chyba v ovladači běžícím v režimu jádra způsobí pád celého systému, projevující se jako „modrá obrazovka smrti“ (BSOD). Jelikož jsou ovladače zařízení načítány při startu počítače, tato chyba uvrhla postižené systémy do nekonečné smyčky restartování a nouzového režimu. Řešení vyžaduje manuální zásah – spuštění systému v nouzovém režimu a odstranění problematického souboru ovladače.
Incident musel jednou přijít, shodují se experti
Václav Svátek, generální ředitel a zakladatel společnosti ČMIS, poukazuje na to, že podobné incidenty mohou postihnout i technologické giganty. „Je zřejmé, že i giganti jako Azure a Microsoft mohou čelit výpadkům. Výpadky mohou postihnout jakoukoliv společnost, bez ohledu na to, jak pečlivě o své služby pečuje,“ říká Svátek.
Podle něj je klíčové důkladné testování před uvedením softwaru na trh. „Každá firma by měla před vydáním nového softwaru pečlivě otestovat všechny možné dopady změn a nové verze systému,“ vysvětluje Svátek. Doporučuje postupné zavádění nového softwaru – nejprve v testovacím prostředí, poté v preprodukci a nakonec v omezeném produkčním prostředí, než dojde k celosvětovému nasazení.
Vratislav Kalenda, spoluzakladatel a CEO vývojářského studia Applifting, vidí problém v širším kontextu. „Odolnost IT systémů je v přímém rozporu s efektivitou,“ říká Kalenda. Poukazuje na to, že ekonomické tlaky nutí firmy hledat nejlevnější řešení, což vede k používání jednoho operačního systému s jedním bezpečnostním programem bez záložního plánu.
Kalenda také kritizuje načasování aktualizace: „A hlavně, neměli nasazovat před víkendem.“ Dodává, že Crowdstrike mohl udělat více pro prevenci takového výpadku, včetně lepšího testování, postupného zavádění aktualizací a lepší edukace zákazníků o rizicích automatických aktualizací pro kritickou infrastrukturu.
Nasazovat aktualizaci naráz v celé firmě je chyba
Juraj Masár, CEO a spoluzakladatel Better Stack, zdůrazňuje důležitost testování i u důvěryhodných dodavatelů. „Platí pravidlo ‚důvěřuj, ale prověřuj‘ – i aktualizace od velkých a důvěryhodných dodavatelů je třeba nejdříve otestovat na oddělené části systému, takzvaném ‚staging environment‘, před nasazením do produkce,“ radí Masár.
Všichni experti se shodují, že podobný incident byl jen otázkou času vzhledem k rostoucí komplexitě a propojenosti moderních IT systémů. Zároveň apelují na firmy, aby věnovaly větší pozornost bezpečnostním postupům a testování před nasazením kritických aktualizací.
Zdroj: Vyjádření odborníků pro inSmart.cz
Dobrý den.
Od minulého týdne(výpadku), jsem pozastavil aktualice PC. Může aktualizace způsobit problém na PC obyčejného řadového uživatele?
Dobrý den, nikoliv, problém je už vyřešený a zasáhl jen uživatele služeb CrowdStrike, kterým jako běžný uživatel nejste. Aktualizace Windows jsou v pořádku a doporučuji je nechat zapnuté.