Facebook, jak wielu innych internetowych gigantów, dysponuje siecią rozsianych po całym świecie ogromnych centrów danych. Co by się jednak stało, gdyby jedno z nich, lub nawet kilka, zostało wyłączonych z użytku przez atak hakerski lub fizyczne uszkodzenie? Na to pytanie odpowiada właśnie Project Storm, zaprezentowany przez firmę na konferencji @Scale w San Jose.

Projekt powstał w 2012 roku po tym jak huragan Sandy zagroził zniszczeniem dwóch centrów danych przez które przepływają terabity informacji przesyłanych przez użytkowników portalu społecznościowego. Huragan ostatecznie ominął centra Facebooka, jednak w firmie zaczęto się wtedy zastanawiać: co by się właściwie stało? Czy awaria byłaby widoczna dla użytkowników powodując spowolnienie lub wyłączenie serwisu? Czy straty byłyby nieodwracalne? Ile trwałoby przywrócenie serwisu do pełni funkcjonalności?

Przez ostatnie cztery lata pracownicy giganta z grupy SWAT pod przewodnictwem Jaya Parikha analizowali architekturę systemu Facebooka i przeprowadzali wirtualne symulacje awarii centrów danych. Na tym jednak ich praca się nie zakończyła. Choć ich współpracownicy nie mogli w to początkowo uwierzyć, to w końcu w ramach projektu Storm zespół odłączał od sieci normalnie pracujące centra danych i sprawdzał czy wpłynie to na funkcjonowanie serwisu.

Początkowo, zanim udało się wszystkie procesy zoptymalizować, wyłączenia powodowały spore wahania w ruchu pomiędzy poszczególnymi węzłami sieci, które przyprawiały inżynierów o dreszcze. Jednak, jak się okazało, było to zupełnie niezauważalne z punktu widzenia użytkownika. Zespół SWAT oczywiście wciąż pracuje i przeprowadza coraz bardziej “mordercze” testy infrastruktury – po to, żebyśmy niezależnie od ataków hakerskich, terrorystycznych, huraganów, wojen atomowych, czy trzęsień ziemi, zawsze mogli pochwalić zdjęcie dziecka niewidzianej od 30 lat koleżanki.

źródło: spectrum.ieee.org