Rapportage storing datacenter Dronten op 30-1

Naar aanleiding van de stroomstoring op 30-01-2014 in ons datacenter te Dronten, plaatsen wij hier de rapportage van de gebeurtenissen zoals wij die van de leveranciers en engineers hebben ontvangen.

10:02 UPS 1.3 raakt oververhit, en wordt hierdoor automatisch uitgeschakeld.
10:03 Vanwege de oververhitting wordt de dieselgenerator door een engineer ingeschakeld. Er wordt nu parallel gedraaid op normale stroom en generator-stroom, zodat als 1 van beiden uitvalt er nog steeds geen probleem is. Dit zorgt voor extra redundantie voor het geval er een 2e UPS problemen krijgt.

10:05 UPS 1.1 stopt ermee, waardoor er nog maar 2 draaien. Alle UPS-systemen worden automatisch ingesteld op stand 'Overslaan'.

10:11 Plotseling werkt UPS 1.1 weer. De stand 'Overslaan' wordt automatisch uitgezet.

10:26 UPS 1.1 krijgt weer problemen, en veroorzaakt een hoge stroompiek richting het hoofd-distributie-board. Hierdoor vallen 2 sets van 3x200 Amp power breakers van de UPS systemen uit, de normale stroom en de generator-stroom worden niet meer doorgegeven naar de server-zaal. De totale A-feed valt hierdoor uit.

10:27 De generator wordt door een engineer opnieuw aangezet.

10:40 Besloten wordt om de 200 Amp power breakers worden vervangen vanuit de voorraad in het datacenter. Voor de zekerheid worden ook de onbeschadigde onderdelen vervangen door nieuwe.

10:48 De engineer begint met het vervangen.

15:00 De UPS-onderdelen zijn vervangen en meerdere hardware-tests zijn uitgevoerd, waarna de stroom weer via de UPS-systemen geleid wordt. Tijdens het omschakelen vindt er opnieuw een stroomuitval van feed A plaats, waardoor de UPS-systemen weer in stand 'Overslaan' gezet worden.

15:05 De UPS-engineer loopt alle hardware-checks nogmaals na, en de reden van de uitval wordt gevonden: 1 van de circuit boards van een UPS verstrekt het verkeerde voltage naar 1 van de cooling fans in het UPS-systeem.

16:12 Nieuwe circuit boards zijn besteld.

21:30 Oude circuit boards zijn vervangen. Na uitgebreid testen van de mainboards, en (voor de zekerheid) alle andere onderdelen van de UPS-systemen, werd de stroom naar de UPS-systemen teruggeleid.

22:30 Dieselgenerator werd uitgezet, normale stroom wordt weer gebruikt.

 

Samenvattend: Doordat er circuit boards deels defect waren, was de cooling in de UPS-systemen niet optimaal. Hierdoor merkte de UPS niet dat er kapotte onderdelen waren, en bleef deze niet in de stand 'Overslaan'. De UPS probeerde zichzelf weer in te schakelen totdat er onderdelen echt kapot  zijn gegaan.
Om het probleem in de toekomst te voorkomen, wordt er binnenkort een extra UPS toegevoegd aan het bestaande systeem met 4 UPS'en.

Wist u dat...?

Wist u dat wij in de meeste gevallen voor u PHP-instellingen naar wens kunnen wijzigen?