The Dark Side of the Moon

Naar overzicht

De grote complexiteit en de centrale rol van IT binnen moderne ondernemingen bieden, zoals ik eerder in mijn blogs heb beschreven, interessante uitdagingen. In Operationele IT omgevingen komen deze uitdagingen soms op onverwachte momenten en moet je ineens alle zeilen bijzetten om een groot incident op te lossen. Recentelijk hebben we binnen het netwerk team van NN kennis gemaakt met deze onvoorspelbaarheid en daar vertel ik jullie graag meer over in mijn nieuwe blog.

Op momenten dat er op mijn telefoon een SMS-bericht binnen komt is het toch altijd weer spannend; zogenaamde PRIO-1 incidenten - waarbij er impact (= onbeschikbaarheid) is op de IT-ketens van NN - worden namelijk aangemeld via deze berichten. Er spoken meteen een aantal vragen door mijn hoofd zoals “Speelt het netwerk een rol?” en daarnaast hangt m’n manager vaak snel aan de telefoon om een beeld te krijgen bij de oorzaak van de issues. Helaas was het antwoord op de bovenstaande vraag de laatste paar maanden iets te vaak “Ja”. In een periode van 2 maanden hebben we namelijk meerdere PRIO-1 incidenten met een oorzaak binnen het netwerk meegemaakt, met uiteenlopende impact op de business ketens van NN

Rond 21:00 uur op zaterdag avond ging de telefoon en kreeg ik vanuit de andere kant van de lijn een mededeling waar ik niet op zat te wachten: “Thomas, het gaat helemaal mis.”

Het begon allemaal eind februari, toen er tijdens werktijd problemen ontstonden op de netwerkverbindingen. Sindsdien hadden we op onverwachte momenten een incident op het netwerk met brede impact op de applicaties van het bedrijf. Het duurde niet lang voordat elk probleem op een applicatie werd toegewijd aan een issue op het netwerk en het vertrouwen in onze omgeving nam aanzienlijk af. In april leidde dit allemaal tot een apotheose in het Paasweekend. Om de problemen op het netwerk op te lossen (ja, je leest het goed “de problemen op te lossen”) hadden we samen met de leverancier een aantal wijzigingen in de componenten op het oog. Vanaf zaterdagmiddag zouden 2 netwerk engineers de wijzigingen doorvoeren om de omgeving zo te stabiliseren. Helaas, de “change” ging anders dan verwacht en liep zacht uitgedrukt in de soep. Toen ik net weg lag te dutten op de bank, ging rond 21:00 uur op zaterdag avond de telefoon en kreeg ik vanuit de andere kant van de lijn een mededeling waar ik niet op zat te wachten: “Thomas, het gaat helemaal mis.”

Het was weer raak, onze wijziging bood geen oplossing maar had grotere problemen veroorzaakt. We moesten aan de slag! Na de hele avond, nacht, ochtend en middag met een team van 5 collega’s doorgewerkt te hebben, kwamen we op eerste Paasdag rond 16:00 uur eindelijk tot het befaamde eureka-moment. Een van mijn collega’s had er op dat moment een werkdag van 16 (!!) uur opzitten. Hoewel je tijdens zo’n incident regelmatig met je handen in het haar zit en enorm baalt dat je op zoek bent naar de oplossing van een incident in plaats van naar een paasei, biedt dat eureka-moment je meer adrenaline dan de re-make van de film “It” zal doen (je kent hem wel, die enge clown in het riool).

Incidenten zijn een integraal onderdeel van IT, ze hebben er zelfs een speciaal proces (en team) voor ingericht: Incident Management. En terwijl dit niet voor iedereen is weggelegd geeft het je een enorme rush om samen met je team en je eindgebruikers op zoek te gaan naar een oplossing van een probleem. Samen probeer je in te zoomen op het issue en de oorzaak te isoleren. Het is net alsof je moet ontsnappen uit een lastige Escape Room. Als het dan uiteindelijk is gelukt, voelt het alsnog alsof je het gouden paasei gevonden hebt!

Onze opdrachtgevers