Storingsclassificatie en SLA
Storingsclassificatie geeft een SLA meer diepgang en geeft bovendien ruimte in het afhandelen van storingen. Bij de invoering van een SLA tussen een datacenter en een gebruikersorganisatie dienen we vast te stellen wat de snelheid is waarmee storingen worden opgelost door het datacenter. In de SLA staat vaak het volgende :
“Datacenter is verantwoordelijk voor het oplossen van storingen aan apparatuur, besturingssoftware en applicaties welke onder haar beheer vallen. Zo spoedig mogelijk na het ontstaan van de storing zal deze zijn verholpen dan wel zullen bindende afspraken worden gemaakt voor de oplossing. Prioriteit en reactietijd zijn namelijk afhankelijk van de ernst (severity) en de impact van het probleem. Datacenter zal, in samenwerking met de functionele beheerders, een procedure uitwerken waarin wordt afgesproken in welke situatie een bepaalde ernst van toepassing is en hoe daar op gereageerd moet worden.”
Dit artikel geeft een aanzet en is bedoelt als vertrekpunt voor de uitwerking voor de afhandeling van storingen. Voor het Datacenter is echter het uitgangspunt dat storingen altijd zoveel mogelijk voorkomen moeten worden. In de SLA is beschreven welke maatregelen daarvoor zijn genomen. De ene storing is de andere niet en om juist te kunnen handelen is storingsclassificatie wenselijk.
Uit het bovenstaande is af te leiden dat de storingen die het datacenter krijgt gemeld zich in allerlei objecten kunnen voordoen, namelijk in zowel apparatuur, besturingssoftware en applicaties. De aanmelding van de meeste storingen gebeurt telefonisch, mondeling, via mail maar altijd centraal aan de Servicedesk. Deze registreert de storing met ook altijd in een ticketsysteem, inclusief classificatie.
Het datacenter kent de zogenaamde Problem management en Incident management procedures voor de afwikkeling van problemen in applicaties. Deze procedures ondersteunen het ProblemManagementFormulier en worden dan ook voornamelijk gebruikt voor de communicatie tussen functioneel beheer en het onderhoudsteam van de applicaties. Het overzetten van applicaties van ontwikkelomgeving naar acceptatie testomgeving en van testomgeving naar productie-omgeving voert het datacenter eveneens aan de hand van deze procedure uit.
Van de gemelde storingen ontvangt de gebruikersorganisatie periodiek een overzicht over de doorlooptijd en de status van het herstel conform de SLA.
Als er één gebruiker is met één eenvoudige storing zijn er weinig problemen bij het oplossen van deze storing te verwachten. Moeilijker is het als er meerdere complexe storingen tegelijkertijd optreden. Bij meerdere storingen zal bovendien de volgorde van afwerking een rol gaan spelen (prioriteit), bij complexe storingen zal het uitbesteden van de storing een rol spelen (escalatie). Door een steeds bredere inzet van complexere informatietechnologie zullen deze twee typen problemen meer voorkomen dan vroeger. D.w.z. dat storingen vaker in prioriteit afgehandeld zullen gaan worden terwijl vaker een beroep op experts gedaan moeten worden. Een toename van deze problemen kunnen we al tegengaan door vast te blijven houden aan één storings-ongevoelig IT platform van apparatuur, besturingssoftware en applicaties.
Het is al een uitdaging voor ieder datacenter om het aantal onderhanden storingen zo klein mogelijk te houden. Niet alleen de druk op de medewerkers zal daardoor afnemen, ook de tevredenheid van de eindgebruikers zal toenemen. Er zijn echter een aantal voorzorgsmaatregelen denkbaar. Storingsclassificatie speelt hierin altijd een belangrijke rol. Het is echter de vraag of deze oplossingen voor iedere organisatie wel allemaal reëel zijn. Er is niet naar de kosten gekeken bij het opstellen van de lijst met onderstaande oplossingen:
Een combinatie van bovenstaande oplossingen geeft vaak goede resultaten.
Voordat we een oplossing kiezen moeten we bepalen of de oplossing d.w.z. de investering wel noodzakelijk is. Daarbij draait ook alles om de beschikbaarheidseisen die we aan de objecten stellen. Deze beschikbaarheidseisen kunnen we echter afleiden van een aantal factoren die de ernst (severity) van een storing bepalen. De volgende beschikbaarheidsfactoren spelen een rol:
Om de severity van een storing vast te kunnen stellen passen we als voorbeeld de volgende rekenmethodiek toe. De invulling kan per organisatie verschillen:
Deadline: | Deadline binnen een werkdag | Severity 4 |
Binnen twee werkdagen | Severity 3 | |
Binnen vijf werkdagen | Severity 2 | |
Deadline binnen tien werkdagen | Severity 1 | |
Financiële schade | Leegloop : .. Euro per gebruiker per uur. | |
Schade organisatie : Hoogte van bedrag | ||
Externe schade relaties : 20 % van bedrag | ||
Schade > 10.000,- | Severity 4 | |
Tussen 2.000 en 10.000 | Severity 3 | |
Schade tussen 1.000 en 2.000 | Severity 2 | |
Schade < 1.000,- | Severity 1 | |
Informatie voorziening | ||
Informatie verliest waarde binnen een werkdag | Severity 4 | |
De informatie verliest waarde binnen twee werkdagen | Severity 3 | |
Informatie verliest waarde binnen vijf werkdagen | Severity 2 | |
Informatie verliest waarde binnen tien werkdagen | Severity 1 |
Download escalatieschema (pdf)
Mogelijk is dit een vertaling van Google Translate en kan fouten bevatten. Klik hier om mee te helpen met het verbeteren van vertalingen.