Het maken van serviceafspraken over een ICT-service vereist dat de gestelde servicenormen gemonitord worden. In de loop van de tijd zijn hiertoe diverse monitoring methoden en technieken ontwikkeld. Elke oplossing heeft specifieke voor- en nadelen. Dit artikel geeft een overview van veel gebruikte oplossingen voor het monitoren van ICT-services.
Er zijn vele tools op de markt om ICT-services te monitoren. Dit artikel bespreekt een vijftal veel voorkomende archetypes:
In dit artikel wordt per variant wordt een uitleg gegeven, inclusief een set van voor- en nadelen. Om een indruk te geven van de veelzijdigheid van meetinstrumenten wordt van elke variant een aantal specifieke kenmerken van een tool toegelicht. Om de tekst compact te houden zijn niet alle voor- en nadelen per variant beschreven. Aan het einde van het artikel is ter aanvulling een samenvatting gegeven met daarbij aanvullende voor- en nadelen. De servicedesk monitoring is algemeen bekend verondersteld en is alleen in de samenvatting opgenomen. Dit artikel sluit af met een conclusie.
Bij veel organisaties vervult de servicedesk nog steeds een belangrijke monitorfunctie. De meting van de serviceverlening wordt hierbij door de gebruikers en DevOps engineers gedaan op basis van het aanmelden van incidenten bij de servicedesk. De rapportage van de servicedesk kan dan gebruikt worden om te bepalen of de serviceafspraken zijn nagekomen. In dat geval zijn de servicenormen meestal gericht op de oplostijd en soms ook wel de klanttevredenheid op basis van vragen die gesteld worden na afloop van een call naar de servicedesk.
Tijdens de bouw van een applicatie kan de monitorfunctionaliteit vrij eenvoudig worden meegenomen door meetpunten te bepalen die de te bieden ICT-serviceverlening meetbaar maken. Deze moet dan wel op basis van requirements van de gebruikers- en serviceorganisatie worden gerealiseerd. Deze vorm van monitoring is al vrij oud. Voorbeelden zijn het bijhouden van tellingen in een complexe crossplatform batchverwerking en doorlooptijden van berichten door een keten. Er zijn ook leveranciers die in Common Of The Shelf (COTS) applicaties built-in monitorfaciliteiten meeleveren. De meetgegevens zijn te ontsluiten zodat deze aan de eigen monitorvoorziening kunnen worden doorgegeven.
Een ICT-service kan uitéén worden gerafeld in infrastructuur- en applicatiecomponenten. Bijvoorbeeld aan de hand van de Component Failure Impact Analyse (CFIA) van IBM zoals deze binnen ITIL wordt beschreven. De som van deze componenten is bepalend voor de kwaliteit van de ICT-service. De SLA-normen van een ICT-service zijn dus te meten aan de hand van deze componenten. Figuur 2 geeft een schetst van deze monitorarchitectuur.
De monitorserver verzamelt de statusinformatie van de infrastructuur- en de applicatiecom-ponenten. Deze statusinformatie is velerlei en omvat zaken als: events die in logbestanden zijn weggeschreven, resourcebeslag van de infrastructuurcomponenten, de bereikbaarheid, beschik-baarheid en performance van infrastructurele en applicatieve services, alsmede ingestelde parameters en configuratieinformatie in het algemeen.
Deze informatie kan zowel middels een push- als een pullactie worden verzameld. Bij een pushactie worden actieve agents op een server gebruikt om de status van de betrokken componenten door te geven. Bij een pullactie verzamelt de monitorserver zelf de status van alle componenten door deze periodiek langs te lopen. Een best practice frequentie is één keer in de vijftien minuten. Op basis van de centraal verzamelde informatie van de componenten bepaalt de monitorserver welke actie wanneer moet worden genomen. Periodiek kan een SLA-rapportage worden aangemaakt over de resultaten. Hierbij wordt uiteraard rekening gehouden met de redundantie van componenten en dergelijke.
Naast de component gebaseerde monitoroplossing zijn er ook oplossingen die ICT-services end-to-end (E2E) doormeten. In de praktijk zijn er twee hoofdstromen te onderkennen te weten de EUX- en de RUM-monitoroplossing. Het verschil tussen beide is dat de EUX-oplossing de ICT-service meet op basis van een simulatie van een gebruiker, terwijl de RUM-oplossing de transacties van de werkelijke gebruikers meet. Nu volgt eerst een uiteenzetting van de EUX-oplossing, daarna wordt de RUM-oplossing besproken.
De EUX-oplossing is gebaseerd op een simulatie van een gebruiker. Deze simulatie vindt plaats door het feitelijk gebruik van de applicatie door een gebruiker met een recorder op te nemen en de hierdoor verkregen scripts (synthetische transacties) periodiek af te spelen. Hiertoe wordt gebruik gemaakt van één of meer werkplekken (robots) die vaak in een afgesloten ruimte worden opgesteld.
De meeste leveranciers bieden een oplossing waarbij het beheer van de scripts op een centrale server plaatsvindt. Nieuwe of aangepaste scripts worden door de centrale server gedistribueerd naar de robots. Ook de scheduling van de door de robots af te vuren scripts wordt centraal ingeregeld. De resultaten van de robotmetingen worden centraal verzameld en vergeleken met de servicenormen. In geval van een normoverschrijding wordt een alert afgegeven. Figuur 3 toont een voorbeeld van een EUX-inrichting.
Er zijn diverse producten op de markt met totaal verschillende functionaliteit, kwaliteit en prijsstelling. Er zijn ook leveranciers die EUX-services aanbieden om internettoepassingen door te meten. Hierbij wordt de internet ICT-service vanaf diverse locaties op de wereld of Nederland gemeten, gealert en gerapporteerd. Deze serviceverlening kan al voor enkele tientallen euro’s per te monitoren transactie per maand afgenomen worden. Verder zijn er ook nog freeware tools beschikbaar op de markt. Ook met deze tools kunnen gebruikerstransacties gesimuleerd worden.
Belangrijke additionele faciliteiten zijn het back-tracen van de oorzaak van een verstoring. Dit kan tot op zekere hoogte door de robot zelf. Ook kan aan de hand van additionele metingen en analyses, als door koppelingen met andere tools extra informatie worden verzameld en analyses worden verricht.
Real User Monitoring is het monitoren van het feitelijk gebruik van de ICT-service door gebruikers zonder invloed uit te oefenen op de ICT-service (non intrusive). Deze technologie meet op basis van het netwerkverkeer dat ten grondslag ligt aan de ICT-service wat de prestaties zijn die worden geleverd. Hiertoe worden de netwerkverkeerpakketten gekopieerd en op een monitorserver geanalyseerd.
Er zijn een aantal leveranciers op de markt die invulling hebben gegeven aan het meten van servicenormen op basis van het feitelijke netwerkverkeer (Netwerk Protocol Analyse (NPA). Er worden een aantal belangrijke RUM-functies aangeboden. Zo kunnen de gemeten gebruikers-transacties opnieuw afgespeeld worden. Met een RUM-oplossing wordt immers al het (HTML) transactieverkeer gelogd. Tevens is er een business intelligence functie beschikbaar waarmee niet alleen de beschikbaarheid en performance kan worden gemeten, maar ook het navigatie-gedrag van de gebruiker, de pagina-laadtijd, de voorraad van artikelen et cetera. De derde functie is de rootcause-analyse waarmee tot op zekere hoogte geanalyseerd kan worden welk onderdeel van de applicatie, zoals een winkelwagentje, de veroorzaker is van een verstoring.
Tabel 1 geeft een overzicht van een aantal van de in dit artikel genoemde voor- en nadelen, aangevuld met een aantal extra punten. De invulling is alleen indicatief bedoeld, er zijn namelijk altijd wel mitsen en maren. Tevens vallen niet alle op de markt beschikbare tools precies binnen één klasse. Toch geeft deze tabel een aardige indicatie van de mogelijkheden en onmogelijk-heden van de gekozen oplossing. Elke in de tabel genoemde beperking is minstens een check van de gekozen oplossing waard.
| Servicedesk | Built-in | Compo-nent Based | EUX | RUM XE "RUM" | |||
Meetbereik servicenormen XE “service:- norm” | ||||||||
– Beschikbaarheid XE "beschikbaarheid" | ||||||||
– Performance XE "Performance" | ||||||||
– Capaciteit XE "Capaciteit" | ||||||||
– Beveiliging XE "beveiliging" | ||||||||
– Navigatiegedrag XE "navigatiegedrag" | ||||||||
Bijzondere meetfunctionaliteit | ||||||||
– Automatische detectie XE "automatische detectie" | ||||||||
– Detectie zonder gebruikers XE "detectie zonder gebruikers" | ||||||||
– Proactief beheer (trendanalyse) | ||||||||
– Meting infrastructuur eventlog | * | |||||||
– Metingen applicatie eventlog | ||||||||
– Meting foutmeldingen aan gebruiker XE "gebruiker" | ||||||||
Meetinformatie: | ||||||||
– Lokatie van de verstoring | ** | |||||||
– Betrokken componenten | ||||||||
– Indicatie oplosgroep | ||||||||
Meetbereik: | ||||||||
– Infrastructuurcomponenten | ||||||||
– Applicatiecomponenten | *** | |||||||
– Business transacties XE "transactie" | ||||||||
Flexibiliteit qua: | ||||||||
– Meetfrequentie | ||||||||
– Meetlokaties | ||||||||
– Meetfunctionaliteit | ||||||||
Meetbeinvloeding: | ||||||||
– Databases blijft onaangetast | ||||||||
– Non intrusive | ||||||||
Onderhoudbaarheid | ||||||||
Aanpasbaarheid | ||||||||
Ongevoelig voor applicatie aanpassingen | **** | |||||||
*) Wel via additionele tools die al dan niet als een geïntegreerde oplossing worden aangeboden. **) RUM XE "RUM" kan de verstoring lokaliseren tot op client-, server- of netwerkgebieden. ***) Die applicatiecomponenten XE "applicatiecomponent" die vanuit de gebruikersinterface waar te nemen zijn wel (bijvoorbeeld winkelwagentje), de interne componenten die niet af te leiden zijn van het netwerkverkeer niet. ****) Applicatiewijzigingen zijn in de huidige generatie van RUM XE "RUM" -tools transparant voor de monitortools XE “monitor:- tool" doordat applicatie herkend worden op basis van URL-structuren. Eventueel benodigde tags ter herkenning van transacties XE "transactie" kunnen vanuit een Content Management Systeem (CMS) worden toegevoegd. | ||||||||
Legenda | ||||||||
Ja | Deels | Beperkt | Nee |
Tabel 1, Voor- en nadelen per monitoroplossing.
Om de diverse oplossingen nog beter te vergelijken is in tabel 2 een overzicht gegeven van de enkele karakteristieke metingen per oplossing.
Karakteristieke metingen | |
Servicedesk | Incidenten en wijzigingen. |
Built-in | Aantal transacties, doorlooptijd transacties, fouten per applicatiemodule. |
Component based | Afgeleide beschikbaarheid en performance van de ICT-service op basis van verstoring aan componenten. Hiervoor worden resource metingen verricht zoals CPU belasting, memory verbruik, netwerkbandbreedte verbruik. Verder eventmetingen zoals logbestanden van MS Windows, z/OS, Linux et cetera. En tenslotte servicemetingen zoals Apache webservers, MS IIS, Printservices et cetera. |
EUX | Beschikbaarheid en performance van synthetische transacties van applicatiefuncties. De metingen betreffen de doorlooptijd, beschikbaarheid (http-statuscodes), et cetera. |
RUM | Beschikbaarheid en performance van business transacties. De metingen betreffen doorlooptijd, beschikbaarheid, webpagina laadtijd, navigatiegedrag (klikpaden), verkoop artikelen, foutboodschappen et cetera. |
Tabel 2, Karakteristieke metingen.
Elke monitorarchitectuur heeft voor- en nadelen. Er zal voor een goede monitoring van een ICT-service altijd een combinatie nodig zijn van monitortools. Idealiter worden de servicenormen E2E gemeten met een EUX- en/of RUM-oplossing, zodat de meting zo dicht mogelijk in de buurt komt van wat de gebruiker ervaart. Met alleen een inrichting van een EUX- en/of RUM-oplossing kan niet volstaan worden. Er zal altijd een component-based monitoroplossing nodig zijn voor de lokalisatie van een verstoring.
Continuous Monitoring, ISBN:978 94 92618 498
Prestatie Indicatoren, ISBN:9789071501470
Masterclass Continuous Monitoring ITMG.
Mogelijk is dit een vertaling van Google Translate en kan fouten bevatten. Klik hier om mee te helpen met het verbeteren van vertalingen.