Monitoring & Eskalation von Störungen, Problemen, Situationen

IT-Komponenten, die produktiv Geschäftsprozesse unterstützen oder vollständig abbilden, müssen überwacht werden. Störungen, Probleme und Situationen werden erfasst, auf Konsolen dargestellt, via SMS und Telefon eskaliert und notwendige Tätigkeiten zur Lösung in Ticketsystemen angewiesen und dokumentiert.

Die vielfältigen technischen Systeme, die uns täglich an jeder Ecke unterstützen, neigen zu Fehlern und Ausfällen. Zusätzlich machen Menschen Fehler und lösen auch dadurch Störungen aus, verursachen Probleme im Betrieb.

Die IT als Dienstleister und grundsätzlicher Träger von Geschäftsabläufen ist ebenso anfällig für technische Fehler und menschliches Fehlverhalten. Technische Komponenten müssen deshalb überwacht und mögliches menschliches Fehlverhalten durch unterstützende Prozesse, z.B. Plausibilitätsprüfungen, reduziert und in seiner Auswirkung minimiert werden.

Welche Komponenten sollten überwacht werden?

Die IT als Dienstleister unterstützt Geschäftsprozesse. Somit müssen nach Möglichkeit alle beteiligten Komponenten überwacht und im Fehlerfall eskaliert werden.
Das können z.B. sein:

  • Server ( Hardware, Betriebssystem )
  • Datenbanken
  • Netzwerkkomponenten ( Router, Switche )
  • Applikationssoftware / notwendige Dienste
  • Verbindungen zu angeschlossenen Systemen, Internet, MQSeries, …
  • Storagesysteme – verfügbare Kapazitäten, SAN-Verbindungen

Dabei kann die Überwachung aktiv von den Komponenten durchgeführt werden, oder passiv von einer zentralen Stelle z.B. durch „anpingen“ erfolgen.

Typisierung von Situationen

Je nach Auswirkung einer Situation auf den Betrieb der Komponente, den Einfluß auf den Service / Prozeß, werden Schweregrade (Severities) definiert. Nach festgestelltem Schweregrad muß eine Eskalation in der jeweiligen Stufe erfolgen.

  • Störung – Komponente funktioniert nicht mehr. Der Ablauf ist so gestört, dass der Prozeß zum Halten kommt. Kunden können das System nicht mehr nutzen. Dringender Handlungsbedarf durch den Support erforderlich.
  • Problem – Komponente funktioniert eingeschränkt, der Prozeß läuft noch, aber es sind weitergehende Einschränkungen, bis hin zu einem Ausfall zu erwarten. Tätigkeiten durch den Support sind notwendig, aber Kunden können noch arbeiten, ggf. eingeschränkt durch z.B. Performanceverringerung.
  • Warnung – Es ist keine Einschränkung der erforderlichen Funktionalität vorhanden und kein aktives Eingreifen des Supports notwendig. Die gemeldete Situation sollte aber beachtet und für mögliches Eingreifen vorgemerkt werden.
  • Information – Eine Situation wird angezeigt und dient nur zur Visualisierung oder Information, z.B. für eine erfolgreiche Dateiübertragung oder Prozeßschnitte.
  • OK– oder Wiedergut-Meldungen dienen dazu eine vorhergehende Situtation zu beheben und weitergehende Eskalation in Alarme zu unterbinden.

Eskalation von Situationen

  • Störung -> Ticket/Mail -> AlarmSMS/Voicecall
  • Problem -> Ticket/Mail
  • Warnung, Information -> keine Eskalation, nur ggf. Darstellung auf technischer und/oder prozeßorientierter Konsole

Situationen werden durch die verschiedensten Quellen an ein zentrales System gemeldet. Dort findet nach einer Verarbeitung in einem Regelwerk die Speicherung in einer Datenbank statt. Diese zentrale Datenbasis dient dezentralen Konsolen zur Darstellung der Situationen, angepasst an die jeweilige Aufgabenstellung und Verantwortung des Betrachters.
An der zentralen Stelle des Regelwerks und der Datenbasis wird abhängig von definierten Parametern eine Eskalation initiiert. Die erste Stufe der Eskalation kann ein Ticket über ein HelpDesk- oder Ticketsystem sein, begleitet durch eine Mail. Oder es gibt in der einfachen Lösung nur eine Mail an die jeweilige Supportergruppe ( niemals an eine einzelne Person! ).
Die zweite Stufe ist die Eskalation via SMS und/oder Anruf (VoiceCall) an ein Mobiltelefon einer Bereitschafts- oder Einsatzgruppe. Grundlage für die Eskalation in der zweiten Stufe ist aber immer eine Eskalation der ersten Stufe! Gründe sind ist detaillierte Information und die Verfolgung der Aktivitäten durch die Systeme in der ersten Stufe.
Klar ist auch, das die unterschiedlichen Situationen in ihrem Schweregrad (Severity) eine jeweilige Eskalationsstufe nach sich ziehen. Über das Regelwerk kann ein Finetunig des Eskalationsweges, z.B. über Alarmverzögerung in der zweiten Stufe erfolgen.

Die Kommentarfunktion ist geschlossen.