pds-it
['Blogbeitrag','nein']
Service- und Projektmanagement
Blog
Service- und Projektmanagement

Was ist Incident Management? Ziele und Best Practices

Inhalte

    Incident Management: Definition und Bedeutung für Unternehmen

    [DEFINITION][Incident Management][Incident Management ist ein zentraler Prozess im IT Service Management (ITSM), der darauf abzielt, IT-Vorfälle – also unvorhergesehene Unterbrechungen oder Beeinträchtigungen von IT-Diensten – schnell zu erkennen, zu analysieren und zu beheben. Ziel ist es, die Servicekontinuität sicherzustellen, Ausfallzeiten zu minimieren und die Auswirkungen auf Kunden, Mitarbeitende und Geschäftsprozesse gering zu halten.]

    Eine schnelle und gezielte Problemlösung ist entscheidend, um den Geschäftsbetrieb aufrechtzuerhalten und negative Folgen wie finanzielle Verluste oder Vertrauensverlust bei Kunden zu vermeiden. Incident Management schützt nicht nur technische Ressourcen, sondern stärkt auch die Reputation eines Unternehmens.

    Der Prozess umfasst die Erkennung des Vorfalls, die Priorisierung und Analyse sowie die Behebung und abschließende Dokumentation. Dabei werden nicht nur akute Probleme gelöst, sondern auch wichtige Erkenntnisse für die Verbesserung der IT-Prozesse gewonnen.

    Grundlagen des Incident Managements

    Folgend wird auf die Grundlagen des Incident Mangements eingegangen. Was fällt alles unter die Begrifflichkeit eines Incidents, welche konkreten Ziele verfolgt das Incident Management und was sind konkrete Beispiele für Incidents?

    Was ist ein Incident?

    Ein Incident ist nach ITIL® (Information Technology Infrastructure Library) eine unvorhergesehene Unterbrechung oder eine signifikante Qualitätsminderung eines IT-Services, die den regulären Betrieb stört. Dabei kann es sich beispielsweise um einen Serverausfall, Netzwerkprobleme oder fehlerhafte Anwendungen handeln. Jeder Incident hat das Potenzial, Geschäftsprozesse zu beeinträchtigen, und erfordert daher eine schnelle Reaktion, um die Auswirkungen auf Kunden und Mitarbeitende zu minimieren.

    Incidents unterscheiden sich von geplanten Wartungsarbeiten oder bekannten Problemen, da sie in der Regel unerwartet auftreten und sofortiges Handeln erforderlich machen, um die Servicekontinuität wiederherzustellen.

    Ziele des Incident Managements

    Das Incident Management verfolgt in erster Linie die schnellstmögliche Wiederherstellung des IT-Servicebetriebs. Hierbei liegt der Fokus auf der Minimierung von Ausfallzeiten und der raschen Rückkehr zu einem normalen Betriebszustand, um den Geschäftsbetrieb so wenig wie möglich zu beeinträchtigen.

    Neben der schnellen Problembehebung zielt Incident Management darauf ab, die Auswirkungen eines Incidents auf die Geschäftsprozesse, Kunden und Mitarbeitende zu begrenzen. Durch strukturierte Priorisierung und gezielte Maßnahmen werden kritische Services bevorzugt behandelt, um Risiken und Verluste für das Unternehmen zu reduzieren.

    Langfristig soll Incident Management auch dazu beitragen, zukünftige Vorfälle zu verhindern. Dies geschieht durch die Analyse wiederkehrender Incidents und die Ableitung präventiver Maßnahmen, wie beispielsweise Systemverbesserungen, optimierte Prozesse oder Schulungen für Mitarbeitende.

    Beispiele für Incidents

    Incidents können in verschiedenen Formen auftreten und reichen von technischen Problemen bis hin zu sicherheitskritischen Vorfällen. Hier einige typische Beispiele:

    1. Serverausfälle

    Ein Serverausfall kann dazu führen, dass wichtige Anwendungen oder Datenbanken nicht mehr zugänglich sind. Dies hat oft unmittelbare Auswirkungen auf die Geschäftskontinuität, insbesondere bei zentralen Systemen wie E-Mail-Servern oder Produktionsdatenbanken.

    2. Netzwerkprobleme

    Netzwerkunterbrechungen oder -störungen können die Verbindung zwischen Systemen und Benutzern beeinträchtigen. Beispiele sind unterbrochene Internetverbindungen, überlastete Netzwerke oder Probleme mit VPN-Zugängen, die Remote-Arbeit unmöglich machen.

    3. Fehlerhafte Software-Updates

    Ein fehlerhaftes Update kann dazu führen, dass Anwendungen nicht wie erwartet funktionieren oder gar abstürzen. Solche Probleme treten häufig bei unzureichend getesteten Änderungen auf und können eine schnelle Rückabwicklung (Rollback) erfordern.

    Abgrenzung zum Problem Management

    Während das Incident Management darauf abzielt, den Betrieb durch schnelle Maßnahmen wiederherzustellen, liegt der Fokus des Problem Managements auf der langfristigen Lösung von Ursachen. Problem Management untersucht die zugrunde liegenden Gründe für Incidents und entwickelt präventive Maßnahmen, um ähnliche Vorfälle in der Zukunft zu vermeiden. Dadurch ergänzt es das Incident Management, indem es nicht nur akute Störungen bewältigt, sondern die Stabilität und Effizienz der IT Infrastruktur nachhaltig verbessert.

    Incident Management: Standards und Frameworks

    Incident Management wird durch etablierte Standards und Frameworks gestützt, die bewährte Vorgehensweisen und Anforderungen definieren, darunter:

    • ISO/IEC 20000: Dieser internationale Standard legt Anforderungen für ein effektives IT Service Management fest, einschließlich des Incident Managements. Er stellt sicher, dass Prozesse klar definiert und kontinuierlich verbessert werden, um eine hohe Servicequalität zu gewährleisten.
    • ITIL® (Information Technology Infrastructure Library): ITIL® bietet strukturierte Best Practices für das Incident Management. Es definiert Rollen, Prozesse und Workflows, die Unternehmen helfen, Vorfälle effizient zu bearbeiten und nachhaltige Verbesserungen in der Bereitstellung von IT-Services zu erzielen.

    Incident Management im Service-Lebenszyklus von ITIL®

    Im ITIL® Service Lifecycle ist das Incident Management ein zentraler Bestandteil des Bereichs Service Operation. Dieser Bereich konzentriert sich auf die Bereitstellung und Unterstützung von IT-Services im laufenden Betrieb.

    Incident Management spielt hierbei eine Schlüsselrolle, indem es sicherstellt, dass Störungen und Unterbrechungen schnell und effektiv behoben werden, um die Servicequalität und -verfügbarkeit aufrechtzuerhalten. Als operativer Prozess bildet es die Grundlage für einen stabilen und verlässlichen IT-Betrieb, der die Bedürfnisse von Kunden und Nutzern erfüllt.

    ITIL®-Vorgänge im Kontext von Incident Management  

    In ITIL® wird beim Incident Management (in ITIL® 4 als Service-Management-Praktik gelistet) sichergestellt, dass Incidents effizient erkannt, bearbeitet und gelöst werden können. Im Rahmen von ITIL® sind beim Incident Management unter anderem folgende Punkte von Relevanz:

    • Erfassung
      Jeder Incident wird im ITSM-System dokumentiert. Dabei werden Informationen wie Datum, Uhrzeit, Kategorie, Priorität und betroffene Systeme erfasst, um eine lückenlose Nachverfolgbarkeit zu gewährleisten.
    • Kategorisierung
      Der Incident wird einer passenden Kategorie zugeordnet (z. B. Software oder Hardware), um das richtige Team oder die zuständigen Ressourcen einzubinden.
    • Priorisierung
      Die Dringlichkeit und die Auswirkungen des Incidents bestimmen die Priorität. Kritische Incidents erfordern sofortige Maßnahmen, während weniger dringliche Probleme mit niedrigerer Priorität behandelt werden.
    • Erste Diagnose
      Der Service Desk versucht, den Incident im First Level Support direkt zu lösen. Wenn dies nicht möglich ist, wird der Vorfall an spezialisierte Teams eskaliert.
    • Eskalation:
      • Funktionale Eskalation: Weiterleitung an den 2nd-Level-Support, etwa spezialisierte Teams. Diese wiederum können bei Bedarf den 3rd-Level-Support hinzuziehen, welcher z.B. Hersteller oder Supplier umfassen kann.
      • Hierarchische Eskalation: Einbindung des Managements bei schwerwiegenden Incidents, um Entscheidungsbefugnisse oder zusätzliche Ressourcen bereitzustellen.
    • Lösung und Wiederherstellung
      Die Lösung wird implementiert, der Service wiederhergestellt und der Nutzer informiert.  
    • Abschluss
      Nach der erfolgreichen Lösung wird der Incident im ITSM-System dokumentiert. Der:die Anwemder:in bestätigt, dass der Service wieder wie gewohnt funktioniert.
    • Evaluation
      Die Lessons Learned aus dem Incident werden dokumentiert. Falls erforderlich, wird der Vorfall an das Problem Management übergeben, um die zugrunde liegende Ursache weiter zu analysieren und präventive Maßnahmen zu entwickeln.
    • Major Incidents als besonders schwere Fälle
      Besonders gravierende Incidents werde nach ITIL® als Major Incident eingestuft. Es handelt sich hierbei um einen Vorfall mit hohem Geschäftsimpact, der kritische Services beeinträchtigt und sofortige Aufmerksamkeit sowie Ressourcen erfordert. Beispiel ist ein Komplettausfall des Netzwerks.

    Wichtige ITIL®-Konzepte im Incident Management

    Das Incident Management im ITIL®-Framework basiert auf mehreren zentralen Konzepten, die sicherstellen, dass Incidents effizient bearbeitet und langfristig besser vermieden werden:

    • Service Desk
      Der Service Desk ist die zentrale Anlaufstelle für Anwender:innen, um Incidents zu melden. Er verfolgt das Ziel, möglichst viele Incidents direkt beim ersten Kontakt zu lösen (First Call Resolution), um Ausfallzeiten zu minimieren und den Aufwand für nachgelagerte Support-Teams zu reduzieren.
    • Service Level Agreements (SLAs)
      SLAs sind ein zentraler Bestandteil von ITIL®, um klare Erwartungen an die Bearbeitungszeit und Servicequalität zu definieren. Sie legen fest, wie schnell ein Incident je nach Priorität gelöst werden muss, und bieten eine Grundlage für die Messung der Leistung des Incident Managements.
    • Workarounds
      ITIL® empfiehlt den Einsatz von Workarounds – vorübergehende Lösungen für Incidents –, bis eine dauerhafte Behebung durch das Problem Management verfügbar ist. Dies ermöglicht eine schnellere Wiederherstellung des Betriebs, auch wenn die zugrundeliegende Ursache noch nicht behoben ist.
    • Knowledge Management
      Eine effektive Wissensdatenbank unterstützt das Incident Management, indem dokumentierte Lösungen für häufig auftretende Incidents schnell bereitgestellt werden können. Dies reduziert Bearbeitungszeiten und verbessert die Effizienz bei wiederkehrenden Problemen.
    • Continual Service Improvement (CSI)
      ITIL® betont die kontinuierliche Verbesserung der Prozesseffizienz und -effektivität. Durch regelmäßige Analyse und Optimierung des Incident Managements wird sichergestellt, dass Services nachhaltiger und störungsfreier bereitgestellt werden.

    Rollen und Verantwortlichkeiten nach ITIL®

    ITIL® definiert klare Rollen und Verantwortlichkeiten im Incident Management, um eine strukturierte und effiziente Bearbeitung von Incidents sicherzustellen:

    • Incident Manager:in
      Der:die Incident Manager:in ist für die Koordination und Überwachung des gesamten Incident-Management-Prozesses verantwortlich. Die Aufgaben umfassen die Einhaltung von SLAs, die Eskalation schwerwiegender Incidents und die Sicherstellung, dass alle Schritte des Prozesses ordnungsgemäß durchgeführt werden.
    • Service-Desk-Mitarbeiter:in
      Die Service-Desk-Mitarbeiter:innen sind die erste Anlaufstelle für Anwender:innen, die Incidents melden. Sie dokumentieren die Vorfälle, und leiten sie an die zuständigen Teams weiter.
    • Technische Teams (2nd/3rd Level Support)
      Technische Teams sind für die Untersuchung und Lösung komplexer Incidents verantwortlich. Während der 2nd Level Support tiefergehende Analysen durchführt, wird der 3rd Level Support in der Regel bei hochspezialisierten oder kritischen Incidents hinzugezogen.

    KPIs und Messgrößen nach ITIL®

    ITIL® betont die Bedeutung von Kennzahlen bzw. KPIs (Key Performance Indicators), um die Effektivität und Effizienz des Incident Managements zu überwachen. Zu den wichtigsten KPIs gehören:

    • First Call Resolution Rate
      Der Anteil der Incidents, die direkt beim ersten Call gelöst werden. Eine hohe Quote in Bezug auf eine First Call Resolution (FCR) zeigt, dass effektiv gearbeitet wird und eskalierende Workloads minimiert werden.
    • Mean Time to Resolve (MTTR)
      Die durchschnittliche Zeit, die benötigt wird, um einen Incident vollständig zu lösen. Ein niedriger MTTR ist ein Indikator für schnelle und effiziente Problembewältigung.
    • Mean Time to Acknowledge (MTTA)
      Die durchschnittliche Zeit bis zur ersten Reaktion auf einen gemeldeten Incident. Eine kurze MTTA zeigt, dass Vorfälle schnell wahrgenommen und angegangen werden.
    • Reopened Incidents
      Die Anzahl der Incidents, die nach einer scheinbaren Lösung erneut auftreten. Ein hoher Wert kann auf unzureichende Lösungen oder fehlende Ursachenanalysen hinweisen.

    Übergang vom Incident Management zu anderen ITIL®-Prozessen

    Das Incident Management steht in engem Zusammenhang mit anderen ITIL®-Prozessen, darunter insbesondere Problem Management und Change Management. Der nahtlose Übergang zwischen diesen Prozessen ist entscheidend für eine nachhaltige Lösung von Incidents und die Vermeidung zukünftiger Vorfälle:

    Problem Management

    Wenn die Ursache eines Incidents unbekannt bleibt oder wiederholt ähnliche Incidents auftreten, wird der Vorfall an das Problem Management übergeben. Ziel ist es, die zugrunde liegende Ursache zu identifizieren und dauerhaft zu beheben. Dieser Übergang stellt sicher, dass tiefergehende Analysen und präventive Maßnahmen durchgeführt werden, ohne die kurzfristige Incident-Bearbeitung zu verzögern.

    Change Management

    Falls zur Lösung eines Incidents Änderungen an der IT-Infrastruktur notwendig sind, erfolgt eine Übergabe an das Change Management. Dieser Prozess gewährleistet, dass die Änderungen kontrolliert und unter Berücksichtigung möglicher Risiken implementiert werden, um unbeabsichtigte Folgen für den Betrieb zu vermeiden.

    Wenn du wissen möchtest, wie das Change Management in ITIL® konkret ausgestaltet ist, dann schau gerne einmal in unserem Beitrag „Warum ITIL® ein wichtiger Faktor im Change Management ist“ rein. Falls du generell mehr über ITIL® erfahren möchtest, dann könnte unser Grundlagenartikel zu ITIL® etwas für dich sein.

    Author
    Thorsten Mücke
    Thorsten Mücke ist Produktmanager bei der Haufe Akademie und Experte für IT-Kompetenz. Mit über 20 Jahren Erfahrung in der IT-Weiterbildung und fundiertem Wissen zu IT, künstlicher Intelligenz und neuen Technologien gestaltet er innovative Lernangebote für die Herausforderungen der digitalen Welt.