Vorfallmanagement für High-Velocity-Teams
Kostenlos nutzen
Management von Serviceanfragen
Überblick
Best Practices für den Aufbau eines Servicedesk
IT-Metriken und -Berichte
SLAs: Was, warum und wie?
Warum die Lösung beim ersten Anruf so wichtig ist
Helpdesk
Unterschiede zwischen den Begriffen "Servicedesk", "Helpdesk" und "ITSM"
IT-Support nach dem DevOps-Ansatz
Interaktive Ticketlösungen
Jira Service Management individuell anpassen
Übergang vom E-Mail-Support
Servicekatalog
Was ist ein virtueller Agent?
Ein Überblick über IT-Services und ihre Bedeutung
IT-Asset-Management
Überblick
Configuration Management Databases (CMDs)
Konfigurationsmanagement und Asset-Management
Best Practices für das IT- und Software-Asset-Management
Höhere Effizienz und Sicherheit mit Asset-Verfolgung
Hardware asset management
Vorfallmanagement
Überblick
IT Service Continuity Management (ITSCM)
Informationen zu Vorfällen
Vorlagen
Workshop
Incident Response
Best Practices
Einsatzleiter
Luftfahrt
Rollen und Zuständigkeiten
Lebenszyklus
Playbook
Bereitschaftsdienst
Bereitschaftspläne
Bezahlung im Bereitschaftsdienst
Alarm-Fatigue
Verbesserung des Bereitschaftsdienstes
IT-Warnmeldungen
Eskalationsrichtlinien ansehen
Tools
Vorlage
Eskalationspfad-Vorlage
KPIs
Gängige Metriken
Schweregrade
Kosten von Ausfällen
SLA, SLO und SLI
Fehlerbudget
Zuverlässigkeit und Verfügbarkeit
MTTF (Mean Time to Failure)
DevOps
SRE
You build it, you run it
Problemmanagement und Vorfallmanagement
ChatOps
IT-Service-Management (ITSM)
Management von größeren Vorfällen
Management von IT-Vorfällen
Modernes Vorfallmanagement für IT-Ops
Disaster-Recovery-Pläne für IT-Ops- und DevOps-Fachleute
Best Practices für das Bug-Tracking
Post-Mortem-Analyse
Vorlage
Ohne Schuldzuweisungen
Berichte
Meeting
Zeitleisten
5Warum-Fragen
Öffentlich vs. privat
Tutorials
Informationen zu Vorfällen
Bereitschaftsplan
Automatisierung von Kundenbenachrichtigungen
Handbuch
Incident Response
Post-Mortem-Analysen
Vorlagengenerator
Glossar
Handbuch herunterladen
Der Stand des Vorfallmanagements2020
Der Stand des Vorfallmanagements2021
IT-Management
Überblick
Problemmanagement
Überblick
Vorlage
Rollen und Zuständigkeiten
Prozess
Änderungsmanagement
Überblick
Best Practices
Rollen und Zuständigkeiten
Change Advisory Board
Arten des Änderungsmanagements
Wissensmanagement
Überblick
Was ist eine Wissensdatenbank?
Was ist wissensorientierter Service (Knowledge-Centered Service, KCS)?
Self-Service-Wissensdatenbanken
Enterprise Service Management
Überblick
HR Service Management und Delivery
Best Practices für die HR-Automatisierung
3Tipps zur Implementierung des ESM
Informationen zum Offboarding-Prozess
Strategien für das Employee Experience Management
Die 9besten Onboarding-Lösungen
ITIL
Überblick
DevOps vs. ITIL
Leitfaden zur ITIL-Servicestrategie
ITIL-Serviceüberführung
Kontinuierliche Serviceverbesserung
IT Operations
Überblick
IT Operations Management
Überblick
System-Upgrade
Servicezuordnung
Application Dependency Mapping
IT-Infrastruktur
In the midst of daily operations, an IT leader suddenly receives a barrage of alerts — a service outage threatens to disrupt their system. However the seasoned incident management team has faced similar challenges before and swiftly springs into action. By following a well-rehearsed plan and incident response best practices, they coordinate to mitigate the issue, limit damage, and restore operations, averting customer impact.
Incident response should not be reactionary but a well-defined series of practices and processes that you implement when unforeseen events occur. By understanding the structured incident response lifecycle, companies gain guidance through a strategic framework to swiftly identify, react to, and neutralize disruptions or security threats, ensuring a prompt return to normal operations.
This guide will cover the incident response lifecycle and its phases, the types of security incidents, and essential tools for effective incident management. Additionally, it will address key team members, potential challenges, and insights to streamline and fortify incident response strategies.
Wie sieht eine Incident Response aus?
Die Incident Response ist der Prozess eines Unternehmens, bei dem auf IT-Bedrohungen wie Cyberangriffe, Sicherheitsverletzungen und Serverausfälle reagiert wird.
Andere IT-Operations- und DevOps-Teams bezeichnen diese Praxis eventuell als Management größerer Vorfälle oder einfach als Vorfallmanagement.
Prozess zur Incident Response
In den folgenden Abschnitten wird ein Prozess der Incident Response beschrieben und erklärt, was von der Erkennung eines ausgefallenen Service bis zu dessen Wiederherstellung getan werden muss. Als Anhaltspunkt dienen die Materialien, die in unserem eigenen Handbuch zu Vorfällen aufgeführt sind.
In diesem Artikel werden wir die sieben wichtigsten Phasen der Incident Response behandeln:
- Erkenne den Vorfall.
- Richte Kommunikationskanäle für das Team ein.
- Bewerte die Auswirkungen und gib einen Schweregrad an.
- Kommunikation mit Kunden
- Eskaliere das Problem an die richtigen Vorfallbearbeiter.
- Delegiere Rollen für die Incident Response.
- Behebe den Vorfall.
Erkenne den Vorfall.
Im Idealfall erkennen Überwachungs- und Benachrichtigungstools Vorfälle und melden diese deinem Team, bevor Kunden überhaupt etwas davon bemerken. Manchmal erfährst du jedoch zuerst über Twitter oder eingehende Kundensupporttickets von einem Vorfall.
Doch egal, wie der Vorfall erkannt wird – du solltest als Erstes in einem Tool für Vorgangsverfolgung festhalten, dass es einen neuen Vorfall gibt. In einer Vorfallmanagementlösung wie Jira Service Management sind Benachrichtigung und Kommunikation in das Tool für die Vorgangsverfolgung integriert.
Richte Kommunikationskanäle für das Team ein.
Wenn Vorfallmanager online gehen, richten sie zunächst einmal Kommunikationskanäle für das Incident-Response-Team ein. An dieser Stelle soll für das Incident-Response-Team ein Kommunikationskanal in folgenden bekannten Bereichen eingerichtet und zusammengeführt werden:
- Chaträume in Slack oder einem anderen Nachrichtendienst
- Videochats in Videokonferenzanwendungen wie Zoom (wenn ihr euch alle am selben Ort aufhaltet, kannst du das Team auch in einem physischen Raum um dich versammeln)
Wir verwenden bei Vorfällen Videochat- und Textnachrichtentools, da beide auf unterschiedliche Anforderungen zugeschnitten sind. Videochats sind eine großartige Methode, um sich während einer Gruppendiskussion schnell ein Bild von dem Vorfall zu machen. Und Slack hilft dabei, den Vorfall inklusive Zeitstempeln und gesammelten Links zu Screenshots, URLs und Dashboards aufzuzeichnen.
Slack und die meisten anderen Chattools ermöglichen es Benutzern, für Räume ein bestimmtes Thema festzulegen. Der Vorfallmanager sollte dieses Feld nutzen, um Informationen über den Vorfall und nützliche Links anzugeben.
Am Schluss legt der Vorfallmanager den Vorgangsschlüssel des von ihm verwalteten Vorfalls als seinen persönlichen Chatstatus fest. So wissen seine Kollegen, dass er gerade mit der Handhabung des Vorfalls beschäftigt ist.
Preparation
Preparation is the core of an incident response plan and determines a company’s responsiveness to an attack. A well-documented pre-incident process facilitates smooth navigation through intense, high-stress scenarios.
Any company will be more resilient with a robust incident response process based on the Atlassian Incident Handbook.
Identification
This phase involves detecting and verifying incidents through error messages, log files, and monitoring tools. Incidents might be identified through social media or customer support tickets, requiring the response team to manually record the incident in an incident-tracking tool.
Tools like Jira Service Management centralize all alerts and incoming signals from your monitoring, service desk, and logging applications, making it easy to categorize and prioritize issues.
Containment
Once you detect an incident, containment helps prevent further damage. During containment, the response team aims to minimize the scope and effects of an incident.
Eradication
Following containment, the primary focus shifts to removing threats from the company’s network or system. This phase involves a meticulous cleansing of all systems, removing any lingering malicious content to minimize the risk of potential reinfection.
Companies start restoring normal operations by conducting a comprehensive investigation and successfully eliminating threats.
Recovery
After eradicating the threats, the team focuses on restoring the affected systems to their pre-incident state. Data recovery and system restoration are vital for minimizing further losses and ensuring smooth operations.
Lessons learned
Incident debriefings are crucial to refining incident response strategies. The team reviews documentation, evaluates performance, and implements change to enhance incident handling efficiency. Every incident is a learning opportunity for the incident response team.
Tools for effective incident response
Teams need specialized tools, such as security information & event management (SIEM) systems, intrusion detection systems (IDS), forensic tools, and communication platforms, for streamlined incident response processes.
Tools like Jira Service Management play a critical role in reducing resolution time and negative impacts. They automatically limit noise and surface the most crucial issues to the right team using powerful routing rules and multiple communication channels.
Bewerte die Auswirkungen und gib einen Schweregrad an.
Wenn die Kommunikationskanäle des für den Vorfall zuständigen Teams fertig eingerichtet sind, wird es Zeit für die Bewertung des Vorfalls. So kann das Team entscheiden, welche Informationen zum Vorfall geteilt werden sollen und wer für die Problembehebung zuständig ist.
Bei uns stellen die Vorfallmanager ihren Teams folgende Fragen:
- Welche Auswirkungen hat der Vorfall auf die (internen oder externen) Kunden?
- Was sehen die Kunden?
- Wie viele Kunden sind betroffen (nur einige oder alle)?
- Wann hat der Vorfall begonnen?
- Wie viele Supporttickets wurden von Kunden erstellt?
- Sind weitere Faktoren zu beachten, z. B. Twitter, Sicherheit oder Datenverluste?
Im nächsten Schritt wird normalerweise ein Schweregrad zugewiesen.
Incident response: Frequently asked questions
Why is incident response important?
A well-structured incident response plan minimizes incident impacts, enabling businesses to act swiftly and efficiently against threats. It reduces recovery time, financial loss, and reputational damage.
Who should be on an incident response team?
The incident response team should be diverse and include various roles and responsibilities. The team should include the incident commander, technical leads, communications managers, customer support leads, subject matter experts, social media leads, and problem managers. Executives and leaders across multiple domains within the company should coordinate the team.
What are some challenges of incident response?
Incident response teams often face an array of challenges, from resource constraints to issues with context, prioritization, communication, collaboration, stakeholder visibility, and the occasional human error. Preparedness is crucial to anticipate and tackle these challenges effectively. For example, involving the legal team in the preparation stage can mitigate potential legal or regulatory hurdles.