CC-Dresden.de
Kontaktieren Sie uns ...
Referenzprojekt EGGER
SteelEye LifeKeeper features Data Protection, HA Clustering and Disaster Recovery

Salka7

Systemmanagement als Komponente der Hochverfügbarkeit

Die Stärke des Systemmanagement im Rahmen einer Hochverfügbarkeitsstrategie ist deren proaktiver Charakter. Systemmanagement bietet die Möglichkeit Ausfälle und Fehler proaktiv zu vermeiden und unterstützt den Administator bei der schnellen Fehlersuche. Sind Cluster ein Ansatz um die Ausfallzeit bei bereits augetretenen Fehlern zu minimieren, so ist Systemmanagement eine sinnvolle Ergänzung einer Hochverfügbarkeitsstrategie hinsichtlich der proaktiven Vermeidung von Systemausfällen durch die Vermeidung von Fehlern. Gerade logische Fehler - wie eine voll gelaufene Festplatte - können durch Systemmanagement vermieden und der Ausfall von Redundanzen kann erkannt werden.

Dabei arbeitet eine Systemmanagement-Lösung in 3 Phasen, die im folgenden vorgestellt werden.

  1. Monitoring (Überwachung)
  2. Diagnose
  3. Notification (Benachrichtigung)

Monitoring (Überwachen)

Kern des Systemmanagements ist das Überwachen von Ressourcen. Es werden alle zum Betrieb relevanten Daten erfasst und bewertet. Dies beinhaltet typischerweise die Überwachung von Hard- und Software-Komponenten, welche unabdingbar mit dem Geschäftsbetrieb verknüpft sind. Datenbanken, redundant ausgelegte Server und Backup-Systeme, Internetanbindungen und Funktionalitäten von Schutzmechanismen (Firewall/Spamfilter/AntiVirus-Software) sind nur ein kleiner Teil der Ressourcen, welche sinnvollerweise überwacht werden. Nachfolgend ein Beispiel, in dem der Status einer überwachten Ressource direkt abzulesen ist.

 

Bond Interface OK (Nagios-Statusüberwachung)

Zur vergrößerten Darstellung anklicken

Diagnose

Aus der Überwachung verschiedener Ressourcen ergibt sich eine Diagnose bzw. eine Zustandsbeurteilung der IT-Infrastruktur. Diese kann für einzelne Teile oder auch für die gesamte IT-Infrastrukur gebildet werden. Die Diagnose beinhaltet verschiedene Zustände: Ausfall, Überlastung und wechselnde Zustände. Die Beurteilung dieser Zustände unterliegt verschiedenen Handlungskriterien und kann mit Hilfe der Systemmanagement-Software analysiert werden.

Ausfall einer Komponente

In diesem Fall dient das Systemmanagement als Analysewerkzeug, welches den Ausfall von Komponenten darstellt und deren Abhängigkeiten in der gesamten Infrastruktur aufschlüsselt. Somit ist eine Verfolgung fehlerhafter Komponenten oder Wegstrecken in der IT-Struktur auf einen Blick ersichtlich und hilft, die Zeit zur Fehleranalyse zu minimieren.

Überlastung einer Systemkomponente

Systemkomponenten, die an der Leistungsgrenze arbeiten, können mit Hilfe des Systemmanagement-Werkzeuges erkannt werden. Vor einem Systemkollaps können entsprechende Gegenmaßnahmen ergriffen werden, um die betroffenen Komponenten wieder in einen Zustand des einwandfreien Betriebs zu versetzten. Auch kann hier aktiv einem möglichen Totalausfall einer Hardware vorgebeugt werden.

Wechselnde Zustände

Hierbei gilt die Analyse oftmals einem nicht ständig auftretendem Hardware-Defekt oder einem Software-Fehler. Zeitfenster, in denen bestimmte Dienste oder Hardware nicht verfügbar waren oder deren Zustand nicht erfasst werden konnte, werden dokumentiert. Der Vergleich mit Ausgaben der entsprechenden Systeme oder Softwarekomponenten im Normalbetrieb liefert Informationen, die hilfreich sind, Fehlerquellen einzugrenzen und mögliche Verkettungen in einem Fehlerfall aufzudecken.

Notification (Benachrichtigung)

Alle Zustände einer Systemkomponente können über das Notification-Programm als Bestandteil der Systemmanagement-Software an Personen oder Personengruppen aber auch an externe Dienstleister weitergegeben werden. Zudem besteht die Möglichkeit, Frequenzen und Zeiträume einer Benachrichtigung in dem Notification-Mechanismus zu hinterlegen. Die Verschachtelung einzelner Eskalationsstufen bietet die Möglichkeit, Fehler zu gewichten und entsprechende Maßnahmen zu Benachrichtigung einzuleiten.

Zum Beispiel ist ein Systemausfall eine Benachrichtigung an den im Moment vor Ort arbeitenden Administrator. Wird der Fehler nicht von diesem in der ersten Eskalationsstufe definierten Kontakt bestätigt, wird anhand einer vorher erstellten Regel ein weiterer Kontakt oder eine weitere Personen über den Ausfall benachrichtigt, bis hin zur Verständigung eines möglicherweise externen Dienstleisters.

Anhand dieses Eskalationsmodels können Fehler in verschiedenster Weise behandelt werden. Dies betrifft die Benachrichtigungsart, deren Häufigkeit und die Dauer.

Nagios als Systemmanagement-Lösung

Nagios ist die von uns als Computer Concept preferierte Systemmanagement-Lösung. Grund hierfür ist der günstige Preis (GPL, kostenlos), der den Einstieg ins Systemmanagement  für viele mittelständische Unternehmen erst möglich macht. Kommerzielle Lösungen sind oft allein von den Software Kosten so teuer, dass die Einführung einer solchen Lösung nicht leistbar ist.

Zusätzlich lebt Nagios auch von der Community. Dies heißt es gibt praktisch für jedes Monitoring Problem bereits vorgefertigte Softwarekomponenten. Auch ist die Dokumentation als sehr gut einzustufen.

Der Einsatz von Nagios auch in großen Umgebungen mit mehreren hundert Servern unterstreicht den professionellen Charakter von Nagios.