# Systemfehler - WMS Error Management

⚠️ Systemfehler-Diagnose

Strukturierter Leitfaden zur schnellen Identifikation und Behebung von WMS-Systemfehlern

🚨 BEI KRITISCHEN SYSTEMFEHLERN

Sofort-Maßnahme: 24/7 Notfall-Hotline +41 81 770 9999 anrufen

Wichtig: System nicht weiter bedienen, bis Problem behoben ist

## Übersicht Systemfehler im WMS können von einfachen Anwendungsfehlern bis hin zu kritischen Infrastrukturproblemen reichen. Dieser Leitfaden bietet strukturierte Ansätze zur schnellen Diagnose und Behebung von Systemfehlern. ## Navigation
## Fehlerkategorien {#kategorien}
### Systemfehler-Klassifikation #### **Severity-Level Klassifikation**

🚨 KRITISCH (Severity 1)

Definition: Kompletter Systemausfall oder kritische Sicherheitsprobleme
Beispiele:
  • WMS-Server komplett nicht erreichbar
  • Database-Server-Ausfall
  • SAP-Interface komplett down
  • Kritische Datenverluste
  • Sicherheitsinkdente
SLA: Response <15 Min, Resolution <4 Stunden
Eskalation: Sofort an Management + 24/7 Notfallteam

🔶 HOCH (Severity 2)

Definition: Schwerwiegende Funktionseinschränkungen mit Workaround
Beispiele:
  • Einzelne WMS-Module nicht verfügbar
  • Performance-Degradation >50%
  • Interface-Synchronisationsfehler
  • Hardware-Ausfälle mit Redundanz
  • Drucksystem-Ausfälle
SLA: Response <2 Stunden, Resolution <24 Stunden
Eskalation: IT-Manager nach 4 Stunden

🔸 MITTEL (Severity 3)

Definition: Funktionale Probleme ohne kritische Auswirkungen
Beispiele:
  • Einzelne Features funktionieren nicht
  • Reports generieren Fehler
  • Performance-Issues <25%
  • User-Interface-Probleme
  • Scanner-Connectivity-Issues
SLA: Response <4 Stunden, Resolution <72 Stunden
Eskalation: Teamleiter nach 24 Stunden

🔹 NIEDRIG (Severity 4)

Definition: Kosmetische oder dokumentarische Probleme
Beispiele:
  • UI-Layout-Probleme
  • Rechtschreibfehler
  • Feature-Requests
  • Dokumentations-Updates
  • Training-Material-Anpassungen
SLA: Response <24 Stunden, Resolution <1 Woche
Eskalation: Keine automatische Eskalation
### Fehler-Domänen Übersicht #### **Systemkomponenten und typische Fehlerquellen**

🖥️ Application Layer

WMS Core Application
  • Service-Startfehler: Windows Services starten nicht
  • Memory-Leaks: Anwendung verbraucht zu viel RAM
  • Thread-Deadlocks: Anwendung friert ein
  • Configuration-Errors: Falsche Konfigurationsparameter
Client Applications
  • Connection-Timeouts: Client kann Server nicht erreichen
  • Version-Mismatch: Inkompatible Client/Server-Versionen
  • Authentication-Failures: Anmeldungsprobleme
  • UI-Rendering-Issues: Anzeigefehler im Interface

💾 Database Layer

SQL Server Errors
  • Connection-Pool-Exhaustion: Zu viele DB-Verbindungen
  • Deadlocks: Transaktions-Sperren
  • Corruption: Datenbankintegritätsfehler
  • Storage-Full: Festplattenspeicher voll
Data Integrity
  • Constraint-Violations: Datenintegritätsverletzungen
  • Replication-Lag: Verzögerung bei Datenreplikation
  • Index-Corruption: Beschädigte Datenbankindizes
  • Backup-Failures: Backup-Prozess fehlgeschlagen

🌐 Network & Infrastructure

Network Connectivity
  • DNS-Resolution-Failures: Namensauflösung fehlgeschlagen
  • Network-Latency: Hohe Netzwerklatenz
  • Firewall-Blocks: Ports werden blockiert
  • Switch-Port-Errors: Netzwerk-Hardware-Probleme
Hardware Infrastructure
  • Server-Hardware-Failures: RAM, CPU, Disk-Ausfälle
  • Power-Supply-Issues: Stromversorgungsprobleme
  • Temperature-Alarms: Überhitzung
  • RAID-Array-Degradation: Festplatten-Array-Probleme

🔗 Integration Layer

SAP Interface
  • RFC-Connection-Errors: SAP-Verbindungsfehler
  • IDOC-Processing-Failures: Nachrichtenverarbeitung fehlgeschlagen
  • Data-Mapping-Errors: Datenkonvertierungsfehler
  • Queue-Overflow: Nachrichten-Queue übergelaufen
External Systems
  • API-Endpoint-Unavailable: Externe APIs nicht erreichbar
  • Authentication-Token-Expired: Authentifizierung abgelaufen
  • Data-Format-Mismatch: Datenformat nicht kompatibel
  • Rate-Limiting: Zu viele API-Aufrufe
## Systematische Diagnose {#diagnose}
### Diagnose-Workflow #### **5-Schritt-Diagnose-Prozess**
1

SYMPTOM COLLECTION

Zu sammelnde Informationen:
  • Exakte Fehlermeldung (Screenshot/Copy)
  • Zeitpunkt des ersten Auftretens
  • Betroffene Benutzer/Systeme
  • Aktionen vor dem Fehler
  • Häufigkeit des Problems
Tools: Event Viewer, WMS Error Logs, Screenshots
2

IMPACT ASSESSMENT

Bewertungskriterien:
  • Anzahl betroffener Benutzer
  • Kritikalität betroffener Prozesse
  • Business-Impact (€/Stunde)
  • Verfügbare Workarounds
  • Eskalations-Notwendigkeit
Entscheidung: Severity-Level festlegen
3

ROOT CAUSE ANALYSIS

Untersuchungsmethoden:
  • Log-File-Analyse (Application, System, Database)
  • Performance-Counter-Auswertung
  • Network-Trace-Analyse
  • Database-Query-Profiling
  • Hardware-Monitoring-Review
Techniken: 5-Why-Analyse, Fishbone-Diagramm
4

SOLUTION IMPLEMENTATION

Lösungsansätze:
  • Sofortmaßnahmen zur Service-Wiederherstellung
  • Temporäre Workarounds implementieren
  • Permanente Lösungen entwickeln
  • Change-Management-Prozess befolgen
  • Rollback-Plan vorbereiten
Validierung: Lösung testen vor Produktions-Deployment
5

VERIFICATION & DOCUMENTATION

Verifikation:
  • Problem vollständig behoben?
  • Keine neuen Probleme verursacht?
  • Performance-Impact überprüfen
  • User-Acceptance bestätigen
  • Monitoring für Wiederauftreten
Dokumentation: Knowledge Base aktualisieren
### Diagnose-Tools Matrix #### **Tool-Empfehlungen nach Fehlerdomäne**
Fehlerdomäne Primäre Tools Sekundäre Tools Log-Quellen Metriken
WMS Application
  • WMS Admin Console
  • Process Explorer
  • Windows Services
  • Performance Monitor
  • Application Insights
  • Debugger (VS)
  • WMS Application Logs
  • Windows Event Log
  • IIS Logs
  • Memory Usage
  • CPU Utilization
  • Thread Count
SQL Server
  • SQL Server Management Studio
  • Activity Monitor
  • SQL Profiler
  • Extended Events
  • PerfMon
  • sp_WhoIsActive
  • SQL Server Error Log
  • SQL Agent Logs
  • Windows Event Log
  • CPU %
  • Wait Statistics
  • I/O Latency
Network
  • ping, tracert
  • telnet
  • Wireshark
  • Network Monitor
  • Switch Management
  • PRTG
  • Switch Logs
  • Firewall Logs
  • DNS Server Logs
  • Latency
  • Packet Loss
  • Bandwidth Usage
SAP Interface
  • SAP GUI
  • SM58 (RFC Monitor)
  • WE02 (IDOC Monitor)
  • ST22 (Dump Analysis)
  • SLG1 (Application Log)
  • RZ20 (Alert Monitor)
  • SAP System Log
  • RFC Trace
  • IDOC Error Logs
  • RFC Response Time
  • IDOC Processing Rate
  • Queue Length
### Emergency Response Checklist #### **Erste Schritte bei kritischen Systemfehlern**

🚨 SOFORTMASSNAHMEN (0-5 Minuten)

🔍 INITIAL ASSESSMENT (5-15 Minuten)

🛠️ INITIAL RESPONSE (15-30 Minuten)

## Application-Errors {#application}
### WMS Application Errors #### **Häufige WMS-Anwendungsfehler und Lösungen**

🔧 Service-Fehler

WMS Service startet nicht
Häufigkeit: 25%
Symptome:
  • Windows Service zeigt "Stopped" Status
  • Event Log: "Service failed to start"
  • Client kann Server nicht erreichen
  • Timeout beim Service-Start
Mögliche Ursachen:
  • Port bereits belegt durch anderen Prozess
  • Berechtigungsprobleme für Service-Account
  • Korrupte Konfigurationsdatei
  • Dependency-Services nicht gestartet
  • Antivirus blockiert Ausführung
Lösungsschritte:
  1. Service Dependencies prüfen: sc query [ServiceName] Alle abhängigen Services starten
  2. Port-Konflikte identifizieren: netstat -ano | findstr :8080 Anderen Prozess beenden oder Port ändern
  3. Event Log analysieren: Windows Logs → Application → Fehlereinträge suchen
  4. Service-Account-Berechtigungen: "Log on as a Service" Recht prüfen
  5. Config-File validieren: XML-Syntax und Pfade überprüfen
Memory Leak im WMS Service
Häufigkeit: 15%
Symptome:
  • Kontinuierlich steigender Memory-Verbrauch
  • System wird zunehmend langsamer
  • OutOfMemoryException in Logs
  • Service-Crashes bei hoher Last
Diagnose-Tools:
  • Process Explorer: Memory-Usage über Zeit beobachten
  • PerfMon: Private Bytes und Working Set Counter
  • Application Insights: Memory-Telemetrie analysieren
  • DebugDiag: Memory Dump für Analyse erstellen
Sofortmaßnahmen:
  1. Service-Restart: Sofortiger Memory-Reset
  2. Memory-Threshold-Monitoring: Automatischer Restart bei >80%
  3. Garbage Collection forcieren: GC.Collect() in kritischen Pfaden
  4. Connection-Pool-Limits setzen: Database Connection Leaks vermeiden
  5. Entwickler-Team kontaktieren: Für permanente Code-Lösung

🔌 Connectivity-Fehler

Database Connection Timeout
Häufigkeit: 30%
Symptome:
  • "Timeout expired" Error Messages
  • Langsame Response-Zeiten
  • Connection Pool erschöpft
  • Intermittierende Verbindungsabbrüche
Diagnose-Schritte:
  1. SQL Server Activity Monitor: Blocking-Processes und Long-Running-Queries identifizieren
  2. Connection Pool Status prüfen: PerfMon → .NET Data Provider for SqlServer
  3. Network-Latenz messen: ping -t [database-server]
  4. Database-Performance analysieren: Slow-Query-Log und Index-Fragmentierung
Lösungsansätze:
  1. Connection-Pool-Einstellungen optimieren: Max Pool Size=200; Connection Timeout=30
  2. Blocking-Queries beenden: KILL [SPID] -- in SQL Server
  3. Index-Wartung durchführen: ALTER INDEX ALL ON [table] REBUILD
  4. Database-Statistiken aktualisieren: UPDATE STATISTICS [table] WITH FULLSCAN
  5. Network-Issues beheben: Switch-Ports und Kabel überprüfen
SAP RFC Connection Failed
Häufigkeit: 20%
Symptome:
  • "RFC destination not found" Errors
  • IDOC-Processing gestoppt
  • SAP-WMS Synchronisation unterbrochen
  • Business-Prozesse blockiert
SAP-spezifische Diagnose:
  1. SM59 - RFC Destinations prüfen: Connection Test durchführen
  2. ST22 - Dump Analysis: ABAP-Dumps im SAP-System analysieren
  3. WE02 - IDOC Monitor: Fehlgeschlagene IDOC-Verarbeitung prüfen
  4. SLG1 - Application Log: Interface-spezifische Error-Messages
Lösungsmaßnahmen:
  1. RFC-Connection testen: SM59 → Test Connection → Detailierte Fehlermeldung
  2. SAP Gateway prüfen: gwmon -g [gateway-host] -s [service]
  3. Firewall-Rules validieren: Ports 3300-3399 für SAP Gateway
  4. SAP-User-Berechtigungen: RFC-User hat alle notwendigen Authorizations
  5. IDOC-Processing neu starten: BD87 → Reprocess Error IDOCs

🖥️ Client-Application-Fehler

WMS Client startet nicht
Häufigkeit: 18%
Symptome:
  • Application-Error beim Start
  • "Could not load file or assembly" Errors
  • Splash-Screen bleibt hängen
  • Client schließt sich sofort wieder
Troubleshooting-Schritte:
  1. .NET Framework prüfen: Richtige Version installiert? (4.8 oder höher)
  2. Config-File validieren: app.config auf Syntax-Fehler prüfen
  3. Dependencies überprüfen: Alle Referenced DLLs vorhanden?
  4. Run as Administrator: Elevated Permissions testen
  5. Event Log prüfen: Application-Logs für .NET Runtime Errors
  6. Clean-Install durchführen: Vollständige Deinstallation und Neuinstallation
### Performance-Related Errors #### **Performance-Probleme und Optimierungsansätze**

🐌 Langsame Response-Zeiten

Client-Side Performance
Benchmark-Werte:
  • Screen-Load-Time: <3 Sekunden (Ziel), >5 Sekunden (Problematisch)
  • Query-Response-Time: <2 Sekunden (Ziel), >4 Sekunden (Problematisch)
  • Report-Generation: <10 Sekunden (Ziel), >30 Sekunden (Problematisch)
Optimierungsmaßnahmen:
  1. Local-Caching aktivieren: Stammdaten lokal zwischenspeichern
  2. Data-Paging implementieren: Große Datensätze portionieren
  3. Lazy-Loading nutzen: Daten nur bei Bedarf laden
  4. Client-Hardware upgraden: RAM und SSD-Performance
Server-Side Performance
Kritische Metriken:
  • CPU-Utilization: >80% sustained = Problem
  • Memory-Usage: >90% = Memory-Pressure
  • Disk-Queue-Length: >2 = I/O-Bottleneck
  • Network-Utilization: >70% = Bandwidth-Problem
Server-Optimierung:
  1. Resource-Monitoring: Performance-Counter kontinuierlich überwachen
  2. Application-Pool-Tuning: Memory-Limits und Recycling optimieren
  3. Database-Query-Optimization: Slow-Queries identifizieren und optimieren
  4. Load-Balancing: Traffic auf multiple Server verteilen
## Database-Errors {#database}
### SQL Server Error Management #### **Kritische Datenbank-Fehler und Recovery-Strategien**

💾 Corruption & Integrity

Database Corruption Detected
KRITISCH
Error-Codes:
  • Error 823: I/O error during database page read
  • Error 824: Logical consistency-based I/O error
  • Error 825: Read-retry required
  • Error 832: Constant page has changed
Symptome:
  • DBCC CHECKDB schlägt fehl
  • Queries returnieren korrupte Daten
  • Database wird als "Suspect" markiert
  • Application kann nicht auf Daten zugreifen
🚨 NOTFALL-PROZEDUR:
  1. SOFORT: Database offline nehmen
  2. Backup-Status prüfen: Ist ein Clean-Backup verfügbar?
  3. NIEMALS: REPAIR_ALLOW_DATA_LOSS ohne Backup verwenden
  4. DBA-Team eskalieren: Sofort Datenbank-Experten hinzuziehen
Recovery-Strategie:
  1. Assessment: DBCC CHECKDB('WMS_DB') WITH NO_INFOMSGS Corruption-Scope bestimmen
  2. Page-Level-Restore (wenn möglich): RESTORE DATABASE WMS_DB PAGE='1:23456' FROM DISK='backup.bak'
  3. Full-Database-Restore (wenn erforderlich): RESTORE DATABASE WMS_DB FROM DISK='latest_backup.bak'
  4. Transaction-Log-Replay: Point-in-Time-Recovery bis vor Corruption-Event
  5. Consistency-Verification: DBCC CHECKDB('WMS_DB') WITH EXTENDED_LOGICAL_CHECKS
Transaction Log Full
HOCH
Error-Codes:
  • Error 9002: Transaction log for database is full
  • Error 3201: Cannot open backup device
Sofortmaßnahmen:
  1. Log-Backup erstellen: BACKUP LOG WMS_DB TO DISK='log_backup.trn'
  2. Log-File-Space prüfen: DBCC SQLPERF(LOGSPACE)
  3. Disk-Space freigeben: Nicht benötigte Files löschen
  4. Log-File erweitern (temporär): ALTER DATABASE WMS_DB MODIFY FILE (NAME='WMS_Log', SIZE=2GB)
Präventive Maßnahmen:
  • Automatische Log-Backups alle 15 Minuten
  • Log-File-Auto-Growth auf 10% setzen
  • Monitoring für Log-Space-Usage >80%
  • Disk-Space-Alerts konfigurieren

🔒 Locking & Blocking

Deadlock Detected
MITTEL
Error-Codes:
  • Error 1205: Transaction was deadlocked and chosen as victim
Deadlock-Analyse:
  1. Deadlock-Graph anzeigen: SELECT * FROM sys.dm_xe_sessions WHERE name = 'system_health'
  2. Deadlock-Monitor aktivieren: DBCC TRACEON(1222, -1)
  3. Extended Events konfigurieren: Deadlock XML-Report für detaillierte Analyse
Lösungsansätze:
  1. Query-Optimierung: Indexes hinzufügen, um Lock-Escalation zu reduzieren
  2. Transaction-Isolation anpassen: SET TRANSACTION ISOLATION LEVEL READ COMMITTED SNAPSHOT
  3. Lock-Timeout setzen: SET LOCK_TIMEOUT 30000 (30 Sekunden)
  4. Resource-Access-Reihenfolge normalisieren: Immer gleiche Reihenfolge beim Zugriff auf Tabellen
Long-Running Blocking Sessions
MITTEL
Blocking-Detection:
  1. Activity Monitor verwenden: SSMS → Activity Monitor → Processes
  2. sp_who2 ausführen: EXEC sp_who2 'active'
  3. Custom-Query für Blocking-Chains:
    SELECT 
        blocking_session_id, 
        session_id, 
        wait_type, 
        wait_time, 
        wait_resource
    FROM sys.dm_exec_requests 
    WHERE blocking_session_id > 0
Blocking-Resolution:
  1. Blocking-Session identifizieren: Head-Blocker in der Blocking-Chain finden
  2. Session-Details analysieren: DBCC INPUTBUFFER([session_id])
  3. Kill-Decision treffen: Business-Impact vs. Technical-Impact bewerten
  4. Session beenden (wenn notwendig): KILL [session_id]

📈 Performance Issues

High CPU Usage
HOCH
Performance-Thresholds:
  • Warning: CPU >80% für >5 Minuten
  • Critical: CPU >95% für >2 Minuten
  • Emergency: CPU 100% für >30 Sekunden
CPU-Usage-Analyse:
  1. Top-CPU-Consuming-Queries:
    SELECT TOP 10 
        qs.sql_handle,
        qs.total_worker_time,
        qs.execution_count,
        st.text
    FROM sys.dm_exec_query_stats qs
    CROSS APPLY sys.dm_exec_sql_text(qs.sql_handle) st
    ORDER BY qs.total_worker_time DESC
  2. Currently-Executing-Queries: SELECT * FROM sys.dm_exec_requests WHERE cpu_time > 5000
  3. Wait-Statistics analysieren: SELECT * FROM sys.dm_os_wait_stats ORDER BY wait_time_ms DESC
CPU-Load-Mitigation:
  1. Resource-Governor aktivieren: CPU-Limits für verschiedene Workload-Groups setzen
  2. Query-Optimization: Missing-Indexes hinzufügen, Query-Plans optimieren
  3. Parallel-Processing begrenzen: sp_configure 'max degree of parallelism', 4
  4. Background-Processes throtteln: Index-Maintenance und Backup-Jobs zeitlich verteilen
### Database Recovery Procedures #### **Disaster Recovery für kritische Datenbankfehler**

🆘 Database Offline/Inaccessible

PHASE 1: EMERGENCY ASSESSMENT (0-15 Min)
  1. Service-Status prüfen: net start | findstr SQL
  2. Error-Log analysieren: C:\Program Files\Microsoft SQL Server\MSSQL15.MSSQLSERVER\MSSQL\Log\ERRORLOG
  3. Disk-Space überprüfen: Sind Data/Log-Drives voll?
  4. Hardware-Status: RAID-Arrays, Memory, Network-Connectivity
PHASE 2: IMMEDIATE RECOVERY (15-60 Min)
  1. Database-Status bestimmen: SELECT name, state_desc FROM sys.databases WHERE name = 'WMS_DB'
  2. Emergency-Mode aktivieren (wenn nötig): ALTER DATABASE WMS_DB SET EMERGENCY
  3. Read-Only-Access ermöglichen: ALTER DATABASE WMS_DB SET SINGLE_USER WITH ROLLBACK IMMEDIATE
  4. Consistency-Check durchführen: DBCC CHECKDB('WMS_DB', REPAIR_ALLOW_DATA_LOSS) (nur als letzter Ausweg!)
PHASE 3: FULL RESTORATION (1-4 Stunden)
  1. Backup-Restore-Strategy planen: Latest Full + Differential + Log-Backups identifizieren
  2. Point-in-Time-Recovery durchführen:
    RESTORE DATABASE WMS_DB FROM DISK = 'full_backup.bak' WITH NORECOVERY
    RESTORE DATABASE WMS_DB FROM DISK = 'diff_backup.bak' WITH NORECOVERY  
    RESTORE LOG WMS_DB FROM DISK = 'log_backup.trn' WITH RECOVERY
  3. Data-Validation durchführen: Critical Business-Data-Integrity prüfen
  4. Application-Services wieder starten: WMS-Services in korrekter Reihenfolge starten
## Infrastructure-Errors {#infrastructure}
### Hardware Infrastructure Errors #### **Hardware-Ausfälle und Recovery-Strategien**

🖥️ Server Hardware

Server Hardware Failure
KRITISCH
Erkennungsmerkmale:
  • Server reagiert nicht mehr (keine Ping-Response)
  • Blue Screen of Death (BSOD)
  • Hardware-Beep-Codes beim Boot
  • LED-Status-Indikatoren zeigen Fehler
  • Temperaturen außerhalb Normalbereich
Hardware-Diagnose-Schritte:
  1. Physical-Inspection:
    • LED-Status-Lights überprüfen
    • Fan-Operation kontrollieren
    • Kabel-Verbindungen sicherstellen
    • Burn-Smell oder physische Schäden
  2. Management-Interface prüfen:
    • iDRAC/iLO Remote-Console
    • System-Event-Log analysieren
    • Hardware-Inventory überprüfen
    • Temperature und Voltage-Readings
  3. Component-Level-Testing:
    • Memory-Test (POST oder Diagnostic-Tools)
    • CPU-Temperature und -Load
    • Storage-Health (SMART-Status)
    • Network-Interface-Cards
Recovery-Strategien:
Option 1: Hot-Swap/Redundancy
  • Defekte Komponente identifizieren
  • Hot-Swap-fähige Teile ersetzen (RAM, Disks, PSU)
  • RAID-Rebuild automatisch starten lassen
  • System-Monitoring für erfolgreiche Integration
RTO: 30 Minuten
Option 2: Failover zu Standby-System
  • Cluster-Failover initiieren
  • Virtual-Machine-Migration (vMotion)
  • Load-Balancer umkonfigurieren
  • DNS-Records aktualisieren (wenn nötig)
RTO: 15 Minuten
Option 3: Hardware-Ersatz
  • Ersatz-Hardware aus Inventory beschaffen
  • Operating-System von Backup-Image
  • Application-Restore von Backup
  • Data-Restore von neuesten Backups
RTO: 4-8 Stunden
Storage Array Failure
HOCH
RAID-Status-Monitoring:
Windows (Server Manager):
Get-StoragePool | Get-PhysicalDisk | Select FriendlyName, HealthStatus
Dell PowerEdge (OMSA):
omreport storage vdisk
HP ProLiant (Smart Array):
hpssacli ctrl all show config
Storage-Recovery-Procedures:
  1. RAID-Degraded-Status:
    • Defekte Disk identifizieren
    • Hot-Spare automatisch aktiviert?
    • Replacement-Disk einbauen
    • Rebuild-Progress überwachen
  2. RAID-Failed-Status:
    • Data-Loss-Assessment durchführen
    • Backup-Restore-Strategy aktivieren
    • Emergency-Disk-Recovery-Tools verwenden
    • Professional-Data-Recovery-Services kontaktieren

🌐 Network Infrastructure

Network Connectivity Loss
INFRASTRUCTURE-WIDE
Network-Troubleshooting-Matrix:
Scope Symptoms Diagnosis-Tools Likely-Cause
Single-Host Nur ein PC/Server betroffen ipconfig, ping, device-manager NIC-Failure, Cable, Switch-Port
Subnet Mehrere Hosts in gleicher VLAN switch-management, port-status Switch-Failure, Uplink-Problems
Site-Wide Komplettes Standort-Netzwerk Core-Switch-Console, ISP-Status Core-Infrastructure, ISP-Outage
WAN Keine Internet/Remote-Connectivity traceroute, ISP-Management WAN-Link-Failure, Routing-Issues
Network-Recovery-Procedures:
  1. Layer-1-Verification:
    • Cable-Integrity testen
    • Switch-Port-LEDs überprüfen
    • Power-Status aller Network-Devices
  2. Layer-2-Troubleshooting:
    • MAC-Address-Tables überprüfen
    • VLAN-Configuration validieren
    • Spanning-Tree-Protocol-Status
  3. Layer-3-Analysis:
    • Routing-Table-Entries
    • Default-Gateway-Reachability
    • DNS-Resolution-Testing
  4. Service-Restoration:
    • Failed-Components ersetzen
    • Backup-Paths aktivieren
    • Configuration-Restore from-Backup
    • End-to-End-Connectivity-Testing
WLAN Infrastructure Problems
WIRELESS-SPECIFIC
WLAN-specific-Troubleshooting:
  1. Access-Point-Health:
    • AP-Status im Wireless-Controller prüfen
    • Power-over-Ethernet (PoE) ausreichend?
    • Firmware-Version aktuell?
    • Channel-Utilization und Interference
  2. Radio-Frequency-Analysis:
    • 2.4GHz vs 5GHz Performance
    • Adjacent-Channel-Interference
    • Signal-Strength-Mapping
    • Noise-Floor-Measurements
  3. Client-Connectivity-Issues:
    • Authentication-Failures (WPA2/WPA3)
    • DHCP-Assignment-Problems
    • Roaming-Behavior zwischen APs
    • Device-specific-Compatibility
WLAN-Performance-Optimization:
  • Channel-Planning: Auto-RF vs Manual-Channel-Assignment
  • Power-Levels: Minimize-Interference, Maximize-Coverage
  • Client-Load-Balancing: Distribute-Clients across-APs
  • QoS-Policies: Prioritize-WMS-Traffic over-other-applications

⚡ Power & Environmental

Power Supply Issues
HOCH
Power-Infrastructure-Monitoring:
  • UPS-Status: Battery-Level, Load-Percentage, Runtime-Remaining
  • PDU-Monitoring: Per-Outlet-Power-Draw, Voltage-Levels
  • Generator-Status: Fuel-Level, Automatic-Transfer-Switch
  • Environmental: Temperature, Humidity, Airflow
Power-Emergency-Procedures:
  1. UPS-Battery-Low-Alert:
    • Graceful-Shutdown-Sequence initiieren
    • Critical-Systems priorisieren (Database-Server first)
    • Backup-Generator starten (manual/automatic)
    • Generator-to-UPS-Transfer koordinieren
  2. Complete-Power-Loss:
    • Assess-Scope: Partial vs Complete-Facility
    • Emergency-Generator-Status prüfen
    • Cold-Boot-Sequence nach Power-Restoration
    • System-Integrity-Checks durchführen
Cooling System Failure
KRITISCH
Temperature-Monitoring-Thresholds:
  • Normal: Server-Intake 18-27°C, Exhaust <40°C
  • Warning: Server-Intake >27°C, Exhaust >40°C
  • Critical: Server-Intake >32°C, Exhaust >50°C
  • Emergency-Shutdown: Server-Intake >35°C
Cooling-Emergency-Response:
  1. Immediate-Actions (0-5 Minutes):
    • HVAC-System-Status überprüfen
    • Emergency-Cooling-Units aktivieren
    • Server-Load reduzieren (non-critical-services stoppen)
    • Hot-Aisle-Containment überprüfen
  2. Escalation-Actions (5-15 Minutes):
    • Facility-Management kontaktieren
    • Portable-AC-Units aufstellen
    • Server-Migration auf andere-Racks
    • Emergency-Shutdown-Sequence vorbereiten
  3. Emergency-Shutdown (>15 Minutes ohne Lösung):
    • Graceful-Application-Shutdown
    • Database-Transactions abschließen
    • Server-Power-Down in kontrollierter Reihenfolge
    • Environmental-System-Repair koordinieren
## Fehlerprävention {#prevention}
### Proactive Error Prevention #### **Strategien zur Vermeidung von Systemfehlern**

🔍 Monitoring & Alerting

Infrastructure-Monitoring
Server-Health-Metrics
Metric Warning-Threshold Critical-Threshold Monitoring-Frequency
CPU-Utilization >80% für 5 Min >95% für 2 Min Jede Minute
Memory-Usage >85% für 10 Min >95% für 5 Min Jede Minute
Disk-Space >85% belegt >95% belegt Alle 5 Minuten
Disk-I/O-Latency >20ms average >50ms average Kontinuierlich
Network-Latency >100ms >500ms Alle 30 Sekunden
Temperature >30°C Intake >35°C Intake Kontinuierlich
Application-Performance-Monitoring (APM)
WMS-Application-Health
  • Response-Time-Monitoring:
    • Login-Process: <3 Sekunden (Warning), <5 Sekunden (Critical)
    • Search-Queries: <2 Sekunden (Warning), <4 Sekunden (Critical)
    • Report-Generation: <10 Sekunden (Warning), <30 Sekunden (Critical)
    • Transaction-Processing: <1 Sekunde (Warning), <3 Sekunden (Critical)
  • Error-Rate-Monitoring:
    • Application-Errors: >1% (Warning), >5% (Critical)
    • Database-Connection-Errors: >0.1% (Warning), >1% (Critical)
    • SAP-Interface-Errors: >0.5% (Warning), >2% (Critical)
  • User-Experience-Metrics:
    • Concurrent-Users: >500 (Warning), >800 (Critical)
    • Session-Timeouts: >5% (Warning), >10% (Critical)
    • Failed-Logins: >10/Min (Warning), >50/Min (Critical)
Business-Process-Monitoring
Critical-Business-Processes
Business-Process Key-Metric Expected-Volume Alert-Threshold
Wareneingang Buchungen/Stunde 50-150/Stunde <25/Stunde oder >200/Stunde
Kommissionierung Picks/Stunde 200-500/Stunde <100/Stunde oder >600/Stunde
Versand Lieferungen/Tag 100-300/Tag <50/Tag oder >400/Tag
SAP-Synchronisation IDOC-Processing/Min 10-50/Min <5/Min oder >100/Min

🔧 Predictive Maintenance

Failure-Prediction-Models
Hardware-Failure-Prediction
  • Hard-Disk-Failure-Prediction:
    • SMART-Attribute-Monitoring (Reallocated-Sectors, Spin-Retry-Count)
    • I/O-Error-Rate-Trending
    • Temperature-History-Analysis
    • Age-based-Replacement-Scheduling
  • Memory-Failure-Prediction:
    • ECC-Error-Count-Trending
    • Memory-Test-Error-Patterns
    • Application-Crash-Correlation
  • Power-Supply-Health:
    • Voltage-Stability-Monitoring
    • Temperature-Drift-Analysis
    • Fan-Speed-Degradation
Software-Performance-Degradation
  • Database-Performance-Trends:
    • Query-Execution-Time-Trending
    • Index-Fragmentation-Growth-Rate
    • Transaction-Log-Growth-Patterns
    • Blocking-Session-Frequency-Increase
  • Application-Memory-Leaks:
    • Memory-Usage-Trend-Analysis
    • Garbage-Collection-Frequency
    • Object-Lifetime-Monitoring
Automated-Maintenance-Scheduling
Präventive-Wartungsaufgaben
Wartungsaufgabe Trigger-Bedingung Automatisierung Validierung
Database-Index-Rebuild Fragmentation >30% SQL-Agent-Job Performance-Improvement-Measurement
Log-File-Cleanup Disk-Space >85% PowerShell-Script Space-Freed-Verification
Service-Memory-Reset Memory-Usage >4GB Scheduled-Service-Restart Service-Health-Check
Certificate-Renewal 30-Tage-vor-Ablauf Certificate-Management-Tool SSL-Handshake-Test

🛡️ Redundancy & High Availability

Multi-Layer-Redundancy-Strategy
Application-Layer-Redundancy
  • Load-Balanced-WMS-Servers:
    • Minimum 2 Active-WMS-Server-Instances
    • Session-State-Replication
    • Health-Check-based-Load-Distribution
    • Automatic-Failover bei Server-Ausfall
  • Database-High-Availability:
    • SQL-Server-Always-On-Availability-Groups
    • Synchronous-Commit zu Primary-Replica
    • Asynchronous-Commit zu DR-Replica
    • Automatic-Failover-Configuration
Infrastructure-Layer-Redundancy
  • Network-Redundancy:
    • Dual-Uplinks für alle-Critical-Switches
    • HSRP/VRRP für Default-Gateway-Redundancy
    • Multiple-ISP-Connections
    • BGP-Routing für Internet-Failover
  • Power-Redundancy:
    • Dual-Power-Supplies in allen-Servern
    • Redundante-UPS-Systems
    • Backup-Generator mit-Auto-Transfer
    • PDU-A/B-Power-Distribution
  • Storage-Redundancy:
    • RAID-10-Configuration für-OS-Drives
    • SAN-based-Storage mit-Multipathing
    • Real-time-Data-Replication zu DR-Site
    • Regular-Backup-Testing und-Validation
Automated-Failover-Procedures
WMS-Application-Server-Failover
  1. Health-Check-Failure-Detection: Load-Balancer erkennt failed-Health-Check (3 consecutive-failures)
  2. Traffic-Redirection: Alle-neuen-Sessions werden auf healthy-Server geleitet
  3. Session-State-Migration: Active-Sessions werden von-Session-Store wiederhergestellt
  4. Alert-Generation: Operations-Team wird über-Failover informiert
  5. Auto-Recovery-Attempt: Failed-Server wird automatisch-restarted und-reintegriert
SLA: <30-Sekunden-Failover-Time, <0.1%-Transaction-Loss
Database-Server-Failover
  1. Always-On-Health-Detection: SQL-Server-erkennt-Primary-Replica-Failure
  2. Automatic-Failover-Initiation: Secondary-Replica wird-zu-Primary promoted
  3. DNS-Update: Listener-IP zeigt-auf-neuen-Primary
  4. Application-Reconnection: Connection-Pools-reconnecten-automatisch
  5. Data-Consistency-Verification: Automatic-Consistency-Checks nach-Failover
SLA: <60-Sekunden-Failover-Time, Zero-Data-Loss

📚 Knowledge Management

Error-Resolution-Knowledge-Base
Searchable-Error-Database
  • Error-Signature-Indexing:
    • Error-Codes und-Messages indexiert
    • Symptom-based-Search-Capability
    • Component-based-Categorization
    • Solution-Effectiveness-Rating
  • Solution-Templates:
    • Step-by-Step-Resolution-Guides
    • Required-Tools und-Access-Levels
    • Estimated-Resolution-Time
    • Rollback-Procedures
Continuous-Learning-System
  • Post-Incident-Reviews:
    • Root-Cause-Analysis-Documentation
    • Prevention-Strategy-Updates
    • Process-Improvement-Identification
    • Training-Gap-Analysis
  • Best-Practice-Sharing:
    • Monthly-Lessons-Learned-Sessions
    • Cross-Team-Knowledge-Transfer
    • Vendor-Best-Practice-Integration
    • Industry-Standard-Adoption
## Support-Kontakte

🚨 Notfall-Kontakte

24/7 System-Notfall

+41 81 770 9999
Kritische Systemausfälle, Sicherheitsvorfälle, Datenverlust

IT-Support Desk

+41 81 770 5678
wms-support@georgfischer.com
Mo-Fr 07:00-18:00 Uhr

🔧 Spezialisierte Error-Response-Teams

Database-Emergency-Team

dba-emergency@georgfischer.com
SQL-Server-Corruption, Performance-Issues, Backup-Recovery

Network-Operations-Center

+41 81 770 1280
Network-Outages, Infrastructure-Failures, Connectivity-Issues

SAP-Interface-Team

sap-interface@georgfischer.com
RFC-Errors, IDOC-Processing, SAP-Connectivity

Security-Incident-Response

security-incident@georgfischer.com
Security-Breaches, Malware-Detection, Access-Issues