Systemfehler - WMS Error Management

# Systemfehler - WMS Error Management

⚠️ Systemfehler-Diagnose

Strukturierter Leitfaden zur schnellen Identifikation und Behebung von WMS-Systemfehlern

🚨 BEI KRITISCHEN SYSTEMFEHLERN

Sofort-Maßnahme: 24/7 Notfall-Hotline +41 81 770 9999 anrufen

Wichtig: System nicht weiter bedienen, bis Problem behoben ist

## Übersicht Systemfehler im WMS können von einfachen Anwendungsfehlern bis hin zu kritischen Infrastrukturproblemen reichen. Dieser Leitfaden bietet strukturierte Ansätze zur schnellen Diagnose und Behebung von Systemfehlern. ## Navigation

## Fehlerkategorien {#kategorien}

### Systemfehler-Klassifikation #### **Severity-Level Klassifikation**

🚨 KRITISCH (Severity 1)

Definition: Kompletter Systemausfall oder kritische Sicherheitsprobleme

Beispiele:

WMS-Server komplett nicht erreichbar
Database-Server-Ausfall
SAP-Interface komplett down
Kritische Datenverluste
Sicherheitsinkdente

SLA: Response <15 Min, Resolution <4 Stunden

Eskalation: Sofort an Management + 24/7 Notfallteam

🔶 HOCH (Severity 2)

Definition: Schwerwiegende Funktionseinschränkungen mit Workaround

Beispiele:

Einzelne WMS-Module nicht verfügbar
Performance-Degradation >50%
Interface-Synchronisationsfehler
Hardware-Ausfälle mit Redundanz
Drucksystem-Ausfälle

SLA: Response <2 Stunden, Resolution <24 Stunden

Eskalation: IT-Manager nach 4 Stunden

🔸 MITTEL (Severity 3)

Definition: Funktionale Probleme ohne kritische Auswirkungen

Beispiele:

Einzelne Features funktionieren nicht
Reports generieren Fehler
Performance-Issues <25%
User-Interface-Probleme
Scanner-Connectivity-Issues

SLA: Response <4 Stunden, Resolution <72 Stunden

Eskalation: Teamleiter nach 24 Stunden

🔹 NIEDRIG (Severity 4)

Definition: Kosmetische oder dokumentarische Probleme

Beispiele:

UI-Layout-Probleme
Rechtschreibfehler
Feature-Requests
Dokumentations-Updates
Training-Material-Anpassungen

SLA: Response <24 Stunden, Resolution <1 Woche

Eskalation: Keine automatische Eskalation

### Fehler-Domänen Übersicht #### **Systemkomponenten und typische Fehlerquellen**

🖥️ Application Layer

WMS Core Application

Service-Startfehler: Windows Services starten nicht
Memory-Leaks: Anwendung verbraucht zu viel RAM
Thread-Deadlocks: Anwendung friert ein
Configuration-Errors: Falsche Konfigurationsparameter

Client Applications

Connection-Timeouts: Client kann Server nicht erreichen
Version-Mismatch: Inkompatible Client/Server-Versionen
Authentication-Failures: Anmeldungsprobleme
UI-Rendering-Issues: Anzeigefehler im Interface

💾 Database Layer

SQL Server Errors

Connection-Pool-Exhaustion: Zu viele DB-Verbindungen
Deadlocks: Transaktions-Sperren
Corruption: Datenbankintegritätsfehler
Storage-Full: Festplattenspeicher voll

Data Integrity

Constraint-Violations: Datenintegritätsverletzungen
Replication-Lag: Verzögerung bei Datenreplikation
Index-Corruption: Beschädigte Datenbankindizes
Backup-Failures: Backup-Prozess fehlgeschlagen

🌐 Network & Infrastructure

Network Connectivity

DNS-Resolution-Failures: Namensauflösung fehlgeschlagen
Network-Latency: Hohe Netzwerklatenz
Firewall-Blocks: Ports werden blockiert
Switch-Port-Errors: Netzwerk-Hardware-Probleme

Hardware Infrastructure

Server-Hardware-Failures: RAM, CPU, Disk-Ausfälle
Power-Supply-Issues: Stromversorgungsprobleme
Temperature-Alarms: Überhitzung
RAID-Array-Degradation: Festplatten-Array-Probleme

🔗 Integration Layer

SAP Interface

RFC-Connection-Errors: SAP-Verbindungsfehler
IDOC-Processing-Failures: Nachrichtenverarbeitung fehlgeschlagen
Data-Mapping-Errors: Datenkonvertierungsfehler
Queue-Overflow: Nachrichten-Queue übergelaufen

External Systems

API-Endpoint-Unavailable: Externe APIs nicht erreichbar
Authentication-Token-Expired: Authentifizierung abgelaufen
Data-Format-Mismatch: Datenformat nicht kompatibel
Rate-Limiting: Zu viele API-Aufrufe

## Systematische Diagnose {#diagnose}

### Diagnose-Workflow #### **5-Schritt-Diagnose-Prozess**

SYMPTOM COLLECTION

Zu sammelnde Informationen:

Exakte Fehlermeldung (Screenshot/Copy)
Zeitpunkt des ersten Auftretens
Betroffene Benutzer/Systeme
Aktionen vor dem Fehler
Häufigkeit des Problems

Tools: Event Viewer, WMS Error Logs, Screenshots

IMPACT ASSESSMENT

Bewertungskriterien:

Anzahl betroffener Benutzer
Kritikalität betroffener Prozesse
Business-Impact (€/Stunde)
Verfügbare Workarounds
Eskalations-Notwendigkeit

Entscheidung: Severity-Level festlegen

ROOT CAUSE ANALYSIS

Untersuchungsmethoden:

Log-File-Analyse (Application, System, Database)
Performance-Counter-Auswertung
Network-Trace-Analyse
Database-Query-Profiling
Hardware-Monitoring-Review

Techniken: 5-Why-Analyse, Fishbone-Diagramm

SOLUTION IMPLEMENTATION

Lösungsansätze:

Sofortmaßnahmen zur Service-Wiederherstellung
Temporäre Workarounds implementieren
Permanente Lösungen entwickeln
Change-Management-Prozess befolgen
Rollback-Plan vorbereiten

Validierung: Lösung testen vor Produktions-Deployment

VERIFICATION & DOCUMENTATION

Verifikation:

Problem vollständig behoben?
Keine neuen Probleme verursacht?
Performance-Impact überprüfen
User-Acceptance bestätigen
Monitoring für Wiederauftreten

Dokumentation: Knowledge Base aktualisieren

### Diagnose-Tools Matrix #### **Tool-Empfehlungen nach Fehlerdomäne**

Fehlerdomäne	Primäre Tools	Sekundäre Tools	Log-Quellen	Metriken
WMS Application	WMS Admin Console Process Explorer Windows Services	Performance Monitor Application Insights Debugger (VS)	WMS Application Logs Windows Event Log IIS Logs	Memory Usage CPU Utilization Thread Count
SQL Server	SQL Server Management Studio Activity Monitor SQL Profiler	Extended Events PerfMon sp_WhoIsActive	SQL Server Error Log SQL Agent Logs Windows Event Log	CPU % Wait Statistics I/O Latency
Network	ping, tracert telnet Wireshark	Network Monitor Switch Management PRTG	Switch Logs Firewall Logs DNS Server Logs	Latency Packet Loss Bandwidth Usage
SAP Interface	SAP GUI SM58 (RFC Monitor) WE02 (IDOC Monitor)	ST22 (Dump Analysis) SLG1 (Application Log) RZ20 (Alert Monitor)	SAP System Log RFC Trace IDOC Error Logs	RFC Response Time IDOC Processing Rate Queue Length

### Emergency Response Checklist #### **Erste Schritte bei kritischen Systemfehlern**

## Application-Errors {#application}

### WMS Application Errors #### **Häufige WMS-Anwendungsfehler und Lösungen**

🔧 Service-Fehler

WMS Service startet nicht

Häufigkeit: 25%

Symptome:

Windows Service zeigt "Stopped" Status
Event Log: "Service failed to start"
Client kann Server nicht erreichen
Timeout beim Service-Start

Mögliche Ursachen:

Port bereits belegt durch anderen Prozess
Berechtigungsprobleme für Service-Account
Korrupte Konfigurationsdatei
Dependency-Services nicht gestartet
Antivirus blockiert Ausführung

Lösungsschritte:

Service Dependencies prüfen: sc query [ServiceName] Alle abhängigen Services starten
Port-Konflikte identifizieren: netstat -ano | findstr :8080 Anderen Prozess beenden oder Port ändern
Event Log analysieren: Windows Logs → Application → Fehlereinträge suchen
Service-Account-Berechtigungen: "Log on as a Service" Recht prüfen
Config-File validieren: XML-Syntax und Pfade überprüfen

Memory Leak im WMS Service

Häufigkeit: 15%

Symptome:

Kontinuierlich steigender Memory-Verbrauch
System wird zunehmend langsamer
OutOfMemoryException in Logs
Service-Crashes bei hoher Last

Diagnose-Tools:

Process Explorer: Memory-Usage über Zeit beobachten
PerfMon: Private Bytes und Working Set Counter
Application Insights: Memory-Telemetrie analysieren
DebugDiag: Memory Dump für Analyse erstellen

Sofortmaßnahmen:

Service-Restart: Sofortiger Memory-Reset
Memory-Threshold-Monitoring: Automatischer Restart bei >80%
Garbage Collection forcieren: GC.Collect() in kritischen Pfaden
Connection-Pool-Limits setzen: Database Connection Leaks vermeiden
Entwickler-Team kontaktieren: Für permanente Code-Lösung

🔌 Connectivity-Fehler

Database Connection Timeout

Häufigkeit: 30%

Symptome:

"Timeout expired" Error Messages
Langsame Response-Zeiten
Connection Pool erschöpft
Intermittierende Verbindungsabbrüche

Diagnose-Schritte:

SQL Server Activity Monitor: Blocking-Processes und Long-Running-Queries identifizieren
Connection Pool Status prüfen: PerfMon → .NET Data Provider for SqlServer
Network-Latenz messen: ping -t [database-server]
Database-Performance analysieren: Slow-Query-Log und Index-Fragmentierung

Lösungsansätze:

Connection-Pool-Einstellungen optimieren: Max Pool Size=200; Connection Timeout=30
Blocking-Queries beenden: KILL [SPID] -- in SQL Server
Index-Wartung durchführen: ALTER INDEX ALL ON [table] REBUILD
Database-Statistiken aktualisieren: UPDATE STATISTICS [table] WITH FULLSCAN
Network-Issues beheben: Switch-Ports und Kabel überprüfen

SAP RFC Connection Failed

Häufigkeit: 20%

Symptome:

"RFC destination not found" Errors
IDOC-Processing gestoppt
SAP-WMS Synchronisation unterbrochen
Business-Prozesse blockiert

SAP-spezifische Diagnose:

SM59 - RFC Destinations prüfen: Connection Test durchführen
ST22 - Dump Analysis: ABAP-Dumps im SAP-System analysieren
WE02 - IDOC Monitor: Fehlgeschlagene IDOC-Verarbeitung prüfen
SLG1 - Application Log: Interface-spezifische Error-Messages

Lösungsmaßnahmen:

RFC-Connection testen: SM59 → Test Connection → Detailierte Fehlermeldung
SAP Gateway prüfen: gwmon -g [gateway-host] -s [service]
Firewall-Rules validieren: Ports 3300-3399 für SAP Gateway
SAP-User-Berechtigungen: RFC-User hat alle notwendigen Authorizations
IDOC-Processing neu starten: BD87 → Reprocess Error IDOCs

🖥️ Client-Application-Fehler

WMS Client startet nicht

Häufigkeit: 18%

Symptome:

Application-Error beim Start
"Could not load file or assembly" Errors
Splash-Screen bleibt hängen
Client schließt sich sofort wieder

Troubleshooting-Schritte:

.NET Framework prüfen: Richtige Version installiert? (4.8 oder höher)
Config-File validieren: app.config auf Syntax-Fehler prüfen
Dependencies überprüfen: Alle Referenced DLLs vorhanden?
Run as Administrator: Elevated Permissions testen
Event Log prüfen: Application-Logs für .NET Runtime Errors
Clean-Install durchführen: Vollständige Deinstallation und Neuinstallation

### Performance-Related Errors #### **Performance-Probleme und Optimierungsansätze**

🐌 Langsame Response-Zeiten

Client-Side Performance

Benchmark-Werte:

Screen-Load-Time: <3 Sekunden (Ziel), >5 Sekunden (Problematisch)
Query-Response-Time: <2 Sekunden (Ziel), >4 Sekunden (Problematisch)
Report-Generation: <10 Sekunden (Ziel), >30 Sekunden (Problematisch)

Optimierungsmaßnahmen:

Local-Caching aktivieren: Stammdaten lokal zwischenspeichern
Data-Paging implementieren: Große Datensätze portionieren
Lazy-Loading nutzen: Daten nur bei Bedarf laden
Client-Hardware upgraden: RAM und SSD-Performance

Server-Side Performance

Kritische Metriken:

CPU-Utilization: >80% sustained = Problem
Memory-Usage: >90% = Memory-Pressure
Disk-Queue-Length: >2 = I/O-Bottleneck
Network-Utilization: >70% = Bandwidth-Problem

Server-Optimierung:

Resource-Monitoring: Performance-Counter kontinuierlich überwachen
Application-Pool-Tuning: Memory-Limits und Recycling optimieren
Database-Query-Optimization: Slow-Queries identifizieren und optimieren
Load-Balancing: Traffic auf multiple Server verteilen

## Database-Errors {#database}

### SQL Server Error Management #### **Kritische Datenbank-Fehler und Recovery-Strategien**

💾 Corruption & Integrity

Database Corruption Detected

KRITISCH

Error-Codes:

Error 823: I/O error during database page read
Error 824: Logical consistency-based I/O error
Error 825: Read-retry required
Error 832: Constant page has changed

Symptome:

DBCC CHECKDB schlägt fehl
Queries returnieren korrupte Daten
Database wird als "Suspect" markiert
Application kann nicht auf Daten zugreifen

🚨 NOTFALL-PROZEDUR:

SOFORT: Database offline nehmen
Backup-Status prüfen: Ist ein Clean-Backup verfügbar?
NIEMALS: REPAIR_ALLOW_DATA_LOSS ohne Backup verwenden
DBA-Team eskalieren: Sofort Datenbank-Experten hinzuziehen

Recovery-Strategie:

Assessment: DBCC CHECKDB('WMS_DB') WITH NO_INFOMSGS Corruption-Scope bestimmen
Page-Level-Restore (wenn möglich): RESTORE DATABASE WMS_DB PAGE='1:23456' FROM DISK='backup.bak'
Full-Database-Restore (wenn erforderlich): RESTORE DATABASE WMS_DB FROM DISK='latest_backup.bak'
Transaction-Log-Replay: Point-in-Time-Recovery bis vor Corruption-Event
Consistency-Verification: DBCC CHECKDB('WMS_DB') WITH EXTENDED_LOGICAL_CHECKS

Transaction Log Full

HOCH

Error-Codes:

Error 9002: Transaction log for database is full
Error 3201: Cannot open backup device

Sofortmaßnahmen:

Log-Backup erstellen: BACKUP LOG WMS_DB TO DISK='log_backup.trn'
Log-File-Space prüfen: DBCC SQLPERF(LOGSPACE)
Disk-Space freigeben: Nicht benötigte Files löschen
Log-File erweitern (temporär): ALTER DATABASE WMS_DB MODIFY FILE (NAME='WMS_Log', SIZE=2GB)

Präventive Maßnahmen:

Automatische Log-Backups alle 15 Minuten
Log-File-Auto-Growth auf 10% setzen
Monitoring für Log-Space-Usage >80%
Disk-Space-Alerts konfigurieren

🔒 Locking & Blocking

Deadlock Detected

MITTEL

Error-Codes:

Error 1205: Transaction was deadlocked and chosen as victim

Deadlock-Analyse:

Deadlock-Graph anzeigen: SELECT * FROM sys.dm_xe_sessions WHERE name = 'system_health'
Deadlock-Monitor aktivieren: DBCC TRACEON(1222, -1)
Extended Events konfigurieren: Deadlock XML-Report für detaillierte Analyse

Lösungsansätze:

Query-Optimierung: Indexes hinzufügen, um Lock-Escalation zu reduzieren
Transaction-Isolation anpassen: SET TRANSACTION ISOLATION LEVEL READ COMMITTED SNAPSHOT
Lock-Timeout setzen: SET LOCK_TIMEOUT 30000 (30 Sekunden)
Resource-Access-Reihenfolge normalisieren: Immer gleiche Reihenfolge beim Zugriff auf Tabellen

Long-Running Blocking Sessions

MITTEL

Blocking-Detection:

Activity Monitor verwenden: SSMS → Activity Monitor → Processes
sp_who2 ausführen: EXEC sp_who2 'active'

Custom-Query für Blocking-Chains:

SELECT 
    blocking_session_id, 
    session_id, 
    wait_type, 
    wait_time, 
    wait_resource
FROM sys.dm_exec_requests 
WHERE blocking_session_id > 0

Blocking-Resolution:

Blocking-Session identifizieren: Head-Blocker in der Blocking-Chain finden
Session-Details analysieren: DBCC INPUTBUFFER([session_id])
Kill-Decision treffen: Business-Impact vs. Technical-Impact bewerten
Session beenden (wenn notwendig): KILL [session_id]

📈 Performance Issues

High CPU Usage

HOCH

Performance-Thresholds:

Warning: CPU >80% für >5 Minuten
Critical: CPU >95% für >2 Minuten
Emergency: CPU 100% für >30 Sekunden

CPU-Usage-Analyse:

Top-CPU-Consuming-Queries:

SELECT TOP 10 
    qs.sql_handle,
    qs.total_worker_time,
    qs.execution_count,
    st.text
FROM sys.dm_exec_query_stats qs
CROSS APPLY sys.dm_exec_sql_text(qs.sql_handle) st
ORDER BY qs.total_worker_time DESC

Currently-Executing-Queries: SELECT * FROM sys.dm_exec_requests WHERE cpu_time > 5000
Wait-Statistics analysieren: SELECT * FROM sys.dm_os_wait_stats ORDER BY wait_time_ms DESC

CPU-Load-Mitigation:

Resource-Governor aktivieren: CPU-Limits für verschiedene Workload-Groups setzen
Query-Optimization: Missing-Indexes hinzufügen, Query-Plans optimieren
Parallel-Processing begrenzen: sp_configure 'max degree of parallelism', 4
Background-Processes throtteln: Index-Maintenance und Backup-Jobs zeitlich verteilen

### Database Recovery Procedures #### **Disaster Recovery für kritische Datenbankfehler**

🆘 Database Offline/Inaccessible

PHASE 1: EMERGENCY ASSESSMENT (0-15 Min)

Service-Status prüfen: net start | findstr SQL
Error-Log analysieren: C:\Program Files\Microsoft SQL Server\MSSQL15.MSSQLSERVER\MSSQL\Log\ERRORLOG
Disk-Space überprüfen: Sind Data/Log-Drives voll?
Hardware-Status: RAID-Arrays, Memory, Network-Connectivity

PHASE 2: IMMEDIATE RECOVERY (15-60 Min)

Database-Status bestimmen: SELECT name, state_desc FROM sys.databases WHERE name = 'WMS_DB'
Emergency-Mode aktivieren (wenn nötig): ALTER DATABASE WMS_DB SET EMERGENCY
Read-Only-Access ermöglichen: ALTER DATABASE WMS_DB SET SINGLE_USER WITH ROLLBACK IMMEDIATE
Consistency-Check durchführen: DBCC CHECKDB('WMS_DB', REPAIR_ALLOW_DATA_LOSS) (nur als letzter Ausweg!)

PHASE 3: FULL RESTORATION (1-4 Stunden)

Backup-Restore-Strategy planen: Latest Full + Differential + Log-Backups identifizieren

Point-in-Time-Recovery durchführen:

RESTORE DATABASE WMS_DB FROM DISK = 'full_backup.bak' WITH NORECOVERY
RESTORE DATABASE WMS_DB FROM DISK = 'diff_backup.bak' WITH NORECOVERY  
RESTORE LOG WMS_DB FROM DISK = 'log_backup.trn' WITH RECOVERY

Data-Validation durchführen: Critical Business-Data-Integrity prüfen
Application-Services wieder starten: WMS-Services in korrekter Reihenfolge starten

## Infrastructure-Errors {#infrastructure}

### Hardware Infrastructure Errors #### **Hardware-Ausfälle und Recovery-Strategien**

🖥️ Server Hardware

Server Hardware Failure

KRITISCH

Erkennungsmerkmale:

Server reagiert nicht mehr (keine Ping-Response)
Blue Screen of Death (BSOD)
Hardware-Beep-Codes beim Boot
LED-Status-Indikatoren zeigen Fehler
Temperaturen außerhalb Normalbereich

Hardware-Diagnose-Schritte:

Physical-Inspection:
- LED-Status-Lights überprüfen
- Fan-Operation kontrollieren
- Kabel-Verbindungen sicherstellen
- Burn-Smell oder physische Schäden
Management-Interface prüfen:
- iDRAC/iLO Remote-Console
- System-Event-Log analysieren
- Hardware-Inventory überprüfen
- Temperature und Voltage-Readings
Component-Level-Testing:
- Memory-Test (POST oder Diagnostic-Tools)
- CPU-Temperature und -Load
- Storage-Health (SMART-Status)
- Network-Interface-Cards

Recovery-Strategien:

Option 1: Hot-Swap/Redundancy

Defekte Komponente identifizieren
Hot-Swap-fähige Teile ersetzen (RAM, Disks, PSU)
RAID-Rebuild automatisch starten lassen
System-Monitoring für erfolgreiche Integration

RTO: 30 Minuten

Option 2: Failover zu Standby-System

Cluster-Failover initiieren
Virtual-Machine-Migration (vMotion)
Load-Balancer umkonfigurieren
DNS-Records aktualisieren (wenn nötig)

RTO: 15 Minuten

Option 3: Hardware-Ersatz

Ersatz-Hardware aus Inventory beschaffen
Operating-System von Backup-Image
Application-Restore von Backup
Data-Restore von neuesten Backups

RTO: 4-8 Stunden

Storage Array Failure

HOCH

RAID-Status-Monitoring:

Windows (Server Manager):

Get-StoragePool | Get-PhysicalDisk | Select FriendlyName, HealthStatus

Dell PowerEdge (OMSA):

omreport storage vdisk

HP ProLiant (Smart Array):

hpssacli ctrl all show config

Storage-Recovery-Procedures:

RAID-Degraded-Status:
- Defekte Disk identifizieren
- Hot-Spare automatisch aktiviert?
- Replacement-Disk einbauen
- Rebuild-Progress überwachen
RAID-Failed-Status:
- Data-Loss-Assessment durchführen
- Backup-Restore-Strategy aktivieren
- Emergency-Disk-Recovery-Tools verwenden
- Professional-Data-Recovery-Services kontaktieren

🌐 Network Infrastructure

Network Connectivity Loss

INFRASTRUCTURE-WIDE

Network-Troubleshooting-Matrix:

Scope	Symptoms	Diagnosis-Tools	Likely-Cause
Single-Host	Nur ein PC/Server betroffen	ipconfig, ping, device-manager	NIC-Failure, Cable, Switch-Port
Subnet	Mehrere Hosts in gleicher VLAN	switch-management, port-status	Switch-Failure, Uplink-Problems
Site-Wide	Komplettes Standort-Netzwerk	Core-Switch-Console, ISP-Status	Core-Infrastructure, ISP-Outage
WAN	Keine Internet/Remote-Connectivity	traceroute, ISP-Management	WAN-Link-Failure, Routing-Issues

Network-Recovery-Procedures:

Layer-1-Verification:
- Cable-Integrity testen
- Switch-Port-LEDs überprüfen
- Power-Status aller Network-Devices
Layer-2-Troubleshooting:
- MAC-Address-Tables überprüfen
- VLAN-Configuration validieren
- Spanning-Tree-Protocol-Status
Layer-3-Analysis:
- Routing-Table-Entries
- Default-Gateway-Reachability
- DNS-Resolution-Testing
Service-Restoration:
- Failed-Components ersetzen
- Backup-Paths aktivieren
- Configuration-Restore from-Backup
- End-to-End-Connectivity-Testing

WLAN Infrastructure Problems

WIRELESS-SPECIFIC

WLAN-specific-Troubleshooting:

Access-Point-Health:
- AP-Status im Wireless-Controller prüfen
- Power-over-Ethernet (PoE) ausreichend?
- Firmware-Version aktuell?
- Channel-Utilization und Interference
Radio-Frequency-Analysis:
- 2.4GHz vs 5GHz Performance
- Adjacent-Channel-Interference
- Signal-Strength-Mapping
- Noise-Floor-Measurements
Client-Connectivity-Issues:
- Authentication-Failures (WPA2/WPA3)
- DHCP-Assignment-Problems
- Roaming-Behavior zwischen APs
- Device-specific-Compatibility

WLAN-Performance-Optimization:

Channel-Planning: Auto-RF vs Manual-Channel-Assignment
Power-Levels: Minimize-Interference, Maximize-Coverage
Client-Load-Balancing: Distribute-Clients across-APs
QoS-Policies: Prioritize-WMS-Traffic over-other-applications

⚡ Power & Environmental

Power Supply Issues

HOCH

Power-Infrastructure-Monitoring:

UPS-Status: Battery-Level, Load-Percentage, Runtime-Remaining
PDU-Monitoring: Per-Outlet-Power-Draw, Voltage-Levels
Generator-Status: Fuel-Level, Automatic-Transfer-Switch
Environmental: Temperature, Humidity, Airflow

Power-Emergency-Procedures:

UPS-Battery-Low-Alert:
- Graceful-Shutdown-Sequence initiieren
- Critical-Systems priorisieren (Database-Server first)
- Backup-Generator starten (manual/automatic)
- Generator-to-UPS-Transfer koordinieren
Complete-Power-Loss:
- Assess-Scope: Partial vs Complete-Facility
- Emergency-Generator-Status prüfen
- Cold-Boot-Sequence nach Power-Restoration
- System-Integrity-Checks durchführen

Cooling System Failure

KRITISCH

Temperature-Monitoring-Thresholds:

Normal: Server-Intake 18-27°C, Exhaust <40°C
Warning: Server-Intake >27°C, Exhaust >40°C
Critical: Server-Intake >32°C, Exhaust >50°C
Emergency-Shutdown: Server-Intake >35°C

Cooling-Emergency-Response:

Immediate-Actions (0-5 Minutes):
- HVAC-System-Status überprüfen
- Emergency-Cooling-Units aktivieren
- Server-Load reduzieren (non-critical-services stoppen)
- Hot-Aisle-Containment überprüfen
Escalation-Actions (5-15 Minutes):
- Facility-Management kontaktieren
- Portable-AC-Units aufstellen
- Server-Migration auf andere-Racks
- Emergency-Shutdown-Sequence vorbereiten
Emergency-Shutdown (>15 Minutes ohne Lösung):
- Graceful-Application-Shutdown
- Database-Transactions abschließen
- Server-Power-Down in kontrollierter Reihenfolge
- Environmental-System-Repair koordinieren

## Fehlerprävention {#prevention}

### Proactive Error Prevention #### **Strategien zur Vermeidung von Systemfehlern**

🔍 Monitoring & Alerting

Infrastructure-Monitoring

Server-Health-Metrics

Metric	Warning-Threshold	Critical-Threshold	Monitoring-Frequency
CPU-Utilization	>80% für 5 Min	>95% für 2 Min	Jede Minute
Memory-Usage	>85% für 10 Min	>95% für 5 Min	Jede Minute
Disk-Space	>85% belegt	>95% belegt	Alle 5 Minuten
Disk-I/O-Latency	>20ms average	>50ms average	Kontinuierlich
Network-Latency	>100ms	>500ms	Alle 30 Sekunden
Temperature	>30°C Intake	>35°C Intake	Kontinuierlich

Application-Performance-Monitoring (APM)

WMS-Application-Health

Response-Time-Monitoring:
- Login-Process: <3 Sekunden (Warning), <5 Sekunden (Critical)
- Search-Queries: <2 Sekunden (Warning), <4 Sekunden (Critical)
- Report-Generation: <10 Sekunden (Warning), <30 Sekunden (Critical)
- Transaction-Processing: <1 Sekunde (Warning), <3 Sekunden (Critical)
Error-Rate-Monitoring:
- Application-Errors: >1% (Warning), >5% (Critical)
- Database-Connection-Errors: >0.1% (Warning), >1% (Critical)
- SAP-Interface-Errors: >0.5% (Warning), >2% (Critical)
User-Experience-Metrics:
- Concurrent-Users: >500 (Warning), >800 (Critical)
- Session-Timeouts: >5% (Warning), >10% (Critical)
- Failed-Logins: >10/Min (Warning), >50/Min (Critical)

Business-Process-Monitoring

Critical-Business-Processes

Business-Process	Key-Metric	Expected-Volume	Alert-Threshold
Wareneingang	Buchungen/Stunde	50-150/Stunde	<25/Stunde oder >200/Stunde
Kommissionierung	Picks/Stunde	200-500/Stunde	<100/Stunde oder >600/Stunde
Versand	Lieferungen/Tag	100-300/Tag	<50/Tag oder >400/Tag
SAP-Synchronisation	IDOC-Processing/Min	10-50/Min	<5/Min oder >100/Min

🔧 Predictive Maintenance

Failure-Prediction-Models

Hardware-Failure-Prediction

Hard-Disk-Failure-Prediction:
- SMART-Attribute-Monitoring (Reallocated-Sectors, Spin-Retry-Count)
- I/O-Error-Rate-Trending
- Temperature-History-Analysis
- Age-based-Replacement-Scheduling
Memory-Failure-Prediction:
- ECC-Error-Count-Trending
- Memory-Test-Error-Patterns
- Application-Crash-Correlation
Power-Supply-Health:
- Voltage-Stability-Monitoring
- Temperature-Drift-Analysis
- Fan-Speed-Degradation

Software-Performance-Degradation

Database-Performance-Trends:
- Query-Execution-Time-Trending
- Index-Fragmentation-Growth-Rate
- Transaction-Log-Growth-Patterns
- Blocking-Session-Frequency-Increase
Application-Memory-Leaks:
- Memory-Usage-Trend-Analysis
- Garbage-Collection-Frequency
- Object-Lifetime-Monitoring

Automated-Maintenance-Scheduling

Präventive-Wartungsaufgaben

Wartungsaufgabe	Trigger-Bedingung	Automatisierung	Validierung
Database-Index-Rebuild	Fragmentation >30%	SQL-Agent-Job	Performance-Improvement-Measurement
Log-File-Cleanup	Disk-Space >85%	PowerShell-Script	Space-Freed-Verification
Service-Memory-Reset	Memory-Usage >4GB	Scheduled-Service-Restart	Service-Health-Check
Certificate-Renewal	30-Tage-vor-Ablauf	Certificate-Management-Tool	SSL-Handshake-Test

🛡️ Redundancy & High Availability

Multi-Layer-Redundancy-Strategy

Application-Layer-Redundancy

Load-Balanced-WMS-Servers:
- Minimum 2 Active-WMS-Server-Instances
- Session-State-Replication
- Health-Check-based-Load-Distribution
- Automatic-Failover bei Server-Ausfall
Database-High-Availability:
- SQL-Server-Always-On-Availability-Groups
- Synchronous-Commit zu Primary-Replica
- Asynchronous-Commit zu DR-Replica
- Automatic-Failover-Configuration

Infrastructure-Layer-Redundancy

Network-Redundancy:
- Dual-Uplinks für alle-Critical-Switches
- HSRP/VRRP für Default-Gateway-Redundancy
- Multiple-ISP-Connections
- BGP-Routing für Internet-Failover
Power-Redundancy:
- Dual-Power-Supplies in allen-Servern
- Redundante-UPS-Systems
- Backup-Generator mit-Auto-Transfer
- PDU-A/B-Power-Distribution
Storage-Redundancy:
- RAID-10-Configuration für-OS-Drives
- SAN-based-Storage mit-Multipathing
- Real-time-Data-Replication zu DR-Site
- Regular-Backup-Testing und-Validation

Automated-Failover-Procedures

WMS-Application-Server-Failover

Health-Check-Failure-Detection: Load-Balancer erkennt failed-Health-Check (3 consecutive-failures)
Traffic-Redirection: Alle-neuen-Sessions werden auf healthy-Server geleitet
Session-State-Migration: Active-Sessions werden von-Session-Store wiederhergestellt
Alert-Generation: Operations-Team wird über-Failover informiert
Auto-Recovery-Attempt: Failed-Server wird automatisch-restarted und-reintegriert

SLA: <30-Sekunden-Failover-Time, <0.1%-Transaction-Loss

Database-Server-Failover

Always-On-Health-Detection: SQL-Server-erkennt-Primary-Replica-Failure
Automatic-Failover-Initiation: Secondary-Replica wird-zu-Primary promoted
DNS-Update: Listener-IP zeigt-auf-neuen-Primary
Application-Reconnection: Connection-Pools-reconnecten-automatisch
Data-Consistency-Verification: Automatic-Consistency-Checks nach-Failover

SLA: <60-Sekunden-Failover-Time, Zero-Data-Loss

📚 Knowledge Management

Error-Resolution-Knowledge-Base

Searchable-Error-Database

Error-Signature-Indexing:
- Error-Codes und-Messages indexiert
- Symptom-based-Search-Capability
- Component-based-Categorization
- Solution-Effectiveness-Rating
Solution-Templates:
- Step-by-Step-Resolution-Guides
- Required-Tools und-Access-Levels
- Estimated-Resolution-Time
- Rollback-Procedures

Continuous-Learning-System

Post-Incident-Reviews:
- Root-Cause-Analysis-Documentation
- Prevention-Strategy-Updates
- Process-Improvement-Identification
- Training-Gap-Analysis
Best-Practice-Sharing:
- Monthly-Lessons-Learned-Sessions
- Cross-Team-Knowledge-Transfer
- Vendor-Best-Practice-Integration
- Industry-Standard-Adoption

## Support-Kontakte

🚨 Notfall-Kontakte

24/7 System-Notfall

+41 81 770 9999

Kritische Systemausfälle, Sicherheitsvorfälle, Datenverlust

IT-Support Desk

+41 81 770 5678

wms-support@georgfischer.com

Mo-Fr 07:00-18:00 Uhr

🔧 Spezialisierte Error-Response-Teams

Database-Emergency-Team

dba-emergency@georgfischer.com

SQL-Server-Corruption, Performance-Issues, Backup-Recovery

Network-Operations-Center

+41 81 770 1280

Network-Outages, Infrastructure-Failures, Connectivity-Issues

SAP-Interface-Team

sap-interface@georgfischer.com

RFC-Errors, IDOC-Processing, SAP-Connectivity

Security-Incident-Response

security-incident@georgfischer.com

Security-Breaches, Malware-Detection, Access-Issues

⚠️ Systemfehler-Diagnose

🚨 BEI KRITISCHEN SYSTEMFEHLERN

🚨 KRITISCH (Severity 1)

🔶 HOCH (Severity 2)

🔸 MITTEL (Severity 3)

🔹 NIEDRIG (Severity 4)

🖥️ Application Layer

WMS Core Application

Client Applications

💾 Database Layer

SQL Server Errors

Data Integrity

🌐 Network & Infrastructure

Network Connectivity

Hardware Infrastructure

🔗 Integration Layer

SAP Interface

External Systems

SYMPTOM COLLECTION

IMPACT ASSESSMENT

ROOT CAUSE ANALYSIS

SOLUTION IMPLEMENTATION

VERIFICATION & DOCUMENTATION

🚨 SOFORTMASSNAHMEN (0-5 Minuten)

🔍 INITIAL ASSESSMENT (5-15 Minuten)

🛠️ INITIAL RESPONSE (15-30 Minuten)

🔧 Service-Fehler

WMS Service startet nicht

Memory Leak im WMS Service

🔌 Connectivity-Fehler

Database Connection Timeout

SAP RFC Connection Failed

🖥️ Client-Application-Fehler

WMS Client startet nicht

🐌 Langsame Response-Zeiten

Client-Side Performance

Server-Side Performance

💾 Corruption & Integrity

Database Corruption Detected

Transaction Log Full

🔒 Locking & Blocking

Deadlock Detected

Long-Running Blocking Sessions

📈 Performance Issues

High CPU Usage

🆘 Database Offline/Inaccessible

PHASE 1: EMERGENCY ASSESSMENT (0-15 Min)

PHASE 2: IMMEDIATE RECOVERY (15-60 Min)

PHASE 3: FULL RESTORATION (1-4 Stunden)

🖥️ Server Hardware

Server Hardware Failure

Option 1: Hot-Swap/Redundancy

Option 2: Failover zu Standby-System

Option 3: Hardware-Ersatz

Storage Array Failure

Windows (Server Manager):

Dell PowerEdge (OMSA):

HP ProLiant (Smart Array):

🌐 Network Infrastructure

Network Connectivity Loss

WLAN Infrastructure Problems

⚡ Power & Environmental

Power Supply Issues

Cooling System Failure

🔍 Monitoring & Alerting

Infrastructure-Monitoring

Server-Health-Metrics

Application-Performance-Monitoring (APM)

WMS-Application-Health

Business-Process-Monitoring

Critical-Business-Processes

🔧 Predictive Maintenance

Failure-Prediction-Models

Hardware-Failure-Prediction

Software-Performance-Degradation

Automated-Maintenance-Scheduling

Präventive-Wartungsaufgaben

🛡️ Redundancy & High Availability

Multi-Layer-Redundancy-Strategy

Application-Layer-Redundancy