⚠️ Systemfehler-Diagnose
Strukturierter Leitfaden zur schnellen Identifikation und Behebung von WMS-Systemfehlern
🚨 BEI KRITISCHEN SYSTEMFEHLERN
Sofort-Maßnahme: 24/7 Notfall-Hotline +41 81 770 9999 anrufen
Wichtig: System nicht weiter bedienen, bis Problem behoben ist
### Systemfehler-Klassifikation
#### **Severity-Level Klassifikation**
### Fehler-Domänen Übersicht
#### **Systemkomponenten und typische Fehlerquellen**
## Systematische Diagnose {#diagnose}
🚨 KRITISCH (Severity 1)
Definition: Kompletter Systemausfall oder kritische Sicherheitsprobleme
Beispiele:
- WMS-Server komplett nicht erreichbar
- Database-Server-Ausfall
- SAP-Interface komplett down
- Kritische Datenverluste
- Sicherheitsinkdente
SLA: Response <15 Min, Resolution <4 Stunden
Eskalation: Sofort an Management + 24/7 Notfallteam
🔶 HOCH (Severity 2)
Definition: Schwerwiegende Funktionseinschränkungen mit Workaround
Beispiele:
- Einzelne WMS-Module nicht verfügbar
- Performance-Degradation >50%
- Interface-Synchronisationsfehler
- Hardware-Ausfälle mit Redundanz
- Drucksystem-Ausfälle
SLA: Response <2 Stunden, Resolution <24 Stunden
Eskalation: IT-Manager nach 4 Stunden
🔸 MITTEL (Severity 3)
Definition: Funktionale Probleme ohne kritische Auswirkungen
Beispiele:
- Einzelne Features funktionieren nicht
- Reports generieren Fehler
- Performance-Issues <25%
- User-Interface-Probleme
- Scanner-Connectivity-Issues
SLA: Response <4 Stunden, Resolution <72 Stunden
Eskalation: Teamleiter nach 24 Stunden
🔹 NIEDRIG (Severity 4)
Definition: Kosmetische oder dokumentarische Probleme
Beispiele:
- UI-Layout-Probleme
- Rechtschreibfehler
- Feature-Requests
- Dokumentations-Updates
- Training-Material-Anpassungen
SLA: Response <24 Stunden, Resolution <1 Woche
Eskalation: Keine automatische Eskalation
🖥️ Application Layer
WMS Core Application
- Service-Startfehler: Windows Services starten nicht
- Memory-Leaks: Anwendung verbraucht zu viel RAM
- Thread-Deadlocks: Anwendung friert ein
- Configuration-Errors: Falsche Konfigurationsparameter
Client Applications
- Connection-Timeouts: Client kann Server nicht erreichen
- Version-Mismatch: Inkompatible Client/Server-Versionen
- Authentication-Failures: Anmeldungsprobleme
- UI-Rendering-Issues: Anzeigefehler im Interface
💾 Database Layer
SQL Server Errors
- Connection-Pool-Exhaustion: Zu viele DB-Verbindungen
- Deadlocks: Transaktions-Sperren
- Corruption: Datenbankintegritätsfehler
- Storage-Full: Festplattenspeicher voll
Data Integrity
- Constraint-Violations: Datenintegritätsverletzungen
- Replication-Lag: Verzögerung bei Datenreplikation
- Index-Corruption: Beschädigte Datenbankindizes
- Backup-Failures: Backup-Prozess fehlgeschlagen
🌐 Network & Infrastructure
Network Connectivity
- DNS-Resolution-Failures: Namensauflösung fehlgeschlagen
- Network-Latency: Hohe Netzwerklatenz
- Firewall-Blocks: Ports werden blockiert
- Switch-Port-Errors: Netzwerk-Hardware-Probleme
Hardware Infrastructure
- Server-Hardware-Failures: RAM, CPU, Disk-Ausfälle
- Power-Supply-Issues: Stromversorgungsprobleme
- Temperature-Alarms: Überhitzung
- RAID-Array-Degradation: Festplatten-Array-Probleme
🔗 Integration Layer
SAP Interface
- RFC-Connection-Errors: SAP-Verbindungsfehler
- IDOC-Processing-Failures: Nachrichtenverarbeitung fehlgeschlagen
- Data-Mapping-Errors: Datenkonvertierungsfehler
- Queue-Overflow: Nachrichten-Queue übergelaufen
External Systems
- API-Endpoint-Unavailable: Externe APIs nicht erreichbar
- Authentication-Token-Expired: Authentifizierung abgelaufen
- Data-Format-Mismatch: Datenformat nicht kompatibel
- Rate-Limiting: Zu viele API-Aufrufe
### Diagnose-Workflow
#### **5-Schritt-Diagnose-Prozess**
### Diagnose-Tools Matrix
#### **Tool-Empfehlungen nach Fehlerdomäne**
### Emergency Response Checklist
#### **Erste Schritte bei kritischen Systemfehlern**
## Application-Errors {#application}
1
SYMPTOM COLLECTION
Zu sammelnde Informationen:
- Exakte Fehlermeldung (Screenshot/Copy)
- Zeitpunkt des ersten Auftretens
- Betroffene Benutzer/Systeme
- Aktionen vor dem Fehler
- Häufigkeit des Problems
Tools: Event Viewer, WMS Error Logs, Screenshots
2
IMPACT ASSESSMENT
Bewertungskriterien:
- Anzahl betroffener Benutzer
- Kritikalität betroffener Prozesse
- Business-Impact (€/Stunde)
- Verfügbare Workarounds
- Eskalations-Notwendigkeit
Entscheidung: Severity-Level festlegen
3
ROOT CAUSE ANALYSIS
Untersuchungsmethoden:
- Log-File-Analyse (Application, System, Database)
- Performance-Counter-Auswertung
- Network-Trace-Analyse
- Database-Query-Profiling
- Hardware-Monitoring-Review
Techniken: 5-Why-Analyse, Fishbone-Diagramm
4
SOLUTION IMPLEMENTATION
Lösungsansätze:
- Sofortmaßnahmen zur Service-Wiederherstellung
- Temporäre Workarounds implementieren
- Permanente Lösungen entwickeln
- Change-Management-Prozess befolgen
- Rollback-Plan vorbereiten
Validierung: Lösung testen vor Produktions-Deployment
5
VERIFICATION & DOCUMENTATION
Verifikation:
- Problem vollständig behoben?
- Keine neuen Probleme verursacht?
- Performance-Impact überprüfen
- User-Acceptance bestätigen
- Monitoring für Wiederauftreten
Dokumentation: Knowledge Base aktualisieren
| Fehlerdomäne | Primäre Tools | Sekundäre Tools | Log-Quellen | Metriken |
|---|---|---|---|---|
| WMS Application |
|
|
|
|
| SQL Server |
|
|
|
|
| Network |
|
|
|
|
| SAP Interface |
|
|
|
|
🚨 SOFORTMASSNAHMEN (0-5 Minuten)
🔍 INITIAL ASSESSMENT (5-15 Minuten)
🛠️ INITIAL RESPONSE (15-30 Minuten)
### WMS Application Errors
#### **Häufige WMS-Anwendungsfehler und Lösungen**
### Performance-Related Errors
#### **Performance-Probleme und Optimierungsansätze**
## Database-Errors {#database}
🔧 Service-Fehler
WMS Service startet nicht
Häufigkeit: 25%
Symptome:
- Windows Service zeigt "Stopped" Status
- Event Log: "Service failed to start"
- Client kann Server nicht erreichen
- Timeout beim Service-Start
Mögliche Ursachen:
- Port bereits belegt durch anderen Prozess
- Berechtigungsprobleme für Service-Account
- Korrupte Konfigurationsdatei
- Dependency-Services nicht gestartet
- Antivirus blockiert Ausführung
Lösungsschritte:
- Service Dependencies prüfen:
sc query [ServiceName]Alle abhängigen Services starten - Port-Konflikte identifizieren:
netstat -ano | findstr :8080Anderen Prozess beenden oder Port ändern - Event Log analysieren: Windows Logs → Application → Fehlereinträge suchen
- Service-Account-Berechtigungen: "Log on as a Service" Recht prüfen
- Config-File validieren: XML-Syntax und Pfade überprüfen
Memory Leak im WMS Service
Häufigkeit: 15%
Symptome:
- Kontinuierlich steigender Memory-Verbrauch
- System wird zunehmend langsamer
- OutOfMemoryException in Logs
- Service-Crashes bei hoher Last
Diagnose-Tools:
- Process Explorer: Memory-Usage über Zeit beobachten
- PerfMon: Private Bytes und Working Set Counter
- Application Insights: Memory-Telemetrie analysieren
- DebugDiag: Memory Dump für Analyse erstellen
Sofortmaßnahmen:
- Service-Restart: Sofortiger Memory-Reset
- Memory-Threshold-Monitoring: Automatischer Restart bei >80%
- Garbage Collection forcieren: GC.Collect() in kritischen Pfaden
- Connection-Pool-Limits setzen: Database Connection Leaks vermeiden
- Entwickler-Team kontaktieren: Für permanente Code-Lösung
🔌 Connectivity-Fehler
Database Connection Timeout
Häufigkeit: 30%
Symptome:
- "Timeout expired" Error Messages
- Langsame Response-Zeiten
- Connection Pool erschöpft
- Intermittierende Verbindungsabbrüche
Diagnose-Schritte:
- SQL Server Activity Monitor: Blocking-Processes und Long-Running-Queries identifizieren
- Connection Pool Status prüfen:
PerfMon → .NET Data Provider for SqlServer - Network-Latenz messen:
ping -t [database-server] - Database-Performance analysieren: Slow-Query-Log und Index-Fragmentierung
Lösungsansätze:
- Connection-Pool-Einstellungen optimieren:
Max Pool Size=200; Connection Timeout=30 - Blocking-Queries beenden:
KILL [SPID] -- in SQL Server - Index-Wartung durchführen:
ALTER INDEX ALL ON [table] REBUILD - Database-Statistiken aktualisieren:
UPDATE STATISTICS [table] WITH FULLSCAN - Network-Issues beheben: Switch-Ports und Kabel überprüfen
SAP RFC Connection Failed
Häufigkeit: 20%
Symptome:
- "RFC destination not found" Errors
- IDOC-Processing gestoppt
- SAP-WMS Synchronisation unterbrochen
- Business-Prozesse blockiert
SAP-spezifische Diagnose:
- SM59 - RFC Destinations prüfen: Connection Test durchführen
- ST22 - Dump Analysis: ABAP-Dumps im SAP-System analysieren
- WE02 - IDOC Monitor: Fehlgeschlagene IDOC-Verarbeitung prüfen
- SLG1 - Application Log: Interface-spezifische Error-Messages
Lösungsmaßnahmen:
- RFC-Connection testen: SM59 → Test Connection → Detailierte Fehlermeldung
- SAP Gateway prüfen:
gwmon -g [gateway-host] -s [service] - Firewall-Rules validieren: Ports 3300-3399 für SAP Gateway
- SAP-User-Berechtigungen: RFC-User hat alle notwendigen Authorizations
- IDOC-Processing neu starten:
BD87 → Reprocess Error IDOCs
🖥️ Client-Application-Fehler
WMS Client startet nicht
Häufigkeit: 18%
Symptome:
- Application-Error beim Start
- "Could not load file or assembly" Errors
- Splash-Screen bleibt hängen
- Client schließt sich sofort wieder
Troubleshooting-Schritte:
- .NET Framework prüfen: Richtige Version installiert? (4.8 oder höher)
- Config-File validieren:
app.configauf Syntax-Fehler prüfen - Dependencies überprüfen: Alle Referenced DLLs vorhanden?
- Run as Administrator: Elevated Permissions testen
- Event Log prüfen: Application-Logs für .NET Runtime Errors
- Clean-Install durchführen: Vollständige Deinstallation und Neuinstallation
🐌 Langsame Response-Zeiten
Client-Side Performance
Benchmark-Werte:
- Screen-Load-Time: <3 Sekunden (Ziel), >5 Sekunden (Problematisch)
- Query-Response-Time: <2 Sekunden (Ziel), >4 Sekunden (Problematisch)
- Report-Generation: <10 Sekunden (Ziel), >30 Sekunden (Problematisch)
Optimierungsmaßnahmen:
- Local-Caching aktivieren: Stammdaten lokal zwischenspeichern
- Data-Paging implementieren: Große Datensätze portionieren
- Lazy-Loading nutzen: Daten nur bei Bedarf laden
- Client-Hardware upgraden: RAM und SSD-Performance
Server-Side Performance
Kritische Metriken:
- CPU-Utilization: >80% sustained = Problem
- Memory-Usage: >90% = Memory-Pressure
- Disk-Queue-Length: >2 = I/O-Bottleneck
- Network-Utilization: >70% = Bandwidth-Problem
Server-Optimierung:
- Resource-Monitoring: Performance-Counter kontinuierlich überwachen
- Application-Pool-Tuning: Memory-Limits und Recycling optimieren
- Database-Query-Optimization: Slow-Queries identifizieren und optimieren
- Load-Balancing: Traffic auf multiple Server verteilen
### SQL Server Error Management
#### **Kritische Datenbank-Fehler und Recovery-Strategien**
### Database Recovery Procedures
#### **Disaster Recovery für kritische Datenbankfehler**
## Infrastructure-Errors {#infrastructure}
💾 Corruption & Integrity
Database Corruption Detected
KRITISCH
Error-Codes:
Error 823:I/O error during database page readError 824:Logical consistency-based I/O errorError 825:Read-retry requiredError 832:Constant page has changed
Symptome:
- DBCC CHECKDB schlägt fehl
- Queries returnieren korrupte Daten
- Database wird als "Suspect" markiert
- Application kann nicht auf Daten zugreifen
🚨 NOTFALL-PROZEDUR:
- SOFORT: Database offline nehmen
- Backup-Status prüfen: Ist ein Clean-Backup verfügbar?
- NIEMALS: REPAIR_ALLOW_DATA_LOSS ohne Backup verwenden
- DBA-Team eskalieren: Sofort Datenbank-Experten hinzuziehen
Recovery-Strategie:
- Assessment:
DBCC CHECKDB('WMS_DB') WITH NO_INFOMSGSCorruption-Scope bestimmen - Page-Level-Restore (wenn möglich):
RESTORE DATABASE WMS_DB PAGE='1:23456' FROM DISK='backup.bak' - Full-Database-Restore (wenn erforderlich):
RESTORE DATABASE WMS_DB FROM DISK='latest_backup.bak' - Transaction-Log-Replay: Point-in-Time-Recovery bis vor Corruption-Event
- Consistency-Verification:
DBCC CHECKDB('WMS_DB') WITH EXTENDED_LOGICAL_CHECKS
Transaction Log Full
HOCH
Error-Codes:
Error 9002:Transaction log for database is fullError 3201:Cannot open backup device
Sofortmaßnahmen:
- Log-Backup erstellen:
BACKUP LOG WMS_DB TO DISK='log_backup.trn' - Log-File-Space prüfen:
DBCC SQLPERF(LOGSPACE) - Disk-Space freigeben: Nicht benötigte Files löschen
- Log-File erweitern (temporär):
ALTER DATABASE WMS_DB MODIFY FILE (NAME='WMS_Log', SIZE=2GB)
Präventive Maßnahmen:
- Automatische Log-Backups alle 15 Minuten
- Log-File-Auto-Growth auf 10% setzen
- Monitoring für Log-Space-Usage >80%
- Disk-Space-Alerts konfigurieren
🔒 Locking & Blocking
Deadlock Detected
MITTEL
Error-Codes:
Error 1205:Transaction was deadlocked and chosen as victim
Deadlock-Analyse:
- Deadlock-Graph anzeigen:
SELECT * FROM sys.dm_xe_sessions WHERE name = 'system_health' - Deadlock-Monitor aktivieren:
DBCC TRACEON(1222, -1) - Extended Events konfigurieren: Deadlock XML-Report für detaillierte Analyse
Lösungsansätze:
- Query-Optimierung: Indexes hinzufügen, um Lock-Escalation zu reduzieren
- Transaction-Isolation anpassen:
SET TRANSACTION ISOLATION LEVEL READ COMMITTED SNAPSHOT - Lock-Timeout setzen:
SET LOCK_TIMEOUT 30000(30 Sekunden) - Resource-Access-Reihenfolge normalisieren: Immer gleiche Reihenfolge beim Zugriff auf Tabellen
Long-Running Blocking Sessions
MITTEL
Blocking-Detection:
- Activity Monitor verwenden: SSMS → Activity Monitor → Processes
- sp_who2 ausführen:
EXEC sp_who2 'active' - Custom-Query für Blocking-Chains:
SELECT blocking_session_id, session_id, wait_type, wait_time, wait_resource FROM sys.dm_exec_requests WHERE blocking_session_id > 0
Blocking-Resolution:
- Blocking-Session identifizieren: Head-Blocker in der Blocking-Chain finden
- Session-Details analysieren:
DBCC INPUTBUFFER([session_id]) - Kill-Decision treffen: Business-Impact vs. Technical-Impact bewerten
- Session beenden (wenn notwendig):
KILL [session_id]
📈 Performance Issues
High CPU Usage
HOCH
Performance-Thresholds:
- Warning: CPU >80% für >5 Minuten
- Critical: CPU >95% für >2 Minuten
- Emergency: CPU 100% für >30 Sekunden
CPU-Usage-Analyse:
- Top-CPU-Consuming-Queries:
SELECT TOP 10 qs.sql_handle, qs.total_worker_time, qs.execution_count, st.text FROM sys.dm_exec_query_stats qs CROSS APPLY sys.dm_exec_sql_text(qs.sql_handle) st ORDER BY qs.total_worker_time DESC - Currently-Executing-Queries:
SELECT * FROM sys.dm_exec_requests WHERE cpu_time > 5000 - Wait-Statistics analysieren:
SELECT * FROM sys.dm_os_wait_stats ORDER BY wait_time_ms DESC
CPU-Load-Mitigation:
- Resource-Governor aktivieren: CPU-Limits für verschiedene Workload-Groups setzen
- Query-Optimization: Missing-Indexes hinzufügen, Query-Plans optimieren
- Parallel-Processing begrenzen:
sp_configure 'max degree of parallelism', 4 - Background-Processes throtteln: Index-Maintenance und Backup-Jobs zeitlich verteilen
🆘 Database Offline/Inaccessible
PHASE 1: EMERGENCY ASSESSMENT (0-15 Min)
- Service-Status prüfen:
net start | findstr SQL - Error-Log analysieren:
C:\Program Files\Microsoft SQL Server\MSSQL15.MSSQLSERVER\MSSQL\Log\ERRORLOG - Disk-Space überprüfen: Sind Data/Log-Drives voll?
- Hardware-Status: RAID-Arrays, Memory, Network-Connectivity
PHASE 2: IMMEDIATE RECOVERY (15-60 Min)
- Database-Status bestimmen:
SELECT name, state_desc FROM sys.databases WHERE name = 'WMS_DB' - Emergency-Mode aktivieren (wenn nötig):
ALTER DATABASE WMS_DB SET EMERGENCY - Read-Only-Access ermöglichen:
ALTER DATABASE WMS_DB SET SINGLE_USER WITH ROLLBACK IMMEDIATE - Consistency-Check durchführen:
DBCC CHECKDB('WMS_DB', REPAIR_ALLOW_DATA_LOSS)(nur als letzter Ausweg!)
PHASE 3: FULL RESTORATION (1-4 Stunden)
- Backup-Restore-Strategy planen: Latest Full + Differential + Log-Backups identifizieren
- Point-in-Time-Recovery durchführen:
RESTORE DATABASE WMS_DB FROM DISK = 'full_backup.bak' WITH NORECOVERY RESTORE DATABASE WMS_DB FROM DISK = 'diff_backup.bak' WITH NORECOVERY RESTORE LOG WMS_DB FROM DISK = 'log_backup.trn' WITH RECOVERY - Data-Validation durchführen: Critical Business-Data-Integrity prüfen
- Application-Services wieder starten: WMS-Services in korrekter Reihenfolge starten
### Hardware Infrastructure Errors
#### **Hardware-Ausfälle und Recovery-Strategien**
## Fehlerprävention {#prevention}
🖥️ Server Hardware
Server Hardware Failure
KRITISCH
Erkennungsmerkmale:
- Server reagiert nicht mehr (keine Ping-Response)
- Blue Screen of Death (BSOD)
- Hardware-Beep-Codes beim Boot
- LED-Status-Indikatoren zeigen Fehler
- Temperaturen außerhalb Normalbereich
Hardware-Diagnose-Schritte:
- Physical-Inspection:
- LED-Status-Lights überprüfen
- Fan-Operation kontrollieren
- Kabel-Verbindungen sicherstellen
- Burn-Smell oder physische Schäden
- Management-Interface prüfen:
- iDRAC/iLO Remote-Console
- System-Event-Log analysieren
- Hardware-Inventory überprüfen
- Temperature und Voltage-Readings
- Component-Level-Testing:
- Memory-Test (POST oder Diagnostic-Tools)
- CPU-Temperature und -Load
- Storage-Health (SMART-Status)
- Network-Interface-Cards
Recovery-Strategien:
Storage Array Failure
HOCH
RAID-Status-Monitoring:
Windows (Server Manager):
Get-StoragePool | Get-PhysicalDisk | Select FriendlyName, HealthStatus
Dell PowerEdge (OMSA):
omreport storage vdisk
HP ProLiant (Smart Array):
hpssacli ctrl all show config
Storage-Recovery-Procedures:
- RAID-Degraded-Status:
- Defekte Disk identifizieren
- Hot-Spare automatisch aktiviert?
- Replacement-Disk einbauen
- Rebuild-Progress überwachen
- RAID-Failed-Status:
- Data-Loss-Assessment durchführen
- Backup-Restore-Strategy aktivieren
- Emergency-Disk-Recovery-Tools verwenden
- Professional-Data-Recovery-Services kontaktieren
🌐 Network Infrastructure
Network Connectivity Loss
INFRASTRUCTURE-WIDE
Network-Troubleshooting-Matrix:
| Scope | Symptoms | Diagnosis-Tools | Likely-Cause |
|---|---|---|---|
| Single-Host | Nur ein PC/Server betroffen | ipconfig, ping, device-manager | NIC-Failure, Cable, Switch-Port |
| Subnet | Mehrere Hosts in gleicher VLAN | switch-management, port-status | Switch-Failure, Uplink-Problems |
| Site-Wide | Komplettes Standort-Netzwerk | Core-Switch-Console, ISP-Status | Core-Infrastructure, ISP-Outage |
| WAN | Keine Internet/Remote-Connectivity | traceroute, ISP-Management | WAN-Link-Failure, Routing-Issues |
Network-Recovery-Procedures:
- Layer-1-Verification:
- Cable-Integrity testen
- Switch-Port-LEDs überprüfen
- Power-Status aller Network-Devices
- Layer-2-Troubleshooting:
- MAC-Address-Tables überprüfen
- VLAN-Configuration validieren
- Spanning-Tree-Protocol-Status
- Layer-3-Analysis:
- Routing-Table-Entries
- Default-Gateway-Reachability
- DNS-Resolution-Testing
- Service-Restoration:
- Failed-Components ersetzen
- Backup-Paths aktivieren
- Configuration-Restore from-Backup
- End-to-End-Connectivity-Testing
WLAN Infrastructure Problems
WIRELESS-SPECIFIC
WLAN-specific-Troubleshooting:
- Access-Point-Health:
- AP-Status im Wireless-Controller prüfen
- Power-over-Ethernet (PoE) ausreichend?
- Firmware-Version aktuell?
- Channel-Utilization und Interference
- Radio-Frequency-Analysis:
- 2.4GHz vs 5GHz Performance
- Adjacent-Channel-Interference
- Signal-Strength-Mapping
- Noise-Floor-Measurements
- Client-Connectivity-Issues:
- Authentication-Failures (WPA2/WPA3)
- DHCP-Assignment-Problems
- Roaming-Behavior zwischen APs
- Device-specific-Compatibility
WLAN-Performance-Optimization:
- Channel-Planning: Auto-RF vs Manual-Channel-Assignment
- Power-Levels: Minimize-Interference, Maximize-Coverage
- Client-Load-Balancing: Distribute-Clients across-APs
- QoS-Policies: Prioritize-WMS-Traffic over-other-applications
⚡ Power & Environmental
Power Supply Issues
HOCH
Power-Infrastructure-Monitoring:
- UPS-Status: Battery-Level, Load-Percentage, Runtime-Remaining
- PDU-Monitoring: Per-Outlet-Power-Draw, Voltage-Levels
- Generator-Status: Fuel-Level, Automatic-Transfer-Switch
- Environmental: Temperature, Humidity, Airflow
Power-Emergency-Procedures:
- UPS-Battery-Low-Alert:
- Graceful-Shutdown-Sequence initiieren
- Critical-Systems priorisieren (Database-Server first)
- Backup-Generator starten (manual/automatic)
- Generator-to-UPS-Transfer koordinieren
- Complete-Power-Loss:
- Assess-Scope: Partial vs Complete-Facility
- Emergency-Generator-Status prüfen
- Cold-Boot-Sequence nach Power-Restoration
- System-Integrity-Checks durchführen
Cooling System Failure
KRITISCH
Temperature-Monitoring-Thresholds:
- Normal: Server-Intake 18-27°C, Exhaust <40°C
- Warning: Server-Intake >27°C, Exhaust >40°C
- Critical: Server-Intake >32°C, Exhaust >50°C
- Emergency-Shutdown: Server-Intake >35°C
Cooling-Emergency-Response:
- Immediate-Actions (0-5 Minutes):
- HVAC-System-Status überprüfen
- Emergency-Cooling-Units aktivieren
- Server-Load reduzieren (non-critical-services stoppen)
- Hot-Aisle-Containment überprüfen
- Escalation-Actions (5-15 Minutes):
- Facility-Management kontaktieren
- Portable-AC-Units aufstellen
- Server-Migration auf andere-Racks
- Emergency-Shutdown-Sequence vorbereiten
- Emergency-Shutdown (>15 Minutes ohne Lösung):
- Graceful-Application-Shutdown
- Database-Transactions abschließen
- Server-Power-Down in kontrollierter Reihenfolge
- Environmental-System-Repair koordinieren
### Proactive Error Prevention
#### **Strategien zur Vermeidung von Systemfehlern**
## Support-Kontakte
🔍 Monitoring & Alerting
Infrastructure-Monitoring
Server-Health-Metrics
| Metric | Warning-Threshold | Critical-Threshold | Monitoring-Frequency |
|---|---|---|---|
| CPU-Utilization | >80% für 5 Min | >95% für 2 Min | Jede Minute |
| Memory-Usage | >85% für 10 Min | >95% für 5 Min | Jede Minute |
| Disk-Space | >85% belegt | >95% belegt | Alle 5 Minuten |
| Disk-I/O-Latency | >20ms average | >50ms average | Kontinuierlich |
| Network-Latency | >100ms | >500ms | Alle 30 Sekunden |
| Temperature | >30°C Intake | >35°C Intake | Kontinuierlich |
Application-Performance-Monitoring (APM)
WMS-Application-Health
- Response-Time-Monitoring:
- Login-Process: <3 Sekunden (Warning), <5 Sekunden (Critical)
- Search-Queries: <2 Sekunden (Warning), <4 Sekunden (Critical)
- Report-Generation: <10 Sekunden (Warning), <30 Sekunden (Critical)
- Transaction-Processing: <1 Sekunde (Warning), <3 Sekunden (Critical)
- Error-Rate-Monitoring:
- Application-Errors: >1% (Warning), >5% (Critical)
- Database-Connection-Errors: >0.1% (Warning), >1% (Critical)
- SAP-Interface-Errors: >0.5% (Warning), >2% (Critical)
- User-Experience-Metrics:
- Concurrent-Users: >500 (Warning), >800 (Critical)
- Session-Timeouts: >5% (Warning), >10% (Critical)
- Failed-Logins: >10/Min (Warning), >50/Min (Critical)
Business-Process-Monitoring
Critical-Business-Processes
| Business-Process | Key-Metric | Expected-Volume | Alert-Threshold |
|---|---|---|---|
| Wareneingang | Buchungen/Stunde | 50-150/Stunde | <25/Stunde oder >200/Stunde |
| Kommissionierung | Picks/Stunde | 200-500/Stunde | <100/Stunde oder >600/Stunde |
| Versand | Lieferungen/Tag | 100-300/Tag | <50/Tag oder >400/Tag |
| SAP-Synchronisation | IDOC-Processing/Min | 10-50/Min | <5/Min oder >100/Min |
🔧 Predictive Maintenance
Failure-Prediction-Models
Hardware-Failure-Prediction
- Hard-Disk-Failure-Prediction:
- SMART-Attribute-Monitoring (Reallocated-Sectors, Spin-Retry-Count)
- I/O-Error-Rate-Trending
- Temperature-History-Analysis
- Age-based-Replacement-Scheduling
- Memory-Failure-Prediction:
- ECC-Error-Count-Trending
- Memory-Test-Error-Patterns
- Application-Crash-Correlation
- Power-Supply-Health:
- Voltage-Stability-Monitoring
- Temperature-Drift-Analysis
- Fan-Speed-Degradation
Software-Performance-Degradation
- Database-Performance-Trends:
- Query-Execution-Time-Trending
- Index-Fragmentation-Growth-Rate
- Transaction-Log-Growth-Patterns
- Blocking-Session-Frequency-Increase
- Application-Memory-Leaks:
- Memory-Usage-Trend-Analysis
- Garbage-Collection-Frequency
- Object-Lifetime-Monitoring
Automated-Maintenance-Scheduling
Präventive-Wartungsaufgaben
| Wartungsaufgabe | Trigger-Bedingung | Automatisierung | Validierung |
|---|---|---|---|
| Database-Index-Rebuild | Fragmentation >30% | SQL-Agent-Job | Performance-Improvement-Measurement |
| Log-File-Cleanup | Disk-Space >85% | PowerShell-Script | Space-Freed-Verification |
| Service-Memory-Reset | Memory-Usage >4GB | Scheduled-Service-Restart | Service-Health-Check |
| Certificate-Renewal | 30-Tage-vor-Ablauf | Certificate-Management-Tool | SSL-Handshake-Test |
🛡️ Redundancy & High Availability
Multi-Layer-Redundancy-Strategy
Application-Layer-Redundancy
- Load-Balanced-WMS-Servers:
- Minimum 2 Active-WMS-Server-Instances
- Session-State-Replication
- Health-Check-based-Load-Distribution
- Automatic-Failover bei Server-Ausfall
- Database-High-Availability:
- SQL-Server-Always-On-Availability-Groups
- Synchronous-Commit zu Primary-Replica
- Asynchronous-Commit zu DR-Replica
- Automatic-Failover-Configuration
Infrastructure-Layer-Redundancy
- Network-Redundancy:
- Dual-Uplinks für alle-Critical-Switches
- HSRP/VRRP für Default-Gateway-Redundancy
- Multiple-ISP-Connections
- BGP-Routing für Internet-Failover
- Power-Redundancy:
- Dual-Power-Supplies in allen-Servern
- Redundante-UPS-Systems
- Backup-Generator mit-Auto-Transfer
- PDU-A/B-Power-Distribution
- Storage-Redundancy:
- RAID-10-Configuration für-OS-Drives
- SAN-based-Storage mit-Multipathing
- Real-time-Data-Replication zu DR-Site
- Regular-Backup-Testing und-Validation
Automated-Failover-Procedures
WMS-Application-Server-Failover
- Health-Check-Failure-Detection: Load-Balancer erkennt failed-Health-Check (3 consecutive-failures)
- Traffic-Redirection: Alle-neuen-Sessions werden auf healthy-Server geleitet
- Session-State-Migration: Active-Sessions werden von-Session-Store wiederhergestellt
- Alert-Generation: Operations-Team wird über-Failover informiert
- Auto-Recovery-Attempt: Failed-Server wird automatisch-restarted und-reintegriert
SLA: <30-Sekunden-Failover-Time, <0.1%-Transaction-Loss
Database-Server-Failover
- Always-On-Health-Detection: SQL-Server-erkennt-Primary-Replica-Failure
- Automatic-Failover-Initiation: Secondary-Replica wird-zu-Primary promoted
- DNS-Update: Listener-IP zeigt-auf-neuen-Primary
- Application-Reconnection: Connection-Pools-reconnecten-automatisch
- Data-Consistency-Verification: Automatic-Consistency-Checks nach-Failover
SLA: <60-Sekunden-Failover-Time, Zero-Data-Loss
📚 Knowledge Management
Error-Resolution-Knowledge-Base
Searchable-Error-Database
- Error-Signature-Indexing:
- Error-Codes und-Messages indexiert
- Symptom-based-Search-Capability
- Component-based-Categorization
- Solution-Effectiveness-Rating
- Solution-Templates:
- Step-by-Step-Resolution-Guides
- Required-Tools und-Access-Levels
- Estimated-Resolution-Time
- Rollback-Procedures
Continuous-Learning-System
- Post-Incident-Reviews:
- Root-Cause-Analysis-Documentation
- Prevention-Strategy-Updates
- Process-Improvement-Identification
- Training-Gap-Analysis
- Best-Practice-Sharing:
- Monthly-Lessons-Learned-Sessions
- Cross-Team-Knowledge-Transfer
- Vendor-Best-Practice-Integration
- Industry-Standard-Adoption
🚨 Notfall-Kontakte
24/7 System-Notfall
+41 81 770 9999
Kritische Systemausfälle, Sicherheitsvorfälle, Datenverlust
IT-Support Desk
+41 81 770 5678
wms-support@georgfischer.com
Mo-Fr 07:00-18:00 Uhr
🔧 Spezialisierte Error-Response-Teams
Database-Emergency-Team
dba-emergency@georgfischer.com
SQL-Server-Corruption, Performance-Issues, Backup-Recovery
Network-Operations-Center
+41 81 770 1280
Network-Outages, Infrastructure-Failures, Connectivity-Issues
SAP-Interface-Team
sap-interface@georgfischer.com
RFC-Errors, IDOC-Processing, SAP-Connectivity
Security-Incident-Response
security-incident@georgfischer.com
Security-Breaches, Malware-Detection, Access-Issues