HCI – Hyperkonvergente Infrastruktur mit Windows Server

 In IT-Infrastruktur

Mit einer hyperkonvergenten Infrastruktur (hyper-converged Infrastructure, HCI) ist es möglich die Bereitstellung und Komplexität von IT-Infrastrukturen deutlich zu vereinfachen. Dabei werden Hardware-Ressourcen softwareseitig in sogenannte Pools zusammengefasst und der Umgebung für virtuelle Maschinen zur Verfügung gestellt. Die Komponenten Computing, Storage und Netzwerk können dadurch softwareseitig zentral über ein einziges Tool verwaltet werden. Viele namhafte Hersteller wie Microsoft, Nutanix und VMware bieten leistbare HCI-Lösungen welche immer mehr Einzug in das KMU-Umfeld finden. Für einen reibungslosen Betrieb solch einer Infrastruktur müssen Vorbereitungen getroffen werden, welche ich in diesem Beitrag anhand von Microsoft Windows Server 2016 Datacenter und deren Software-Feature Storage Spaces Direct (S2D) näher erläutern möchte.

Für die Wahl der Hardware und einen stabilen Betrieb sollte vom Softwarehersteller eine Zertifizierung und Freigabe vorliegen. Bei sämtlichen Nodes (Die im Cluster befindlichen Server) ist für Festplatten welche im Storage-Pool liegen ein einfacher HBA (Host-Bus-Adapter) zu bevorzugen. Ein RAID-Controller kann den Betrieb einer HCI stören da der Controller eine eigenständige Logik besitzt. Diese beiden Voraussetzungen gilt es immer und unabhängig von der Wahl des Softwareherstellers beim Aufbau einer HCI zu beachten.

Bei jeder HCI-Lösung ist die Konfiguration der Ethernet-Netzwerkadapter und das Caching von großer Bedeutung. Die Nodes untereinander bzw. die eigens hierfür konfigurierten Ethernet-Netzwerkadapter sollten mit mindestens 10 Gbit angebunden sein. Ebenso die Protokolle RDMA (Remote Direct Memory Access) und VMQ (Virtual Machine Queue) spielen in einer HCI eine große Rolle und müssen von den Adaptern unterstützt werden. Beim RDMA Protokoll ist vorab zu prüfen welche Technologie zum Einsatz kommen wird. RDMA mit RoCE v2 benötigt einen Switch welcher PFC (Priority Flow Control), DCB (Data Center Bridging) und ETS (Enhanced Transmission Selection) unterstützt. Das RDMA Protokoll iWARP hingegen ist leichter zu handhaben und stellt keine speziellen Anforderungen an den Switch.

Beim Caching ist darauf zu achten das ca. 4 GB RAM pro Node und pro Terabyte (TB) Caching Speicher benötigt werden und aus diesem Grund für die virtuelle Infrastruktur nicht mehr zur Verfügung steht. Bei 3-Nodes mit je 3 TB Caching Speicher sind dies immerhin ca. 36 GB an RAM. Es sind mindestens 2 SSD oder NVMe pro Node (mit Drive Writes Per Day von 3 und höher) für das Caching und mindestens 4 SSD oder HDD pro Node für den Storage-Pool erforderlich. Die genannten Voraussetzungen müssen erfüllt sein um überhaupt eine stabile hyperkonvergente Infrastruktur aufbauen zu können. Diese gelten für Storage Spaces Direct mit Microsoft Windows Server 2016 Datacenter und können sich bei zukünftigen Produktversionen ändern.

Jeder Node muss in einem Storage Spaces Direct Failover Cluster derselben Windows-Domäne angehören. Zudem sollte immer ein Cluster Quorum oder Windows File Share Witness (FSW) auf einem eigenständigen Server außerhalb der Cluster-Umgebung zum Einsatz kommen. Egal ob gerade oder ungerade Anzahl an Nodes. Dadurch wird die Verfügbarkeit bei einem Failover Cluster recht einfach erhöht.

Ich persönlich empfehle keine 2-Nodes HCI-Lösung, obwohl dies von Microsoft mit einem hierfür benötigten Witness-Node (on-premises oder cloudbasiert) unterstützt wird. Eine falsche Handlung bei einem Node und es entsteht ein Datenverlust mit hohen Stillstandzeiten für das Unternehmen. Die meisten Probleme entstehen bei defekten Festplatten oder beim Tausch von defekten Festplatten. Bei nur 2-Nodes ist solch ein Zustand sehr kritisch. Genau aus diesem Grund setze ich auf mehr Sicherheit und empfehle den Einsatz von mindestens 3-Nodes. In Microsoft Windows Server 2016 Datacenter kann der Storage Spaces Direct Failover Cluster auf bis zu 16-Nodes erweitert werden.

Die Windows-Updates für den Failover Cluster der HCI lassen sich sehr einfach über das Windows Cluster-Aware Updating (CAU) manuell oder zeitgesteuert installieren. Den Einsatz von Windows Cluster-Aware Updating ist zu empfehlen, da die Gesundheit der Cluster-Umgebung vor Installation der Updates geprüft und Schritt-für-Schritt die einzelnen Nodes automatisch und sicher in den Wartungsmodus versetzt werden.

Die Administration kann über das Snap-In Failover Cluster Manager, PowerShell, System Center Virtual Machine Manager (SCVMM) oder über das neue Windows Admin Center erfolgen. Das Windows Admin Center bietet mehr Möglichkeiten für die Administration und war einst unter dem Projektnamen „Honolulu!“ bekannt. Mir persönlich gefällt der Aufbau und Informationsfluss, und es sorgt für eine einfache und zentrale Administration der Windows Server Infrastruktur.

Der Performance Test der HCI-Lösung von Microsoft mit VMFleet (Eine Sammlung von Skripten) kann sich sehen lassen. Der Test erfolgte mit 3-Nodes mit je 3 TB NVMe Cache und einer Anbindung von 2x 10 Gbit pro Node. Getestet wurden die IOPS (Input/Output Operations Per Second) beim Lesen mit simulierten Workloads auf 45 virtuellen Maschinen mit je 2 vCPU und 8 GB RAM. Dabei wurde ein Maximalwert von über 1 Million IOPS erreicht.

HCI VMFleet Performance Test

Für weitere Informationen und Fragen, besuchen Sie bitte die Kontakt-Seite.

Do NOT follow this link or you will be banned from the site! asoggetti-413830-unsplash_1024