Algroveon-AI – Lokale KI-Infrastruktur auf eigenem Heimserver
Vollständig lokale KI-Infrastruktur auf dedizierter Hardware: GPU-Passthrough, Ollama-basierte Sprachmodell-Inferenz, Sprachein- und Ausgabe.
Eine vollständig lokale KI-Infrastruktur auf eigener Hardware, die Sprach-, Text- und Bildverarbeitung ohne Cloud-Abhängigkeit ermöglicht.
Proxmox-Heimserver mit GPU-Passthrough-VM, Ollama für LLM-Inferenz, Faster-Whisper für Spracheingabe und Piper TTS für Sprachausgabe.
Algroveon-AI ist das Herzstück der gesamten KI-Struktur. Hier laufen die zentralen KI-Dienste für meine Algroveon-Projekte vollständig lokal auf eigener Hardware im Heimnetzwerk.
Der Hintergrund ist klar: Ich wollte keine verteilte Lösung aus einzelnen Cloud-Diensten, sondern eine eigene, kontrollierbare Basis, auf der Sprache, Text, Embeddings und Bildgenerierung an einem Ort zusammenlaufen. Genau daraus ergibt sich die Rolle von Algroveon-AI im Gesamtprojekt.
Infrastruktur-Überblick
Der Heimserver läuft unter Proxmox als Virtualisierungsplattform. Das Kernstück ist eine dedizierte VM mit vollständigem PCIe-GPU-Passthrough:
Proxmox-Heimserver
├── GPU-VM (Ubuntu 24.04, 32 GB RAM, RTX PRO 2000 Passthrough)
│ ├── Ollama – LLM-Inferenz (Gemma-4 26B A4B)
│ ├── Faster-Whisper – Spracherkennung (STT)
│ ├── Piper TTS – Sprachausgabe (TTS)
│ └── ComfyUI – Bildgenerierung
├── Agent-VM – Algroveon-Agent FastAPI-Dienste
└── weitere Dienste – Mail, Git, News, Dokumentenmanagement
Die KI-Dienste laufen in einer eigenen VM mit direktem GPU-Zugriff. Andere Dienste wie Algroveon-Agent, der News-Service oder weitere Teile der Infrastruktur greifen auf diese Instanz zu, bleiben technisch aber bewusst davon getrennt.
Diese Trennung ist für das Projekt wichtig. Sie sorgt dafür, dass die eigentliche KI-Laufzeit stabil und klar abgegrenzt bleibt, während andere Dienste unabhängig weiterentwickelt, getestet oder ausgetauscht werden können.
Proxmox als Basis
Proxmox ist in diesem Projekt nicht nur der Hypervisor, sondern die eigentliche Grundlage für die saubere Trennung der Rollen im System. Die KI-Dienste laufen in einer eigenen VM mit direktem GPU- Passthrough, während andere Dienste bewusst getrennt in weiteren VMs oder Containern betrieben werden.
Das hat für mich zwei Vorteile: Zum einen bleibt die KI-Laufzeit stabil und klar abgegrenzt. Zum anderen lässt sich die restliche Infrastruktur unabhängig davon pflegen, umbauen oder erweitern, ohne jedes Mal die zentrale KI-Instanz anfassen zu müssen.
GPU-Passthrough und Ressourcen
Die GPU wird per PCIe-Passthrough direkt an die KI-VM durchgereicht. Genau das macht den Aufbau für lokale Inferenz erst sinnvoll, weil das Sprachmodell und weitere KI-Dienste nicht über Umwege auf die Grafikkarte zugreifen müssen. Die VM erhält dafür 32 GB RAM und exklusiven GPU-Zugriff.
Diese Zuweisung ist bewusst gewählt. Sie gibt Algroveon-AI genug Reserven für das dauerhaft geladene Sprachmodell, Spracherkennung und weitere KI-Dienste, ohne den gesamten Server nur auf dieses eine Projekt festzulegen.
Hardware
| Komponente | Modell |
|---|---|
| CPU | Intel Core Ultra 7 265 (20 Kerne) |
| GPU | NVIDIA RTX PRO 2000 Blackwell, 16 GB GDDR7 |
| RAM | 64 GB DDR5 |
| Leistungsaufnahme GPU | 70 W |
| Geräuschentwicklung | max. 0,6 Sone |
Die GPU-Wahl ist bei einem solchen System die wichtigste Einzelentscheidung. Die RTX PRO 2000 ist für mein Setup ein sinnvoller Mittelweg: vergleichsweise sparsam, leise genug für den Dauerbetrieb zu Hause und gleichzeitig stark genug, um ein größeres Sprachmodell lokal zu tragen. Mehr VRAM wäre natürlich wünschenswert gewesen, aber bei den aktuellen Preisen einer RTX PRO 4000 oder 6000 war das für eine private Nutzung für mich nicht sinnvoll zu rechtfertigen. 16 GB GDDR7 bei 70 W und maximal 0,6 Sone sind hier deshalb der bewusste Kompromiss zwischen Leistung, Lautstärke, Energiebedarf und Kosten.
Gerade im Heimbereich ist das ein wichtiger Punkt. Ein System kann technisch noch so spannend sein – wenn es zu laut, zu teuer oder im Dauerbetrieb zu ineffizient wird, verliert es schnell seinen praktischen Wert.
Warum diese Hardware
Die Hardware ist nicht auf maximale Benchmarks ausgelegt, sondern auf einen sinnvollen Dauerbetrieb im Heimnetz. CPU, RAM und GPU sind so gewählt, dass Algroveon-AI als zentrale Instanz zuverlässig laufen kann, ohne dass Lautstärke, Strombedarf oder Anschaffungskosten völlig aus dem Rahmen fallen.
Gerade in einem privaten Umfeld ist das für mich ein zentraler Punkt. Ein lokales KI-System muss nicht nur technisch funktionieren, sondern über längere Zeit praktikabel bleiben. Genau deshalb ist der Aufbau eher ausgewogen als extrem.
Laufende Modelle
| Dienst | Modell | VRAM |
|---|---|---|
| LLM | Gemma-4 26B A4B IQ4_XS (text-only) | ~13,7 GB |
| STT | Faster-Whisper large-v3-turbo (int8_float16) | ~1 GB |
| Embeddings | nomic-embed-text | CPU |
Das Hauptmodell ist Gemma-4 26B A4B in einer text-only Variante. Vereinfacht gesagt arbeitet es nicht bei jedem Schritt mit dem kompletten Modell, sondern nur mit den jeweils benötigten Teilen. Genau das macht es für ein lokales Setup dieser Art interessant. Da Algroveon-AI im Sprachbetrieb keine direkte Bildverarbeitung im Modell braucht und das Context-Window bewusst begrenzt ist, passt das Modell vollständig in den VRAM, ohne auf die CPU ausweichen zu müssen.
Das Hauptmodell bleibt dauerhaft im VRAM geladen. Die reine Inferenz liegt typischerweise bei etwa 0,3 bis 0,8 Sekunden. Für die gesamte Sprachkette vom Wake-Word bis zur Antwort bewegt sich das System grob im Bereich von etwa 0,6 bis 1,2 Sekunden.
Genau das ist für das Projekt entscheidend: Algroveon-AI soll nicht nur lokal laufen, sondern sich auch im Alltag direkt und reaktionsschnell anfühlen. Erst damit wird aus einer reinen Demo eine brauchbare Grundlage für einen echten Assistenten im Heimnetz.