Infrastruktur/algroveon-ai-–-lokale-ki-infrastruktur-auf-eigenem-heimserver/

Algroveon-AI – Lokale KI-Infrastruktur auf eigenem Heimserver

Vollständig lokale KI-Infrastruktur auf dedizierter Hardware: GPU-Passthrough, Ollama-basierte Sprachmodell-Inferenz, Sprachein- und Ausgabe.

Zweck

Eine vollständig lokale KI-Infrastruktur auf eigener Hardware, die Sprach-, Text- und Bildverarbeitung ohne Cloud-Abhängigkeit ermöglicht.

Technischer Kern

Proxmox-Heimserver mit GPU-Passthrough-VM, Ollama für LLM-Inferenz, Faster-Whisper für Spracheingabe und Piper TTS für Sprachausgabe.

Algroveon-AI ist das Herzstück der gesamten KI-Struktur. Hier laufen die zentralen KI-Dienste für meine Algroveon-Projekte vollständig lokal auf eigener Hardware im Heimnetzwerk.

Der Hintergrund ist klar: Ich wollte keine verteilte Lösung aus einzelnen Cloud-Diensten, sondern eine eigene, kontrollierbare Basis, auf der Sprache, Text, Embeddings und Bildgenerierung an einem Ort zusammenlaufen. Genau daraus ergibt sich die Rolle von Algroveon-AI im Gesamtprojekt.

Infrastruktur-Überblick

Der Heimserver läuft unter Proxmox als Virtualisierungsplattform. Das Kernstück ist eine dedizierte VM mit vollständigem PCIe-GPU-Passthrough:

Proxmox-Heimserver
├── GPU-VM (Ubuntu 24.04, 32 GB RAM, RTX PRO 2000 Passthrough)
│   ├── Ollama          – LLM-Inferenz (Gemma-4 26B A4B)
│   ├── Faster-Whisper  – Spracherkennung (STT)
│   ├── Piper TTS       – Sprachausgabe (TTS)
│   └── ComfyUI         – Bildgenerierung
├── Agent-VM            – Algroveon-Agent FastAPI-Dienste
└── weitere Dienste     – Mail, Git, News, Dokumentenmanagement

Die KI-Dienste laufen in einer eigenen VM mit direktem GPU-Zugriff. Andere Dienste wie Algroveon-Agent, der News-Service oder weitere Teile der Infrastruktur greifen auf diese Instanz zu, bleiben technisch aber bewusst davon getrennt.

Diese Trennung ist für das Projekt wichtig. Sie sorgt dafür, dass die eigentliche KI-Laufzeit stabil und klar abgegrenzt bleibt, während andere Dienste unabhängig weiterentwickelt, getestet oder ausgetauscht werden können.

Proxmox als Basis

Proxmox ist in diesem Projekt nicht nur der Hypervisor, sondern die eigentliche Grundlage für die saubere Trennung der Rollen im System. Die KI-Dienste laufen in einer eigenen VM mit direktem GPU- Passthrough, während andere Dienste bewusst getrennt in weiteren VMs oder Containern betrieben werden.

Das hat für mich zwei Vorteile: Zum einen bleibt die KI-Laufzeit stabil und klar abgegrenzt. Zum anderen lässt sich die restliche Infrastruktur unabhängig davon pflegen, umbauen oder erweitern, ohne jedes Mal die zentrale KI-Instanz anfassen zu müssen.

GPU-Passthrough und Ressourcen

Die GPU wird per PCIe-Passthrough direkt an die KI-VM durchgereicht. Genau das macht den Aufbau für lokale Inferenz erst sinnvoll, weil das Sprachmodell und weitere KI-Dienste nicht über Umwege auf die Grafikkarte zugreifen müssen. Die VM erhält dafür 32 GB RAM und exklusiven GPU-Zugriff.

Diese Zuweisung ist bewusst gewählt. Sie gibt Algroveon-AI genug Reserven für das dauerhaft geladene Sprachmodell, Spracherkennung und weitere KI-Dienste, ohne den gesamten Server nur auf dieses eine Projekt festzulegen.

Hardware

Komponente	Modell
CPU	Intel Core Ultra 7 265 (20 Kerne)
GPU	NVIDIA RTX PRO 2000 Blackwell, 16 GB GDDR7
RAM	64 GB DDR5
Leistungsaufnahme GPU	70 W
Geräuschentwicklung	max. 0,6 Sone

Die GPU-Wahl ist bei einem solchen System die wichtigste Einzelentscheidung. Die RTX PRO 2000 ist für mein Setup ein sinnvoller Mittelweg: vergleichsweise sparsam, leise genug für den Dauerbetrieb zu Hause und gleichzeitig stark genug, um ein größeres Sprachmodell lokal zu tragen. Mehr VRAM wäre natürlich wünschenswert gewesen, aber bei den aktuellen Preisen einer RTX PRO 4000 oder 6000 war das für eine private Nutzung für mich nicht sinnvoll zu rechtfertigen. 16 GB GDDR7 bei 70 W und maximal 0,6 Sone sind hier deshalb der bewusste Kompromiss zwischen Leistung, Lautstärke, Energiebedarf und Kosten.

Gerade im Heimbereich ist das ein wichtiger Punkt. Ein System kann technisch noch so spannend sein – wenn es zu laut, zu teuer oder im Dauerbetrieb zu ineffizient wird, verliert es schnell seinen praktischen Wert.

Warum diese Hardware

Die Hardware ist nicht auf maximale Benchmarks ausgelegt, sondern auf einen sinnvollen Dauerbetrieb im Heimnetz. CPU, RAM und GPU sind so gewählt, dass Algroveon-AI als zentrale Instanz zuverlässig laufen kann, ohne dass Lautstärke, Strombedarf oder Anschaffungskosten völlig aus dem Rahmen fallen.

Gerade in einem privaten Umfeld ist das für mich ein zentraler Punkt. Ein lokales KI-System muss nicht nur technisch funktionieren, sondern über längere Zeit praktikabel bleiben. Genau deshalb ist der Aufbau eher ausgewogen als extrem.

Laufende Modelle

Dienst	Modell	VRAM
LLM	Gemma-4 26B A4B IQ4_XS (text-only)	~13,7 GB
STT	Faster-Whisper large-v3-turbo (int8_float16)	~1 GB
Embeddings	nomic-embed-text	CPU

Das Hauptmodell ist Gemma-4 26B A4B in einer text-only Variante. Vereinfacht gesagt arbeitet es nicht bei jedem Schritt mit dem kompletten Modell, sondern nur mit den jeweils benötigten Teilen. Genau das macht es für ein lokales Setup dieser Art interessant. Da Algroveon-AI im Sprachbetrieb keine direkte Bildverarbeitung im Modell braucht und das Context-Window bewusst begrenzt ist, passt das Modell vollständig in den VRAM, ohne auf die CPU ausweichen zu müssen.

Das Hauptmodell bleibt dauerhaft im VRAM geladen. Die reine Inferenz liegt typischerweise bei etwa 0,3 bis 0,8 Sekunden. Für die gesamte Sprachkette vom Wake-Word bis zur Antwort bewegt sich das System grob im Bereich von etwa 0,6 bis 1,2 Sekunden.

Genau das ist für das Projekt entscheidend: Algroveon-AI soll nicht nur lokal laufen, sondern sich auch im Alltag direkt und reaktionsschnell anfühlen. Erst damit wird aus einer reinen Demo eine brauchbare Grundlage für einen echten Assistenten im Heimnetz.

Dazu im Blog

Algroveon-AI – Lokales LLM selbst betreiben: Hardware und Setup Warum ich begonnen habe, ein lokales LLM auf eigenem Server zu betreiben – und was das konkret bedeutet: Hardware, Virtualisierung, GPU-Wahl und die realen Grenzen lokaler Modelle.

← ← Alle Projekte