Die häufigste Reaktion auf unseren ersten Boris-Cherny-Artikel war eine Frage in drei Worten: „Aber wie konkret?"
Wir haben deshalb in den letzten zwei Wochen die vier realistischsten Wege durchprobiert, mit denen Solo-Gründer und kleine Teams heute eigene Multi-Agent-Setups aufbauen: Eigenbau, Hermes Agent, OpenClaw und Devin. Mit verifizierten Zahlen aus den offiziellen Quellen, einer ehrlichen Kostenrechnung und einer Empfehlung pro Use Case.
Vorab: Den eigentlichen Game-Changer findet ihr nicht in der Framework-Wahl, sondern in einer Zeile weiter unten – beim Thema Modell-Routing. Das ist der Punkt, an dem 100 Agenten plötzlich finanzierbar werden.
Inhaltsverzeichnis
- Die Frage, die niemand stellt
- Die vier Wege im Überblick
- Weg 1 – Eigenbau mit GitHub Actions
- Weg 2 – Hermes Agent (Nous Research)
- Weg 3 – OpenClaw + NemoClaw (NVIDIA)
- Weg 4 – Devin (Cognition AI)
- Der Modell-Trick: 100-fache Kosteneinsparung
- Vergleichstabelle aller Wege
- Empfehlung nach drei Szenarien
- Sicherheits-Checkliste, framework-übergreifend
- Was du heute nicht bauen solltest
- Praktischer Einstieg in 60 Sekunden
1. Die Frage, die niemand stellt
Boris Cherny, Head of Claude Code bei Anthropic, sagt im Interview: „Ich lasse 100 Agenten parallel arbeiten." Klingt eindrucksvoll, ist auch eindrucksvoll. Nur fehlt in den meisten Berichten der zweite Halbsatz: wie diese Agenten konkret losgestoßen werden, wer ihre Ergebnisse einsammelt, wo sie laufen, und vor allem – was es kostet.
Wir haben in der Übersicht der Trigger-Mechanismen bereits die fünf wichtigsten Wege gezeigt, einen einzelnen Agenten zu starten. Dieser Artikel geht eine Schicht höher: Wie orchestriert man viele Agenten gleichzeitig? Welches Framework, welcher Server, welches Modell?
Vier Optionen sind 2026 wirklich relevant. Drei davon kosten dich unter 35 € pro Monat. Eine kostet je nach Nutzung dreistellig. Welche wann passt – das ist der Inhalt der nächsten zehn Minuten.
2. Die vier Wege im Überblick
Eigenbau (GitHub Actions + Cron)
Du baust dir die Pipeline selbst aus GitHub Actions, Webhooks und der offiziellen Claude-Code-Action. Maximale Kontrolle, maximaler Setup-Aufwand.
Hermes Agent (Nous Research)
Self-hostbarer Agent mit Persistent Memory, Closed Learning Loop und nativer Multi-Channel-Integration (Telegram, Signal, Email, Slack). Open Source.
OpenClaw
Der etablierte Veteran mit ~346.000 GitHub-Stars. Großer Template-Pool. Wartungs-Hinweis nach CVE im Januar 2026.
Devin (Cognition AI)
Kommerzielle SaaS-Lösung mit ACU-Pricing. Stark bei spezifizierten Engineering-Tasks. Bei reger Nutzung schnell dreistellig pro Monat.
Wenn du jetzt schon eine Tendenz brauchst: Es hängt davon ab, was dir wichtiger ist. Schnellster Start = Hermes Agent. Ausgereifteste Architektur = OpenClaw. Maximale Enterprise-Sicherheit = NemoClaw (NVIDIA-Variante von OpenClaw, siehe Abschnitt 5). Wir gehen die Begründung gleich durch.
3. Weg 1 – Eigenbau mit GitHub Actions
Der Klassiker für alle, die .yml-Dateien nicht fürchten. Du baust dir eine Pipeline aus mehreren Bausteinen:
- GitHub Actions als Orchestrator (Cron, Push, Issue-Comment-Trigger)
- anthropics/claude-code-action für die eigentliche Agenten-Ausführung
- Webhooks für externe Trigger (z. B. aus Slack, Apple Shortcuts)
- Optional: ein kleiner Webhook-Server (Cloudflare Worker oder Hetzner-VPS) für Aktionen, die GitHub allein nicht abdeckt
Wann es Sinn macht
Wenn du Code-Workflows abbilden willst (Reviews, Tests, Refactorings, Deployments). Wenn du eh GitHub-zentrisch arbeitest. Wenn dir Kontrolle wichtiger ist als Tempo. Und wenn du bereit bist, 40–60 Stunden in das Initial-Setup zu stecken.
Realistische Kosten
# Eigenbau-Setup, Mai 2026 GitHub Actions (Private Repos) 0 € # 2.000 Min/Monat frei Anthropic API (Claude Code) 10–25 € # 5–15 PRs/Tag, Sonnet-mix Optional: Webhook-VPS (Hetzner) 4–8 € ───────── Gesamt 14–33 €/Monat
Was es nicht macht
Eigenbau löst exakt die Probleme, die du in deinem Code spezifizierst – nicht mehr. Multi-Channel-Integrationen (Telegram, Slack, Email) musst du selbst dazubauen. Persistent Memory ebenfalls. Sobald du anfängst, „der Agent soll sich Sachen merken können", baust du eigentlich ein eigenes kleines Hermes nach. Genau hier kommt Option 2 ins Spiel.
4. Weg 2 – Hermes Agent (Nous Research)
Hermes Agent ist seit Februar 2026 das funktional spannendste Open-Source-Projekt im Multi-Agent-Bereich. Entwickelt von Nous Research, ausdrücklich für Einzelnutzer und kleine Teams konzipiert, mit drei Eigenschaften, die ihn von älteren Frameworks unterscheiden:
- Closed Learning Loop: Der Agent schreibt sich Skills selbst, basierend auf wiederkehrenden Mustern in eurer Zusammenarbeit. Je länger er läuft, desto mehr ist er wirklich „dein" Agent.
- Persistent Memory: Eingebaut, nicht angeflanscht. Erinnerung über Sessions hinweg, durchsuchbar.
- Multi-Channel nativ: Telegram, Discord, Slack, WhatsApp, Signal, Email, CLI – alle als Erstklasse-Eingänge. Du startest auf einem Gerät, machst auf einem anderen weiter.
Die Multi-Agent-Architektur selbst (mehrere koordinierte Agenten mit spezialisierten Rollen) ist laut offiziellem Issue #344 in aktiver Entwicklung – also: heute noch nicht Boris-Cherny-Maximalausbau, aber für 5–15 parallele Workflows sofort einsatzfähig. Sub-Agent-Delegation funktioniert bereits.
⚠ Ehrlicher Reifegrad-Hinweis
Hermes Agent ist erst seit Februar 2026 öffentlich, also drei Monate zum Zeitpunkt dieses Artikels. Das ist kein Sicherheits-Killer-Argument, aber relevant: Weniger Augen haben den Code reviewt, weniger Zeit gab es für Stresstests, das Permissioning-System „Tirith" ist noch nicht so battle-tested wie OpenClaws ausgereifte Sandbox-Architektur. Wenn du Hermes wählst, wählst du funktionale Modernität (Closed Learning Loop, native Channels) – nicht maximale Reife. Diese Unterscheidung ist 2026 wichtig.
Setup in 2–4 Stunden
Ein kleiner Hetzner-VPS (CX22, 4 €/Monat), Node.js, Docker, dann npm install nach Doku. Telegram-Token holen, in die Konfiguration, fertig. Erste Interaktion läuft typischerweise nach 90 Minuten.
Realistische Kosten mit DeepSeek V4
# Hermes-Setup, Mai 2026 Hetzner CX22 VPS 4 € DeepSeek V4 Pro API 5–15 € # mit Cache, 90% der Tasks Claude Sonnet (Routing-Modell) 5–10 € # 10% Qualitäts-Tasks Telegram Bot 0 € ───────── Gesamt 14–29 €/Monat
Der Punkt, an dem es kippt: Wenn du nur Claude Opus 4.7 nutzt, kostet das gleiche Setup eher 80–150 € im Monat. Mit DeepSeek-Routing wirst du auf einen Schlag fünf- bis zehnmal günstiger. Mehr dazu in Abschnitt 7.
5. Weg 3 – OpenClaw + Bonus-Variante NemoClaw (NVIDIA)
OpenClaw ist der etablierte Veteran in diesem Feld. Über fünf Jahre alt, mit rund 346.000 GitHub-Stars und etwa 3,2 Millionen Nutzern im April 2026 eines der am schnellsten gewachsenen Open-Source-Projekte überhaupt (dev.to-Analyse, April 2026). 162 produktionsfertige Templates, ausgereifte Sandbox-Architektur mit Container-Isolation, Filesystem-Beschränkungen und Real-Time-Policy-Approval. Das Fundament ist solide – architektonisch deutlich vor Hermes.
Der CVE als Lehrstück – nicht als Warnung gegen OpenClaw
Im Januar 2026 wurde CVE-2026-25253 bekannt und gepatcht – eine Cross-Site-WebSocket-Hijacking-Schwachstelle mit CVSS-Score 8.8. Wichtig zu verstehen: Dass dieser CVE gefunden wurde, ist eigentlich ein gutes Zeichen. Es bedeutet, dass genügend kompetente Sicherheitsforscher auf den Code schauen, dass Schwachstellen aktiv gemeldet und gepatcht werden. Ein neueres Framework mit weniger Reviews könnte dieselbe Lücke unentdeckt enthalten.
⚠ Pflicht-Update für OpenClaw-Nutzer
Wenn du OpenClaw bereits einsetzt: auf Version 2026.1.29 oder neuer aktualisieren. Beim Disclosure liefen über 135.000 Instanzen in 82 Ländern auf öffentlich erreichbaren IPs – Default-Gateway-Binding (0.0.0.0:18789) auf 127.0.0.1 umstellen, wenn du keinen externen Zugriff brauchst. Details siehe Adversa-AI-Hardening-Guide.
Bonus-Variante: NemoClaw von NVIDIA (Enterprise-Wrapper)
Seit April 2026 gibt es mit NemoClaw einen kommerziell unterstützten Wrapper um OpenClaw von NVIDIA. Verschärfte Container-Isolation, zusätzliche Netzwerk-Isolation, professionelles Security-Auditing. Architektonisch ist das die sicherste Option in diesem Vergleich – aber sie braucht NVIDIA-DGX-Hardware oder gleichwertige Workstations. Für Solopreneure mit Hetzner-VPS ungeeignet, für sicherheitsbewusste KMU mit eigener Infrastruktur eine ernsthafte Option.
Wann OpenClaw die richtige Wahl ist
- Spezifischer Branchen-Use-Case, für den ein passendes Template existiert
- Größere Reife und mehr Audit-Tiefe wichtiger als schneller Start
- Team ist bereits mit OpenClaw vertraut
- Sicherheitsbewusste Profis, die Update-Disziplin als Routine sehen
Kosten ähnlich wie Hermes (4–8 € VPS + 15–30 € API), Setup eher 4–8 Stunden je nach gewähltem Template.
6. Weg 4 – Devin (Cognition AI)
Devin ist die kommerzielle Antwort auf die Frage „Kann ich einen autonomen Coding-Agent einfach buchen?". Cognition AI verkauft das Produkt im Hosting-Modell: 20 USD Einstiegsabo, dann ACU-basiert (Agent Compute Units, etwa 2,25 USD pro 15 Minuten echter Agentenarbeit).
Wo Devin glänzt
- Engineering-Tasks mit klarer Spezifikation („Implementiere Feature X gemäß Akzeptanzkriterien Y")
- Teams ohne Wartungsappetit für eigene Agenten-Infrastruktur
- Use Cases, in denen die Agentenarbeit selten, aber dann intensiv ist
Wo Devin nicht glänzt
- Generelle Office-/Beratungs-Aufgaben (Marktanalysen, Briefings, Content)
- Hoher Tagesdurchsatz – bei reger Nutzung kommen schnell 200–500 USD/Monat zusammen
- Use Cases mit unscharfer Anforderung – Devin braucht klare Specs, sonst dreht er ACUs nutzlos
Für die typische businessstart.eu-Zielgruppe (Solo-Gründer, kleine Beratungen, Selbstständige im KMU-Umfeld) ist Devin meistens das falsche Werkzeug. Für ein 5-Personen-Engineering-Team mit klar gestückelten Backlog-Items kann es exakt das richtige sein.
7. Der Modell-Trick: 100-fache Kosteneinsparung
Hier kommt der Teil, der wichtiger ist als die Framework-Wahl. Im Mai 2026 sieht die Modell-Preislandschaft so aus (Eingabe-Tokens pro Million, Stand offizielle API-Preisseiten):
| Modell | Input (cached) | Input (uncached) | Output | Quelle |
|---|---|---|---|---|
| Claude Opus 4.7 | 0,50 $ | 5 $ | 25 $ | anthropic.com |
| Claude Sonnet 4.6 | ~0,30 $ | 3 $ | 15 $ | anthropic.com |
| DeepSeek V4 Pro (Promo bis 31.05.26) | 0,0036 $ | 0,435 $ | 0,87 $ | api-docs.deepseek.com |
| DeepSeek V4 Flash | 0,0028 $ | 0,14 $ | 0,28 $ | api-docs.deepseek.com |
Lies das nochmal: Bei cached Input-Tokens ist DeepSeek V4 Pro derzeit etwa 140-fach günstiger als Claude Opus 4.7. Bei nicht-gecachtem Input immer noch 11-fach günstiger. Das ist keine Optimierung, das ist eine andere Größenordnung.
💡 Die Routing-Strategie
Statt blind auf das teuerste Modell zu setzen: 90 % der Tasks auf DeepSeek V4 routen (Recherche, Triage, Briefings, Erstentwürfe). 10 % auf Claude Sonnet (qualitätssensible Schritte: Kundenkommunikation, Strategie-Texte, juristisch relevante Inhalte). Nahe null Prozent auf Opus – nur für hochkomplexe Reasoning-Aufgaben, die die anderen Modelle wirklich nicht packen.
Die Qualitätsdifferenz zwischen DeepSeek V4 und Claude Sonnet ist für die meisten Office-Tasks kleiner, als die Marketing-Texte vermuten lassen. Für unsere typischen Workflows (Marktanalysen, Wettbewerbs-Briefings, Recherche-Aggregationen) reicht DeepSeek absolut aus. Sobald es um Kundenangebote oder strategische Empfehlungen geht, routen wir manuell auf Sonnet.
Wichtig: Die DeepSeek-Promo-Preise gelten laut offizieller Preisseite bis zum 31. Mai 2026. Danach steigen die Listenpreise auf 1,74 $/M (cache-miss input) und 3,48 $/M (output) – immer noch deutlich günstiger als Claude, aber nicht mehr im Faktor-100-Bereich.
Wir haben in unserer Beratungspraxis im Heidelberger Büro eine Woche lang einen wöchentlichen Wettbewerbs-Bericht parallel über Claude Opus 4.7 und DeepSeek V4 Pro laufen lassen. Gleicher Prompt, gleiche Quellen, fünf Durchläufe pro Modell. Die Opus-Variante kostete in Summe rund 11 €, die DeepSeek-Variante 38 Cent. Inhaltlich: drei der fünf DeepSeek-Berichte waren für unsere Zwecke direkt verwendbar, einer brauchte minimales Nachschärfen, einer war zu oberflächlich. Bei Opus waren fünf von fünf direkt verwendbar – aber für 30-fach höhere Kosten. Seitdem läuft unser Standard-Briefing auf DeepSeek, kritische Kundenpräsentationen routen wir bewusst auf Sonnet.
— Tobias Späth, Mai 20268. Vergleichstabelle aller vier Wege
| Kriterium | Eigenbau | Hermes Agent | OpenClaw | Devin |
|---|---|---|---|---|
| Setup-Aufwand | 40–60 h | 2–4 h | 4–8 h | 0 h |
| Kosten/Monat | 14–33 € | 14–29 € | 20–40 € | 100–500 $ |
| Multi-Channel | manuell | nativ | Plugins | eigene UI |
| Persistent Memory | selbst bauen | eingebaut | Plugins | SaaS |
| Modell-Wahl frei | ja | ja | ja | eigene Wahl |
| Mobile-Tauglichkeit | via Webhook | native Apps | Web/Plugins | Web |
| Wartungsaufwand | hoch | mittel | mittel-hoch | keiner |
9. Konkrete Empfehlung nach drei Szenarien
Statt einer einzigen „besten Wahl" haben wir drei realistische Szenarien herausgearbeitet. Welches passt, hängt davon ab, was dir wirklich wichtig ist – nicht was Marketing-Texte versprechen.
Szenario A: Schnellster Start, modernste Features
→ Hermes Agent + DeepSeek V4 Pro auf Hetzner CX22. Setup an einem Nachmittag, monatlich unter 30 €, sofort produktiv über Telegram vom Smartphone aus. Closed Learning Loop und Multi-Channel-Integration sind funktional am modernsten. Akzeptiere, dass das Projekt jung ist (drei Monate) und weniger Review-Augen hatte als OpenClaw – das ist eine Funktions-, keine Sicherheits-Entscheidung.
Szenario B: Ausgereifte Architektur und mehr Templates
→ OpenClaw mit aktiv gewarteten Patches. 162 produktionsfertige Templates, 5+ Jahre Reife, robuste Sandbox. Setup ist anspruchsvoller (4–8 Stunden), aber das Fundament ist solider. Update-Disziplin ist Pflicht – die Lehre aus dem CVE.
Szenario C: Maximale Enterprise-Sicherheit mit Vendor-Backing
→ NemoClaw von NVIDIA für KMU mit eigener Hardware (DGX-Workstations o. ä.). Kommerzielles Backing, professionelle Audits, Container-Isolation auf Enterprise-Niveau. Für Solopreneure auf Hetzner-VPS overkill – für sicherheitsbewusste Mittelständler eine ernsthafte Option.
Spezialfall: Engineering-Teams mit klarem Backlog
→ Devin drei Wochen testen. Wenn ihr unter 200 USD/Monat bleibt und die Ergebnisse stimmen, lohnt es sich. Sonst auf Hermes- oder OpenClaw-Team-Setup wechseln.
Spezialfall: Tech-affine Power-User mit Bastellaune
→ Eigenbau auf GitHub Actions. Wenn du Code-Workflows abbildest und maximale Kontrolle willst. Plane das Wochenende ein, nicht den Abend.
9.5 Sicherheits-Checkliste, egal welches Framework
Wichtiger als die Framework-Wahl sind diese sieben Maßnahmen, die für jeden Open-Source- oder kommerziellen Agenten gelten. Diese Liste ist die ehrliche Antwort auf „Wie betreibe ich Agenten verantwortlich?":
- VPS-Härtung – Firewall (ufw / Cloudflare), SSH-Key-Authentifizierung statt Passwort, Fail2Ban, automatische Sicherheitsupdates aktivieren
- API-Spend-Limits bei Anthropic, DeepSeek, OpenAI und anderen Anbietern setzen – schützt vor Kosten-Explosion, falls der Agent kompromittiert wird
- Read-only-Tokens wo möglich – z. B. für GitHub kein Repository-Write-Token, das ein ganzes Repo überschreiben könnte
- Keine Mandantendaten verarbeiten, bis das Setup mindestens vier Wochen problemlos läuft. Erst tests, dann produktiv
- Backups des Firmengedächtnisses unabhängig vom Agent-System (eigenes Repo / eigenes Cloud-Backup)
- Monitoring für ungewöhnliche API-Calls oder Datentransfers (Cloud-Provider-Dashboards reichen meistens)
- Updates zeitnah einspielen – bei allen Frameworks gleich wichtig, idealerweise innerhalb von 48 Stunden nach kritischen Patches
Diese sieben Punkte sind wichtiger als die Framework-Wahl selbst. Ein perfekt konfiguriertes Hermes-Setup ist sicherer als ein nachlässig betriebenes NemoClaw. Sicherheit ist eine Betriebsdisziplin, kein Produkt.
10. Was du heute nicht bauen solltest
Eine strategische Überlegung, die in den meisten Setup-Anleitungen fehlt: Anthropic wird in den nächsten 6–12 Monaten ein eigenes Multi-Agent-Tool ausrollen. Die Routines-Funktion vom April 2026 (siehe unsere 3-Stufen-Setup-Anleitung) ist der erste Schritt. Multi-Agent-Routines sind logisch der nächste.
Das heißt nicht, dass du heute nichts bauen sollst. Es heißt: bau modular. Jede Komponente austauschbar. Deine Trigger-Schicht, dein Orchestrator, dein Memory, dein Modell – alles ersetzbar, nichts hardgecodet ineinander verwoben. Wer heute Hermes auf Hetzner aufsetzt, kann morgen den Hermes-Teil gegen Anthropic-Routines tauschen, ohne den Hetzner-Teil anzufassen.
📌 Das Vendor-Lock-In-Risiko
Investiere keine Wochen in einen proprietären Workflow, den du in 6 Monaten wegwerfen musst. Die schmerzhaftesten Wechsel sind nicht die zwischen Frameworks, sondern die zwischen Datenmodellen. Halte deine Workflows als Markdown-Dateien, deine Prompts als Templates, deine Memory als JSON – nicht als eingebackene Logik im Framework.
11. Praktischer Einstieg in 60 Sekunden
Wenn du dich nicht entscheiden kannst und es trotzdem heute Abend versuchen willst: Probier Hermes Agent. Die Doku ist unter hermes-agent.nousresearch.com/docs, der Quickstart dort schickt dich in ca. zwei Stunden zu einer ersten funktionsfähigen Telegram-Bot-Interaktion. Mit DeepSeek-API-Key (kostet die ersten paar Tage praktisch nichts) und einem Hetzner-Server (4 € im Monat, Standort Deutschland).
Falls du das nicht selbst aufsetzen willst oder die Integration in deinen Businessplan-Workflow brauchst: Lass uns sprechen. Wir bauen das mit Mandant:innen pragmatisch auf – inklusive der ehrlichen Bewertung, welche Workflows wirklich auf Agenten gehören und welche besser bei dir bleiben.
Quellen & weiterführende Links
Alle in diesem Artikel zitierten Zahlen, Versionen, Preise und Sicherheitsdetails sind gegen folgende Original-Quellen geprüft:
- GitHub: NousResearch/hermes-agent – Offizielles Repository
- Hermes Agent – Offizielle Dokumentation
- Issue #344: Multi-Agent Architecture (Roadmap-Status)
- Hunt.io: CVE-2026-25253 in Internet-Facing OpenClaw Gateways
- dev.to: OpenClaw's Security Crisis (346.000 Stars, 135.000 exposed instances)
- Adversa AI: OpenClaw Security Guide 2026 – CVE-2026-25253 & Hardening
- NVIDIA: NemoClaw – Enterprise-Variante von OpenClaw (April 2026)
- DeepSeek API Docs: Offizielle Preisübersicht (Mai 2026)
- Anthropic Docs: Claude API Pricing
- Anthropic: Claude Opus 4.7 – Produktseite
- Anthropic Docs: Claude Code GitHub Actions Integration
- GitHub: anthropics/claude-code-action (offizielle Action)
- Anthropic Blog: Introducing Routines in Claude Code (April 2026)
- Cognition AI: Devin – Offizielle Produktseite
- Hetzner Cloud: CX-Linie Preise & Specs