Enterprise AI Gateway + Compute Plattform
Ein Schlüssel. Jedes Modell, jede GPU, jeder ComfyUI-Workflow. Mit den Kosten, der Auditierbarkeit und der Zuverlässigkeit, nach denen Ihr CFO und CTO bereits gefragt haben.
Wird in der Produktion von Teams verwendet, die Bild-, Video-, Sprach- und Chat-Funktionen für Millionen von Endbenutzern bereitstellen.
Wissen Sie, was Sie ausgeben, bevor die Rechnung kommt.
Jede Gateway-Anfrage wird in Echtzeit bepreist, zugeordnet und protokolliert. Modellbezogene Dashboards, monatliche Prognosen und Budget-Schutzmechanismen – sofort einsatzbereit, kein Datadog-Dashboard erforderlich.
Kosten-Dashboard
Täglicher Ausgabentrend, Aufschlüsselung pro Modell, Top 10 der teuersten Anfragen. Die Ansicht, nach der Ihr CFO tatsächlich gefragt hat.
Ausgabenprognose
Die aktuelle Verbrauchsrate wird bis zum Monatsende prognostiziert, sodass Sie Überschreitungen Wochen im Voraus erkennen können.
Budget-Benachrichtigungen
Monatliche Obergrenze pro Schlüssel. E-Mails bei 80 % und 100 % mit einer Abklingzeit, damit Sie nicht zugespammt werden. Eine optionale automatische Pause beendet außer Kontrolle geratene Schleifen sofort.
Signierte Webhooks
HMAC-signierte Ereignisse für Ausgabenschwellenwerte, Schlüssel erstellt, Schlüssel widerrufen, Generierung fehlgeschlagen. Verbinden Sie sie mit PagerDuty, Slack oder Ihrem eigenen Ledger.
Ausfälle passieren. Ihre Benutzer sollten es nicht bemerken.
Multi-Provider-Failover, regionaler Fallback und absichtsgesteuertes Routing verwandeln eine fragile Single-Vendor-Abhängigkeit in eine redundante, selbstheilende Schicht.
Multi-Provider-Failover
Konfigurierbare Timeouts und Wiederholungsrichtlinien pro Schlüssel. Bei 5xx oder Timeout wird der Traffic transparent an den nächsten Anbieter in der Kette weitergeleitet.
POST /v1/chat/completions ├── primary → openai/gpt-4.1-mini [503 in 8s] ✗ ├── fallback 1 → google/gemini-2.5-flash [200 in 612ms] ✓ └── fallback 2 → anthropic/claude-haiku (skipped) served 200 OK · upstream: gemini · total 624ms
Intelligentes Routing
Teilen Sie uns die Absicht mit – schneller Chat, tiefgehende Argumentation, Bildbearbeitung, Langform-Zusammenfassung – und wir wählen den günstigsten qualifizierten Anbieter aus. Pinnen Sie ein genaues Modell, wenn Sie es benötigen.
Regionaler Fallback
Wenn die US-Ost-Region eines Anbieters beeinträchtigt ist, versuchen wir US-West, dann EU, bevor die Anfrage fehlschlägt. Die Regionsbindung ist pro Schlüssel konfigurierbar.
Schlüsselbasierte Kontrollen, die eine Sicherheitsprüfung bestehen.
Gescopte Schlüssel, granulare Ratenlimits, IP-Zulassungslisten, unveränderliches Audit-Log und CSV-Export. Entwickelt für die Fragen, die Ihr CTO und Ihr Auditor stellen werden.
API-Schlüssel-Scoping
Pro-Schlüssel-Zulassung/Ablehnung von Modellen, IP-Zulassungsliste, tägliche und stündliche Ausgabenobergrenzen. Rotieren Sie, ohne neu bereitzustellen.
Ratenlimits pro Schlüssel und Modell
RPM- und TPM-Limits, die auf den Schlüssel und das Modell beschränkt sind. Ein Staging-Schlüssel kann nicht versehentlich das Kontingent der Produktion aufbrauchen.
Unveränderliches Audit-Log
Jeder erstellte Schlüssel, jede geänderte Reichweite, jedes verschobene Budget oder jede Widerrufung wird mit Akteur, IP und Zeitstempel aufgezeichnet. Standardmäßig SOC2-Baseline.
Durchsuchbare Logs + CSV-Export
Filtern Sie Anfragelogs nach Endpunkt, Modell, Status, Latenz, Schlüssel. Ein-Klick-CSV für Finanzen, Compliance oder Post-Mortem.
Compliance-Haltung
- TLS 1.2+ End-to-End. Schlüssel im Ruhezustand gehasht, niemals im Klartext protokolliert.
- Schlüssel- und Budget-Isolation pro Mandant. Keine mandantenübergreifende Datenlecks.
- Konfigurierbare Log-Aufbewahrung. Löschen Sie Anfragetexte bei Bedarf für hochsensible Workloads.
- EU- und US-Routing auf Anfrage für Bereitstellungen mit Residenzempfindlichkeit verfügbar.
- SOC2-Kontrollen für 2026 im Geltungsbereich. Kontaktieren Sie uns, wenn Sie ein aktuelles Schreiben unseres Auditors benötigen.
Drop-in für das OpenAI SDK. Eine Basis-URL austauschen.
Hypereal spricht OpenAI Chat Completions, Images, Responses und Anthropic Messages. Behalten Sie Ihr SDK, Ihre Prompts, Ihre Tool-Definitionen, Ihre Wiederholungsversuche – ändern Sie die Basis-URL und den API-Schlüssel, und schon geht's los.
curl https://api.hypereal.cloud/v1/chat/completions \
-H "Authorization: Bearer $HYPEREAL_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-4.1-mini",
"messages": [{ "role": "user", "content": "hi" }]
}'import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.HYPEREAL_API_KEY,
baseURL: "https://api.hypereal.cloud/v1",
});
const res = await client.chat.completions.create({
model: "gpt-4.1-mini",
messages: [{ role: "user", content: "hi" }],
});Unterstützte Endpunkte
- POST /v1/chat/completions – OpenAI-kompatibel
- POST /v1/messages – Anthropic-kompatibel
- POST /v1/responses – OpenAI Responses API
- POST /v1/images/generations – OpenAI-kompatibel
- POST /v1/videos/generate – Hypereal Video API
- POST /v1/comfy/{slug} – ComfyUI Workflow als API
- POST /v1/gpu/{slug} – Serverloses GPU-Passthrough
Jenseits von Modellen: Compute als erstklassige API.
Jedes Team benötigt irgendwann mehr als Chat-Vervollständigungen – einen benutzerdefinierten ComfyUI-Graph, ein Fine-Tuning, einen einmaligen GPU-Job. Hypereal stellt diese unter demselben Schlüssel, denselben Protokollen und denselben Budgets bereit.
Serverloses GPU-Passthrough
Bringen Sie Ihren eigenen RunPod-Handler mit und rufen Sie ihn als POST /v1/gpu/{slug} auf. Wir kümmern uns um Authentifizierung, Messung, Wiederholungsversuche und die Abrechnung. Sie schreiben den Handler.
ComfyUI Workflow als API
Laden Sie beliebige ComfyUI Workflow-JSONs hoch. Wir stellen Ihnen einen versionierten HTTP-Endpunkt mit typisierten Eingaben und Ausgaben zur Verfügung, der pro Ausführung abgerechnet wird. Kein Einfügen von Graphen mehr in Slack.
ComfyUI Bibliothek
Ein wachsender Katalog vorgefertigter ComfyUI Workflows – Gesichtsrestaurierung, Produktaufnahme, filmisches Upscaling – rufen Sie sie wie jedes andere Modell auf.
LoRA & Asset Repo
Privater, versionierter Speicher für LoRAs, Checkpoints, Embeddings und Referenzbilder. Verweisen Sie von jedem Workflow oder jeder Generierung aus über deren Handle darauf.
POST /v1/comfy/cinematic-upscale
{
"inputs": { "image_url": "https://...", "strength": 0.8 },
"version": "v3"
}
POST /v1/gpu/my-handler
{
"input": { "prompt": "a cat", "steps": 28 }
}Zahlen, die wir veröffentlichen. Keine Screenshots in einem Verkaufsdeck.
Live-Statusseite, transparente Latenz und eine Vorfallhistorie, die Sie lesen können, ohne uns vorher zu fragen.
Transparente Latenz
Rollierende p50 und p95 für jeden Gateway-Endpunkt, nach Region.
Verfügbarkeitsverlauf
Uptime der letzten 30/90 Tage, keine Marketing-Tricks. Die Zahl ist die Zahl.
Hören Sie auf, 8 Anbieter-Dashboards zu betreiben.
Ein API-Schlüssel, eine Rechnung, ein Ort, um zu sehen, was passiert. In weniger als fünf Minuten einsatzbereit.

