Passerelle IA d'entreprise + Plateforme de calcul
Une seule clé. Chaque modèle, chaque GPU, chaque workflow ComfyUI. Avec le coût, l'audit et la fiabilité que votre DAF et votre CTO ont déjà demandés.
Utilisé en production par des équipes qui fournissent des fonctionnalités d'image, de vidéo, de voix et de chat à des millions d'utilisateurs finaux.
Sachez ce que vous dépensez avant l'arrivée de la facture.
Chaque requête de passerelle est tarifée, attribuée et enregistrée en temps réel. Tableaux de bord par modèle, prévisions mensuelles et garde-fous budgétaires — prêts à l'emploi, aucun tableau de bord Datadog requis.
Tableau de bord des coûts
Tendance des dépenses quotidiennes, répartition par modèle, top 10 des requêtes les plus coûteuses. La vue que votre DAF a réellement demandée.
Prévisions de dépenses
Taux de consommation projeté jusqu'à la fin du mois afin que vous puissiez voir les dépassements des semaines avant qu'ils n'affectent votre carte.
Alertes budgétaires
Plafond mensuel par clé. E-mails à 80 % et 100 % avec un délai de grâce pour éviter le spam. La pause automatique optionnelle met fin aux boucles incontrôlables.
Webhooks signés
Événements signés HMAC pour les seuils de dépenses, clé créée, clé révoquée, génération échouée. Connectez-les à PagerDuty, Slack ou votre propre registre.
Les pannes arrivent. Vos utilisateurs ne devraient pas s'en apercevoir.
Le basculement multi-fournisseurs, le repli régional et le routage sensible à l'intention transforment une dépendance fragile à un fournisseur unique en une couche redondante et auto-réparatrice.
Basculement multi-fournisseurs
Délais d'attente et politique de réessai configurables par clé. En cas de 5xx ou de délai d'attente, le trafic bascule de manière transparente vers le fournisseur suivant de la chaîne.
POST /v1/chat/completions ├── primary → openai/gpt-4.1-mini [503 in 8s] ✗ ├── fallback 1 → google/gemini-2.5-flash [200 in 612ms] ✓ └── fallback 2 → anthropic/claude-haiku (skipped) served 200 OK · upstream: gemini · total 624ms
Routage intelligent
Indiquez-nous l'intention — chat rapide, raisonnement approfondi, édition d'image, résumé long — et nous choisirons le fournisseur qualifié le moins cher. Épinglez un modèle exact lorsque vous en avez besoin.
Repli régional
Si la région US-Est d'un fournisseur est dégradée, nous essayons US-Ouest, puis l'UE, avant de faire échouer la requête. La persistance régionale est configurable par clé.
Contrôles par clé qui satisfont à un examen de sécurité.
Clés à portée limitée, limites de débit granulaires, listes blanches d'IP, journal d'audit immuable et exportation CSV. Conçu pour les questions que votre CTO et votre auditeur poseront.
Définition de la portée des clés API
Autorisation/refus par clé sur les modèles, liste blanche d'IP, plafonds de dépenses quotidiens et horaires. Rotation sans redéploiement.
Limites de débit par clé, par modèle
Limites RPM et TPM définies par la clé et le modèle. Une clé de staging ne peut pas accidentellement épuiser le quota de production.
Journal d'audit immuable
Chaque clé créée, portée modifiée, budget déplacé ou révocation est enregistrée avec l'acteur, l'IP et l'horodatage. SOC2-baseline par défaut.
Journaux consultables + Exportation CSV
Filtrez les journaux de requêtes par point de terminaison, modèle, statut, latence, clé. Exportation CSV en un clic pour la finance, la conformité ou l'analyse post-mortem.
Posture de conformité
- TLS 1.2+ de bout en bout. Clés hachées au repos, jamais enregistrées en texte clair.
- Isolation des clés et des budgets par locataire. Aucune fuite de données inter-locataires.
- Rétention des journaux configurable. Suppression des corps de requête à la demande pour les charges de travail très sensibles.
- Routage UE et US disponible sur demande pour les déploiements sensibles à la résidence des données.
- Contrôles SOC2 en cours pour 2026. Contactez-nous si vous avez besoin d'une lettre actuelle de notre auditeur.
Remplacement direct pour le SDK OpenAI. Échangez une seule URL de base.
Hypereal parle OpenAI Chat Completions, Images, Responses et Anthropic Messages. Gardez votre SDK, vos invites, vos définitions d'outils, vos tentatives — changez l'URL de base et la clé API, déployez.
curl https://api.hypereal.cloud/v1/chat/completions \
-H "Authorization: Bearer $HYPEREAL_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-4.1-mini",
"messages": [{ "role": "user", "content": "hi" }]
}'import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.HYPEREAL_API_KEY,
baseURL: "https://api.hypereal.cloud/v1",
});
const res = await client.chat.completions.create({
model: "gpt-4.1-mini",
messages: [{ role: "user", content: "hi" }],
});Points de terminaison pris en charge
- POST /v1/chat/completions — Compatible OpenAI
- POST /v1/messages — Compatible Anthropic
- POST /v1/responses — API de réponses OpenAI
- POST /v1/images/generations — Compatible OpenAI
- POST /v1/videos/generate — API vidéo Hypereal
- POST /v1/comfy/{slug} — Flux de travail ComfyUI en tant qu'API
- POST /v1/gpu/{slug} — Passthrough GPU sans serveur
Au-delà des modèles : le calcul comme API de première classe.
Chaque équipe a finalement besoin de plus que de simples complétions de chat — un graphique ComfyUI personnalisé, un ajustement fin, une tâche GPU ponctuelle. Hypereal les expose derrière la même clé, les mêmes journaux, les mêmes budgets.
Passthrough GPU sans serveur
Apportez votre propre gestionnaire RunPod et appelez-le comme POST /v1/gpu/{slug}. Nous gérons l'authentification, la mesure, les tentatives et la facturation. Vous écrivez le gestionnaire.
Flux de travail ComfyUI en tant qu'API
Téléchargez n'importe quel JSON de flux de travail ComfyUI. Nous vous fournissons un point de terminaison HTTP versionné avec des entrées et sorties typées, facturé par exécution. Fini le collage de graphiques dans Slack.
Bibliothèque ComfyUI
Un catalogue croissant de flux de travail ComfyUI pré-construits — restauration de visage, photo de produit, mise à l'échelle cinématographique — appelez-les comme n'importe quel autre modèle.
Référentiel LoRA et d'actifs
Stockage privé et versionné pour les LoRA, les points de contrôle, les embeddings et les images de référence. Référencez-les par leur identifiant depuis n'importe quel flux de travail ou génération.
POST /v1/comfy/cinematic-upscale
{
"inputs": { "image_url": "https://...", "strength": 0.8 },
"version": "v3"
}
POST /v1/gpu/my-handler
{
"input": { "prompt": "a cat", "steps": 28 }
}Des chiffres que nous publions. Pas des captures d'écran dans un argumentaire de vente.
Page d'état en direct, latence transparente et historique des incidents que vous pouvez consulter sans nous demander d'abord.
Page d'état publique
Statut par point de terminaison en direct et chronologie des incidents.
Voir la page d'étatLatence transparente
p50 et p95 glissants pour chaque point de terminaison de passerelle, par région.
Historique de disponibilité
Disponibilité sur 30/90 jours glissants, sans chiffres marketing. Le nombre est le nombre.
Arrêtez de gérer 8 tableaux de bord fournisseurs.
Une seule clé API, une seule facture, un seul endroit pour voir ce qui se passe. Soyez opérationnel en moins de cinq minutes.

