Enterprise AI Gateway + Compute Platform
מפתח אחד. כל מודל, כל GPU, כל workflow של ComfyUI. עם העלות, הבקרה והאמינות שה-CFO וה-CTO שלכם כבר שאלו עליהן.
משמש בפרודקשן על ידי צוותים שמספקים תכונות תמונה, וידאו, קול וצ'אט למיליוני משתמשי קצה.
לדעת כמה הוצאתם לפני שהחשבונית מגיעה.
כל בקשת gateway מתומחרת, מיוחסת ומתועדת בזמן אמת. לוחות בקרה לפי מודל, תחזיות חודשיות ומנגנוני שמירה על התקציב — כברירת מחדל, בלי צורך בלוח בקרה של Datadog.
לוח בקרה לעלויות
מגמת ההוצאה היומית, פירוט לפי מודל, ו-10 הבקשות היקרות ביותר. בדיוק התצוגה ש-CFO באמת ביקש.
תחזית הוצאות
קצב שריפה מצטבר מוערך עד סוף החודש, כדי שתוכלו לזהות חריגות שבועות לפני שהן מגיעות לכרטיס.
התראות תקציב
תקרת חודשי לכל מפתח. אימיילים ב-80% וב-100% עם cooldown כדי שלא תקבלו ספאם. auto-pause אופציונלי עוצר לולאות שיצאו משליטה.
Webhooks חתומים
אירועי HMAC-חתומים עבור ספי הוצאה, יצירת מפתח, ביטול מפתח, ויצירת וידאו שנכשלה. אפשר לחבר אותם ל-PagerDuty, ל-Slack, או ליומן הפנימי שלכם.
תקלות קורות. המשתמשים שלכם לא צריכים לשים לב.
גיבוי בין ספקים, fallback אזורי וניתוב מודע לכוונה הופכים תלות שברירית בספק יחיד לשכבה רדונדנטית שמרפאה את עצמה.
גיבוי בין ספקים
Timeouts ומדיניות retry ניתנים להגדרה לכל מפתח. ב-5xx או timeout, התעבורה עוברת בשקיפות לספק הבא בשרשרת.
POST /v1/chat/completions ├── primary → openai/gpt-4.1-mini [503 in 8s] ✗ ├── fallback 1 → google/gemini-2.5-flash [200 in 612ms] ✓ └── fallback 2 → anthropic/claude-haiku (skipped) served 200 OK · upstream: gemini · total 624ms
ניתוב חכם
תגידו לנו את הכוונה — צ'אט מהיר, reasoning עמוק, עריכת תמונה, סיכום ארוך — ואנחנו נבחר את הספק הזול ביותר שעומד בדרישות. אפשר להצמיד מודל מדויק כשצריך.
fallback אזורי
אם אזור US-East של ספק חווה ירידה באיכות, ננסה US-West, ואז EU, לפני כישלון הבקשה. Region-stickiness ניתנת להגדרה לכל מפתח.
בקרות לכל מפתח שעוברות סקירת אבטחה.
מפתחות עם היקף מוגדר, מגבלות קצב גרנולריות, allowlists ל-IP, audit log בלתי ניתן לשינוי וייצוא CSV. מיועד לשאלות שגם ה-CTO וגם הבודק ישאלו.
הגדרת היקף למפתח API
allow/deny לכל מפתח על מודלים, allowlist ל-IP, תקרות הוצאה יומיות ושעתיות. אפשר לסובב מפתח בלי לפרוס מחדש.
מגבלות קצב לכל מפתח, לכל מודל
מגבלות RPM ו-TPM שמוגדרות לפי המפתח והמודל. מפתח staging לא יכול לרוקן בטעות את המכסה של prod.
Audit Log בלתי ניתן לשינוי
כל יצירת מפתח, שינוי היקף, העברת תקציב או ביטול נרשמים עם actor, IP ו-timestamp. בסיס ל-SOC2 כברירת מחדל.
לוגים ניתנים לחיפוש + ייצוא CSV
סינון לוגי בקשות לפי endpoint, model, status, latency, key. CSV בלחיצה אחת ל-finance, ל-compliance או ל-post-mortem.
מצב תאימות
- TLS 1.2+ מקצה לקצה. המפתחות מגובבים במנוחה, ולעולם לא נרשמים בטקסט גלוי.
- בידוד מפתח + תקציב לכל tenant. אין דליפת נתונים בין tenants.
- שמירת לוגים ניתנת להגדרה. אפשר להסיר request bodies לפי דרישה לעומסי עבודה רגישים במיוחד.
- ניתוב ל-EU ול-US זמין לפי בקשה עבור פריסות רגישות לריבונות נתונים.
- בקרות SOC2 בהיקף ל-2026. פנו אלינו אם אתם צריכים מכתב עדכני מהבודק שלנו.
Drop-in עבור OpenAI SDK. מחליפים base URL אחד.
Hypereal מדבר OpenAI Chat Completions, Images, Responses ו-Anthropic Messages. שימרו על ה-SDK, ה-prompts, הגדרות הכלים, וה-retries שלכם — החליפו את ה-base URL ואת ה-API key, ותעלו לייצור.
curl https://api.hypereal.cloud/v1/chat/completions \
-H "Authorization: Bearer $HYPEREAL_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-4.1-mini",
"messages": [{ "role": "user", "content": "hi" }]
}'import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.HYPEREAL_API_KEY,
baseURL: "https://api.hypereal.cloud/v1",
});
const res = await client.chat.completions.create({
model: "gpt-4.1-mini",
messages: [{ role: "user", content: "hi" }],
});Endpoints נתמכים
- POST /v1/chat/completions — תואם OpenAI
- POST /v1/messages — תואם Anthropic
- POST /v1/responses — OpenAI Responses API
- POST /v1/images/generations — תואם OpenAI
- POST /v1/videos/generate — API וידאו של Hypereal
- POST /v1/comfy/{slug} — workflow של ComfyUI כ-API
- POST /v1/gpu/{slug} — העברת GPU serverless
מעבר למודלים: compute כ-API מוביל.
בסופו של דבר כל צוות צריך יותר מ-chat completions — גרף ComfyUI מותאם אישית, fine-tune, או משימת GPU חד-פעמית. Hypereal חושף את כל אלה דרך אותו מפתח, אותם לוגים, ואותם תקציבים.
העברת GPU Serverless
הביאו handler משלכם מ-RunPod וקראו לו כ-POST /v1/gpu/{slug}. אנחנו מטפלים ב-auth, במדידה, ב-retries ובחשבונית. אתם כותבים את ה-handler.
Workflow של ComfyUI כ-API
העלו כל JSON של workflow מ-ComfyUI. אנחנו נותנים לכם endpoint HTTP בגרסאות עם inputs ו-outputs מטיפוסים מוגדרים, וחיוב לפי הרצה. לא צריך יותר להדביק גרפים ב-Slack.
ספריית ComfyUI
קטלוג מתרחב של workflows מובנים מראש ב-ComfyUI — שחזור פנים, צילום מוצר, upscale קולנועי — קראו להם כמו כל מודל אחר.
מאגר LoRA ונכסים
אחסון פרטי ובגרסאות עבור LoRAs, checkpoints, embeddings ותמונות ייחוס. אפשר להפנות אליהם לפי handle מכל workflow או יצירה.
POST /v1/comfy/cinematic-upscale
{
"inputs": { "image_url": "https://...", "strength": 0.8 },
"version": "v3"
}
POST /v1/gpu/my-handler
{
"input": { "prompt": "a cat", "steps": 28 }
}מספרים שאנחנו מפרסמים. לא צילומי מסך במצגת מכירות.
דף סטטוס חי, latency שקופה, והיסטוריית תקלות שאפשר לקרוא בלי לשאול אותנו קודם.
Latency שקופה
p50 ו-p95 מתעדכנים באופן מתגלגל לכל endpoint של ה-gateway, לפי אזור.
היסטוריית uptime
Uptime מצטבר ל-30/90 יום, בלי מתמטיקת שיווק. המספר הוא המספר.
תפסיקו להריץ 8 לוחות בקרה של ספקים.
מפתח API אחד, חשבונית אחת, ומקום אחד לראות מה קורה. אפשר להתחיל לעבוד בפחות מחמש דקות.

