एंटरप्राइज़ AI गेटवे + कंप्यूट प्लेटफ़ॉर्म
एक की। हर मॉडल, हर GPU, हर ComfyUI वर्कफ़्लो। लागत, ऑडिट और विश्वसनीयता के साथ जिसके बारे में आपके CFO और CTO पहले ही पूछ चुके हैं।
लाखों अंतिम उपयोगकर्ताओं को इमेज, वीडियो, वॉयस और चैट सुविधाएँ प्रदान करने वाली टीमों द्वारा उत्पादन में उपयोग किया जाता है।
इनवॉइस आने से पहले जानें कि आप कितना खर्च करते हैं।
प्रत्येक गेटवे अनुरोध की कीमत वास्तविक समय में तय की जाती है, उसे एट्रिब्यूट किया जाता है और लॉग किया जाता है। प्रति-मॉडल डैशबोर्ड, मासिक पूर्वानुमान और बजट गार्डरेल — तुरंत उपलब्ध, किसी Datadog डैशबोर्ड की आवश्यकता नहीं है।
लागत डैशबोर्ड
दैनिक खर्च का रुझान, प्रति-मॉडल ब्रेकडाउन, शीर्ष-10 सबसे महंगे अनुरोध। वह दृश्य जो आपके CFO ने वास्तव में मांगा था।
खर्च का पूर्वानुमान
महीने के अंत तक अनुमानित बर्न रेट ताकि आप अपने कार्ड पर हिट होने से हफ्तों पहले ओवररन देख सकें।
बजट अलर्ट
प्रति-की मासिक सीमा। 80% और 100% पर ईमेल एक कूलडाउन के साथ ताकि आपको स्पैम न किया जाए। वैकल्पिक ऑटो-पॉज़ अनियंत्रित लूप्स को तुरंत समाप्त कर देता है।
हस्ताक्षरित वेबहुक
खर्च की सीमा, की बनाई गई, की रद्द की गई, जनरेशन विफल होने के लिए HMAC-हस्ताक्षरित इवेंट। उन्हें PagerDuty, Slack, या अपने स्वयं के लेजर में वायर करें।
आउटेज होते हैं। आपके उपयोगकर्ताओं को पता नहीं चलना चाहिए।
मल्टी-प्रोवाइडर फेलओवर, क्षेत्रीय फॉलबैक, और इंटेंट-अवेयर रूटिंग एक नाजुक सिंगल-वेंडर निर्भरता को एक रिडंडेंट, सेल्फ-हीलिंग लेयर में बदल देते हैं।
मल्टी-प्रोवाइडर फेलओवर
कॉन्फ़िगर करने योग्य प्रति-की टाइमआउट और रिट्राई पॉलिसी। 5xx या टाइमआउट पर, ट्रैफ़िक श्रृंखला में अगले प्रोवाइडर पर पारदर्शी रूप से चला जाता है।
POST /v1/chat/completions ├── primary → openai/gpt-4.1-mini [503 in 8s] ✗ ├── fallback 1 → google/gemini-2.5-flash [200 in 612ms] ✓ └── fallback 2 → anthropic/claude-haiku (skipped) served 200 OK · upstream: gemini · total 624ms
स्मार्ट रूटिंग
हमें इरादा बताएं — तेज़ चैट, गहन तर्क, इमेज एडिट, लॉन्ग-फॉर्म समराइज़ेशन — और हम सबसे सस्ता योग्य प्रोवाइडर चुनते हैं। जब आपको आवश्यकता हो तो एक सटीक मॉडल पिन करें।
क्षेत्रीय फॉलबैक
यदि किसी प्रोवाइडर का US-ईस्ट क्षेत्र डिग्रेडेड है, तो हम अनुरोध विफल होने से पहले US-वेस्ट, फिर EU का प्रयास करते हैं। प्रति की के लिए रीजन-स्टिकनेस कॉन्फ़िगर करने योग्य है।
प्रति-की नियंत्रण जो सुरक्षा समीक्षा को संतुष्ट करते हैं।
स्कोप कीज़, दानेदार रेट लिमिट, IP अलाउलिस्ट, अपरिवर्तनीय ऑडिट लॉग, और CSV एक्सपोर्ट। आपके CTO और आपके ऑडिटर दोनों के सवालों के लिए डिज़ाइन किया गया है।
API की स्कोपिंग
मॉडल, IP अलाउलिस्ट, दैनिक और प्रति घंटा खर्च सीमा पर प्रति-की अनुमति/अस्वीकृति। बिना रीडिप्लॉय किए रोटेट करें।
प्रति-की, प्रति-मॉडल रेट लिमिट
RPM और TPM लिमिट की और मॉडल के लिए स्कोप की गई हैं। एक स्टेजिंग की गलती से प्रोड के कोटे को खत्म नहीं कर सकती।
अपरिवर्तनीय ऑडिट लॉग
बनाई गई हर की, बदला गया स्कोप, स्थानांतरित बजट, या निरस्तीकरण को एक्टर, IP और टाइमस्टैंप के साथ रिकॉर्ड किया जाता है। डिफ़ॉल्ट रूप से SOC2-बेसलाइन।
खोज योग्य लॉग + CSV एक्सपोर्ट
एंडपॉइंट, मॉडल, स्टेटस, लेटेंसी, की द्वारा अनुरोध लॉग फ़िल्टर करें। वित्त, अनुपालन, या पोस्ट-मॉर्टम के लिए एक-क्लिक CSV।
अनुपालन स्थिति
- TLS 1.2+ एंड-टू-एंड। कीज़ रेस्ट पर हैश की जाती हैं, कभी भी प्लेनटेक्स्ट में लॉग नहीं की जातीं।
- प्रति-किरायेदार की + बजट अलगाव। कोई क्रॉस-किरायेदार डेटा लीकेज नहीं।
- कॉन्फ़िगर करने योग्य लॉग रिटेंशन। उच्च-संवेदनशीलता वर्कलोड के लिए मांग पर अनुरोध बॉडी छोड़ें।
- रेसिडेंसी-संवेदनशील डिप्लॉयमेंट के लिए अनुरोध पर EU और US रूटिंग उपलब्ध है।
- 2026 के लिए SOC2 नियंत्रण दायरे में हैं। यदि आपको हमारे ऑडिटर से वर्तमान पत्र की आवश्यकता है तो संपर्क करें।
OpenAI SDK के लिए ड्रॉप-इन। एक बेस URL बदलें।
Hypereal OpenAI चैट कंप्लीशन, इमेज, रिस्पॉन्स और Anthropic मैसेज को सपोर्ट करता है। अपना SDK, अपने प्रॉम्प्ट, अपनी टूल डेफिनिशन, अपनी रिट्रीज़ रखें — बस बेस URL और API की बदलें, और शिप करें।
curl https://api.hypereal.cloud/v1/chat/completions \
-H "Authorization: Bearer $HYPEREAL_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-4.1-mini",
"messages": [{ "role": "user", "content": "hi" }]
}'import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.HYPEREAL_API_KEY,
baseURL: "https://api.hypereal.cloud/v1",
});
const res = await client.chat.completions.create({
model: "gpt-4.1-mini",
messages: [{ role: "user", content: "hi" }],
});समर्थित एंडपॉइंट
- POST /v1/chat/completions — OpenAI-संगत
- POST /v1/messages — Anthropic-संगत
- POST /v1/responses — OpenAI रिस्पॉन्स API
- POST /v1/images/generations — OpenAI-संगत
- POST /v1/videos/generate — Hypereal वीडियो API
- POST /v1/comfy/{slug} — ComfyUI वर्कफ़्लो को API के रूप में
- POST /v1/gpu/{slug} — सर्वरलेस GPU पासथ्रू
मॉडल से परे: कंप्यूट एक फर्स्ट-क्लास API के रूप में।
हर टीम को अंततः चैट कंप्लीशन से अधिक की आवश्यकता होती है — एक कस्टम ComfyUI ग्राफ़, एक फाइन-ट्यून, एक वन-ऑफ GPU जॉब। Hypereal उन सभी को एक ही की, एक ही लॉग, एक ही बजट के पीछे उजागर करता है।
सर्वरलेस GPU पासथ्रू
अपना खुद का RunPod हैंडलर लाएं और इसे POST /v1/gpu/{slug} के रूप में कॉल करें। हम प्रमाणीकरण, मीटरिंग, रिट्राई और बिल को संभालते हैं। आप हैंडलर लिखते हैं।
API के रूप में ComfyUI वर्कफ़्लो
कोई भी ComfyUI वर्कफ़्लो JSON अपलोड करें। हम आपको टाइप किए गए इनपुट और आउटपुट के साथ एक संस्करणित HTTP एंडपॉइंट देते हैं, जिसका बिल प्रति रन के हिसाब से लिया जाता है। अब Slack में ग्राफ़ पेस्ट करने की आवश्यकता नहीं है।
ComfyUI लाइब्रेरी
पहले से बने ComfyUI वर्कफ़्लो की बढ़ती सूची — फेस रिस्टोर, प्रोडक्ट शॉट, सिनेमैटिक अपस्केल — उन्हें किसी भी अन्य मॉडल की तरह कॉल करें।
LoRA और एसेट रेपो
LoRA, चेकपॉइंट, एम्बेडिंग और संदर्भ इमेज के लिए निजी, संस्करणित स्टोरेज। किसी भी वर्कफ़्लो या जनरेशन से हैंडल द्वारा उन्हें संदर्भित करें।
POST /v1/comfy/cinematic-upscale
{
"inputs": { "image_url": "https://...", "strength": 0.8 },
"version": "v3"
}
POST /v1/gpu/my-handler
{
"input": { "prompt": "a cat", "steps": 28 }
}संख्याएँ जो हम प्रकाशित करते हैं। बिक्री डेक में स्क्रीनशॉट नहीं।
लाइव स्थिति पेज, पारदर्शी लेटेंसी, और एक घटना इतिहास जिसे आप हमसे पहले पूछे बिना पढ़ सकते हैं।
पारदर्शी लेटेंसी
प्रत्येक गेटवे एंडपॉइंट के लिए, क्षेत्र के अनुसार रोलिंग p50 और p95।
अपटाइम इतिहास
पिछले 30/90-दिन का अपटाइम, कोई मार्केटिंग गणित नहीं। संख्या वही है जो है।
8 वेंडर डैशबोर्ड चलाना बंद करें।
एक API की, एक बिल, एक जगह यह देखने के लिए कि क्या हो रहा है। पाँच मिनट से भी कम समय में शुरू करें।

