Infra for AIVideo & Image Gen
每一个前沿模型,覆盖视频、图像、数字人与音频,再加上任意 LLM 和自主 AI 智能体,全部通过一个 API、一个余额。无订阅,无水印。
一个 API,
覆盖每个模型。
1000+ 模型来自每一家主流厂商。一个 API Key、一个账单后台、零厂商绑定。
新
新
新
新
新
新
新
新
新
新



新
新一个网关。
所有模型。所有提供商。
Hypereal 位于您的应用程序与市场上所有大型语言模型、图像和视频模型之间。内置成本、可靠性和治理功能——因此生产团队可以放心地发布产品,而无需担心下一次提供商中断。
可观测性与成本控制
成本控制台
按模型支出、每日趋势、前 10 个最昂贵的请求。您的财务团队会首先要求提供这些信息。
预算警报
每个密钥每月上限。在达到 80% 和 100% 时发送电子邮件。可选的自动暂停功能,确保失控的循环永远不会让您收到四位数的账单。
可搜索的请求日志
每次调用都按端点、模型、状态和时间进行索引。一键筛选、搜索和导出到 CSV。
可靠性与智能路由
多供应商故障转移
当上游主服务器返回 5xx 错误或超时时,流量会透明地故障转移到下一个供应商。您的用户永远不会遇到中断。
智能路由
固定一个模型,或按意图选择,我们将路由到最便宜的合格供应商。相同的提示,更低的账单。
兼容 OpenAI
即插即用 OpenAI Chat Completions 和 Images API。只需更换一个基础 URL — 保留您的 SDK、提示和工具。
GPU 与自定义工作流
ComfyUI 工作流即 API
将任何 ComfyUI 图封装在稳定的 HTTP 端点之后。版本化、模式类型化、按运行计费。无需再为暴露工作流而照看 GPU。
无服务器 GPU 直通
带上您自己的 RunPod 处理程序,我们通过与其他所有内容相同的 API 密钥进行路由、认证、计量和计费。一份合同,所有工作负载。
工作流和 LoRA 库
精选的、可直接调用的 ComfyUI 图以及一个您的团队可以版本化和共享的私人 LoRA / 资产仓库。停止在 Slack 中粘贴 JSON。
团队与 SSO
团队和 RBAC
邀请队友,拥有五个内置角色:所有者、管理员、开发者、账单、查看者。组织范围的 API 密钥,共享审计日志,告别在 Slack 中传递密钥。
SAML 和 OIDC SSO
通过 Okta、Azure AD、Auth0、Google Workspace 或任何 SAML/OIDC IdP 进行单点登录。域名声明可自动将公司邮箱路由到您的 IdP。
Automatic credits when managed requests run unusually slow.
Built for Claude Code, agents, and long coding sessions. Enterprise API responses expose insurance metadata, and eligible slow successful requests receive account credits without a support ticket.
90s latency trigger
Ledger-backed credit adjustment
Only successful charged requests
// one base URL — every model. const hypereal = new OpenAI({ baseURL: "https://api.hypereal.cloud/v1", apiKey: process.env.HYPEREAL_API_KEY, }); await hypereal.chat.completions.create({ model: "claude-opus-4.6", fallback: ["gpt-5", "gemini-3.1-pro"], messages: [{ role: "user", content: q }], });▌
- 14:02:11 200 claude-opus-4.6 · 312 ms · 312 cr
- 14:02:11 200 gemini-3.1-pro · 188 ms · 96 cr
- 14:02:10 502 openai/gpt-5 → failover ↺
- 14:02:10 200 deepseek-v3.2 · 421 ms · 14 cr
- 14:02:09 200 nano-banana-pro · 1.8 s · 420 cr
- 14:02:08 200 claude-sonnet-4.6 · 280 ms · 62 cr
- 14:02:07 200 qwen-3.5-72b · 510 ms · 8 cr
- 14:02:06 200 seedance-1.0 · 12.4 s · 3 800 cr
- 14:02:05 200 gpt-image-2 · 6.1 s · 1 050 cr
- 14:02:04 200 claude-opus-4.6 · 298 ms · 312 cr
- 14:02:03 200 gemini-3.1-flash · 142 ms · 22 cr
- 14:02:02 200 comfy/sdxl-base · 4.2 s · 240 cr
- 14:02:11 200 claude-opus-4.6 · 312 ms · 312 cr
- 14:02:11 200 gemini-3.1-pro · 188 ms · 96 cr
- 14:02:10 502 openai/gpt-5 → failover ↺
- 14:02:10 200 deepseek-v3.2 · 421 ms · 14 cr
- 14:02:09 200 nano-banana-pro · 1.8 s · 420 cr
- 14:02:08 200 claude-sonnet-4.6 · 280 ms · 62 cr
- 14:02:07 200 qwen-3.5-72b · 510 ms · 8 cr
- 14:02:06 200 seedance-1.0 · 12.4 s · 3 800 cr
- 14:02:05 200 gpt-image-2 · 6.1 s · 1 050 cr
- 14:02:04 200 claude-opus-4.6 · 298 ms · 312 cr
- 14:02:03 200 gemini-3.1-flash · 142 ms · 22 cr
- 14:02:02 200 comfy/sdxl-base · 4.2 s · 240 cr
适配每一个模型的
AI 基础设施
覆盖每一个模型的统一 API、智能路由、按额度计费 — 当稳定性与成本控制是关键时,团队首选的 AI 基础设施层。
统一 API
一个 API Key 调用 1000+ 模型 — Claude Opus 4.6、GPT-5、Gemini 3.1、DeepSeek V3.2、Qwen 3.5 等等。文本、图像、视频、音频。无需在多家厂商之间来回切换。
申请。部署。扩展。
可编程优先。
研究级品质。
OpenAI 兼容 API,背后是异构推理。改一个 Base URL 即可保留你的 SDK。每个请求都路由到最佳硬件。
OpenAI 兼容
无缝替换,无需重写。
流式支持
覆盖每家厂商的完整 SSE 流。
异构路由
1000+ 模型在异构硬件间优化分发。
按额度计费
100 额度 = $1 USD。只为用量付费。
信任,
不容妥协。
运行在异构硬件上的 Agentic 工作负载,要求每一层都具备零信任安全 — 不是事后加装,而是从第一天就内建其中。
隔离执行
每个工作负载都运行在沙箱环境中,零交叉污染。
端到端加密
静态数据 AES-256 加密,传输中 TLS 1.3。明文零暴露。
完整审计追踪
每个请求都有日志,每个决策都可追溯。完整可观测。
权限边界
细粒度的 API Key 范围控制。每个 Key 都可单独配置模型、端点和用量上限。
部署任何模型。
租用任何 GPU。
一个 API,托管的无服务器 GPU 端点、按小时租用的专用 GPU、以及模型权重存储——全在一处。无需 DevOps,无供应商锁定,一张账单。

在真实 GPU 上部署任何模型
使用任何 Docker 镜像——Hugging Face 推理服务器、vLLM、ComfyUI、你自己的 handler。自动扩缩的 GPU 端点,相当于 $0.36/小时起。按秒计费。
- Build image42 s
- Push to registry11 s
- Cold-pull weights3.8 s
- Warming H100 pool7.2 s
- Bind endpoint—
- Per-second billing
- Scale-to-zero idle
- Async + sync API
- Webhook callbacks
- 按秒计费
- 空闲缩至零
- 异步 + 同步 API
- Webhook 回调
按小时租用 H100、A100、L40S
SSH 访问、公网 IP、持久磁盘。请求时拉取实时价格。按小时自动计费;终止即停表。
- 34+ GPU types
- Secure + community clouds
- Hourly auto-stop on low balance
- Persistent volumes
- 34+ GPU 型号
- 安全云 + 社区云
- 余额不足时自动停机
- 持久卷
把多张 GPU 组成一个集群
创建多节点 H100 / H200 / B200 集群,包含拓扑规划、放置组、Gang 调度、NCCL/RDMA 运行时提示和容量状态追踪。
- Multi-node topology
- Placement groups
- NCCL/RDMA runtime hints
- Dashboard + API control
- 多节点拓扑
- 放置组
- NCCL/RDMA 运行时提示
- 控制台 + API 管理
存放权重、LoRA、数据集
S3 兼容对象存储,支持签名直传 PUT。无 body 大小限制——50GB 模型权重也可直接从浏览器推送到边缘。
- Signed PUT / GET URLs
- Up to 5 TB per object
- Free intra-platform egress
- $0.015/GB/mo at rest
- 签名 PUT / GET URL
- 单对象最高 5TB
- 平台内出流量免费
- 静态存储 $0.015/GB/月
Enterprise
Ready.
即插即用 managed API
通过 OpenAI 兼容 Chat、Responses、模型列表和图像生成端点使用干净的公开模型 ID。
容量治理
按模型并发、RPM 控制、熔断状态和公开容量 header,让生产流量更可预测。
请求保险
符合条件的企业 API 计费请求可按延迟和失败策略自动返还额度。
Agent 与 Claude Code 就绪
Anthropic 兼容 Messages 支持 tools、cache controls、streaming 和 Claude Code 工作流。
Managed routes
一套企业 API 面
Production ops
为 managed 流量构建
企业 API 与一般 API 路径分离,拥有独立文档、模型列表、容量 header、保险 header、API Key 策略检查和使用日志。
查看企业 API 文档








