Enterprise-taugliche Coding- und LLM-API
Verwenden Sie einen einzigen Hypereal API-Key für Coding-Agenten, IDE-Integrationen, interne Tools und produktive LLM-Workloads. Die Enterprise API ist OpenAI-kompatibel, Anthropic-nativ und stellt ein kuratiertes Modellset für Teams bereit, die stabile Modell-IDs, Bildgenerierung, Abrechnung und Nutzungsprotokolle benötigen.
Die nur für die CLI verfügbaren Claude-Modell-IDs mit dem Suffix -max (z. B. claude-opus-4-7-max) werden ausschließlich über die Claude Code CLI am Anthropic-nativen Endpunkt unterstützt. Die Nutzung dieser Modelle mit einem anderen Client oder einem Drittanbieter-Wrapper ist strikt untersagt und führt zur Ablehnung der Anfrage und Sperrung des API-Keys ohne Rückerstattung. Dazu zählen unter anderem Hermes, OpenClaw und ähnliche Proxy-, Replay- oder Account-Pooling-Tools. Standardmodelle (ohne -max) sind davon nicht betroffen und bleiben für alle Clients verfügbar.
Nutzbar mit Claude Code, Coding-Agenten, Review-Bots, IDE-Tools und interner Automatisierung, die bereits OpenAI- oder Anthropic-APIs sprechen.
Claude Opus 4.8, Claude Sonnet 4.7, Claude Haiku, GPT-5.5, Nano Banana 2, GPT Image 2, DeepSeek, Qwen und Kimi sind hinter stabilen Hypereal-Modell-IDs verfügbar.
Bilder über denselben verwalteten Chat-Completions-Endpunkt generieren – mit multimodalen Antwortfeldern und nutzungsweiten Kontrollen.
Hypereal API-Keys bündeln Ausgabenlimits, Modell-Scoping, Nutzungsprotokolle und Credit-Abrechnung in einer einzigen Steuerungsebene.
Erfolgreiche Enterprise-API-Anfragen enthalten Latenzvesicherungs-Metadaten und automatische Credit-Kompensation bei ungewöhnlich langen Laufzeiten.
Chat Completions aufrufen
Verwenden Sie den verwalteten Basispfad für den kuratierten Enterprise-Modellkatalog und stabile Hypereal-Modell-IDs.
curl https://api.hypereal.cloud/v1/managed/chat/completions \
-H "Authorization: Bearer ck_..." \
-H "Content-Type: application/json" \
-d '{
"model": "claude-sonnet-4-7",
"messages": [
{
"role": "system",
"content": "You are a senior software engineer."
},
{
"role": "user",
"content": "Review this TypeScript function for correctness."
}
],
"temperature": 0.2,
"max_tokens": 1200
}'import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.HYPEREAL_API_KEY,
baseURL: "https://api.hypereal.cloud/v1/managed",
});
const completion = await client.chat.completions.create({
model: "claude-sonnet-4-7",
messages: [
{ role: "user", content: "Write a migration checklist for this PR." },
],
});
console.log(completion.choices[0]?.message?.content);const response = await client.responses.create({
model: "claude-sonnet-4-7",
input: "Create a concise migration checklist for this pull request.",
});
console.log(response.output_text);Bilder über Chat Completions generieren
Verwenden Sie Nano Banana 2 mit multimodalen Chat Completions oder rufen Sie den OpenAI-kompatiblen Bildgenerierungs-Endpunkt für GPT Image 2 auf. Verwenden Sie die Modell-IDs nano-banana-2 und gpt-image-2. Multimodale Chat-Bildfelder liefern Base64-Daten-URLs zurück, während der Bildgenerierungs-Endpunkt das OpenAI-Bildantwortformat zurückgibt.
curl https://api.hypereal.cloud/v1/managed/chat/completions \
-H "Authorization: Bearer ck_..." \
-H "Content-Type: application/json" \
-d '{
"model": "nano-banana-2",
"messages": [
{
"role": "user",
"content": "Generate a clean product mockup of a glass banana sculpture on a white studio background."
}
],
"modalities": ["image", "text"],
"image_config": {
"aspect_ratio": "1:1",
"image_size": "1K"
}
}'curl https://api.hypereal.cloud/v1/managed/images/generations \
-H "Authorization: Bearer ck_..." \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A clean product mockup of a glass banana sculpture on a white studio background.",
"size": "1024x1024",
"quality": "standard"
}'Den Anthropic-nativen Endpunkt verwenden
Claude Code und Anthropic-SDK-Clients sollten auf den Hypereal-API-Root zeigen, da sie den nativen Messages-Pfad selbst anhängen. Reine HTTP-Clients können den verwalteten Messages-Pfad direkt aufrufen. Tool-Nutzung, Thinking-Blöcke, Streaming und Prompt-Cache-Felder bleiben erhalten.
Die nur für die CLI verfügbaren Claude-Modell-IDs (Suffix -max) dürfen ausschließlich über die Claude Code CLI genutzt werden. Drittanbieter-Wrapper wie Hermes oder OpenClaw sind auf dieser Stufe nicht zulässig.
export ANTHROPIC_BASE_URL="https://api.hypereal.cloud" export ANTHROPIC_AUTH_TOKEN="ck_..." export ANTHROPIC_API_KEY="" export ANTHROPIC_DEFAULT_OPUS_MODEL="claude-opus-4-8" export ANTHROPIC_DEFAULT_SONNET_MODEL="claude-sonnet-4-7" export ANTHROPIC_DEFAULT_HAIKU_MODEL="claude-haiku-latest" export CLAUDE_CODE_SUBAGENT_MODEL="claude-sonnet-4-7"
# Claude Code CLI ONLY. # Claude model IDs for the official Claude Code CLI, not third-party wrappers. export ANTHROPIC_BASE_URL="https://api.hypereal.cloud" export ANTHROPIC_AUTH_TOKEN="ck_..." export ANTHROPIC_API_KEY="" export ANTHROPIC_DEFAULT_OPUS_MODEL="claude-opus-4-7-max" export ANTHROPIC_DEFAULT_SONNET_MODEL="claude-sonnet-4-6-max" export ANTHROPIC_DEFAULT_HAIKU_MODEL="claude-haiku-4-5-max" export CLAUDE_CODE_SUBAGENT_MODEL="claude-sonnet-4-6-max"
curl https://api.hypereal.cloud/v1/managed/messages \
-H "anthropic-api-key: ck_..." \
-H "anthropic-version: 2023-06-01" \
-H "Content-Type: application/json" \
-d '{
"model": "claude-sonnet-4-7",
"messages": [
{ "role": "user", "content": "Review this diff." }
],
"tools": [],
"max_tokens": 1200
}'Unterstützte Enterprise-Modelle
Preise werden pro einer Million Token angezeigt und über Hypereal Credits abgerechnet.
| Modell-ID | Name | Kontext | Input | Cache-Lesen | Cache-Schreiben | Output |
|---|---|---|---|---|---|---|
| claude-opus-4-8 | Claude Opus 4.8 | 1M | $5.25 | $0.525 | $6.56 | $26.25 |
| claude-sonnet-4-7 | Claude Sonnet 4.7 | 1M | $3.15 | $0.315 | $3.94 | $15.75 |
| claude-haiku-latest | Claude Haiku Latest | 200k | $1.05 | $0.105 | $1.31 | $5.25 |
| claude-opus-4-7-max | Claude Opus 4.7 | 200k | $5.25 | $0.525 | $6.56 | $26.25 |
| claude-opus-4-6-max | Claude Opus 4.6 (1M) | 1M | $5.25 | $0.525 | $6.56 | $26.25 |
| claude-opus-4-5-max | Claude Opus 4.5 | 200k | $5.25 | $0.525 | $6.56 | $26.25 |
| claude-sonnet-4-6-max | Claude Sonnet 4.6 | 200k | $3.15 | $0.315 | $3.94 | $15.75 |
| claude-sonnet-4-5-max | Claude Sonnet 4.5 | 200k | $3.15 | $0.315 | $3.94 | $15.75 |
| claude-haiku-4-5-max | Claude Haiku 4.5 | 200k | $1.05 | $0.105 | $1.31 | $5.25 |
| gpt-5-5 | GPT-5.5 | 1M | $5.25 | $0.525 | n/a | $31.50 |
| deepseek-v4-pro | DeepSeek V4 Pro | 1M | $0.4567 | $0.0038 | n/a | $0.9135 |
| qwen3-7-max | Qwen3.7 Max | 200k | $1.31 | $0.2625 | $1.64 | $3.94 |
| qwen3-7-plus | Qwen3.7 Plus | 1M | $0.42 | $0.084 | $0.525 | $1.68 |
| kimi-latest | Kimi Latest | 256k | $0.7182 | $0.1512 | n/a | $3.59 |
| nano-banana-2 | Nano Banana 2 | 131k | $0.525 | n/a | n/a | $3.15 |
| gpt-image-2 | GPT Image 2 | 272k | $8.40 | $2.10 | n/a | $31.50 |
curl https://api.hypereal.cloud/v1/managed/models \ -H "Authorization: Bearer ck_..."
Anfrage- und Antwortstruktur
Die Enterprise API akzeptiert das OpenAI-Chat-Completions-Anfrageformat, das Responses-API-Format und OpenAI-Bildgenerierungsanfragen, sofern das gewählte Modell diese unterstützt. Streaming, Tools, strukturierte Ausgaben, Temperatur und Max-Token-Steuerung werden bei kompatiblen Modellen durchgeleitet.
{
"model": "claude-sonnet-4-7",
"messages": [
{ "role": "user", "content": "Refactor this function." }
],
"stream": true,
"max_tokens": 2000
}{
"hypereal": {
"billing": {
"model": "claude-sonnet-4-7",
"credits_charged": 12,
"balance_before": 1000,
"balance_after": 988
}
}
}Tools und Caching
Der verwaltete Endpunkt leitet OpenAI-kompatible Tool-Calls, strukturierte Ausgaben, Reasoning-Steuerungen, Streaming-Chunks und Prompt-Cache-Felder des gewählten Modells durch. Senden Sie für lange Coding-Sitzungen stabilen Projektkontext mit Cache-Steuerelementen und behalten Sie eine konsistente Session-ID bei.
const completion = await client.chat.completions.create({
model: "claude-sonnet-4-7",
messages: [{ role: "user", content: "Find the changed files." }],
tools: [
{
type: "function",
function: {
name: "list_changed_files",
description: "List changed files in the current repository.",
parameters: { type: "object", properties: {} },
},
},
],
tool_choice: "auto",
});curl https://api.hypereal.cloud/v1/managed/chat/completions \
-H "Authorization: Bearer ck_..." \
-H "Content-Type: application/json" \
-H "X-Hypereal-Cache: true" \
-H "X-Session-Id: coding-agent-session-123" \
-d '{
"model": "claude-sonnet-4-7",
"cache_control": { "type": "ephemeral" },
"messages": [
{ "role": "system", "content": "Stable project context..." },
{ "role": "user", "content": "Continue the refactor." }
],
"max_tokens": 1200
}'Verwaltete Parallelitätssteuerung
Enterprise-API-Anfragen durchlaufen eine verwaltete Zugangssteuerung, bevor ein Modell-Call gesendet wird. Das Gateway verwendet kurze Warteschlangen, Parallelitäts-Slots auf Modellebene, RPM-Schutz auf Kontoebene, Kapazitäts-Telemetrie und Circuit-Breaker für überlastete Modellpfade. Diese Steuerungen gelten nur für Enterprise-API-Traffic und werden als Hypereal-Antwort-Header bereitgestellt.
| Bereich | Primäre Modelle | Anfragen | Tokens | Warteschlange |
|---|---|---|---|---|
| Textgenerierung | gpt-5-5 | 15,000 RPM | 40,000,000 TPM | 15,000,000,000 tokens |
| Bildgenerierung | gpt-image-2 | 250 IPM | 8,000,000 TPM | n/a |
Dies sind verwaltete Kapazitätsobergrenzen. Ausgabenlimits, Modell-Scoping, Tages-/Stundenbudgets und Modell-Limits pro Key können intern niedriger konfiguriert werden.
X-Hypereal-Managed-Governor: active X-Hypereal-Managed-Model-Concurrency-Limit: 80 X-Hypereal-Managed-Model-Concurrency-Remaining: 79 X-Hypereal-Managed-Model-RPM-Limit: 15000 X-Hypereal-Managed-Model-RPM-Remaining: 14999 X-Hypereal-Capacity-Requests-Remaining: 9852 X-Hypereal-Managed-Image-IPM-Limit: 250 X-Hypereal-Managed-Image-IPM-Remaining: 249 X-Hypereal-Managed-Circuit: closed
Automatische Kompensation bei langsamen Anfragen
Enterprise-API-Anfragen beinhalten eine Request-Versicherung für ungewöhnlich langsame erfolgreiche Anfragen. Fehlgeschlagene Anfragen werden nicht belastet, daher wird die Kompensation erst nach einer erfolgreichen, abgerechneten Anfrage bewertet. Nicht-Streaming-Antworten enthalten die Abrechnung in hypereal.insurance. Streaming-Antworten stellen die Policy-Header sofort bereit und rechnen automatisch nach Ende des Streams ab.
{
"hypereal": {
"insurance": {
"status": "paid",
"trigger": "latency",
"reason": "latency_threshold_exceeded",
"latency_ms": 94320,
"threshold_ms": 90000,
"credits_charged": 12,
"credits_compensated": 3
}
}
}X-Hypereal-Insurance-Status: paid X-Hypereal-Insurance-Trigger: latency X-Hypereal-Insurance-Latency-Ms: 94320 X-Hypereal-Insurance-Threshold-Ms: 90000 X-Hypereal-Insurance-Credits: 3
Verwenden Sie den verwalteten Pfad für OpenAI-kompatible Chat Completions: /v1/managed/chat/completions, Responses API: /v1/managed/responses und OpenAI-Bildgenerierungen: /v1/managed/images/generations. Nutzen Sie /v1/managed/messages für direkte Anthropic-native Anfragen. Claude Code sollte https://api.hypereal.cloud als Basis-URL verwenden.
