Modellvergleich

o3
vs. GPT-5.1 (high)

Vergleich von 2 KI-Modellen · 12 Benchmarks · OpenAI

Empfehlung

GPT-5.1 (high) 16 Metrik-Siege

Staerkste Bereiche: Eingabepreis, Gemischter Preis, Durchsatz

Bester Wert

o3

100.0 Wert-Score

72.5 Reasoning / $3.50/1M

Niedrigster Preis

GPT-5.1 (high)

$1.25/1M Eingabepreis

Bestes Reasoning

o3

72.5 Reasoning-Score

Kombiniert verfuegbare Reasoning-Benchmarks

Bestes Coding

GPT-5.1 (high)

44.7 Coding-Index

Composite Indices

Higher is better; speed and price are normalized

Standard Benchmarks

Only benchmarks with data are shown

Wichtige Unterschiede

Bester Wert

o3 bietet den besten Qualitaets-Preis-Mix mit 100.0 von 100 Wertpunkten.

Preisunterschied

GPT-5.1 (high) ist 1,6x guenstiger bei Eingabetokens als o3.

Geschwindigkeitsunterschied

GPT-5.1 (high) generiert etwa 1,1x so viele Tokens pro Sekunde wie o3.

Reasoning-Unterschied

o3 liegt 2.6 Punkte vor GPT-5.1 (high) beim Reasoning.

Coding-Unterschied

GPT-5.1 (high) liegt 6.3 Punkte vor o3 beim Coding.

Live compare

Response Face-Off

Sende einen Prompt an die ausgewaehlten Modelle und vergleiche Antwortqualitaet mit Live-Metriken zu Tempo und Kosten.

o3

OpenAI

Bereit

TTFT

—

Zeit

—

tok/s

—

Tokens

—

Kosten

—

Bereit

GPT-5.1 (high)

OpenAI

Bereit

TTFT

—

Zeit

—

tok/s

—

Tokens

—

Kosten

—

Bereit

Welche Antwort war nuetzlicher?

KI-Chat

Mit 80+ Modellen chatten

Kostenlos chatten

Inference-API

EU-gehostete Inferenz

API-Zugang erhalten

Vollständiger Vergleich

Metrik	Op o3 OpenAI	Top-Wahl Op GPT-5.1 (high) OpenAI
Preise pro 1 Mio. Tokens
Input-Kosten	$2.00/1M	$1.25/1M
Output-Kosten	$8.00/1M	$10.00/1M
Gemischt (3:1)	$3.50/1M	$3.44/1M
Spezifikationen
Anbieter	OpenAI	OpenAI
Veröffentlichung	16. Apr. 2025	13. Nov. 2025
Leistung & Geschwindigkeit
Durchsatz	114.1 tok/s	124.9 tok/s
TTFT	6342ms	19477ms
Latenz	6342ms	19477ms
Composite-Indizes
Wert-Score	100.0	98.2
Reasoning-Score	72.5	69.9
Intelligenz	38.4	47.7
Coding	38.4	44.7
Mathe	88.3	94.0
Standard-Benchmarks
GPQA	82.7%	87.3%
MMLU Pro	85.3%	87.0%
HLE	20.0%	26.5%
LiveCodeBench	80.8%	86.8%
MATH 500	99.2%	—
AIME 2025	88.3%	94.0%
AIME (Original)	90.3%	—
SciCode	41.0%	43.3%
LCR	69.3%	75.0%
IFBench	71.4%	72.9%
TAU-bench v2	80.7%	81.9%
TerminalBench Hard	37.1%	45.5%