KI-Modell-Ranking (LLM-Leaderboard)

Intelligenteste KI-Modelle

Language models ranked by Artificial Analysis Index

Modell Name des KI-Modells und Anbieterorganisation	Intelligence Artificial Analysis Intelligence Index - composite reasoning and capability score across the benchmark suite	Geschwindigkeit Inference-Durchsatz in Tokens pro Sekunde - wie schnell das Modell Antworten generiert	Context Maximum context window size - how much text, code, or conversation the model can process at once	Price Kosten pro 1 Million Tokens — Input (Text, den Sie senden) / Output (Text, den das Modell erzeugt)	Veröffentlichung Zeitpunkt der Veröffentlichung - neuere Modelle können mehr Fähigkeiten bieten	Vergleichen
#1 GPT-5.5 (xhigh) von OpenAI	60.2	62 tok/s	1.1M	$5.00 / $30.00	23. Apr. 2026	Details
#2 GPT-5.5 (high) von OpenAI	58.9	58 tok/s	1.1M	$5.00 / $30.00	23. Apr. 2026	Details
#3 Claude Opus 4.7 (Adaptive Reasoning, Max Effort) von Anthropic	57.3	51 tok/s	1.0M	$5.00 / $25.00	16. Apr. 2026	Details
#4 Gemini 3.1 Pro Preview von Google	57.2	127 tok/s	1.0M	$2.00 / $12.00	19. Feb. 2026	Details
#5 GPT-5.4 (xhigh) von OpenAI	56.8	93 tok/s	1.1M	$2.50 / $15.00	5. März 2026	Details
#6 GPT-5.5 (medium) von OpenAI	56.7	57 tok/s	1.1M	$5.00 / $30.00	23. Apr. 2026	Details
#7 Kimi K2.6 von MoonshotAI	53.9	25 tok/s	262K	$0.95 / $4.00	20. Apr. 2026	Details
#8 MiMo-V2.5-Pro von Xiaomi	53.8	59 tok/s	1.0M	$1.00 / $3.00	22. Apr. 2026	Details
#9 GPT-5.3 Codex (xhigh) von OpenAI	53.6	86 tok/s	400K	$1.75 / $14.00	5. Feb. 2026	Details
#10 Claude Opus 4.6 (Adaptive Reasoning, Max Effort) von Anthropic	53.0	49 tok/s	k. A.	$5.00 / $25.00	5. Feb. 2026	Details
#11 Muse Spark von Meta	52.1	k. A.	k. A.	k. A. / k. A.	8. Apr. 2026	Details
#12 Claude Opus 4.7 (Non-reasoning, High Effort) von Anthropic	51.8	43 tok/s	1.0M	$5.00 / $25.00	16. Apr. 2026	Details
#13 Qwen3.6 Max Preview von Alibaba	51.8	33 tok/s	262K	$1.30 / $7.80	20. Apr. 2026	Details
#14 Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort) von Anthropic	51.7	67 tok/s	1.0M	$3.00 / $15.00	17. Feb. 2026	Details
#15 V4 Pro (Reasoning, Max Effort) von DeepSeek	51.5	34 tok/s	1.0M	$1.74 / $3.48	24. Apr. 2026	Details
#16 GLM-5.1 (Reasoning) von Z AI	51.4	45 tok/s	203K	$1.40 / $4.40	7. Apr. 2026	Details
#17 GPT-5.2 (xhigh) von OpenAI	51.3	71 tok/s	400K	$1.75 / $14.00	11. Dez. 2025	Details
#18 GPT-5.5 (low) von OpenAI	50.8	55 tok/s	1.1M	$5.00 / $30.00	23. Apr. 2026	Details
#19 Qwen3.6 Plus von Alibaba	50.0	53 tok/s	1.0M	$0.50 / $3.00	2. Apr. 2026	Details
#20 V4 Pro (Reasoning, High Effort) von DeepSeek	49.8	33 tok/s	1.0M	$1.74 / $3.48	24. Apr. 2026	Details
#21 GLM-5 (Reasoning) von Z AI	49.8	65 tok/s	203K	$1.00 / $3.20	11. Feb. 2026	Details
#22 Claude Opus 4.5 (Reasoning) von Anthropic	49.7	57 tok/s	200K	$5.00 / $25.00	24. Nov. 2025	Details
#23 M2.7 von MiniMax	49.6	45 tok/s	197K	$0.30 / $1.20	18. März 2026	Details
#24 Grok 4.20 0309 v2 (Reasoning) von xAI	49.3	88 tok/s	k. A.	$2.00 / $6.00	7. Apr. 2026	Details
#25 MiMo-V2-Pro von Xiaomi	49.2	k. A.	1.0M	k. A. / k. A.	18. März 2026	Details
#26 MiMo-V2.5 von Xiaomi	49.0	k. A.	1.0M	k. A. / k. A.	k. A.	Details
#27 GPT-5.2 Codex (xhigh) von OpenAI	49.0	88 tok/s	400K	$1.75 / $14.00	11. Dez. 2025	Details
#28 GPT-5.4 mini (xhigh) von OpenAI	48.9	164 tok/s	400K	$0.75 / $4.50	17. März 2026	Details
#29 Grok 4.20 0309 (Reasoning) von xAI	48.5	85 tok/s	k. A.	$2.00 / $6.00	10. März 2026	Details
#30 Gemini 3 Pro Preview (high) von Google	48.4	123 tok/s	k. A.	$2.00 / $12.00	18. Nov. 2025	Details
#31 GPT-5.4 (low) von OpenAI	47.9	59 tok/s	1.1M	$2.50 / $15.00	5. März 2026	Details
#32 GPT-5.1 (high) von OpenAI	47.7	131 tok/s	400K	$1.25 / $10.00	13. Nov. 2025	Details
#33 GLM-5-Turbo von Z AI	46.8	k. A.	203K	k. A. / k. A.	15. März 2026	Details
#34 Kimi K2.5 (Reasoning) von MoonshotAI	46.8	31 tok/s	262K	$0.60 / $3.00	27. Jan. 2026	Details
#35 GPT-5.2 (medium) von OpenAI	46.6	k. A.	400K	$1.75 / $14.00	11. Dez. 2025	Details
#36 V4 Flash (Reasoning, Max Effort) von DeepSeek	46.5	79 tok/s	1.0M	$0.14 / $0.28	24. Apr. 2026	Details
#37 Claude Opus 4.6 (Non-reasoning, High Effort) von Anthropic	46.5	41 tok/s	1.0M	$5.00 / $25.00	5. Feb. 2026	Details
#38 Gemini 3 Flash Preview (Reasoning) von Google	46.4	184 tok/s	1.0M	$0.50 / $3.00	17. Dez. 2025	Details
#39 Qwen3.6 27B (Reasoning) von Alibaba	45.8	63 tok/s	256K	$0.60 / $3.60	22. Apr. 2026	Details
#40 Qwen3.5 397B A17B (Reasoning) von Alibaba	45.0	50 tok/s	262K	$0.60 / $3.60	16. Feb. 2026	Details
#41 V4 Flash (Reasoning, High Effort) von DeepSeek	44.9	k. A.	1.0M	$0.14 / $0.28	24. Apr. 2026	Details
#42 MiMo-V2-Omni-0327 von Xiaomi	44.9	k. A.	k. A.	k. A. / k. A.	27. März 2026	Details
#43 GPT-5 (high) von OpenAI	44.6	82 tok/s	400K	$1.25 / $10.00	7. Aug. 2025	Details
#44 GPT-5 Codex (high) von OpenAI	44.6	165 tok/s	400K	$1.25 / $10.00	23. Sept. 2025	Details
#45 Claude Sonnet 4.6 (Non-reasoning, High Effort) von Anthropic	44.4	47 tok/s	1.0M	$3.00 / $15.00	17. Feb. 2026	Details
#46 GPT-5.4 nano (xhigh) von OpenAI	44.0	160 tok/s	400K	$0.20 / $1.25	17. März 2026	Details
#47 KAT Coder Pro V2 von KwaiKAT	43.8	111 tok/s	256K	$0.30 / $1.20	27. März 2026	Details
#48 GLM-5.1 (Non-reasoning) von Z AI	43.8	41 tok/s	203K	$1.40 / $4.40	7. Apr. 2026	Details
#49 Qwen3.6 35B A3B (Reasoning) von Alibaba	43.5	188 tok/s	262K	$0.25 / $1.49	16. Apr. 2026	Details
#50 MiMo-V2-Omni von Xiaomi	43.4	k. A.	262K	k. A. / k. A.	19. März 2026	Details
#51 GPT-5.1 Codex (high) von OpenAI	43.1	171 tok/s	400K	$1.25 / $10.00	13. Nov. 2025	Details
#52 Claude Opus 4.5 (Non-reasoning) von Anthropic	43.1	50 tok/s	200K	$5.00 / $25.00	24. Nov. 2025	Details
#53 Kimi K2.6 (Non-reasoning) von MoonshotAI	43.0	k. A.	262K	k. A. / k. A.	20. Apr. 2026	Details
#54 Claude 4.5 Sonnet (Reasoning) von Anthropic	43.0	44 tok/s	k. A.	$3.00 / $15.00	29. Sept. 2025	Details
#55 GLM 5V Turbo (Reasoning) von Z AI	42.9	k. A.	203K	k. A. / k. A.	1. Apr. 2026	Details
#56 Claude Sonnet 4.6 (Non-reasoning, Low Effort) von Anthropic	42.6	49 tok/s	1.0M	$3.00 / $15.00	17. Feb. 2026	Details
#57 GLM-4.7 (Reasoning) von Z AI	42.1	103 tok/s	203K	$0.60 / $2.20	22. Dez. 2025	Details
#58 Qwen3.5 27B (Reasoning) von Alibaba	42.1	87 tok/s	262K	$0.30 / $2.40	24. Feb. 2026	Details
#59 GPT-5 (medium) von OpenAI	42.0	83 tok/s	400K	$1.25 / $10.00	7. Aug. 2025	Details
#60 Claude 4.1 Opus (Reasoning) von Anthropic	42.0	36 tok/s	k. A.	$15.00 / $75.00	5. Aug. 2025	Details
#61 Hy3-preview (Reasoning) von Tencent	41.9	84 tok/s	k. A.	k. A. / k. A.	23. Apr. 2026	Details
#62 M2.5 von MiniMax	41.9	81 tok/s	197K	$0.30 / $1.20	12. Feb. 2026	Details
#63 V3.2 (Reasoning) von DeepSeek	41.7	k. A.	131K	$0.28 / $0.42	1. Dez. 2025	Details
#64 Qwen3.5 122B A10B (Reasoning) von Alibaba	41.6	135 tok/s	262K	$0.40 / $3.20	24. Feb. 2026	Details
#65 MiMo-V2-Flash (Feb 2026) von Xiaomi	41.5	120 tok/s	262K	$0.10 / $0.30	16. Dez. 2025	Details
#66 Grok 4 von xAI	41.5	48 tok/s	k. A.	$3.00 / $15.00	10. Juli 2025	Details
#67 Gemini 3 Pro Preview (low) von Google	41.3	k. A.	k. A.	$2.00 / $12.00	18. Nov. 2025	Details
#68 GPT-5 mini (high) von OpenAI	41.2	78 tok/s	400K	$0.25 / $2.00	7. Aug. 2025	Details
#69 GPT-5.5 (Non-reasoning) von OpenAI	40.9	51 tok/s	1.1M	$5.00 / $30.00	23. Apr. 2026	Details
#70 Kimi K2 Thinking von MoonshotAI	40.9	101 tok/s	262K	$0.60 / $2.50	6. Nov. 2025	Details
#71 o3-pro von OpenAI	40.7	17 tok/s	200K	$20.00 / $80.00	10. Juni 2025	Details
#72 GLM-5 (Non-reasoning) von Z AI	40.6	59 tok/s	203K	$1.00 / $3.20	11. Feb. 2026	Details
#73 Qwen3.5 397B A17B (Non-reasoning) von Alibaba	40.1	52 tok/s	262K	$0.60 / $3.60	16. Feb. 2026	Details
#74 Qwen3 Max Thinking von Alibaba	39.9	34 tok/s	262K	$1.20 / $6.00	26. Jan. 2026	Details
#75 M2.1 von MiniMax	39.4	83 tok/s	197K	$0.30 / $1.20	23. Dez. 2025	Details
#76 V4 Pro (Non-reasoning) von DeepSeek	39.3	k. A.	1.0M	k. A. / k. A.	24. Apr. 2026	Details
#77 Gemma 4 31B (Reasoning) von Google	39.2	35 tok/s	262K	k. A. / k. A.	2. Apr. 2026	Details
#78 GPT-5 (low) von OpenAI	39.2	64 tok/s	400K	$1.25 / $10.00	7. Aug. 2025	Details
#79 MiMo-V2-Flash (Reasoning) von Xiaomi	39.2	119 tok/s	262K	$0.10 / $0.30	16. Dez. 2025	Details
#80 Claude 4 Opus (Reasoning) von Anthropic	39.0	36 tok/s	k. A.	$15.00 / $75.00	22. Mai 2025	Details
#81 GPT-5 mini (medium) von OpenAI	38.9	74 tok/s	400K	$0.25 / $2.00	7. Aug. 2025	Details
#82 Claude 4 Sonnet (Reasoning) von Anthropic	38.7	48 tok/s	k. A.	$3.00 / $15.00	22. Mai 2025	Details
#83 Grok 4.1 Fast (Reasoning) von xAI	38.6	140 tok/s	k. A.	$0.20 / $0.50	19. Nov. 2025	Details
#84 Qwen3.5 Omni Plus von Alibaba	38.6	56 tok/s	k. A.	$0.40 / $4.80	30. März 2026	Details
#85 GPT-5.1 Codex mini (high) von OpenAI	38.6	206 tok/s	400K	$0.25 / $2.00	13. Nov. 2025	Details
#86 Step 3.5 Flash 2603 von StepFun	38.5	134 tok/s	262K	k. A. / k. A.	2. Apr. 2026	Details
#87 o3 von OpenAI	38.4	74 tok/s	200K	$2.00 / $8.00	16. Apr. 2025	Details
#88 GPT-5.4 nano (medium) von OpenAI	38.1	160 tok/s	400K	$0.20 / $1.25	17. März 2026	Details
#89 Step 3.5 Flash von StepFun	37.8	125 tok/s	262K	$0.10 / $0.30	2. Feb. 2026	Details
#90 GPT-5.4 mini (medium) von OpenAI	37.7	161 tok/s	400K	$0.75 / $4.50	17. März 2026	Details
#91 Kimi K2.5 (Non-reasoning) von MoonshotAI	37.3	31 tok/s	262K	$0.60 / $3.00	27. Jan. 2026	Details
#92 Qwen3.5 27B (Non-reasoning) von Alibaba	37.2	91 tok/s	262K	$0.30 / $2.40	24. Feb. 2026	Details
#93 Claude 4.5 Haiku (Reasoning) von Anthropic	37.1	104 tok/s	k. A.	$1.00 / $5.00	15. Okt. 2025	Details
#94 Qwen3.6 27B (Non-reasoning) von Alibaba	37.1	60 tok/s	256K	$0.60 / $3.60	22. Apr. 2026	Details
#95 Claude 4.5 Sonnet (Non-reasoning) von Anthropic	37.1	41 tok/s	k. A.	$3.00 / $15.00	29. Sept. 2025	Details
#96 Qwen3.5 35B A3B (Reasoning) von Alibaba	37.1	128 tok/s	262K	$0.25 / $2.00	24. Feb. 2026	Details
#97 V4 Flash (Non-reasoning) von DeepSeek	36.5	k. A.	1.0M	k. A. / k. A.	24. Apr. 2026	Details
#98 M2 von MiniMax	36.1	83 tok/s	197K	$0.30 / $1.20	26. Okt. 2025	Details
#99 Nemotron 3 Super 120B A12B (Reasoning) von NVIDIA	36.0	162 tok/s	262K	$0.30 / $0.75	11. März 2026	Details
#100 KAT-Coder-Pro V1 von KwaiKAT	36.0	114 tok/s	k. A.	$0.30 / $1.20	11. Nov. 2025	Details

Zeige 100 von 507 Modelle

Made in Europe

Chat with 100+ AI Models in one App.

Use Claude, ChatGPT, Gemini alongside with EU-Hosted Models like Deepseek, GLM-5, Kimi K2.5 and many more.

Start for free View pricing

App herunterladen:

Das KI-Modell-Leaderboard verstehen

Dieses umfassende KI-Modell-Leaderboard hilft Ihnen, zu vergleichen und auszuwählen die besten Large Language Models (LLMs) für Ihre Anforderungen. Wir erfassen standardisierte KI-Benchmarks, Token-Preise, Inference-Geschwindigkeit und Modellfähigkeiten bei allen großen KI-Anbietern wie OpenAI, Anthropic, Google, Meta, und DeepSeek.

Kern-KI-Benchmarks erklärt

MMLU-Pro Testet breites Wissen über 14 akademische Fachbereiche

GPQA Denken & Problemlösung auf Promotionsniveau

AIME 2025 Mathematisches Denken auf Spitzenniveau

Coding Index LiveCodeBench + SciCode kombiniert

Math Index AIME + MATH-500 kombiniert

Wichtige Kennzahlen

Token-Preisgestaltung Input- vs. Output-Kosten pro 1 Mio. Tokens

Inference-Geschwindigkeit Tokens/Sekunde für Antwortzeit

Veröffentlichungsdatum Neueste Techniken & Wissensstand

Benchmark-Scores Fähigkeitsvergleich von 0-100 %

So wählen Sie das richtige KI-Modell für Ihren Use Case

Für Forschung & Analyse

Priorisieren Sie Modelle mit hohen MMLU-Pro- (70 %+) und GPQA-Werten (60 %+), wenn es um komplexe Denkaufgaben, wissenschaftliche Recherche und technische Dokumentation geht

Für Kostenoptimierung

Sortieren Sie nach Input-/Output-Preisen - kleinere Modelle liefern bei einfachen Aufgaben oft 80 % der Flaggschiff-Leistung zu 10 % der Kosten

Für Mathe & MINT

Filtern Sie nach Math-Index oder AIME-2025-Scores (50 %+) für quantitative Analysen, Engineering-Berechnungen und wissenschaftliche Anwendungen

Alle Benchmark-Scores und Preisdaten werden täglich von Artificial Analysis aktualisiert, um die neuesten Modellversionen und Fähigkeiten abzubilden. Nutzen Sie die Sortierfilter oben, um KI-Modelle nach Intelligenz, Kosten, Coding-Fähigkeit, Mathe-Leistung, Geschwindigkeit oder Veröffentlichungsdatum zu finden.

Häufig gestellte Fragen

Was ist MMLU-Pro und warum gilt es als Standard-Benchmark für KI-Intelligenz?

MMLU-Pro (Massive Multitask Language Understanding - Professional) ist der umfassendste KI-Benchmark und testet Modelle in 14 akademischen Fachbereichen, darunter Mathematik, Naturwissenschaften, Geschichte, Recht und Ethik. Die Werte reichen von 46 % (Grundkompetenz) bis 87 % (nahe Expertenniveau). Modelle über 75 % zeigen starke allgemeine Intelligenz für professionelle Anwendungen, während Werte unter 60 % auf Einschränkungen bei komplexen Denkaufgaben hindeuten.

Was misst GPQA und welche Modelle erzielen die höchsten Werte?

GPQA (Graduate-level Google-Proof Q&A) prüft Denken auf Promotionsniveau mit Fragen, die bewusst "Google-proof" sind - sie erfordern tiefes Verständnis statt bloßer Faktenrecherche. Spitzenmodelle wie GPT-5.1 (87,3 %), GPT-5 mini (82,8 %) und o3 (82,7 %) sind bei GPQA besonders stark und eignen sich für Forschung, technische Analysen und komplexe Problemlösung. Modelle unter 50 % GPQA haben oft Schwierigkeiten bei anspruchsvollem Denken und liefern eher oberflächliche Antworten.

Was ist AIME 2025 und wie bewertet es die mathematischen Fähigkeiten von KI?

AIME 2025 (American Invitational Mathematics Examination) ist ein Benchmark auf Wettbewerbsniveau, der fortgeschrittene Problemlösung, Algebra, Geometrie und Zahlentheorie testet. Werte über 80 % (wie GPT-5 Codex mit 98,7 % oder GPT-5.1 mit 94 %) zeigen außergewöhnliches mathematisches Denken für Engineering, Scientific Computing und quantitative Analysen. Modelle unter 50 % können bei mehrstufigen mathematischen Aufgaben Probleme haben oder benötigen eine explizite Aufschlüsselung.

Wie wird die Preisgestaltung von KI-Modellen berechnet und was gilt als kosteneffizient?

Die Preise von KI-Modellen werden pro 1 Million Tokens berechnet (etwa 750.000 Wörter). Input-Preise betreffen den Text, den Sie senden, Output-Preise die generierten Antworten. Günstige Modelle wie Llama 3.3 70B kosten $0.54/$0.71 pro Million Tokens, Mid-Tier-Modelle wie GPT-5 nano $0.05/$0.40, Premium-Modelle wie GPT-5 $1.25/$10. Bei typischen Anwendungen mit einem Input-/Output-Verhältnis von 3:1 können Budget-Modelle 10- bis 20-mal günstiger sein und dennoch 70-80 % der Leistung liefern.

Welche KI-Modelle eignen sich am besten für Coding und Programmierung?

Sortieren Sie nach Coding Index um die besten Programmiermodelle zu sehen. Unser Coding Index kombiniert LiveCodeBench, SciCode und Coding-Benchmarks. Zu den Top-Performern gehören GPT-5.1 (57,5), GPT-5 mini (51,4) und GPT-5 Codex (53,5). Diese Modelle sind stark bei Codegenerierung, Debugging, Refactoring und der Erklärung komplexer Algorithmen. Für kostenbewusste Entwickler bieten Modelle mit 40+ Punkten im Coding Index ein sehr gutes Preis-Leistungs-Verhältnis für Routineaufgaben.

Wie oft werden KI-Modell-Benchmarks und Rankings aktualisiert?

Unser Leaderboard wird täglich mit der Artificial Analysis API synchronisiert, damit Benchmark-Scores (MMLU-Pro, GPQA, AIME 2025), Preise und Inference-Geschwindigkeit die neuesten Modellversionen widerspiegeln. Neue Modell-Releases erscheinen sofort unter der Sortierung "Neueste". Benchmark-Scores können sich ändern, wenn Anbieter aktualisierte Versionen veröffentlichen - zum Beispiel erreichte GPT-5.1 (veröffentlicht im November 2025) 69,7 Intelligenzpunkte gegenüber 68,5 bei GPT-5 aus August 2025.

Welche Inference-Geschwindigkeit (Tokens/Sekunde) brauche ich für meine Anwendung?

Die Inference-Geschwindigkeit bestimmt, wie schnell Modelle Antworten erzeugen. Für Echtzeit-Chatbots und interaktive Anwendungen sind 100+ Tokens/Sekunde sinnvoll (z. B. gpt-oss-120B mit 340 tok/s). Für Hintergrundverarbeitung und Batch-Jobs reichen 50-100 tok/s. Premium-Reasoning-Modelle wie GPT-5 (103 tok/s) balancieren Geschwindigkeit und Fähigkeiten. Wichtig: Höhere Geschwindigkeit bedeutet nicht automatisch bessere Qualität - langsamere Modelle liefern oft durchdachtere, detailliertere Antworten.

Kann ich diese KI-Modelle kostenlos testen, bevor ich mich entscheide?

Ja! Probieren Sie unsere kostenlose KI-Chatoberfläche aus, um verschiedene Modelle sofort ohne Account zu testen. Viele Anbieter haben ebenfalls kostenlose Stufen: OpenAI (ChatGPT mit Tageslimits), Anthropic (Claude mit Nutzungslimits), Google (Gemini Free Tier) und Open-Source-Modelle wie Llama 3.3. Vergleichen Sie die Leistung für Ihren konkreten Use Case, bevor Sie auf bezahlte Pläne wechseln.