GLM 4.6V

by Z.AI

GLM-4.6V is a large multimodal model designed for high-fidelity visual understanding and long-context reasoning across images, documents, and mixed media. It supports up to 128K tokens, processes complex page layouts and charts directly as visual inputs, and integrates native multimodal function calling to connect perception with downstream tool execution. The model also enables interleaved image-text generation and UI reconstruction workflows, including screenshot-to-HTML synthesis and iterative visual editing.

Capabilities

Text Generation Image Analysis 131K Context

0/500

AI can make mistakes. Handle with care.

Grok Code Fast 1

Gemini 2.5 Flash

Claude Sonnet 4.5

gpt-oss-120b

Claude Opus 4.5

DeepSeek V3.2

Gemini 2.0 Flash

Gemini 2.5 Flash Lite

Grok 4.1 Fast

Grok 4 Fast

GPT-5.2

Gemini 3 Pro Preview

Gemini 2.5 Pro

DeepSeek V3 0324

MiniMax M2

GLM 4.6

Claude Haiku 4.5

GPT-4o-mini

GPT-5 Mini

DeepSeek V3.1

Mistral Nemo

Claude Sonnet 4

Qwen3 235B A22B Instruct 2507

Gemini 3 Flash Preview

Gemini 2.5 Flash Preview 09-2025

GPT-5 Nano

Gemini 2.5 Flash Lite Preview 09-2025

gpt-oss-20b

GPT-5

GPT-4.1

GPT-4.1 Mini

Qwen3 VL 235B A22B Instruct

Gemini 2.0 Flash Lite

GPT-5.1

Claude 3.7 Sonnet

Kimi K2 0905

DeepSeek V3.2 Exp

Llama 3.3 70B Instruct

Gemma 3 27B

Qwen3 32B

Kimi K2 Thinking

Qwen3 Embedding 8B

Llama 3.1 8B Instruct

Llama 4 Maverick

Qwen3 Coder 480B A35B

GPT-5.1-Codex

Mistral Small 3.2 24B

R1 0528

DeepSeek V3.1 Terminus

GPT-4.1 Nano

Qwen3 Next 80B A3B Instruct

GPT-5 Chat

Text Embedding 3 Small

DeepSeek V3

GPT-4o

Mistral Small 3

Qwen2.5 7B Instruct

Qwen3 VL 8B Instruct

Grok 3 Mini

Llama 3.1 70B Instruct

Grok 4

Claude 3.5 Haiku

Llama 4 Scout

Gemma 3 12B

Qwen3 Coder Plus

Qwen3 VL 235B A22B Thinking

Devstral Small 1.1

DeepSeek R1T2 Chimera

GLM 4.5

GPT-4o-mini (2024-07-18)

Nemotron Nano 9B V2

gpt-oss-120b (exacto)

GPT-5.1-Codex-Max

gpt-oss-safeguard-20b

Kimi K2 0711

Llama 3 8B Lunaris

GLM 4 32B

Phi 4

Grok 3

R1