CaptionQA Benchmark

About CaptionQA

CaptionQA evaluates whether image captions can stand in for images in downstream tasks. We measure utility: how well captions preserve visual information needed for real-world applications.

Benchmark Stats:
• 33,027 questions over 657 images
• 4 domains (Natural, Document, E-commerce, Embodied AI)
• 25 top-level + 69 subcategories
• 50.3 questions per image

Scoring Methodology

The leaderboard ranks models using a Score metric. For each question: 1.0 if correct, 0.0 if incorrect, 1/K + 0.05 if "Cannot answer" (where K = number of choices). Final score = average across all questions (%).

This favors precision over hallucination: saying less but avoiding wrong information scores higher than confidently misleading captions.

Resources

📝 Blog Posts:

English Blog

Rethinking Multimodality from an Industry Perspective

Chinese Blog / 中文博客

从产业视角重新审视多模态

Submission

1. Download the dataset from HuggingFace

2. Generate captions with your model

3. (Optional) Evaluate on validation set

4. Email captions to captionqa.team@gmail.com

5. We evaluate and email you the Score results (see Scoring Methodology above)

6. PR a table row to leaderboard repo

Privacy First: Email us only your captions (simple image_id: caption JSON), no personal info needed.
Easy PR: Copy our HTML template, fill in your scores, and add one table row to index.html.
See the detailed submission guide for the complete process.

Citation

@misc{yang2025captionqacaptionusefulimage,
  title={CaptionQA: Is Your Caption as Useful as the Image Itself?},
  author={Shijia Yang and Yunong Liu and Bohan Zhai and Ximeng Sun and
          Zicheng Liu and Emad Barsoum and Manling Li and Chenfeng Xu},
  year={2025},
  eprint={2511.21025},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2511.21025}
}

Overall Leaderboard - Caption Utility Score (%)

Rank	Model	Type	Size	Overall	Natural	Document	E-comm	Embodied
1 2025-Nov-19	GPT-5 OpenAI	Proprietary	-	90.28	88.78	90.81	94.73	86.82
2 2025-Nov-19	Gemini 2.5 Flash Google	Proprietary	-	89.64	88.95	88.97	95.73	84.89
3 2025-Nov-19	Gemini 2.5 Pro Google	Proprietary	-	88.98	87.89	88.66	93.91	85.45
4 2025-Nov-19	o4-mini OpenAI	Proprietary	-	87.23	84.66	88.14	93.18	82.94
5 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	30B-A3B	87.02	86.14	85.89	93.9	82.15
6 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	8B	86.2	85.25	85.85	93.35	80.37
7 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	4B	86.01	84.73	84.99	93.77	80.56
8 2025-Nov-19	GPT-4o OpenAI	Proprietary	-	84.56	82.69	82.55	91.4	81.61
9 2025-Nov-19	GLM-4.1V Zhipu AI	Open-Source	9B	84.28	81.67	87.86	92.04	75.56
10 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	32B	81.2	78.35	82.67	90.81	72.98
11 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	38B	79.58	78.26	78.91	86.47	74.68
12 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	72B	79.12	75.26	80.56	89.07	71.6
13 2025-Nov-19	Claude Sonnet 4.5 Anthropic	Proprietary	-	78.94	76.56	83.09	88.86	67.27
14 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	8B	77.84	76.46	75.83	87.01	72.07
15 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	30B-A3B	76.96	74.58	77.72	85.79	69.75
16 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	8B	76.34	72.97	78.56	86.6	67.24
17 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	14B	76.06	74.16	74.17	86.17	69.75
18 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	7B	75.31	71.64	75.85	85.38	68.36
19 2025-Nov-19	NVLM-D NVIDIA	Open-Source	72B	71.79	73.13	65.25	78.46	70.31
20 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	1B	71.51	70.82	68.08	82.69	64.46
21 2025-Nov-19	LLaVA-OneVision ByteDance	Open-Source	7B	66.03	66.56	61.45	75.09	61.01
22 2025-Nov-19	LLaVA-1.5 UW-Madison	Open-Source	7B	46.96	52.51	36.48	49.0	49.84
23 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	78B	36.46	38.86	34.19	38.47	34.32
24 2025-Nov-19	Mistral Small 3.1 Mistral AI	Proprietary	24B	33.76	35.91	30.81	34.52	33.78

Natural Domain - Category Scores (%)

Rank	Model	Type	Size	Overall	Action & Interaction	Attribute	Hallucination	Object Existence	Scene-Level	Spatial
1 2025-Nov-19	GPT-5 OpenAI	Proprietary	-	88.78	92.77	84.78	95.13	93.53	93.3	78.34
2 2025-Nov-19	GPT-4o OpenAI	Proprietary	-	82.69	86.56	76.3	92.46	88.37	88.88	70.77
3 2025-Nov-19	o4-mini OpenAI	Proprietary	-	84.66	86.64	80.09	94.09	89.21	88.94	73.68
4 2025-Nov-19	Gemini 2.5 Pro Google	Proprietary	-	87.89	89.82	84.74	94.41	92.18	92.37	77.41
5 2025-Nov-19	Gemini 2.5 Flash Google	Proprietary	-	88.95	90.33	86.06	94.94	93.95	92.65	78.41
6 2025-Nov-19	Claude Sonnet 4.5 Anthropic	Proprietary	-	76.56	77.07	71.48	86.81	79.53	86.26	64.32
7 2025-Nov-19	Mistral Small 3.1 Mistral AI	Proprietary	24B	35.91	33.55	30.62	54.58	34.25	35.88	30.73
8 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	30B-A3B	86.14	86.86	82.99	93.76	90.6	91.54	74.23
9 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	8B	85.25	86.21	82.48	92.3	89.58	90.78	73.2
10 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	4B	84.73	87.01	80.76	92.16	89.45	90.58	73.02
11 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	72B	75.26	78.17	68.75	87.68	79.39	84.71	61.0
12 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	32B	78.35	80.15	72.42	88.37	83.71	87.01	64.89
13 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	7B	71.64	74.57	63.77	85.38	75.7	82.86	57.28
14 2025-Nov-19	GLM-4.1V Zhipu AI	Open-Source	9B	81.67	82.81	77.39	90.98	86.29	88.28	68.8
15 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	38B	78.26	82.6	71.77	89.77	83.63	84.17	65.27
16 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	30B-A3B	74.58	77.13	68.8	86.29	78.59	83.12	60.77
17 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	8B	72.97	76.29	67.27	84.73	75.27	81.87	60.56
18 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	1B	70.82	72.89	63.69	82.5	75.57	82.67	56.16
19 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	78B	38.86	35.93	32.38	56.79	37.09	41.42	34.93
20 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	14B	74.16	76.99	67.29	86.68	77.75	84.34	60.67
21 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	8B	76.46	81.03	69.93	87.89	80.72	86.93	61.52
22 2025-Nov-19	NVLM-D NVIDIA	Open-Source	72B	73.13	75.83	66.45	85.88	74.57	85.23	60.51
23 2025-Nov-19	LLaVA-OneVision ByteDance	Open-Source	7B	66.56	69.28	58.31	82.11	66.94	81.69	53.08
24 2025-Nov-19	LLaVA-1.5 UW-Madison	Open-Source	7B	52.51	58.72	42.27	71.65	49.08	66.82	43.01

Document Domain - Category Scores (%)

Rank	Model	Type	Size	Overall	Chart-Specific	Content-Level	Diagram-Specific	Domain-Specific	Structural	Table-Specific
1 2025-Nov-19	GPT-5 OpenAI	Proprietary	-	90.81	90.18	94.9	92.85	96.59	82.71	89.81
2 2025-Nov-19	GPT-4o OpenAI	Proprietary	-	82.55	84.86	87.41	86.67	91.81	69.07	81.36
3 2025-Nov-19	o4-mini OpenAI	Proprietary	-	88.14	88.02	92.73	90.25	94.78	79.5	85.5
4 2025-Nov-19	Gemini 2.5 Pro Google	Proprietary	-	88.66	90.67	93.28	93.83	92.53	77.66	85.67
5 2025-Nov-19	Gemini 2.5 Flash Google	Proprietary	-	88.97	90.33	92.64	91.52	94.09	81.34	85.37
6 2025-Nov-19	Claude Sonnet 4.5 Anthropic	Proprietary	-	83.09	83.1	87.93	87.71	86.51	74.05	79.04
7 2025-Nov-19	Mistral Small 3.1 Mistral AI	Proprietary	24B	30.81	33.4	29.63	31.65	30.68	30.32	30.72
8 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	30B-A3B	85.89	87.55	90.94	88.32	92.2	74.84	84.47
9 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	8B	85.85	84.93	90.61	89.39	92.15	76.2	84.04
10 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	4B	84.99	83.52	91.78	88.38	91.71	72.17	84.65
11 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	72B	80.56	80.08	86.32	84.86	87.98	67.61	80.36
12 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	32B	82.67	82.62	87.32	85.89	92.18	69.98	84.58
13 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	7B	75.85	75.75	80.9	79.93	84.29	62.7	77.22
14 2025-Nov-19	GLM-4.1V Zhipu AI	Open-Source	9B	87.86	88.14	92.66	91.06	93.16	77.52	87.01
15 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	38B	78.91	78.13	84.44	83.38	88.07	64.26	81.78
16 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	30B-A3B	77.72	79.09	82.91	82.31	87.15	62.73	79.08
17 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	8B	78.56	79.68	83.15	82.75	86.54	65.0	80.65
18 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	1B	68.08	66.53	73.26	71.67	77.82	55.24	70.05
19 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	78B	34.19	35.65	32.27	34.81	32.55	34.8	36.7
20 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	14B	74.17	75.26	80.17	77.15	79.96	60.43	75.92
21 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	8B	75.83	75.65	81.49	78.47	87.39	61.94	76.97
22 2025-Nov-19	NVLM-D NVIDIA	Open-Source	72B	65.25	66.55	69.36	67.63	72.5	56.18	62.24
23 2025-Nov-19	LLaVA-OneVision ByteDance	Open-Source	7B	61.45	61.14	66.36	64.12	63.39	55.33	55.48
24 2025-Nov-19	LLaVA-1.5 UW-Madison	Open-Source	7B	36.48	37.86	35.13	39.2	35.25	35.38	37.71

E-commerce Domain - Category Scores (%)

Rank	Model	Type	Size	Overall	Brand & Marketing	Contextual & Scene	Functional	Packaging	Product-Level	Textual Elements	Visual Appearance
1 2025-Nov-19	GPT-5 OpenAI	Proprietary	-	94.73	95.43	96.78	98.52	93.82	97.11	97.72	83.93
2 2025-Nov-19	GPT-4o OpenAI	Proprietary	-	91.4	91.84	95.51	96.46	88.27	93.79	96.65	76.43
3 2025-Nov-19	o4-mini OpenAI	Proprietary	-	93.18	94.55	95.39	97.03	93.99	95.62	97.89	78.98
4 2025-Nov-19	Gemini 2.5 Pro Google	Proprietary	-	93.91	96.02	96.08	96.06	90.6	96.64	97.62	82.68
5 2025-Nov-19	Gemini 2.5 Flash Google	Proprietary	-	95.73	98.29	96.84	98.38	94.68	97.85	99.19	84.8
6 2025-Nov-19	Claude Sonnet 4.5 Anthropic	Proprietary	-	88.86	89.4	92.36	91.74	87.03	92.64	94.63	73.34
7 2025-Nov-19	Mistral Small 3.1 Mistral AI	Proprietary	24B	34.52	32.25	34.4	30.01	31.01	33.5	30.57	46.63
8 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	30B-A3B	93.9	96.15	94.9	95.96	92.63	96.02	98.53	82.71
9 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	8B	93.35	95.48	95.52	96.11	91.11	95.39	97.84	81.17
10 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	4B	93.77	96.21	95.39	96.97	92.69	94.83	98.71	81.7
11 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	72B	89.07	90.02	92.09	93.9	87.59	91.85	96.03	72.07
12 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	32B	90.81	92.21	93.17	96.43	86.11	92.21	96.39	77.89
13 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	7B	85.38	86.64	89.59	91.82	81.16	88.02	90.71	68.64
14 2025-Nov-19	GLM-4.1V Zhipu AI	Open-Source	9B	92.04	94.84	94.78	96.59	87.85	94.46	97.78	76.52
15 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	38B	86.47	86.75	91.51	92.59	83.04	90.28	91.65	68.58
16 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	30B-A3B	85.79	87.26	90.09	91.46	78.12	88.44	93.04	68.87
17 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	8B	86.6	88.98	90.97	90.57	80.03	89.69	92.37	70.32
18 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	1B	82.69	85.14	86.38	90.05	74.22	85.88	89.86	64.14
19 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	78B	38.47	37.81	39.08	33.69	33.65	37.94	31.78	51.13
20 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	14B	86.17	88.36	90.93	91.49	79.2	88.37	91.97	69.91
21 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	8B	87.01	89.13	90.56	93.03	81.63	89.17	94.09	69.74
22 2025-Nov-19	NVLM-D NVIDIA	Open-Source	72B	78.46	74.99	85.88	83.72	74.63	84.79	77.65	65.64
23 2025-Nov-19	LLaVA-OneVision ByteDance	Open-Source	7B	75.09	69.6	84.32	76.56	74.26	79.18	69.88	70.43
24 2025-Nov-19	LLaVA-1.5 UW-Madison	Open-Source	7B	49.0	38.3	63.13	46.27	42.41	55.06	35.39	55.81

Embodied AI Domain - Category Scores (%)

Rank	Model	Type	Size	Overall	Activity & Task	Functional & Semantic	Perception	Scene Dynamics	Sensor & Embodiment	Spatial & Environment
1 2025-Nov-19	GPT-5 OpenAI	Proprietary	-	86.82	95.24	93.23	84.53	84.99	85.28	84.93
2 2025-Nov-19	GPT-4o OpenAI	Proprietary	-	81.61	93.84	89.04	77.85	82.68	81.4	79.79
3 2025-Nov-19	o4-mini OpenAI	Proprietary	-	82.94	93.68	90.07	79.28	83.86	82.78	81.66
4 2025-Nov-19	Gemini 2.5 Pro Google	Proprietary	-	85.45	94.67	90.13	82.73	86.23	88.44	83.58
5 2025-Nov-19	Gemini 2.5 Flash Google	Proprietary	-	84.89	93.32	89.64	82.25	77.37	86.24	84.34
6 2025-Nov-19	Claude Sonnet 4.5 Anthropic	Proprietary	-	67.27	78.37	73.62	60.46	67.22	64.0	72.89
7 2025-Nov-19	Mistral Small 3.1 Mistral AI	Proprietary	24B	33.78	36.88	30.91	30.71	32.42	35.33	39.49
8 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	30B-A3B	82.15	93.21	87.85	78.61	79.43	83.99	81.16
9 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	8B	80.37	90.47	86.04	76.43	80.89	81.35	80.38
10 2025-Nov-19	Qwen3-VL Alibaba	Open-Source	4B	80.56	91.68	86.01	76.74	75.22	83.79	80.08
11 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	72B	71.6	88.13	78.93	64.75	70.67	72.96	73.63
12 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	32B	72.98	85.62	78.85	67.67	71.66	69.43	75.7
13 2025-Nov-19	Qwen2.5-VL Alibaba	Open-Source	7B	68.36	86.47	77.29	60.83	66.05	67.65	70.83
14 2025-Nov-19	GLM-4.1V Zhipu AI	Open-Source	9B	75.56	87.24	82.07	71.38	77.24	73.41	75.64
15 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	38B	74.68	89.22	83.76	68.91	73.77	73.07	75.28
16 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	30B-A3B	69.75	85.14	78.44	62.14	74.66	67.81	73.16
17 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	8B	67.24	79.84	74.38	60.91	69.02	66.39	70.2
18 2025-Nov-19	InternVL3.5 Shanghai AI Lab	Open-Source	1B	64.46	78.54	71.89	57.07	63.14	62.73	69.14
19 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	78B	34.32	37.58	32.49	31.49	35.11	36.86	38.52
20 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	14B	69.75	83.8	77.95	63.22	71.02	71.81	71.31
21 2025-Nov-19	InternVL3 Shanghai AI Lab	Open-Source	8B	72.07	87.57	81.44	65.44	75.09	73.03	72.73
22 2025-Nov-19	NVLM-D NVIDIA	Open-Source	72B	70.31	83.8	77.55	64.15	68.24	68.15	73.24
23 2025-Nov-19	LLaVA-OneVision ByteDance	Open-Source	7B	61.01	77.19	67.69	52.92	59.3	64.83	65.25
24 2025-Nov-19	LLaVA-1.5 UW-Madison	Open-Source	7B	49.84	68.47	54.93	40.77	54.25	48.76	56.42