多模态大模型文本识别和理解能力测评

最近许多业务系统都提出了涉及图片中文本识别和理解的需求，主要集中在这几点：

通过OCR识别票证，输出结构化信息
识别文档中图片的内容（多为表格），或者是直接从文档扫描件提取文档

观察了一下最新的多模态大模型（MLLM），MLLM有图片理解能力可以直接结构化输出，一些优秀的大模型对中文的支持也不错。

结合实际需求，我选取了几款大模型进行了一些测评，下表是我得到的测评结果，详细过程可见后文。

	票证提取	文档理解	文档提取	古籍	手写文本	日常生活类
gemini-2.5-pro-preview-03-25	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
gemini-2.5-pro-preview-05-06	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
gemini-2.5-flash-preview-04-17	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
gemini-2.5-flash-preview-04-17(深度思考)	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
claude-3-7-sonnet-20250219	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐⭐	⭐⭐⭐
claude-3-7-sonnet-20250219(深度思考)	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐	⭐⭐⭐
o4-mini	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
o3	⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐	⭐⭐⭐	⭐⭐
gpt4.1	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐	⭐⭐⭐	⭐⭐⭐
通义千问-QVQ-Max(2025.3.25快照版本)	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
通义千问VL-Max(2025.4.8快照版本)	⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
通义千问2.5-VL-72B	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐	❌	⭐⭐⭐⭐⭐	⭐⭐⭐
通义千问2.5-VL-32B	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
InternVL3-14B	⭐⭐⭐	⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐

星级主要用来反应模型之间的相对水平，是基于经验和手动的测评结果得到的，仅供参考，不具备学术上的严谨性。

一些具备OCR能力，但未深入测试的MLLM：

通义千问-QVQ-72B-Preview：模型输出的内容极度倾向数学推理，基本无法输出遵循指令的内容。根据官方的说法，其在识别人员、动物或植物等基本识别任务上，QVQ 相比 Qwen2-VL-72B 并没有显著提升，因此不做测评。
通义千问VL-OCR(2025.4.13快照版本)：无法输出结构化的文本，票证、古籍和手写文字的识别效果也很一般，无法理解文档，文档提取的效果较差。

更新：2025.5.8加上了gemini-2.5-pro-preview-05-06模型。

测评结果注解：

	票证提取	文档理解	文档提取	古籍	手写文本	日常生活类
gemini-2.5-pro-preview-03-25	出租车票一些错误，行程单极少错误	完全正确	复杂表格提取出的排版有些问题	基本一致，我非专业人士，无法评估排版的合理性	完全一致	完全正确，对表情包的解读也很到位
gemini-2.5-pro-preview-05-06	出租车票一些错误，行程单极少错误	完全正确	复杂表格提取出的排版接近完全正确	基本一致，我非专业人士，无法评估排版的合理性	手写笔记有一些错误	完全正确，对表情包的解读也很到位
gemini-2.5-flash-preview-04-17	出租车票和行程单错误非常多	没有发现企业团体会员也满足条件	复杂表格提取出的排版较大问题	史记提取的不错，后汉书错误很多	英语手写笔记的识别错误较多	表情包的解读完全错误
gemini-2.5-flash-preview-04-17(深度思考)	出租车票的错误较多，行程单少许错误	未能识别出弃权票	复杂表格提取出的排版较大问题	史记提取的不错，后汉书错误很多	打油诗有几个字识别错误	表情包的解读不完全正确
claude-3-7-sonnet-20250219	出租车票和行程单错误较多，结算票据有少量错误	没有发现企业团体会员也满足条件	复杂表格提取出的排版较大问题	史记和后汉书都有较多错误	打油诗错误较多，手写笔记一些错误	表情包的解读基本错误
claude-3-7-sonnet-20250219(深度思考)	出租车票和行程单错误较多，结算票据有少量错误	完全正确	复杂表格提取出的排版有些问题	史记和后汉书都有较多错误	打油诗和手写笔记都有一些错误	表情包的解读基本错误
o4-mini	出租车票和行程单错误非常多	完全正确	复杂表格提取出的排版较大问题	史记和后汉书都有较多错误并有缺失	手写笔记有一些错误	表情包的解读完全错误
o3	出租车票和行程单和结算票据错误非常多	完全正确	复杂表格提取出的排版较大问题	史记有较多错误，后汉书无法提取	打油诗和手写笔记都有一些错误	尝试解读表情包时多次无法响应，可能是思维链太长
gpt4.1	出租车票和行程单错误较多，结算票据有少量错误	对投票文档的理解有很大错误	复杂表格提取出的排版较大问题	史记有较多错误，后汉书无法提取	打油诗少量错误，手写笔记一些错误	表情包的解读完全错误
通义千问-QVQ-Max(2025.3.25快照版本)	出租车票的错误较多，行程单少许错误	对投票文档的理解有很大错误	复杂表格提取出的排版较大问题	史记有较多错误，后汉书基本一致	基本一致，手写英文笔记有少量词组片段笔记遗漏	表情包的文化创意看懂了，但是表情包的情感分析欠佳
通义千问VL-Max(2025.4.8快照版本)	出租车票的错误较多，行程单极少错误，结算票据有一些错误	对投票文档理解有误，输出不完整；没有发现企业团体会员也满足条件	复杂表格提取出的排版非常混乱	基本一致	打油诗错误较多，手写笔记一些错误	表情包的解读基本错误
通义千问2.5-VL-72B	出租车票的错误较多，行程单极少错误	对投票文档的理解有很大错误；没有发现企业团体会员也满足条件	复杂表格提取出的排版有些问题	未能输出任何有效内容	基本一致，手写英文笔记有少量词组片段笔记遗漏	表情包的解读基本错误
通义千问2.5-VL-32B	出租车票一些错误，行程单极少错误	对投票文档的理解有很大错误	拨款通知单表格提出有些问题，复杂表格提取出的排版有些问题	能提取出主要内容，但结构与原文有明显出入	有一些手写中文字识别错误	表情包的解读完全错误
InternVL3-14B	出租车票的错误较多，行程单极少错误，结算票据有一些错误	对投票文档的理解有很大错误；没有发现企业团体会员也满足条件	拨款通知单表格提出有些问题，复杂表格提取出的排版有些问题	史记有较多错误，后汉书无法提取	打油诗少量错误，手写笔记一些错误	表情包的解读完全错误；未能得出电影名称

前沿MLLM对比

所属机构	模型名称	开源	参数量	深度思考	发布日期
Google	gemini-2.5-pro-preview-03-25	❌	❓	✅	2025.3.26
	gemini-2.5-pro-preview-05-06	❌	❓	✅	2025.5.6
	gemini-2.5-flash-preview-04-17	❌	❓	支持切换	2025.4.18
Anthropic	claude-3-7-sonnet-20250219	❌	❓	支持切换	2025.2.25
OpenAI	o4-mini	❌	❓	✅	2025.4.17
	o3	❌	❓	✅	2025.4.17
	gpt4.1	❌	❓	❌	2025.4.14
Alibaba	通义千问-QVQ-Max(2025.3.25快照版本)	❌	❓	✅	2025.3.28
	通义千问VL-Max(2025.4.8快照版本)	❌	❓	❌	2025.4.8
	通义千问-QVQ-72B-Preview	✅	72B	✅	2024.12.25
	通义千问VL-OCR(2025.4.13快照版本)	❌	❓	❌	2025.4.13
	通义千问2.5-VL-72B	✅	72B	❌	2025.1.28
	通义千问2.5-VL-32B	✅	32B	❌	2025.3.25
OpenGVLab	InternVL3	✅	78B、14B等	❌	2025.4.15

深度思考为✅的模型就是推理模型。
推理速度是基于个人经验给出的相对评价。

测试图片

票证提取（提示词：尽量详细的提取图片中的票证信息，并以json格式输出）

这个出租车票的字迹十分模糊，车号的后面一大截被完全遮挡，无法识别，大模型很容易产生幻觉。

出租车票

这个行程单不仅看着让人头晕目眩，而且表格的排版与实际印上去的字有一定的错误，信息量较大但又很简短，需要有很强的理解能力才能准确识别。

航空运输电子客票行程单

一张比较常规的票据，数字和英文字体之间有一定的交叠，有一定的识别难度。

资金往来结算票据

一张国外的发票，排版和中文发票有明显区别，发票上有老师的个人签名，十分潦草，可以用来测试模型的中文手写体识别能力。

国外发票

比较简单的身份证识别。身份证的字都比较清楚，排版也固定。

居民身份证测试样张

文档理解

提问：识别图中的投票结果并以JSON格式输出

识别投票结果，看起来比较简单，实际上需要模型能准确理解表格的排版，并合理猜测一些不太符合预期的人类手写标记。

副高职务评审选票

提问：有哪些交费档次平均下来每人交纳200元人民币，有效期是多长？

这需要模型理解表格，而且这个问题有一点小陷阱，企业团体会员折合下来也符合这个标准，模型也应当能捕捉到

中国土壤学会会员会费标准和收取办法

文档提取（提示词：以markdown或html格式输出图片中的文档，尽量保证输出内容完整，排版与图片中保持一致）

下面的图片，要求模型以markdown或html格式输出图片中的文档，而不只是用json输出结构化信息。

拨款通知单

下面的图片，要求模型以markdown或html格式输出图片中的表格，表格排版非常复杂。

文献中的复杂表格

古籍提取（提示词：以markdown或html格式输出图片中的古籍，尽量保证输出内容完整通畅）

史记-卷八

后汉书

手写文本（提示词：以markdown或html格式输出图片中的手写文本，尽量保证输出内容完整通畅）

我自己随便写的打油诗

打油诗

英语手写笔记

日常生活类图片理解

提示词：这张网络流行图片的创意出自什么作品，作为表情包有什么含义？

（这张图片的创意来源于苏轼的散文名篇《记承天寺夜游》，最常见的用法是模仿苏轼半夜找朋友，用来在深夜或者任何时候突然呼叫某个朋友）

表情包

提示词：这是什么电影

（《幽灵公主》，由吉卜力工作室出品，宫崎骏导演）

电影照片