多模态大模型文本识别和理解能力测评

多模态大模型文本识别和理解能力测评

libero
2025-05-04 / 0 评论 / 96 阅读 / 正在检测是否收录...

最近许多业务系统都提出了涉及图片中文本识别和理解的需求,主要集中在这几点:

  • 通过OCR识别票证,输出结构化信息
  • 识别文档中图片的内容(多为表格),或者是直接从文档扫描件提取文档

观察了一下最新的多模态大模型(MLLM),MLLM有图片理解能力可以直接结构化输出,一些优秀的大模型对中文的支持也不错。

结合实际需求,我选取了几款大模型进行了一些测评,下表是我得到的测评结果,详细过程可见后文。

票证提取文档理解文档提取古籍手写文本日常生活类
gemini-2.5-pro-preview-03-25⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
gemini-2.5-pro-preview-05-06⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
gemini-2.5-flash-preview-04-17⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
gemini-2.5-flash-preview-04-17(深度思考)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
claude-3-7-sonnet-20250219⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
claude-3-7-sonnet-20250219(深度思考)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
o4-mini⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
o3⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
gpt4.1⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
通义千问-QVQ-Max(2025.3.25快照版本)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
通义千问VL-Max(2025.4.8快照版本)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
通义千问2.5-VL-72B⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
通义千问2.5-VL-32B⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
InternVL3-14B⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

星级主要用来反应模型之间的相对水平,是基于经验和手动的测评结果得到的,仅供参考,不具备学术上的严谨性。

一些具备OCR能力,但未深入测试的MLLM:

  • 通义千问-QVQ-72B-Preview:模型输出的内容极度倾向数学推理,基本无法输出遵循指令的内容。根据官方的说法,其在识别人员、动物或植物等基本识别任务上,QVQ 相比 Qwen2-VL-72B 并没有显著提升,因此不做测评。
  • 通义千问VL-OCR(2025.4.13快照版本):无法输出结构化的文本,票证、古籍和手写文字的识别效果也很一般,无法理解文档,文档提取的效果较差。

更新:2025.5.8加上了gemini-2.5-pro-preview-05-06模型。

测评结果注解:

票证提取文档理解文档提取古籍手写文本日常生活类
gemini-2.5-pro-preview-03-25出租车票一些错误,行程单极少错误完全正确复杂表格提取出的排版有些问题基本一致,我非专业人士,无法评估排版的合理性完全一致完全正确,对表情包的解读也很到位
gemini-2.5-pro-preview-05-06出租车票一些错误,行程单极少错误完全正确复杂表格提取出的排版接近完全正确基本一致,我非专业人士,无法评估排版的合理性手写笔记有一些错误完全正确,对表情包的解读也很到位
gemini-2.5-flash-preview-04-17出租车票和行程单错误非常多没有发现企业团体会员也满足条件复杂表格提取出的排版较大问题史记提取的不错,后汉书错误很多英语手写笔记的识别错误较多表情包的解读完全错误
gemini-2.5-flash-preview-04-17(深度思考)出租车票的错误较多,行程单少许错误未能识别出弃权票复杂表格提取出的排版较大问题史记提取的不错,后汉书错误很多打油诗有几个字识别错误表情包的解读不完全正确
claude-3-7-sonnet-20250219出租车票和行程单错误较多,结算票据有少量错误没有发现企业团体会员也满足条件复杂表格提取出的排版较大问题史记和后汉书都有较多错误打油诗错误较多,手写笔记一些错误表情包的解读基本错误
claude-3-7-sonnet-20250219(深度思考)出租车票和行程单错误较多,结算票据有少量错误完全正确复杂表格提取出的排版有些问题史记和后汉书都有较多错误打油诗和手写笔记都有一些错误表情包的解读基本错误
o4-mini出租车票和行程单错误非常多完全正确复杂表格提取出的排版较大问题史记和后汉书都有较多错误并有缺失手写笔记有一些错误表情包的解读完全错误
o3出租车票和行程单和结算票据错误非常多完全正确复杂表格提取出的排版较大问题史记有较多错误,后汉书无法提取打油诗和手写笔记都有一些错误尝试解读表情包时多次无法响应,可能是思维链太长
gpt4.1出租车票和行程单错误较多,结算票据有少量错误对投票文档的理解有很大错误复杂表格提取出的排版较大问题史记有较多错误,后汉书无法提取打油诗少量错误,手写笔记一些错误表情包的解读完全错误
通义千问-QVQ-Max(2025.3.25快照版本)出租车票的错误较多,行程单少许错误对投票文档的理解有很大错误复杂表格提取出的排版较大问题史记有较多错误,后汉书基本一致基本一致,手写英文笔记有少量词组片段笔记遗漏表情包的文化创意看懂了,但是表情包的情感分析欠佳
通义千问VL-Max(2025.4.8快照版本)出租车票的错误较多,行程单极少错误,结算票据有一些错误对投票文档理解有误,输出不完整;没有发现企业团体会员也满足条件复杂表格提取出的排版非常混乱基本一致打油诗错误较多,手写笔记一些错误表情包的解读基本错误
通义千问2.5-VL-72B出租车票的错误较多,行程单极少错误对投票文档的理解有很大错误;没有发现企业团体会员也满足条件复杂表格提取出的排版有些问题未能输出任何有效内容基本一致,手写英文笔记有少量词组片段笔记遗漏表情包的解读基本错误
通义千问2.5-VL-32B出租车票一些错误,行程单极少错误对投票文档的理解有很大错误拨款通知单表格提出有些问题,复杂表格提取出的排版有些问题能提取出主要内容,但结构与原文有明显出入有一些手写中文字识别错误表情包的解读完全错误
InternVL3-14B出租车票的错误较多,行程单极少错误,结算票据有一些错误对投票文档的理解有很大错误;没有发现企业团体会员也满足条件拨款通知单表格提出有些问题,复杂表格提取出的排版有些问题史记有较多错误,后汉书无法提取打油诗少量错误,手写笔记一些错误表情包的解读完全错误;未能得出电影名称

前沿MLLM对比

所属机构模型名称开源参数量深度思考发布日期
Googlegemini-2.5-pro-preview-03-252025.3.26
gemini-2.5-pro-preview-05-062025.5.6
gemini-2.5-flash-preview-04-17支持切换2025.4.18
Anthropicclaude-3-7-sonnet-20250219支持切换2025.2.25
OpenAIo4-mini2025.4.17
o32025.4.17
gpt4.12025.4.14
Alibaba通义千问-QVQ-Max(2025.3.25快照版本)2025.3.28
通义千问VL-Max(2025.4.8快照版本)2025.4.8
通义千问-QVQ-72B-Preview72B2024.12.25
通义千问VL-OCR(2025.4.13快照版本)2025.4.13
通义千问2.5-VL-72B72B2025.1.28
通义千问2.5-VL-32B32B2025.3.25
OpenGVLabInternVL378B、14B等2025.4.15
  • 深度思考为✅的模型就是推理模型。
  • 推理速度是基于个人经验给出的相对评价。

测试图片

票证提取(提示词:尽量详细的提取图片中的票证信息,并以json格式输出)

这个出租车票的字迹十分模糊,车号的后面一大截被完全遮挡,无法识别,大模型很容易产生幻觉。

出租车票

这个行程单不仅看着让人头晕目眩,而且表格的排版与实际印上去的字有一定的错误,信息量较大但又很简短,需要有很强的理解能力才能准确识别。

航空运输电子客票行程单

一张比较常规的票据,数字和英文字体之间有一定的交叠,有一定的识别难度。

资金往来结算票据

一张国外的发票,排版和中文发票有明显区别,发票上有老师的个人签名,十分潦草,可以用来测试模型的中文手写体识别能力。

国外发票

比较简单的身份证识别。身份证的字都比较清楚,排版也固定。

居民身份证测试样张

文档理解

提问:识别图中的投票结果并以JSON格式输出

识别投票结果,看起来比较简单,实际上需要模型能准确理解表格的排版,并合理猜测一些不太符合预期的人类手写标记。

副高职务评审选票

提问:有哪些交费档次平均下来每人交纳200元人民币,有效期是多长?

这需要模型理解表格,而且这个问题有一点小陷阱,企业团体会员折合下来也符合这个标准,模型也应当能捕捉到

中国土壤学会会员会费标准和收取办法

文档提取(提示词:以markdown或html格式输出图片中的文档,尽量保证输出内容完整,排版与图片中保持一致)

下面的图片,要求模型以markdown或html格式输出图片中的文档,而不只是用json输出结构化信息。

拨款通知单

下面的图片,要求模型以markdown或html格式输出图片中的表格,表格排版非常复杂。

文献中的复杂表格

古籍提取(提示词:以markdown或html格式输出图片中的古籍,尽量保证输出内容完整通畅)

史记-卷八

史记-卷八

后汉书

后汉书

手写文本(提示词:以markdown或html格式输出图片中的手写文本,尽量保证输出内容完整通畅)

我自己随便写的打油诗

打油诗

英语手写笔记

英语手写笔记

日常生活类图片理解

提示词:这张网络流行图片的创意出自什么作品,作为表情包有什么含义?

(这张图片的创意来源于苏轼的散文名篇 《记承天寺夜游》, 最常见的用法是模仿苏轼半夜找朋友,用来在深夜或者任何时候突然呼叫某个朋友)

表情包

提示词:这是什么电影

(《幽灵公主》,由吉卜力工作室出品,宫崎骏导演)

电影照片

1

评论 (0)

取消