最近许多业务系统都提出了涉及图片中文本识别和理解的需求,主要集中在这几点:
- 通过OCR识别票证,输出结构化信息
- 识别文档中图片的内容(多为表格),或者是直接从文档扫描件提取文档
观察了一下最新的多模态大模型(MLLM),MLLM有图片理解能力可以直接结构化输出,一些优秀的大模型对中文的支持也不错。
结合实际需求,我选取了几款大模型进行了一些测评,下表是我得到的测评结果,详细过程可见后文。
票证提取 | 文档理解 | 文档提取 | 古籍 | 手写文本 | 日常生活类 | |
---|---|---|---|---|---|---|
gemini-2.5-pro-preview-03-25 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
gemini-2.5-pro-preview-05-06 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
gemini-2.5-flash-preview-04-17 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
gemini-2.5-flash-preview-04-17(深度思考) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
claude-3-7-sonnet-20250219 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
claude-3-7-sonnet-20250219(深度思考) | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
o4-mini | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
o3 | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐ | ⭐⭐⭐ | ⭐⭐ |
gpt4.1 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
通义千问-QVQ-Max(2025.3.25快照版本) | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
通义千问VL-Max(2025.4.8快照版本) | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
通义千问2.5-VL-72B | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ❌ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
通义千问2.5-VL-32B | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
InternVL3-14B | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ |
星级主要用来反应模型之间的相对水平,是基于经验和手动的测评结果得到的,仅供参考,不具备学术上的严谨性。
一些具备OCR能力,但未深入测试的MLLM:
- 通义千问-QVQ-72B-Preview:模型输出的内容极度倾向数学推理,基本无法输出遵循指令的内容。根据官方的说法,其在识别人员、动物或植物等基本识别任务上,QVQ 相比 Qwen2-VL-72B 并没有显著提升,因此不做测评。
- 通义千问VL-OCR(2025.4.13快照版本):无法输出结构化的文本,票证、古籍和手写文字的识别效果也很一般,无法理解文档,文档提取的效果较差。
更新:2025.5.8加上了gemini-2.5-pro-preview-05-06模型。
测评结果注解:
票证提取 | 文档理解 | 文档提取 | 古籍 | 手写文本 | 日常生活类 | |
---|---|---|---|---|---|---|
gemini-2.5-pro-preview-03-25 | 出租车票一些错误,行程单极少错误 | 完全正确 | 复杂表格提取出的排版有些问题 | 基本一致,我非专业人士,无法评估排版的合理性 | 完全一致 | 完全正确,对表情包的解读也很到位 |
gemini-2.5-pro-preview-05-06 | 出租车票一些错误,行程单极少错误 | 完全正确 | 复杂表格提取出的排版接近完全正确 | 基本一致,我非专业人士,无法评估排版的合理性 | 手写笔记有一些错误 | 完全正确,对表情包的解读也很到位 |
gemini-2.5-flash-preview-04-17 | 出租车票和行程单错误非常多 | 没有发现企业团体会员也满足条件 | 复杂表格提取出的排版较大问题 | 史记提取的不错,后汉书错误很多 | 英语手写笔记的识别错误较多 | 表情包的解读完全错误 |
gemini-2.5-flash-preview-04-17(深度思考) | 出租车票的错误较多,行程单少许错误 | 未能识别出弃权票 | 复杂表格提取出的排版较大问题 | 史记提取的不错,后汉书错误很多 | 打油诗有几个字识别错误 | 表情包的解读不完全正确 |
claude-3-7-sonnet-20250219 | 出租车票和行程单错误较多,结算票据有少量错误 | 没有发现企业团体会员也满足条件 | 复杂表格提取出的排版较大问题 | 史记和后汉书都有较多错误 | 打油诗错误较多,手写笔记一些错误 | 表情包的解读基本错误 |
claude-3-7-sonnet-20250219(深度思考) | 出租车票和行程单错误较多,结算票据有少量错误 | 完全正确 | 复杂表格提取出的排版有些问题 | 史记和后汉书都有较多错误 | 打油诗和手写笔记都有一些错误 | 表情包的解读基本错误 |
o4-mini | 出租车票和行程单错误非常多 | 完全正确 | 复杂表格提取出的排版较大问题 | 史记和后汉书都有较多错误并有缺失 | 手写笔记有一些错误 | 表情包的解读完全错误 |
o3 | 出租车票和行程单和结算票据错误非常多 | 完全正确 | 复杂表格提取出的排版较大问题 | 史记有较多错误,后汉书无法提取 | 打油诗和手写笔记都有一些错误 | 尝试解读表情包时多次无法响应,可能是思维链太长 |
gpt4.1 | 出租车票和行程单错误较多,结算票据有少量错误 | 对投票文档的理解有很大错误 | 复杂表格提取出的排版较大问题 | 史记有较多错误,后汉书无法提取 | 打油诗少量错误,手写笔记一些错误 | 表情包的解读完全错误 |
通义千问-QVQ-Max(2025.3.25快照版本) | 出租车票的错误较多,行程单少许错误 | 对投票文档的理解有很大错误 | 复杂表格提取出的排版较大问题 | 史记有较多错误,后汉书基本一致 | 基本一致,手写英文笔记有少量词组片段笔记遗漏 | 表情包的文化创意看懂了,但是表情包的情感分析欠佳 |
通义千问VL-Max(2025.4.8快照版本) | 出租车票的错误较多,行程单极少错误,结算票据有一些错误 | 对投票文档理解有误,输出不完整;没有发现企业团体会员也满足条件 | 复杂表格提取出的排版非常混乱 | 基本一致 | 打油诗错误较多,手写笔记一些错误 | 表情包的解读基本错误 |
通义千问2.5-VL-72B | 出租车票的错误较多,行程单极少错误 | 对投票文档的理解有很大错误;没有发现企业团体会员也满足条件 | 复杂表格提取出的排版有些问题 | 未能输出任何有效内容 | 基本一致,手写英文笔记有少量词组片段笔记遗漏 | 表情包的解读基本错误 |
通义千问2.5-VL-32B | 出租车票一些错误,行程单极少错误 | 对投票文档的理解有很大错误 | 拨款通知单表格提出有些问题,复杂表格提取出的排版有些问题 | 能提取出主要内容,但结构与原文有明显出入 | 有一些手写中文字识别错误 | 表情包的解读完全错误 |
InternVL3-14B | 出租车票的错误较多,行程单极少错误,结算票据有一些错误 | 对投票文档的理解有很大错误;没有发现企业团体会员也满足条件 | 拨款通知单表格提出有些问题,复杂表格提取出的排版有些问题 | 史记有较多错误,后汉书无法提取 | 打油诗少量错误,手写笔记一些错误 | 表情包的解读完全错误;未能得出电影名称 |
前沿MLLM对比
所属机构 | 模型名称 | 开源 | 参数量 | 深度思考 | 发布日期 |
---|---|---|---|---|---|
gemini-2.5-pro-preview-03-25 | ❌ | ❓ | ✅ | 2025.3.26 | |
gemini-2.5-pro-preview-05-06 | ❌ | ❓ | ✅ | 2025.5.6 | |
gemini-2.5-flash-preview-04-17 | ❌ | ❓ | 支持切换 | 2025.4.18 | |
Anthropic | claude-3-7-sonnet-20250219 | ❌ | ❓ | 支持切换 | 2025.2.25 |
OpenAI | o4-mini | ❌ | ❓ | ✅ | 2025.4.17 |
o3 | ❌ | ❓ | ✅ | 2025.4.17 | |
gpt4.1 | ❌ | ❓ | ❌ | 2025.4.14 | |
Alibaba | 通义千问-QVQ-Max(2025.3.25快照版本) | ❌ | ❓ | ✅ | 2025.3.28 |
通义千问VL-Max(2025.4.8快照版本) | ❌ | ❓ | ❌ | 2025.4.8 | |
通义千问-QVQ-72B-Preview | ✅ | 72B | ✅ | 2024.12.25 | |
通义千问VL-OCR(2025.4.13快照版本) | ❌ | ❓ | ❌ | 2025.4.13 | |
通义千问2.5-VL-72B | ✅ | 72B | ❌ | 2025.1.28 | |
通义千问2.5-VL-32B | ✅ | 32B | ❌ | 2025.3.25 | |
OpenGVLab | InternVL3 | ✅ | 78B、14B等 | ❌ | 2025.4.15 |
- 深度思考为✅的模型就是推理模型。
- 推理速度是基于个人经验给出的相对评价。
测试图片
票证提取(提示词:尽量详细的提取图片中的票证信息,并以json格式输出)
这个出租车票的字迹十分模糊,车号的后面一大截被完全遮挡,无法识别,大模型很容易产生幻觉。
这个行程单不仅看着让人头晕目眩,而且表格的排版与实际印上去的字有一定的错误,信息量较大但又很简短,需要有很强的理解能力才能准确识别。
一张比较常规的票据,数字和英文字体之间有一定的交叠,有一定的识别难度。
一张国外的发票,排版和中文发票有明显区别,发票上有老师的个人签名,十分潦草,可以用来测试模型的中文手写体识别能力。
比较简单的身份证识别。身份证的字都比较清楚,排版也固定。
文档理解
提问:识别图中的投票结果并以JSON格式输出
识别投票结果,看起来比较简单,实际上需要模型能准确理解表格的排版,并合理猜测一些不太符合预期的人类手写标记。
提问:有哪些交费档次平均下来每人交纳200元人民币,有效期是多长?
这需要模型理解表格,而且这个问题有一点小陷阱,企业团体会员折合下来也符合这个标准,模型也应当能捕捉到
文档提取(提示词:以markdown或html格式输出图片中的文档,尽量保证输出内容完整,排版与图片中保持一致)
下面的图片,要求模型以markdown或html格式输出图片中的文档,而不只是用json输出结构化信息。
下面的图片,要求模型以markdown或html格式输出图片中的表格,表格排版非常复杂。
古籍提取(提示词:以markdown或html格式输出图片中的古籍,尽量保证输出内容完整通畅)
史记-卷八
后汉书
手写文本(提示词:以markdown或html格式输出图片中的手写文本,尽量保证输出内容完整通畅)
我自己随便写的打油诗
英语手写笔记
日常生活类图片理解
提示词:这张网络流行图片的创意出自什么作品,作为表情包有什么含义?
(这张图片的创意来源于苏轼的散文名篇 《记承天寺夜游》, 最常见的用法是模仿苏轼半夜找朋友,用来在深夜或者任何时候突然呼叫某个朋友)
提示词:这是什么电影
(《幽灵公主》,由吉卜力工作室出品,宫崎骏导演)
评论 (0)