首页
DST服务器列表
关于
推荐
AI深度搜索
Search
1
庄子的回文——从零开始的入门级64位ROP
1,161 阅读
2
Windows沙盒——运行不安全的软件
848 阅读
3
多模态大模型文本识别和理解能力测评
198 阅读
4
重温《幽灵公主》:成年后的理性视角与沉浸体验的界限
75 阅读
5
Django Admin安装及入门教程
61 阅读
研究笔记
技术文档
工具和库
网络安全
心理学
生活小记
登录
/
注册
Search
标签搜索
新手教程
Django
Midjourney
binary
64位
ROP
Sora
pwn
UI设计
AI图像生成
ODBC
后台管理
古籍
手写文本识别
Django Admin
吉卜力
图像生成
大模型
LLM
OCR
libero
累计撰写
8
篇文章
累计收到
15
条评论
首页
栏目
研究笔记
技术文档
工具和库
网络安全
心理学
生活小记
页面
DST服务器列表
关于
推荐
AI深度搜索
搜索到
3
篇与
的结果
2025-06-01
大模型在教育行业中的应用初探——AI驱动科研助手
最近AI大模型这个词真是火遍大江南北,从能写诗作画到编程对话,仿佛无所不能。说实话,在参加这次《中国高校数字化青年工程师研讨会》之前,我对大模型在教育行业能做什么,概念还比较模糊,顶多知道它们能构建各种智能体,帮忙找文献和读文献之类的。但这次研讨会,尤其是我参与的项目,真的让我大开眼界,也对AI如何赋能科研有了全新的认识。研讨会背景:一场硬核的AI+教育头脑风暴这次研讨会由中国高校数字化青年工程师社区组织,汇聚了来自全国各地的青年工程师。主办方旨在推动AI技术与高校数字化转型深度融合,聚焦教学、科研、管理、生活和创新创业五大核心场景。研讨会的形式非常新颖且紧凑:我们被分成5组,每组10人,各抽取一个议题,在短短一天内完成团队破冰、议题研究、方案设计、成果总结,并推出代表进行技术原型和方案的汇报。这不仅考验技术能力,更考验团队协作和快速学习能力。我的研讨会之旅:从小白到“智研图谱”队长我们小组非常幸运(也可能说是挑战巨大哈哈)抽中了议题二:“AI驱动科研助手:智能文献检索与知识图谱构建”。坦白说,拿到题目时我心里有点打鼓,虽然我是队长,但对知识图谱、文献智能检索这些概念也只是略有耳闻。议题二题目说明:科研是高校创新的引擎。面对文献海洋和知识碎片化,AI 能否成为师生的第二大脑?本议题需利用 AI 优化高校科研工作,在高效文献检索、自动摘要、知识图谱等领域制定落地方案。除了信息获取效率外,还包括如何借助 AI 实现跨学科关联、研究趋势分析,乃至智能化的科研选题和成果梳理等。目标是打造服务科研全过程的数字助手。但团队的力量是无穷的!组员们来自不同高校,各有所长。我们迅速投入了激烈的讨论:痛点分析:大家集思广益,很快就科研工作中的普遍痛点达成了共识:信息过载与趋势难把握:文献汗牛充栋,如何快速找到关键信息,把握学科前沿?学科壁垒:不同学科间知识隔阂严重,跨学科合作从何入手?产学研脱节:科研成果如何与产业需求有效对接?技术路径探索:讨论中,大语言模型(LLM)和知识图谱(KG)成了我们关注的焦点。我们意识到,单纯依赖LLM可能会有“幻觉”和知识更新不及时的问题,而知识图谱的结构化优势正好可以弥补。将两者结合,似乎是一条可行的道路。方案构思:基于上述分析,我们提出了一个名为“智研图谱——智能文献检索与知识图谱构建”的解决方案。核心理念就是利用LLM强大的自然语言理解和生成能力,去赋能知识图谱的构建与应用,打造一个贯穿科研全过程的智能助手。功能设计:我们围绕科研人员和高校管理者的需求,设计了三大核心功能模块:趋势分析:通过分析海量文献、专利等数据,洞察学科前沿热点。跨域协作:智能匹配学者、技术,打破学科壁垒,促进合作。机遇导航:连接科研成果与产业需求、基金项目,加速转化。成果总结与汇报:作为队长,我既要参与讨论,也要负责统筹,最后还要和另一位组员一起代表团队上台汇报我们一天的成果。时间虽短,但我们还是尽可能地把技术原型(主要是Demo页面)、方案逻辑和应用场景展示了出来。我对大模型应用在科研中的理解与收获这次研讨会,特别是我们小组的项目,让我对大模型在科研中的应用有了质的飞跃的理解:从“聊天”到“思考辅助”:以前总觉得大模型就是个聪明的“聊天机器人”,能回答问题、写写文案。现在我明白了,大模型在科研领域,更像是一个“思考辅助器”。它不仅能“聊”,还能通过学习海量文献,“看懂”、“理解”并“关联”复杂的科研信息。知识图谱是大模型的“黄金搭档”:如果说大模型是聪明的大脑,那知识图谱就像是为这个大脑构建了一个结构清晰、脉络分明的“知识骨架”。大模型可以从非结构化的文献中抽取实体(如论文、作者、方法、数据集)和关系(如引用、合作),并将其填入知识图谱。这样,知识不再是零散的点,而是相互连接的网络。这大大提升了信息检索的准确性和深度。RAG(检索增强生成)的威力:我们提出的“智研图谱”其实暗合了RAG的思想。当用户提问时,系统先从知识图谱和文献库中检索出最相关的信息,然后将这些信息作为上下文“喂”给大模型,让大模型基于这些“有据可查”的内容来生成答案。这能有效避免大模型“一本正经地胡说八道”(也就是所谓的幻觉),让科研助手更可靠。创新点的挖掘:我们团队提出的“智研图谱”的创新点,我认为在于:LLM驱动的自动化构建:利用LLM的语义理解能力,自动化地从文献中抽取知识,构建和更新知识图谱,大大降低人工成本。多维度的科研服务:不仅仅是文献检索,更拓展到趋势分析、合作者推荐、产学研对接等科研全流程服务。用户视角切入:我们深入思考了科研人员(如博士生小王)和管理者的实际痛点和使用场景,力求方案能落地解决问题。当前的痛点与挑战当然,理想很丰满,现实也有骨感。在设计“智研图谱”的过程中,我们也意识到了许多潜在的挑战:模型幻觉与准确性:如何确保大模型提供的信息是准确无误的,这至关重要。多学科术语统一:不同学科有各自的术语体系,如何让模型准确理解并打通是个难题。数据隐私与版权:科研数据,尤其是未公开的数据,其隐私和版权问题需要妥善处理。大规模与性能:构建覆盖广泛学科的知识图谱,其规模和查询性能都是巨大的挑战。用户信任建立:科研工作者对于工具的严谨性要求极高,如何让他们信任并依赖AI助手,需要时间和实践来检验。未来应用前景:AI科研助手,未来可期尽管存在挑战,但我对“AI驱动科研助手”的未来充满期待。科研效率的革命:AI助手能将科研人员从繁琐的文献检索、筛选、整理工作中解放出来,让他们更专注于创新性思考。个性化科研导航:根据研究者的兴趣和背景,智能推荐研究方向、文献、潜在合作者,甚至辅助生成研究假设。加速知识发现与创新:通过连接不同学科的知识点,AI或许能发现人类研究者难以察觉的隐藏关联,催生新的研究范式和跨学科突破。赋能教育与人才培养:这样的工具不仅能帮助成熟的科研人员,也能极大地辅助研究生、本科生快速入门特定领域,提升科研素养。这次研讨会对我来说,就像打开了一扇新世界的大门。从对AI在教育领域应用的懵懂,到能够和团队一起构想出一个具体的“AI驱动科研助手”方案,并且思考其技术实现和未来前景,这个过程让我获益匪浅。虽然我们的“智研图谱”还只是一个初步的构想,但它点燃了我对这一领域深入探索的热情。路漫漫其修远兮,吾将上下而求索。期待未来能看到更多像“智研图谱”这样的AI工具真正落地,为教育和科研事业贡献力量!
2025年06月01日
19 阅读
0 评论
0 点赞
2025-05-15
当代码遇上AI绘画:图像生成大模型在开发中的妙用初探
预计阅读时间:9-11 分钟“代码改变世界,但‘颜值’同样重要!” 作为开发者,我们常常沉醉于用逻辑和算法构建强大功能,但在用户界面(UI)和用户体验(UX)的美学设计上,却可能感到力不从心。你是否也曾为仪表盘的配色方案而抓耳挠腮?为找不到合适的图标而焦头烂额?或者在与业务部门沟通需求时,苦于无法将页面原型快速具象化?更别提那些对UI有特定美学要求的项目,设计一套风格统一的UI组件背景图,有时简直是一项“不可能完成的任务”。幸运的是,人工智能的浪潮为我们带来了新的可能。近年来,图像生成大模型(如Midjourney, DALL-E, Stable Diffusion等)的惊艳表现,让我们不禁思考:这些强大的“AI画家”,能否成为我们开发工作中的得力助手,帮助我们跨越设计的鸿沟呢?这篇博文,便是我作为一名开发者,带着这些疑问所进行的一次探索性实践与思考。我将聚焦于开发过程中常见的几个设计痛点——仪表盘设计稿生成、应用/模块图标创作、页面设计稿快速草拟、以及UI组件背景图设计。为此,我选取了市面上几款主流的图像生成大模型进行了一系列实际测试,并尝试总结出一些初步的方法和心得。如果你也曾被上述设计难题困扰,或者对AI如何在软件开发中发挥创意潜力充满好奇,那么,这篇文章或许能为你打开一扇新的大门,激发一些有趣的灵感。让我们一起看看,当冰冷的代码逻辑遇上AI的无限想象力,会碰撞出怎样的火花吧!图像生成模型概览与作品对比在探讨如何将图像生成模型应用于开发之前,我们不妨先对几款知名且应用广泛的模型进行测试,以便对它们的使用方法和生成效果有一个基本了解。这里,我们以“小蝌蚪找妈妈四格漫画”为题进行创作。MidjourneyMidjourney 的使用方式类似于命令行工具,核心指令是 /imagine,后接描述性的提示词(Prompt)。可以通过参数如 --ar 控制图片宽高比,--v 指定模型版本。{callout color="#4da1ef"}/imagine prompt: 4-panel comic strip, "Tadpole Looking for its Mother" story. Panel 1: Lost tadpoles. Panel 2: Tadpoles meet goldfish. Panel 3: Tadpoles meet turtle. Panel 4: Tadpoles find frog mother. Cute children's book illustration style, simple lines, vibrant colors. --ar 1:1 --v 7.0{/callout}Midjourney 通常会一次性返回四张候选图片,这种“N张选一”的模式在AI图像生成领域中颇为常见,便于用户快速筛选出满意的结果。从这些作品来看,Midjourney 能够理解图片中需要包含的核心视觉元素,但对于复杂的叙事性提示词,其整体理解和故事连贯性表现尚有不足,生成的漫画系列有时略显混乱,缺乏明确的故事线。为了更细致地控制,我们可以让 Midjourney 仅生成四格漫画中的特定一格。例如,我描述了一个小蝌蚪在月色池塘中的场景,并指定了绘画风格:{callout color="#4da1ef"}/imagine prompt: Panel 1 of a 4-panel comic: A group of cute little black tadpoles with long tails swimming in a clear pond, lily pads in the background. One tadpole looks determined. Empty speech bubble above them. children's book illustration, simple lines, vibrant colors, cartoon style, --ar 1:1 --v 7.0{/callout}总的来说,Midjourney 生成的图片在精美度和细节表现上相当出色,比较符合儿童画的风格,并能按照提示词要求预留对话框空白。不过,小蝌蚪的形象有时略显怪异,这或许与其模型在训练过程中接触了大量抽象或风格化艺术作品有关。ChatGPT (集成DALL-E)ChatGPT 的图像生成功能(通常由DALL-E模型驱动,并受益于GPT-4o等大语言模型的强大理解能力),允许用户通过自然对话的方式来生成图片。提示词: 以“小蝌蚪找妈妈四格漫画”为题创作一副儿童读物画风的四格漫画。ChatGPT 一般一次返回一张生成的图片。生成的漫画在视觉上可能略显粗糙,文字内容往往不准确甚至混乱,但它确实基本还原了故事梗概,并且画风也比较贴合儿童读物的定位。SoraSora 的核心定位是文本到视频 (Text-to-Video) 生成模型,但它同样具备生成静态图片的能力,并且可以直接理解中文自然语言。需要注意的是,Sora 目前的交互方式可能不支持复杂的多轮对话调整。提示词: 以“小蝌蚪找妈妈四格漫画”为题创作一副儿童读物画风的四格漫画。Sora 可以一次性返回多张图片。Sora 生成的漫画中,文字的准确性相对较高,也能较好地呈现故事情节,图像具备一定的观赏性。其主要特点(或可视为局限)在于画风可能相对统一,变化较少。主流图像生成模型特性对比根据笔者的使用体验,ChatGPT 和 Sora 更适合对图像编辑专业度要求不高的用户,其自然语言交互方式非常便捷,适合日常快速出图,对图像的极致精细度或艺术性要求不高。Midjourney 则更受设计类专业人士青睐,他们可以通过反复调整提示词(“刷图”)、尝试不同的关键词和参数组合,来追求富有美感的理想图片。笔者还测试了其他几款主流的图像生成模型,根据交互方式、生成图像特点及使用体验,总结如下表:模型/工具名称模型架构(推测)所属机构交互方式文本生成准确度图像编辑能力ChatGPT (集成DALL-E)两阶段生成/类自回归OpenAI自然语言,支持多轮对话中支持gemini-2.0-flash-preview-image-generation类自回归/扩散模型结合Google自然语言,支持多轮对话中支持SoraDiT (Diffusion Transformer)OpenAI自然语言,支持Remix高支持 (主要指风格迁移等)豆包 (Doubao)去噪扩散字节跳动自然语言,支持多轮对话低支持Midjourney去噪扩散Midjourney关键词&参数,Remix功能强大低不直接支持像素级编辑DALL-E 3 (独立API或特定平台)去噪扩散OpenAI关键词&参数,不支持原生Remix交互中API层面可支持编辑 (需编程)小结: 对于开发过程中的图像生成需求,Sora 在理解复杂需求和中文语境方面表现出强大潜力,尤其适合生成故事性、场景感强的内容。 若需要对现有图片进行较精细的编辑(如图形微调、元素增删),ChatGPT、Gemini 或豆包的(局部)编辑功能则更为实用。Midjourney 虽在艺术创作上独树一帜,但在追求快速、功能性的开发辅助场景中,其学习曲线和操作方式可能不如其他模型直接高效。图像生成应用实践仪表盘设计稿生成模型: Sora提示词: 生成一张PC端的审计可视化仪表盘截图,只包含图表,没有导航栏或者菜单。仪表盘使用中文语言,仪表盘分为左中右三列,每列有2-3张图表,深色科技驾驶舱主题。Remix: 增加仪表盘的科技感和驾驶舱氛围。(注:Remix 指的是对已有图像或生成结果进行二次创作、风格迁移、元素重组或细节调整的过程。)Remix: 将图表替换成更复杂的图表,例如“矩形树图”,“热力图”,“地图”。对于简单的图表,可以在一个卡片里面绘制多个,增加信息密度和视觉冲击力。Remix: 以北大红(由深到浅:#9c0000、#c73535、#d96666、#e99797、#eeb2b2、#f4d4d4)为主题配色,仪表盘改为偏向浅色的风格,图表中的图形增加蓝、绿、黄等其他配色以增加视觉丰富度。应用/模块图标创作模型: Sora提示词: 在一个九宫格中生成家具资产管理系统的系列模块图标,以#94070A作为图标颜色,分别代表:家具建账申请、家具建账确认、家具资产管理、家具调拨申请、家具报废申请、低值家具建账申请、低值家具建账确认、家具盘点、院系家具资产管理。Remix: 继续在一个四宫格中生成家具资产管理系统其他模块的图标,分别为:院系家具盘点、校级家具盘点、院系家具报废管理、校级家具报废管理。生成的图标整体质量相当不错,大部分具有直接使用的潜力。在实际操作中,可以通过多次尝试和调整提示词来获取更贴近需求的图标。若需将生成的PNG图片转换为SVG矢量图,可以尝试使用在线转换工具,例如:PNG to SVG - online-convert.com。应用页面设计稿模型: Sora提示词: 请设计北京大学智能翻译助手的PC端网站页面,该网站不仅支持纯文本翻译,还支持语音实时翻译,网站采用现代简约浅色主题,页面需要带有一定的科技感但是不能太过夸张,在页面中添加一些小元素(图标、logo、卡片纹理背景等)彰显北京大学特色,网站UI风格可参考百度翻译。(并上传一张百度翻译的截图作为参考)Sora 生成的页面布局尚可,但整体设计感和细节处理方面,与专业设计师或开发者手动设计的精细度相比,仍有提升空间。模型: Midjourney指令:{callout color="#4da1ef"}/imagine prompt: UI design for a PC website homepage, "Peking University Intelligent Translation Assistant". Modern minimalist light theme, clean interface. Prominent text input/output areas for translation, language selection dropdowns, a clear microphone icon for voice translation. Subtle background pattern inspired by Peking University's architectural lines (e.g., Boya Pagoda outline). Small, elegant Peking University logo in the header. Tech-inspired icons, professional and academic feel. High fidelity mockup. --ar 16:9 --v 6.0 --style raw{/callout}Midjourney 生成的页面在视觉元素和氛围营造上更为出色,背景设计也颇具创意。然而,对于追求“开箱即用”的开发场景,其生成结果往往仍需大量的人工调整和后期处理才能真正落地。UI组件视觉风格探索模型: Sora提示词: 设计一套完整的网站组件UI视觉稿,包括按钮(primary、success、info、warning、danger)、文字链接、单选框Radio、多选框Checkbox、输入框Input、选择器Select、开关Switch、滑块Slider、时间日期选择器DateTimePicker、表格Table、卡片Card、文件上传Upload、导航菜单、页头,主色为#94070A,另外再设计2-3种辅助配色,确保网站配色协调又不单调。采用现代简约风格,浅色主题,背景是纯白色,PC端1920*1080分辨率。尽管提示词中要求设计一个完整的PC端页面来展示这些组件,但Sora目前直接生成完整、精细的PC端UI组件集合预览图的能力似乎尚有不足。不过,对于单个或小范围组件的风格设计、配色方案探索,它还是能提供不错的参考和灵感。带插图的应用功能摘要模型: Sora提示词:在一个四宫格中设计一个插画集,介绍我校AI教学智能体的实际应用,现代矢量风格的插画,采用渐变扁平设计,色彩要鲜艳、饱和度高,充满动感和积极向上的氛围: 1. 问答型的课程AI助教 2. 学科专业问答工具 3. 古籍OCR识别和整理工具 4. 文献研究助手,帮助阅读各类论文,提供专业解释此场景下,Sora能较好地理解需求并生成风格统一的系列插画,为功能介绍或宣传材料提供了高效的视觉支持。总结与展望通过上述一系列的探索和实践,我们可以清晰地看到,图像生成大模型确实有潜力成为开发者在设计工作中的得力助手。无论是快速生成设计灵感、制作原型草图,还是辅助创作图标、插画和探索UI风格,AI都展现了其独特的优势,尤其是在提升效率和帮助非设计专业背景的开发者跨越美学门槛方面。当然,我们也要认识到,目前这些AI工具尚不能完全替代专业设计师的工作。其生成结果的精细度、可控性、对复杂设计规范的严格遵循以及商业落地的成熟度等方面仍有显著的提升空间。正如本文的初衷——作为一次“初探”,我们更应关注其所开启的可能性,以及如何将其巧妙地融入我们的工作流。未来,随着模型能力的不断增强、算法的持续优化以及相关工具链的日益完善,AI辅助设计无疑将在软件开发流程中扮演越来越重要的角色。对于我们开发者而言,积极拥抱这些新技术,学习如何更有效地运用它们(“提示词工程”等),将是我们提升综合能力、释放创造潜力的关键一步。希望本文的分享能为你带来一些启发。让我们共同期待,代码与AI绘画的融合,能在未来碰撞出更多令人惊艳的火花!
2025年05月15日
38 阅读
0 评论
1 点赞
2025-05-04
多模态大模型文本识别和理解能力测评
最近许多业务系统都提出了涉及图片中文本识别和理解的需求,主要集中在这几点:通过OCR识别票证,输出结构化信息识别文档中图片的内容(多为表格),或者是直接从文档扫描件提取文档观察了一下最新的多模态大模型(MLLM),MLLM有图片理解能力可以直接结构化输出,一些优秀的大模型对中文的支持也不错。结合实际需求,我选取了几款大模型进行了一些测评,下表是我得到的测评结果,详细过程可见后文。 票证提取文档理解文档提取古籍手写文本日常生活类gemini-2.5-pro-preview-03-25⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐gemini-2.5-pro-preview-05-06⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐gemini-2.5-flash-preview-04-17⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐gemini-2.5-flash-preview-04-17(深度思考)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐claude-3-7-sonnet-20250219⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐claude-3-7-sonnet-20250219(深度思考)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐o4-mini⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐o3⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐gpt4.1⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐通义千问-QVQ-Max(2025.3.25快照版本)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐通义千问VL-Max(2025.4.8快照版本)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐通义千问2.5-VL-72B⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐❌⭐⭐⭐⭐⭐⭐⭐⭐通义千问2.5-VL-32B⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐InternVL3-14B⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐星级主要用来反应模型之间的相对水平,是基于经验和手动的测评结果得到的,仅供参考,不具备学术上的严谨性。一些具备OCR能力,但未深入测试的MLLM:通义千问-QVQ-72B-Preview:模型输出的内容极度倾向数学推理,基本无法输出遵循指令的内容。根据官方的说法,其在识别人员、动物或植物等基本识别任务上,QVQ 相比 Qwen2-VL-72B 并没有显著提升,因此不做测评。通义千问VL-OCR(2025.4.13快照版本):无法输出结构化的文本,票证、古籍和手写文字的识别效果也很一般,无法理解文档,文档提取的效果较差。更新:2025.5.8加上了gemini-2.5-pro-preview-05-06模型。测评结果注解: 票证提取文档理解文档提取古籍手写文本日常生活类gemini-2.5-pro-preview-03-25出租车票一些错误,行程单极少错误完全正确复杂表格提取出的排版有些问题基本一致,我非专业人士,无法评估排版的合理性完全一致完全正确,对表情包的解读也很到位gemini-2.5-pro-preview-05-06出租车票一些错误,行程单极少错误完全正确复杂表格提取出的排版接近完全正确基本一致,我非专业人士,无法评估排版的合理性手写笔记有一些错误完全正确,对表情包的解读也很到位gemini-2.5-flash-preview-04-17出租车票和行程单错误非常多没有发现企业团体会员也满足条件复杂表格提取出的排版较大问题史记提取的不错,后汉书错误很多英语手写笔记的识别错误较多表情包的解读完全错误gemini-2.5-flash-preview-04-17(深度思考)出租车票的错误较多,行程单少许错误未能识别出弃权票复杂表格提取出的排版较大问题史记提取的不错,后汉书错误很多打油诗有几个字识别错误表情包的解读不完全正确claude-3-7-sonnet-20250219出租车票和行程单错误较多,结算票据有少量错误没有发现企业团体会员也满足条件复杂表格提取出的排版较大问题史记和后汉书都有较多错误打油诗错误较多,手写笔记一些错误表情包的解读基本错误claude-3-7-sonnet-20250219(深度思考)出租车票和行程单错误较多,结算票据有少量错误完全正确复杂表格提取出的排版有些问题史记和后汉书都有较多错误打油诗和手写笔记都有一些错误表情包的解读基本错误o4-mini出租车票和行程单错误非常多完全正确复杂表格提取出的排版较大问题史记和后汉书都有较多错误并有缺失手写笔记有一些错误表情包的解读完全错误o3出租车票和行程单和结算票据错误非常多完全正确复杂表格提取出的排版较大问题史记有较多错误,后汉书无法提取打油诗和手写笔记都有一些错误尝试解读表情包时多次无法响应,可能是思维链太长gpt4.1出租车票和行程单错误较多,结算票据有少量错误对投票文档的理解有很大错误复杂表格提取出的排版较大问题史记有较多错误,后汉书无法提取打油诗少量错误,手写笔记一些错误表情包的解读完全错误通义千问-QVQ-Max(2025.3.25快照版本)出租车票的错误较多,行程单少许错误对投票文档的理解有很大错误复杂表格提取出的排版较大问题史记有较多错误,后汉书基本一致基本一致,手写英文笔记有少量词组片段笔记遗漏表情包的文化创意看懂了,但是表情包的情感分析欠佳通义千问VL-Max(2025.4.8快照版本)出租车票的错误较多,行程单极少错误,结算票据有一些错误对投票文档理解有误,输出不完整;没有发现企业团体会员也满足条件复杂表格提取出的排版非常混乱基本一致打油诗错误较多,手写笔记一些错误表情包的解读基本错误通义千问2.5-VL-72B出租车票的错误较多,行程单极少错误对投票文档的理解有很大错误;没有发现企业团体会员也满足条件复杂表格提取出的排版有些问题未能输出任何有效内容基本一致,手写英文笔记有少量词组片段笔记遗漏表情包的解读基本错误通义千问2.5-VL-32B出租车票一些错误,行程单极少错误对投票文档的理解有很大错误拨款通知单表格提出有些问题,复杂表格提取出的排版有些问题能提取出主要内容,但结构与原文有明显出入有一些手写中文字识别错误表情包的解读完全错误InternVL3-14B出租车票的错误较多,行程单极少错误,结算票据有一些错误对投票文档的理解有很大错误;没有发现企业团体会员也满足条件拨款通知单表格提出有些问题,复杂表格提取出的排版有些问题史记有较多错误,后汉书无法提取打油诗少量错误,手写笔记一些错误表情包的解读完全错误;未能得出电影名称前沿MLLM对比所属机构模型名称开源参数量深度思考发布日期Googlegemini-2.5-pro-preview-03-25❌❓✅2025.3.26 gemini-2.5-pro-preview-05-06❌❓✅2025.5.6 gemini-2.5-flash-preview-04-17❌❓支持切换2025.4.18Anthropicclaude-3-7-sonnet-20250219❌❓支持切换2025.2.25OpenAIo4-mini❌❓✅2025.4.17 o3❌❓✅2025.4.17 gpt4.1❌❓❌2025.4.14Alibaba通义千问-QVQ-Max(2025.3.25快照版本)❌❓✅2025.3.28 通义千问VL-Max(2025.4.8快照版本)❌❓❌2025.4.8 通义千问-QVQ-72B-Preview✅72B✅2024.12.25 通义千问VL-OCR(2025.4.13快照版本)❌❓❌2025.4.13 通义千问2.5-VL-72B✅72B❌2025.1.28 通义千问2.5-VL-32B✅32B❌2025.3.25OpenGVLabInternVL3✅78B、14B等❌2025.4.15深度思考为✅的模型就是推理模型。推理速度是基于个人经验给出的相对评价。测试图片票证提取(提示词:尽量详细的提取图片中的票证信息,并以json格式输出)这个出租车票的字迹十分模糊,车号的后面一大截被完全遮挡,无法识别,大模型很容易产生幻觉。这个行程单不仅看着让人头晕目眩,而且表格的排版与实际印上去的字有一定的错误,信息量较大但又很简短,需要有很强的理解能力才能准确识别。一张比较常规的票据,数字和英文字体之间有一定的交叠,有一定的识别难度。一张国外的发票,排版和中文发票有明显区别,发票上有老师的个人签名,十分潦草,可以用来测试模型的中文手写体识别能力。比较简单的身份证识别。身份证的字都比较清楚,排版也固定。文档理解提问:识别图中的投票结果并以JSON格式输出识别投票结果,看起来比较简单,实际上需要模型能准确理解表格的排版,并合理猜测一些不太符合预期的人类手写标记。提问:有哪些交费档次平均下来每人交纳200元人民币,有效期是多长?这需要模型理解表格,而且这个问题有一点小陷阱,企业团体会员折合下来也符合这个标准,模型也应当能捕捉到文档提取(提示词:以markdown或html格式输出图片中的文档,尽量保证输出内容完整,排版与图片中保持一致)下面的图片,要求模型以markdown或html格式输出图片中的文档,而不只是用json输出结构化信息。下面的图片,要求模型以markdown或html格式输出图片中的表格,表格排版非常复杂。古籍提取(提示词:以markdown或html格式输出图片中的古籍,尽量保证输出内容完整通畅)史记-卷八后汉书手写文本(提示词:以markdown或html格式输出图片中的手写文本,尽量保证输出内容完整通畅)我自己随便写的打油诗英语手写笔记日常生活类图片理解提示词:这张网络流行图片的创意出自什么作品,作为表情包有什么含义?(这张图片的创意来源于苏轼的散文名篇 《记承天寺夜游》, 最常见的用法是模仿苏轼半夜找朋友,用来在深夜或者任何时候突然呼叫某个朋友)提示词:这是什么电影(《幽灵公主》,由吉卜力工作室出品,宫崎骏导演)
2025年05月04日
198 阅读
0 评论
1 点赞