OCR2.0--General OCR Theory

引领光学字符识别(OCR)的新篇章

引言:OCR技术进化的必要性

光学字符识别(OCR)是一项广泛应用的技术,它能够从图像中提取字符并将其转换为可编辑格式。虽然OCR-1.0在过去取得了广泛应用,但传统的系统在处理现代复杂任务方面遇到了很多挑战,包括文档、复杂图表以及乐谱等多种文本格式的处理。本文讨论了OCR技术的进化方向,重点介绍了通用OCR理论(General OCR Theory)以及新提出的GOT模型。

OCR-1.0的局限性

传统的OCR系统通常采用多模块流水线式的架构,包括元素检测、区域裁剪和字符识别。然而,这种模块化方式存在显著的缺陷,如局部最优问题、高维护成本以及缺乏通用性。传统OCR方法往往针对特定任务进行优化,可能适合处理文档OCR,但在场景文本或结构化数据任务中表现不佳,用户需要频繁切换模型。

OCR-2.0的愿景

随着智能光学字符处理需求的不断增长,OCR-2.0应运而生。新的理论强调一个统一的、端到端的模型,能够在同一个框架内处理多种字符形式,包括文本、图表、几何图形,甚至乐谱。为此,作者提出了通用光学字符识别理论(General Optical Character Recognition Theory, OCR-2.0)及其核心模型GOT(General Optical Text)。

GOT模型引入了高压缩率的编码器和长上下文解码器,使得GOT能够在多种OCR任务中表现出色。GOT模型具有端到端结构,计算成本低,且具备强大的通用性,能够处理英文和中文文本,并支持用户交互,如通过坐标或颜色进行区域识别。

GOT模型:统一的OCR解决方案

GOT采用了编码器-解码器架构,专为应对现代OCR任务而设计。编码器将输入图像压缩为一系列token,而解码器则将这些token转换为文本或结构化输出。GOT的编码器约有8000万参数,能够处理高分辨率输入(如整页文档),解码器则有5亿参数,支持长上下文场景,使得它在需要识别大量文本的文档处理任务中表现尤为出色。

该模型的高压缩比使其即便在消费级GPU上也能高效运行,相较传统OCR系统的高硬件要求,GOT无疑具有更大的优势。

Framework

在这里插入图片描述

GOT模型的整体设计包含了三个模块,分别是图像编码器、线性层和解码器。通过这三大模块的协同工作,GOT模型能够高效地处理各种OCR任务。

首先,预训练视觉编码器时,通过选择小型解码器和适当的数据输入,确保模型在提高效率的同时不会浪费GPU资源。在此过程中,系统通过学习常见的文本编码特征,提升了对常用字符的处理能力。

接着,模型进入第二阶段,将已经训练好的视觉编码器连接到新的更大解码器。这一步骤不仅仅是扩大模型容量,更重要的是通过增加多种数据类型如乐谱、数学公式和几何图形来丰富模型的应用范围,从而扩展了GOT的知识库。

最后,通过细粒度的数据和多页面合成数据,进一步增强了模型的泛化能力,使其在处理不同类型的OCR任务时表现更为出色。GOT能够处理区域提示OCR、超大图像OCR和批量PDF OCR,这意味着它不仅仅适用于传统的文本识别,还可以处理更加复杂和多样化的光学字符识别任务。

总的来说,GOT模型为OCR技术的发展提供了一个完整的、统一的解决方案,具备出色的多任务处理能力。

创新的训练策略

GOT的训练过程分为三个阶段:

  1. 编码器预训练:首先对GOT的视觉编码器进行预训练,处理场景文本和文档样式图像,通过全页文档和文本片段的组合,使编码器能够适应不同的输入格式。
  2. 联合训练:预训练完成后,编码器与更大的语言解码器连接,扩展GOT的OCR能力,以处理更复杂的字符,如数学公式和图表。
  3. 解码器后期训练:最后阶段是对解码器进行微调,增加对多页文档处理、细粒度区域OCR以及高分辨率图像的支持。

数据生成助力OCR-2.0

GOT成功的关键在于其合成数据的生成。在预训练阶段,使用了约500万对图像-文本数据,包括英文和中文的数据集。为进一步增强其能力,还生成了诸如数学公式、分子结构和几何图形等特定任务的合成数据。这些数据的加入使得GOT的OCR-2.0知识得到了显著扩展,确保其在各种应用中的通用性。

OCR-2.0的实际应用:性能与结果

GOT模型在多个OCR任务中表现优异:

  1. 文档OCR:GOT在中英文PDF文档OCR任务中表现突出,精确度超过了多款OCR模型,展现了出色的文档文本感知与识别能力。
  2. 场景文本OCR:在自然场景图像中,GOT也同样表现出色,进一步证明了其多任务处理能力。
  3. 格式化OCR:GOT能够将光学PDF图像转换为结构化的输出格式(如Markdown格式),特别适用于学术和技术文档。
  4. 细粒度OCR:GOT具备交互式OCR功能,用户可以指定感兴趣的区域进行文字提取,这在精确性方面表现优异。
  5. 通用OCR:除了文本,GOT还能够识别更加复杂的光学字符,如几何图形、乐谱,甚至是图表,展现了更广泛的适用性。

GOT模型在场景文本OCR任务中的表现

在这里插入图片描述

在表2中,展示了不同模型在场景文本OCR任务中的性能表现。这些模型包括了从UReader到GOT在内的多种最新OCR技术。表中的性能指标涵盖了编辑距离(Edit Distance)、F1分数、精度(Precision)、召回率(Recall)、BLEU分数和METEOR分数等。

性能对比:

  • GOT模型的优势:GOT模型以580M参数的规模,表现出优异的性能,尤其是在英文和中文的场景文本OCR任务中均获得了最高的F1分数(0.926 en,0.928 zh)。此外,GOT在精度和召回率方面也领先于其他模型,分别达到了0.934和0.927(en),以及0.914和0.954(zh)。
  • 编辑距离:GOT的编辑距离为0.112(en)和0.096(zh),远远优于其他较大的模型,如Qwen-VL-Max (>72B参数) 和InternVL-ChatV1.5 (26B参数)。
  • 综合评价:从BLEU和METEOR分数来看,GOT在中英文的表现也十分强劲,特别是在METEOR得分方面,GOT的分数分别为0.896(en)和0.928(zh),显示了极高的文本质量预测能力。

收集了400张自然场景图像,分别为200张中文图像和200张英文图像,作为场景文本OCR的基准数据集。该数据集中的所有真实标签均通过人工校正。在这些场景文本图像中,文本相对较短,因此使用字符级别的分割来计算各项指标。

从表2可以看出,GOT在处理自然场景图像时也表现出色,证明了其在大多数基本OCR任务(包括文档和场景文本)的卓越性能。特别是对于复杂的场景文本,GOT模型的表现无论是在英文还是中文任务中,均遥遥领先于其他较大规模的模型。

结论:迈向OCR的新纪元

通用OCR理论和GOT模型代表了OCR技术的一次重大飞跃。OCR-2.0抛弃了过去碎片化、任务特定的OCR模型,提出了一种更统一、高效、通用的字符识别方式。无论是处理密集的文档文本,还是复杂的结构化数据,GOT在各个领域的出色表现为未来OCR创新铺平了道路。

这款统一的模型在多个行业中展现出巨大的潜力,从学术研究到法律文件处理,GOT无疑是通向下一代OCR技术的关键一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1534692.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

水滴式多功能粉碎机:粉碎中草药的好帮手

水滴式中草药粉碎机,顾名思义,其设计灵感源自自然界中水滴的柔和与力量。它摒弃了传统粉碎机粗犷的粉碎方式,采用低速研磨技术,模拟水滴穿透岩石的细腻与持久,对中草药进行温和而深入的粉碎。这种技术不仅保留了药材中…

Redis集群_cluster

cluster集群 cluster翻译就是集群,所以cluster集群也叫做redis集群相比于哨兵模式,cluster集群能支持扩容,并且无需额外的节点来监控状态,所以使用这种模式集群的系统会用的更多些redis cluster采用的是去中心化网络拓扑架构&…

2024.9.14(RC和RS)

一、replicationcontroller (RC) 1、更改镜像站 [rootk8s-master ~]# vim /etc/docker/daemon.json {"registry-mirrors": ["https://do.nark.eu.org","https://dc.j8.work","https://docker.m.daocloud.io",&…

探索UWB技术的独特优势:实现高精度定位

UWB定位技术是一种利用无线信号进行精确位置定位的技术,它利用超宽带无线电信号通过测量信号的到达时间、相位差和信号能量等参数来确定物体的精确位置。 UWB定位技术具有多种优势,首先,它具有较高的定位精度,可实现毫米级的精确…

哈工大“计算机设计与实践”(cpu)处理器实验设计报告

哈工大“计算机设计与实践”(cpu)处理器实验设计报告 【哈工大“计算机设计与实践”(cpu)处理器实验设计报告】 在计算机科学领域,CPU(中央处理器)是计算机系统的核心部件,负责执行指…

性能诊断的方法(四):自下而上的资源诊断方法和发散的异常信息诊断方法

关于性能诊断的方法,我们可以按照“问题现象—直接原因—问题根源”这样一个思路去归纳。我们先从问题的现象去入手,包括时间的分析、资源的分析和异常信息的分析。接下来再去分析产生问题现象的直接原因是什么,这里我们归纳了自上而下的资源…

C语言 13 指针

指针可以说是整个 C 语言中最难以理解的部分了。 什么是指针 还记得在前面谈到的通过函数交换两个变量的值吗&#xff1f; #include <stdio.h>void swap(int, int);int main() {int a 10, b 20;swap(a, b);printf("a %d, b %d", a, b); }void swap(int …

Python编码系列—Python建造者模式:构建复杂对象的优雅之道

&#x1f31f;&#x1f31f; 欢迎来到我的技术小筑&#xff0c;一个专为技术探索者打造的交流空间。在这里&#xff0c;我们不仅分享代码的智慧&#xff0c;还探讨技术的深度与广度。无论您是资深开发者还是技术新手&#xff0c;这里都有一片属于您的天空。让我们在知识的海洋中…

传知代码-融合经典与创新的图像分类新途径

代码以及视频讲解 本文所涉及所有资源均在传知代码平台可获取 概述 在当前的深度学习领域&#xff0c;构建兼具高性能与灵活性的卷积神经网络&#xff08;CNN&#xff09;已成为计算机视觉研究的核心课题。本文介绍了一种全新的卷积神经网络架构&#xff0c;该网络巧妙地结合…

OZON电子产品大幅增长,OZON跨境PS5销量激增

Top1 存储卡 Карта памяти Canvas Select Plus 128 ГБ 商品id&#xff1a;1548303593 月销量&#xff1a;2131 欢迎各位卖家朋友点击这里&#xff1a; &#x1f449; D。DDqbt。COm/74rD 免费体验 随着智能手机和平板电脑的普及&#xff0c;用户对于存储空…

vite + vue3 + ts 移动端开箱即用现代开发模板

中文 | English SouthernWind https://blog.csdn.net/nanchen_J?typeblog sw-template vite vue3 ts 移动端开箱即用现代开发模板 特点 &#x1f436; Vite 的Vue3 的文件路由布局系统Mock 后续支持Api 自动引入组件自动引入VueUse 支持TypeScript 的Tailwind css 的暗…

Gitlab实现多项目触发式自动CICD

工作中可能会遇到这种场景&#xff0c;存在上游项目A和下游项目B&#xff0c;项目B的功能依赖项目A&#xff08;比如B负责日志解析&#xff0c;A是日志描述语言代码&#xff09;&#xff0c;这种相互依赖的项目更新流程一般如下&#xff1a; A项目更新&#xff0c;通知B项目开发…

好用的电脑监控软件推荐!分享六个企业必备的电脑监控软件,赶紧Get吧!

数字化办公日益普及&#xff0c;由于工作的需要&#xff0c;几乎每个员工都有自己的电脑&#xff0c;并且大多数电脑都接入了互联网。 这使得电脑监控软件&#xff0c;变为企业管理中必不可少的一部分&#xff01;它们不仅能够帮助管理者实时了解员工的工作状态&#xff0c;提…

充电宝什么品牌比较好用?2024年最值得推荐充电宝品牌!

近年来&#xff0c;随着电子设备使用需求的增加&#xff0c;充电宝市场呈现出蓬勃发展的态势。优秀的充电宝产品不仅能够提供稳定的充电速度&#xff0c;还具备方便携带的体验&#xff0c;深受用户喜爱。然而&#xff0c;面对市场上众多品牌和型号的选择&#xff0c;如何找到最…

Linux云计算 |【第二阶段】SHELL-DAY5

主要内容&#xff1a; awk命令、内置变量&#xff08;FS、$0、$1、$2、NF、NR&#xff09;、过滤时机&#xff08;BEGIN{}、{}、END{}&#xff09;、处理条件&#xff08;正则、&&、||、~\!~、等&#xff09;、awk数组、监控脚本、安全检测脚本 一、awk介绍 awk 是一…

基于微信平台的旅游出行必备商城小程序+ssm(lw+演示+源码+运行)

摘 要 随着社会的发展&#xff0c;社会的方方面面都在利用信息化时代的优势。互联网的优势和普及使得各种系统的开发成为必需。 本文以实际运用为开发背景&#xff0c;运用软件工程原理和开发方法&#xff0c;它主要是采用java语言技术和mysql数据库来完成对系统的设计。整个…

影视直冲?对接卡券特权充值接口对于用户来说有什么优势?

对用户来说有哪些优势&#xff1a; 便利性&#xff1a;用户可以直接在应用程序或网站上充值和使用卡券&#xff0c;无需通过多个平台或渠道&#xff0c;提高了用户体验。实时性&#xff1a;卡券充值和使用状态可以实时更新&#xff0c;用户可以立即看到余额变化和卡券状态。安…

移动硬盘无法读取?别慌!这些方法助你恢复数据!

在我们的日常工作和生活中&#xff0c;移动硬盘作为重要的数据存储工具&#xff0c;承载着珍贵资料。然而&#xff0c;移动硬盘无法被电脑读取的情况时有发生&#xff0c;令人焦急。别慌&#xff0c;下面为大家详细介绍恢复移动硬盘数据的有效方法。 一、检查硬件连接和驱动问题…

麒麟桌面操作系统:查看最近安装与卸载的软件包

麒麟桌面操作系统&#xff1a;查看最近安装与卸载的软件包 1、查看最近安装的deb包2、查看最近卸载的deb包 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在麒麟桌面操作系统中&#xff0c;快速查看最近安装与卸载的软件包非常简单。这里有…

【多因子分组箱线图】:附Origin详细画图教程

目录 No.1 理解箱线图 1 什么是箱线图 2 箱线图的组成 No.2 画图流程 1 导入数据并绘图 2 设置绘图细节 3 设置坐标轴 4 效果图 No.1 理解箱线图 1 什么是箱线图 箱线图&#xff0c;又称箱形图、盒须图或盒式图&#xff0c;用于体现数据分散情况的统计图。在视觉上辅助…