用智能文字识别技术赋能古彝文数字化之路

目录

1、前言

2、对古彝文古籍的保护迫在眉睫

3、古彝文识别的难点问题

4、古彝文文字识别的关键技术

4.1、智能高清滤镜技术

4.2、图像矫正

4.3、图像增强

4.4、版面还原

5、合合信息识别技术赋能古彝文数字化


1、前言

       古彝文指的是在云南、贵州、四川等地的彝族人之间流通使用的原生态彝文。彝族有着古老灿烂的文化,彝族人用彝文记录了他们修养生息的完整过程,是中华传统文化的重要组成部分。

       古彝文的起源距今至少数千年,是世界上最古老的文字之一。古彝文的外形与其他古文字中可能存在某些相似关联:
 

但不同区域的彝族人,他们在造字与使用方法有着很大的差异。据《滇川黔桂彝文字集》显示,这种文字多达87046字;在国家图书馆珍藏中,由这些文字书写的古彝文典籍共有592册(件)。

这些古彝文典籍的内容涉及范围非常广泛,包含天文、地理、政治、经济、军事、医学、算术、地形、地貌、生物、农牧等多个领域,其中蕴含着大量的生产与生活的技能智慧,是彝族人民开发利用所在地自然资源的经验总结和科学的结晶,可见其蕴含着巨大的文化价值和实用价值。

       在当代,彝文依然拥有广泛的受用人群。四川省曾在1980年发布规范彝文共819字,截止2012年,滇川黔桂发布的通用彝文有5598字。这两种彝文常用于仪式、节庆、旅游景点等场合——彰显彝族非物质文化遗产的传承;同时也用于民族地区相关政策与宣传文件的翻译,以及文学创作。值得一提的是彝文的使用同样受到了国家层面上的重视,中央民族语文翻译局设有彝语文室,负责每年全国、省两会文件的翻译和同声传译等。

2、对古彝文古籍的保护迫在眉睫

       彝文古籍文献的载体形式是多样化的,有纸质书籍、文书档案、碑刻、竹简、金属载体,以及一些口耳相传的口述史料,其中以手抄的形式为主。这些文献代代相传,由于战火与自然风蚀的洗礼,很多文献遭到破坏和流失,存在缺失、污渍、笔墨污染、模糊、印章噪声干扰,目前, 从各地收藏单位收集到彝文古籍文献来看,纸质文件存在泛黄变脆,甚至出现残边、虫蛀等损毁问题; 一些碑刻、木刻的古彝文也由于长期的侵蚀,字迹出现了模糊, 腐蚀等情况。

       这些给古彝文古籍的保存、流通与使用产生了很大的阻碍,这使得抢救与保护现有的彝文古籍文献迫在眉睫,其中数字化技术是重要手段之一,也是现如今梳理和保护古彝文最有希望的路线。通过现代化的数字技术,将珍贵的古彝文文本文献转换为电子文件,更加便于其保存与传承。

       作为世界上最古老的文字之一,古彝文是中华文明地图上神秘而耀眼的印记。合合信息联合上海大学、华南理工大学团队针对现有的西南彝志、云贵一带古彝文字符开展统一编码,并于近期发布了业内首个古彝文基础编码数据库(简称“数据库”)。

       据悉,数据库包含上千个古彜文基础编码,通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛,以数字化手段助力传统文化保护、创新之路。

       研究古彝文字集,有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护,同时通过建立古彝文数据库,填补当前国内外研究的空白。合合信息与华南理工大学共同成立文档图像分析识别与理解联合实验室,联合上海大学社会学院,共同解决数据库建设中的学术性、技术性难点。

3、古彝文识别的难点问题

       目前, 从各地收藏单位收集到彝文古籍文献来看,纸质文件存在泛黄变脆,甚至出现残边、虫蛀等损毁问题; 一些碑刻、木刻的古彝文也由于长期的侵蚀,字迹出现了模糊, 腐蚀等情况,这对古彝文典籍修复、文本检测、文字识别带来极大困难。此外,当前对于古彝文识别技术的研究寥寥无几,这进一步加深了古彝文识别的难度。目前,古彝文识别的挑战性主要集中于以下几个方面,合合信息针对这些难点问题开创性地提出了对应的解决办法。

(1)缺乏完善的手写古彝文数据集

        数据集通常是训练神经网络最为关键的因素之一,数据集的质量直接决定了模型的效果。当前对古彝文的研究多集中在文献整理上,而尚未有完善的古彝文手写数据集,并且在传承过程中通晓古彝文文字的人越来越少,导致数据集标注工作量大而人手少,数据集样本严重不足,这是古彝文识别最为关键的挑战之一。

      合合信息研究人员通过与古彝文传承人建立良好的关系,获取大量典籍,弥补了古彝文识别项目训练样本不足的情况。

(2)版式多样性

       古彝文典籍排版风格具有多样性,字符间距、行距等有较大差异,且存在加字、替字、整句倒置等现象,这种情况对文字定位与识别造成了诸多干扰。

       合合信息依托其在智能文字识别领域的领先技术,包括图像复杂版式识别、图像扭曲矫正等优秀成果,为古彝文识别奠定了技术基础。

(3)图像质量较差

       多数古彝文典籍都因历史保护的原因,出现了或多或少的缺失或污迹,严重影响了数据集的质量,增加了文字识别的难度。

       合合信息依托智能文字识别技术,通过利用图像增强技术可以显著提高图像质量,进而提高古彝文文字识别的精度和效率。

(4)字符集庞大

       古彝文拥有庞大的字符集,在上文中,我们已经提到仅仅是 2004 年出版的《滇川黔桂彝文字集》就包含 87000 多个字。对如此庞大的字符集进行分类是一项十分艰巨的任务。

       合合信息在2021年、2022年的世界人工智能大会上,合合信息展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。合合信息利用在甲骨文、金文等古文中的研究经验,文字间的识别有相通之处,为古彝文识别打下了坚实基础。

(5)字形变化较多

       古彝文字体、字形的变化较多,没有统一的手写规范,且不同地区书写规则不同,存在大量的变形字和异体字,例如,如下图所示,表示“种类”的古彝文就有四种不同的写法,并且存在大量字形相似,甚至在视觉上没有太大差别的字,在意义上毫无联系,这为古彝文的识别增加了难度。

       针对这一问题,上海大学的古彝文研究人员提出了四字节编码方案,用于描述每个变体和形近字符之间的细微差别,根据这种编码方案能够更好的建立深度学习数据集。合合信息根据四字节编码系统标注异体字、变体字、误用字和混用字,并由此精确建立彝文古籍电子数据库。

4、古彝文文字识别的关键技术

       虽然古彝文的识别研究尚处于起步阶段,但合合信息依托其在文字识别领域的多年技术沉淀,融合了AI技术,拥有强大的智能图像处理、基于深度学习的复杂场景文字识别、自然语言处理(NLP)等关键技术积累,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,并取得优秀的应用效果,为古彝文识别提供技术支持。合合信息的智能文字识别技术可对图像质量进行增强,提升文字识别的效率与准确性。

       此外,合合信息引入了先进的AI技术,为彝文古籍建立了统一的电子数据库,对于增强古彝文研究的连续性、降低繁琐的检索工作起到了很大的作用。

4.1、智能高清滤镜技术

       合合信息旗下扫描全能王推出了基于智能扫描引擎AI-Scan的智能高清滤镜技术,该智能高清滤镜技术使用深度学习模型来识别和理解图像的内容。通过深度学习模型,应用可以感知到图像中的光照、阴影、颜色和倾斜角度等特征,可自动检测图像中存在的问题并判定图像的优化方式,实现模糊、阴影、手指、屏幕纹等干扰因素一键全处理,使用者无需思考拍摄角度、光源、背景等的影响。例如,对于手指的遮挡,它可以进行去手指处理;对于过暗或过亮的图像,它可以调整图像的亮度和对比度;对于倾斜的文档,它可以自动进行倾斜矫正等。
 

这个智能高清滤镜技术,可以较大地提高对古彝文等古籍文献识别的清晰度与准确性。

4.2、图像矫正

       由于相机拍摄(扫描)的角度和镜头畸变的问题,会产生文档图像的变形和扭曲。比如对目标文档的拍摄视角一般做不到与目标文档的垂直,拍摄出来的图像不可避免地会产生文变形和扭曲,效果如下:

对于传统扭曲变形的校正方式,通过对选择的区域进行特征提取,以分类回归的方式得到最后的文本区域。但对于古文古籍这类很复杂的文本场景时,图像受遮挡、模糊等因素的影响,加上文本在纵横比、比例、方向呈现的方式不同,传统算法的稳定性变差。

       合合信息采用基于偏移场的学习方法大大改善了上述缺陷。偏移场是一种具有中间监督的堆叠U-Net网络,用于直接预测从扭曲图像到校正图像的正向映射。通过扭曲未失真的图像创建高质量的图像合成数据集,而数据驱动和学习的方法可以极大地涵盖各种真实世界条件,提高了模型泛化能力,达到商用级别。在提供大规模训练数据的前提下,它可以处理各种文档类型——包括古彝文等古籍文档;且可以作为一种有效的方法部署在现实世界中应用。

4.3、图像增强

        因为古籍文献往往存在斑点、阴影、破旧、模糊不清等影响文字提取和识别的问题,此时需要借助图像增强技术进行预处理。

        从 2017 年开始,生成对抗网络在图像阴影去除方向的应用陆续被人提出并不断完善,以达到图像阴影去除效果进一步的提升。GAN网络由生成器网络与判别器网络两部分共同构成。

其核心思想是通过两个子网各自的最优变化,达到全局的最优效果。生成器网络的核心作用是通过一系列的网络结构生成可以骗过判别器网络的数据,判别器网络的核心作用是通过网络设计可以不被生成器网络生成的数据所骗过。生成器网络与判别器网络二者互相制约,共同成长,形成表现良好的网络结构。有时,网络内部还借助空洞卷积、注意力机制、特征融合、编码器等方法的一个或多个特性进行优化。

       通过上述两个网络的博弈,使得去阴影的效果更接近于真实的无阴影文档,大大提高了文档的可读性。

4.4、版面还原

       对文档版面的处理,可以说是一个复杂且高度专业的任务。不仅需要对各种元素进行精准定位,还要准确解析这些元素的内容及它们之间的关系。合合信息通过融合自研技术和前沿理论,创建了一套完整的版面处理流程,成功实现了精准的版面还原。

(1)元素检测和识别

       首先,利用Layout-engine这样的版面分析框架,进行文档的初步元素检测和识别。它利用类似卷积神经网络(CNN)和Faster R-CNN的深度学习模型,定位并识别文档中的元素,如文本、图表、图片等,处理的范围包括段落检测、表格检测、页眉页脚识别等。

(2)元素聚合

       在准确检测到元素后,我们需要对这些元素进行合理的聚合。例如,将相同段落的文字聚合在一起,形成完整的段落;将表格的行列单元聚合,生成完整的表格。在这个过程中,扫描全能王运用了类似图神经网络(GNN)的方法,构建一个图形模型来描述元素之间的关系,从而实现对元素的有效聚合。

(3)版面识别

       在元素聚合完成后,需要识别这些元素的内容。识别文本、识别表格中的信息、解析条形码和二维码的数据等。这一步,扫描全能王使用了一种类似Transformer网络模型的结构,它能有效处理长距离依赖问题,同时具有并行计算的优势,对大规模文档处理任务有着显著的效益。

5、合合信息识别技术赋能古彝文数字化

       作为行业领先的人工智能及大数据科技企业,合合信息致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。17年来深耕智能文字识别+商业大数据领域,在C端推出了多款深受全球用户喜爱的效率产品,例如:名片全能王、扫描全能王、启信宝等。

       近三年来,合合信息智能文字识别技术先后在ICDAR、ICPR等人工智能国际竞赛中斩获多项冠军,学术成果在CVPR、AAAI、ACL等顶会上发表,并在多个业务领域取得了举世瞩目的应用成果。

       在2021年、2022年的世界人工智能大会上,合合信息展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。

       合合信息凭借着在甲骨文、金文识别中的深入研究和技术积累,以及后续的持续创新,必将在古彝文数字化进程中取得令人瞩目的成绩!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/143077.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

uniapp 可输入可选择的........框

安装 uniapp: uni-combox地址 vue页面 <uni-combox :border"false" input"selectname" focus"handleFocus" blur"handleBlur" :candidates"candidates" placeholder"请选择姓名" v-model"name"&g…

yolov5及yolov7实战之剪枝

之前有讲过一次yolov5的剪枝&#xff1a;yolov5实战之模型剪枝_yolov5模型剪枝-CSDN博客 当时基于的是比较老的yolov5版本&#xff0c;剪枝对整个训练代码的改动也比较多。最近发现一个比较好用的剪枝库&#xff0c;可以在不怎么改动原有训练代码的情况下&#xff0c;实现剪枝的…

使用自定义注解发布webservice服务

使用自定义注解发布webservice服务 概要代码自定义注解WebService接口服务发布配置使用 结果 概要 在springboot使用webservice&#xff0c;发布webservice服务的时候&#xff0c;我们经常需要手动在添加一些发布的代码&#xff0c;比如&#xff1a; Bean public Endpoint or…

破信息壁垒,亿发一站式ERP系统建设,打造五金制造信息管理平台

五金制造拥有明显的行业特征&#xff0c;如体量小、品种繁多、颜色多样、加工工艺不断演进等&#xff0c;呈现出一种独特的管理挑战。大多数五金企业仍然依赖人工管理和经验决策&#xff0c;如今需要寻求更合理和科学的决策方法&#xff0c;以实现生产、销售、仓储、采购和财务…

百度SEO优化技巧(选择、网站结构、内容优化、外链建设、数据分析)

百度关键词SEO优化介绍 SEO是搜索引擎优化的缩写&#xff0c;是指通过优化网站结构、内容和外部链接等方式&#xff0c;提高网站在搜索引擎中的排名&#xff0c;从而获取更多的访问量和流量。百度是中国最大的搜索引擎之一&#xff0c;对于企业来说&#xff0c;优化百度关键词…

uniapp 事件委托失败 获取不到dataset

问题&#xff1a; v-for 多个span ,绑定点击事件 代码:view里包着一个span, <view class"status-list" tap"search"><span class"status-item" v-for"(key,index) in statusList" :key"index" :data-key"k…

USB转换方案介绍

随着科技的不断发展&#xff0c;我们的生活中出现了越来越多的电子设备。然而&#xff0c;这些设备通常具有不同的连接端口和协议&#xff0c;这可能会使它们之间的连接变得困难。这时候&#xff0c;使用USB转换就成为了一种非常方便和实用的解决方法。 无论是在家庭、办公室还…

系统集成|第十章(笔记)

目录 第十章 质量管理10.1 项目质量管理概论10.2 主要过程10.2.1 规划质量管理10.2.2 实施质量保证10.2.3 质量控制 10.3 常见问题 上篇&#xff1a;第九章、成本管理 下篇&#xff1a;第十一章、人力资源管理 第十章 质量管理 10.1 项目质量管理概论 质量管理&#xff1a;指确…

创建型设计模式——工厂模式

摘要 本博文主要介绍软件设计模式中工厂模式&#xff0c;其中工厂设计模式的扩展为简单工厂(Simple Factory)、工厂方法(Factory Method)、抽象工厂(Abstract Factory)三种。 一、简单工厂(Simple Factory) 主要分析设计模式 - 简单工厂(Simple Factory)&#xff0c;它把实例…

PHP8的类与对象的基本操作之类的实例化-PHP8知识详解

定义完类和方法后&#xff0c;并不是真正创建一个对象。类和对象可以描述为如下关系。类用来描述具有相同数据结构和特征的“一组对象”&#xff0c;“类”是“对象”的抽象&#xff0c;而“对象”是“类”的具体实例&#xff0c;即一个类中的对象具有相同的“型”&#xff0c;…

【DETR】

https://tianfeng.space/ 前言 论文 代码 DETR&#xff08;Data-efficient Image Transformer&#xff09;是一种用于目标检测任务的深度学习模型。它与传统的目标检测方法不同&#xff0c;采用了Transformer架构&#xff0c;将目标检测问题转化为一个序列到序列的问题。以下…

Java之IO流概述

1.1 什么是IO 生活中&#xff0c;你肯定经历过这样的场景。当你编辑一个文本文件&#xff0c;忘记了ctrls &#xff0c;可能文件就白白编辑了。当你电脑上插入一个U盘&#xff0c;可以把一个视频&#xff0c;拷贝到你的电脑硬盘里。那么数据都是在哪些设备上的呢&#xff1f;键…

【数据库——MySQL】(10)视图和索引

目录 1. 视图1.1 创建视图1.2 查询视图 2. 索引2.1 索引的分类2.2 索引的建立 参考书籍 1. 视图 1.1 创建视图 基础语法&#xff1a; CREATE [OR REPLACE] VIEW 视图名[(列名表)]ASSELECT语句[WITH CHECK OPTION]说明&#xff1a; 在默认情况下&#xff0c;将在当前数据库创…

Linux 用户 用户组管理

用户 Linux系统是一个多用户多任务的分时操作系统&#xff0c;任何要使用系统资源的用户&#xff0c;都必须首先向系统管理员申请一个账号&#xff0c;然后以这个账号的身份进入系统。每个用户账号都拥有一个唯一的用户名和各自的口令。用户在登录时键入正确的用户名和口令后&a…

华为ICT——第二章-数字图像处理私人笔记

目录 1&#xff1a;计算机视觉&#xff1a;​编辑 2&#xff1a;计算机视觉应用&#xff1a;​编辑 3&#xff1a;计算机视界核心问题&#xff1a;​编辑 4&#xff1a;相关学科&#xff1a; 5&#xff1a;计算机视觉与人工智能&#xff1a; 最成熟的技术方向是图像识别 6…

【面试算法——动态规划 20】最长公共子序列 不相交的线

1143. 最长公共子序列 链接: 1143. 最长公共子序列 给定两个字符串 text1 和 text2&#xff0c;返回这两个字符串的最长 公共子序列 的长度。如果不存在 公共子序列 &#xff0c;返回 0 。 一个字符串的 子序列 是指这样一个新的字符串&#xff1a;它是由原字符串在不改变字…

Spring面试题8:面试官:说一说Spring的BeanFactory

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:说一说Spring的BeanFactory Spring的BeanFactory是Spring框架的核心容器,负责管理和创建Bean对象。它是一个工厂类,用于实例化、配置和管理Bean的…

SpringBoot 如何使用 Druid 进行数据库连接池管理

使用 Druid 进行数据库连接池管理的 Spring Boot 应用 数据库连接池是任何Web应用程序的重要组成部分&#xff0c;它们有助于管理数据库连接的复用&#xff0c;提高性能和资源利用率。Druid是一个强大的数据库连接池&#xff0c;它具有监控、防SQL注入、快速、可扩展等特点。在…

谈谈最近招人的感受!

最近折腾新的项目&#xff0c;面试了很多实习生小伙伴&#xff0c;我说说我的一些「面试」感受&#xff0c; 虽然是一个老生常谈的话题&#xff0c;但是依然提一下。 准时很重要&#xff1a;提前一点时间&#xff0c;踩个点&#xff0c;别迟到&#xff0c;面试的过程中由于每个…

低功耗引擎Cliptrix为什么可以成为IOT的高效能工具

在万物互联的时代&#xff0c;现代人已普遍接受电视、音箱等电器设备具备智能化能力&#xff0c;也是在这个趋势下&#xff0c;我们身边越来越多的iOT设备联网和交互成为刚需。 但iot设备也面临到一些非常显著的痛点&#xff0c;例如iot设备的内存、处理器等核心元件无法与手机…