合合信息、上海大学、华南理工大学发布业内首个古彝文编码“大字典” ,为古文字打造“身份证”

“乌蒙山连着山外山,月光洒向了响水滩。”近期在各大短视频平台爆火的《奢香夫人》你听过吗?奢香夫人是一位彝族“巾帼英雄”,这首同名歌曲早在2009年便已发布,如今突然“翻红”,不仅体现了大众对于少数民族文化高涨的兴趣,也见证着优秀的传统文化不息的生命力。

文字是文化的重要载体,古彝文承载了深远的彝族历史内涵,蕴含着丰富的文化信息。近期,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,古彝文在数字社会中从此有了“身份证号码”。

校企合力,把七万多个字符“浓缩”成精简的字典

以往,古文字主要通过人工识别、校正和进行文献编撰,工作量繁多且效率低下。近年来,人工智能,特别是深度学习技术的发展,为古文字识别提供了高效的工具,极大地提高了古代文献和文字数字化进程的速度和效率,本次古彝文基础编码数据库的发布,将成为古文字数字化的重要成果之一。

单一古彝文可表达多个释义(图源:《滇川黔桂彝文字集》 )

当前,古彝文数字化方面的成果相对较少,其原因之一是古彝文字符集庞大,且缺乏成熟的手写样本库。据《滇川黔桂彝文字集》中所有字符的合计,古彝文和现在仍然使用的各地的彝文,总数多达87046字,对如此庞大的字符集进行分类非常困难。另一方面,在彝文的发展过程中,由于种种因素,导致异体字、变体字特别丰富,字符和释义“一对多、多对一”是常态。古彝文手写体的随意性、多样性等,都给古彝文的识别带来了极大的挑战。

基于上述情况,合合信息与华南理工大学共同成立的文档图像分析识别与理解联合实验室,联合上海大学社会学院组建研究团队,共同解决数据库建设中的学术性、技术性难点。

项目技术负责人、华南理工大学电子与信息学院教授金连文表示,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,所以从最初语料的收集开始,就需要做大量的前置工作。再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。

典籍编码、识别过程(图源:西南彝志)

在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。

“古彝文数据库的发布并非一个最终的研究结果,而是一项非常重要的基础性工作。”古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示,基础编码的发布,意味着这些文字在数字社会里从此拥有了“身份证号码”,能够被更多地展现在网络空间上,被更广泛的人群看见、认识、研究。

AI帮人类降低古彝文阅读难度

构建古彝文“大字典”需要解决的首要问题并非文字识别,而是低质量的图片资料处理。传统的古彝文大多被记录在岩书、布书、竹简等,在潮湿的自然环境下难以完整保存,往往会变得模糊不清或残缺不全。在资料文档数字化的过程中,采用科技手段优化图像质量问题是关键的一环。

在古彝文语料收集过程中,研究团队选取的古籍图片采集工具是合合信息旗下的智能扫描“扫描全能王”。该产品的“智能高清滤镜”功能基于AI技术及智能扫描引擎,可自动检测图像中存在的问题,并智能判定图像的优化方式,一键处理模糊、阴影、手指、屏幕纹等干扰因素,减轻后续图片处理工作,缩短内容识别、编码的操作周期。

扫描全能王“智能高清滤镜”古籍扫描效果(图源:西南彝志)

2022年5月,中共中央办公厅、国务院办公厅印发了《关于推进实施国家文化数字化战略的意见》,文件指出,到2035年,建成全面共享、重点集成的国家文化大数据体系。文化数据要素和人工智能技术的融合,将推动文化数字化战略的有效实施和文化产业的高质量发展,是优秀传统文化传承创新的有效路径。

合合信息在智能文字识别领域已有十七年深耕经验。此前,在AI识别甲骨文、西周钟鼎文(金文)领域,公司已进行了领先的探索和研究,为古彝文识别积累了经验,奠定了良好的技术基础,相关项目曾获得央视、新华社、《人民日报》等多家主流媒体的关注。

扫描全能王小程序上线H5,面向全社会进行古彝文典籍公益性征集及文化海报传递

加强文化遗产的保护、传承与合理利用任重道远,需要全社会共同行动。为发动更多的社会力量参与到古彝文识别和保护,扫描全能王已同步启动公益性活动,上线古彝文典籍上传入口,面向全社会征集古籍资料。研究团队在接收古籍后会将其转交给对应专家、部门进行研究,助力中华文化瑰宝传承。

近年来,国家正不断推进文化数字化战略。2022年,国务院办公厅印发《关于推进实施国家文化数字化战略的意见》,提出了“中华文化全景呈现,中华文化数字化成果全民共享”的目标,体现了传统文化“数字化”的重要性。AI技术与古彝文的“牵手”,将助力民族文化在深入群众的过程中与新事物融合,为文化传承提供创新的源泉。

网友自发“创作”的古彝文对联

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/142549.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Unity可视化Shader工具ASE介绍——1、ASE的介绍、安装和简单使用

大家好,我是阿赵,接下来我打算介绍一下Unity引擎的一个好用的可视化Shader编辑插件。这个插件叫做Amplify Shader Editor,下面都会简称为ASE。这一篇主要是讲一下这个插件的获取、安装,和一些简单的界面用法介绍。之后有机会&…

C语言的stdio.h的介绍

C语言的stdio.h的介绍 C语言的stdio.h的介绍 C语言的stdio.h的介绍C语言stdio.h的介绍 C语言stdio.h的介绍 这个含义是导入标准输入输出库 包含头文件.h&#xff0c;std标准库&#xff0c;io是input output输入输出库 <>代表系统库&#xff0c;自定义的话用""…

C++打印字符串数组中的元素(字符串)

C遍历字符串数组&#xff0c;在main函数里定义一个字符串数组&#xff0c;要求依次输出字符串元素&#xff1a; string a[4] {"a", "vag", "gwe", "gewa"};希望打印的结果 上面可以看做是二维指针&#xff0c;第一维是每个字符串&a…

Springboot 前后端分离项目使用 POI 生成并导出 Excel

在做一个 SpringBoot 前后端分离项目的时候&#xff0c;需要将数据存到 Excel中&#xff0c;用户可以下载 Excel。具体实现是采用 Apache 强大的 POI。文章最后将源码例出。 POI API 文档&#xff1a; https://poi.apache.org/apidocs/dev/index.html 步骤 导入 POI 的 maven …

【C语言】指针的进阶(三)—— 模拟实现qsort函数以及指针和数组的笔试题解析

目录 1、模拟实现qsort函数 1.1、qsort函数的回顾 1.2、模拟实现qsort函数 2、指针和数组笔试题解析 2.1、一维数组 2.2、字符数组 1、模拟实现qsort函数 1.1、qsort函数的回顾 要模拟实现qsort函数&#xff0c;就要了解清楚qsort函数的参数以及使用方式。 我们先回顾一…

vue3 - 封装倒计时函数 useCountDown

编写一个函数 useCountDown 可以把秒数格式化为倒计时的显示状态。 步骤 1. 编写函数框架 ---> 确认参数和返回值&#xff08;显示格式化时间的数据开启倒计时的函数&#xff09; 2. 倒计时的核心逻辑&#xff1a;每隔1s减一 3. 格式化 1&#xff09;安装格式化工具&#xf…

跨域问题的原理及解决方法

一.同源策略 如果没有进行特殊处理&#xff0c;我们在进行前后端联调的时候游览器会发生报错&#xff1a; 这是因为请求被同源策略被阻止&#xff0c;浏览器出于安全的考虑&#xff0c;使用XMLHttpRequest对象发起HTTP请求&#xff08;异步请求&#xff09;时必须遵守同源策略…

单文件制作工具 v7.0.2.38(20230406) 最新版_一个小巧强大的PECMD/7zSFX单文件制作工具

网盘下载 功能描述 —全新的自解压内核&#xff0c;非现有的7zSFX、WinRAR、ZLIB自解压模块&#xff1b; —采用先进的打包方式&#xff08;堪称黑科技—>内核默认PECMD自解压模块&#xff09; —7zSFX模块&#xff0c;创建的单文件支持传递参数&#xff08;包含内置参数和外…

1、MQ基础

微服务一旦拆分&#xff0c;必然涉及到服务之间的相互调用&#xff0c;目前我们服务之间调用采用的都是基于OpenFeign的调用。这种调用中&#xff0c;调用者发起请求后需要等待服务提供者执行业务返回结果后&#xff0c;才能继续执行后面的业务。也就是说调用者在调用过程中处于…

信息安全:网络安全审计技术原理与应用.

信息安全&#xff1a;网络安全审计技术原理与应用. 网络安全审计是指对网络信息系统的安全相关活动信息进行获取、记录、存储、分析和利用的工作。网络安全审计的作用在千建立“事后“安全保障措施&#xff0c;保存网络安全事件及行为信息&#xff0c;为网络安全事件分析提供线…

SQLite 3.43 发布,性能大提升!

前言 SQLite是一种被广泛运用的嵌入式关系型数据库管理系统&#xff0c;最新发布的SQLite 3.43版本带来了一个重要的改进&#xff0c;大幅提升了对JSON数据的处理性能&#xff0c;达到了之前的两倍。 主要更新 添加对 Contentless-Delete FTS5 索引的支持。这是 FTS5 全文搜索…

leetcode算法题-移动零Java

这道题的解法,我们可以新建一个等长的数组,初始化后数组中的元素都为零,我们只需要遍历一遍原来的数组,将不为0的数据转移到新数组即可,下面是代码实现: public static void main(String[] args) {System.out.println("移动零:" Arrays.toString(moveZero(new int[…

【STM32】读写内部Flash初步使用

基于stm32f103&#xff0c;作为个人学习记录使用 STM32 芯片内部有一个 FLASH 存储器&#xff0c;它主要用于存储代码,在紧急状态下常常会使用内部 FLASH 存储关键记录&#xff1b; 内部 FLASH 的构成 STM32 的内部 FLASH 包含主存储器、系统存储器以及选项字节区域 大容量…

Unity下tga和png格式图片打包成AB包大小和加载速度测试

测试素材 测试素材&#xff0c;一张tga格式&#xff0c;一张png格式&#xff0c;他们的图像尺寸一样都是8K图。 两张图在AssetBundles里显示 Tga格式的图明显大很多&#xff0c;我们打包成ab包看看。 在PC 打包后看&#xff0c;明显大小一样&#xff0c;我们进行ab包加载&am…

文心一言 VS 讯飞星火 VS chatgpt (101)-- 算法导论9.3 7题

七、用go语言&#xff0c;设计一个 O(n)时间的算法&#xff0c;对于一个给定的包含n个互异元素的集合 S 和一个正整数k≤n&#xff0c;该算法能够确定 S 中最接近中位数的k个元素。 文心一言&#xff1a; 要设计一个 O(n) 时间的算法来找到集合 S 中最接近中位数的 k 个元素&…

idea创建同级项目-纠结是SB

idea创建同级项目-纠结是SB 创建方法&#xff1a;

从C语言到C++:C++入门知识(1)

朋友们、伙计们&#xff0c;我们又见面了&#xff0c;本期来给大家解读一下有关C语言的相关知识点&#xff0c;如果看完之后对你有一定的启发&#xff0c;那么请留下你的三连&#xff0c;祝大家心想事成&#xff01; C 语 言 专 栏&#xff1a;C语言&#xff1a;从入门到精通 数…

Linux:进程概念的引入和理解

文章目录 进程的初步理解进程的实质理解查看进程 前面对操作系统有了一个基础的认知&#xff0c;从中得出的最重要的一个思想是&#xff0c;在认识一个新事物前要先描述&#xff0c;再组织&#xff0c;有了这样的思想也可以用于学习进程的概念 进程的初步理解 有了前面的思想…

学习路之PHP--lumen安装配置

一、下载lumen源码 composer create-project --prefer-dist laravel/lumen blog 安装lumen-generator composer require flipbox/lumen-generator 二、配置 bootstrap\app.php 97行 $app->register(Flipbox\LumenGenerator\LumenGeneratorServiceProvider::class);三、生成…

VS CODE中的筛选器如何打开?

最近更新了vscode1.82版本&#xff0c;发现在git管理界面有一个“筛选器”功能&#xff0c;十分好用&#xff0c;后来关掉了&#xff0c;找了好久都没有找到办法打开这个筛选器功能&#xff0c;今天无意中不知道按到了哪个快捷键&#xff0c;打开了&#xff0c;就是下图这个&am…