小试银河麒麟系统OCR软件

0 前言

今天在国产电脑上办公,需要从一些PDF文件中复制文字内容,但是这些PDF文件是图片转换生成的,不支持文字选择和复制,除了手工输入,我们还可以使用OCR。

1 什么是OCR

OCR (Optical Character Recognition,光学字符识别),最初是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;随着软件功能的发展,也可以将图片、PDF等电子文件的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

现在,不管是Windows系统,还是基于Linux的系统,都提供了具有OCR功能的软件。

2 Windows平台上的OCR软件

在Windows平台上,有很多OCR软件,比较常见和常用的有:

  1. Adobe Acrobat Pro:Adobe提供的全功能PDF编辑和处理工具,其中包含OCR功能。

  2. ABBYY FineReader:一款功能强大的OCR软件,可以将扫描的文档、PDF文件等转换为可编辑的文本格式。

  3. Omnipage Ultimate:识别准确率较高的OCR软件,支持批量处理和自动化的工作流程。

  4. Readiris:适用于扫描仪和多功能设备的OCR软件,可以将纸质文档转换为可编辑的电子文件。

  5. Nitro Pro:一款PDF编辑和管理工具,也具备OCR功能。

  6. FreeOCR:一款免费的OCR软件,虽然功能相对较简单,但适合个人和小型项目使用。

  7. 一些扫描仪也配备了OCR软件,比如汉王OCR。                                                     

这些软件都可以将扫描的文档或图片中的文字识别并转换为可编辑的文本格式。用户可以根据自己的需求和预算选择适合自己的OCR软件。

不仅如此,腾讯的QQ、微信都提供了对图片的文字提取功能。

免费开源的图片浏览软件irfanView也以插件的形式提供了OCR功能,不过只能识别英文。

因此,在Windows平台上,使用OCR技术来提取图片或电子文档中的文字非常方便。

3  银河麒麟系统上的OCR软件

银河麒麟系统上的QQ、微信目前还不能像在Windows平台上一样支持对图片中文字的提取。

打开银河麒麟系统的软件商店,直接搜索OCR,结果如下:

目前有5款软件。

3.1 OCRFeeder

OCRFeeder 是 GNOME 桌面下的一个开源 OCR 套件。可将纸质或者图形文档转成电子文档。

看起来不错,可惜安装后运行不了。

从软件下面的评论来看,不止我一个人遇到这个问题。

3.2 The OCR-A

这只是一种字体,不是一个软件。所以安装后只会显示“已安装”。

3.3  成者采编王(图像编辑PDF/OFD扫描及文字识别OCR软件)

安装,运行,打开上面这张照片,点击框选OCR功能按钮,选择图中的软件介绍这部分文字

在图片右侧显示出了OCR的结果:

软件介绍

成者采编王,是专业的图像文档编辑和ocr识别软件

成者采编王(图像编辑PDF/OFD扫描打印及文字识别OCR软件),是专业的图像处理和ocr识别软件,是成者为国产化平台倾力打造的桌面端办公应用软件,利用图像算法的优势,实现快捷的图像处理方式和高效的批量图片处理和准确的文字识别功能。集成了标准的SANE扫描仪/摄像头类拍摄仪采集功能,实现数据的采集录入。同时集成了标准打印文档模块,为日常办公提供便利。软件使用自研“成者远识”文字识别系统引擎,通过机器学习AI算法完成对海量数据的采样和标定,可快速批量的将图片转化成文字,对中准确识别率高。支持xt,docx,双层pdf,xlsx的格式导出,可轻松完成文字的编辑、检索等工作,完成纸质文件的无纸化转换。支持文件夹快速切换,图像缩略图预览,支持多文件选取,支持批量功能操作,如颜色处理、旋转、裁剪、规格化、重命名,文字识别等功一个安装包解决图像处理和文字识别的问题,以极小体积的本地数据库完成对文字的识别,无需互联网即可使用,安全应用防止数据泄露。专业的UI设计及交互设计团队,精心打造每一个细节,让用户越用越流畅,越便捷。软件版本会持续送代,功能和体验持续升级更新。预置白纸印章、证件底纹等颜色模式,实现快速切换。效率高,效果好

识别率不错。

这个软件的评论区里也有不少用户发表的评论:

就是没注册,不知道使用时是否存在功能限制。

3.4 截屏OCR

从软件介绍来看似乎不错。

安装后运行,提示要在应用商店下载依赖系统<电子档案管理系统>。

3.5 Online OCR网页版

从软件介绍来看,这是一个在线OCR文字识别软件,从PDF或图片(支持JPG.BMP)中识别提取出文字,并将其转换成Word/ExceUTXT文档。

安装后打开,会使用浏览器打开网址:免费在线OCR - 将PDF转换为Word或图像转换为文本

网页中提示了操作步骤:

第一步,选择并上传文件

第二步,选择识别语言和输出文件格式,我们要识别简体中文的话,可以选择 CHINESESMPLIFIED

第三步,识别并转换

对于一般的文件,可以上传和识别

如果是敏感的文件,就不能上传和识别了。

4 小结

经过测试,在银河麒麟系统软件商店中搜索出了5个OCR软件,其中一个The OCR-A实际是字体而非软件,所以实际上只有4个,在这4个软件中,OCRFeeder运行不了,截屏OCR不能单独使用,Online OCR网页版需要连接互联网,而且不能处理敏感信息,所以真正可以放心使用的只有成者采编王(图像编辑PDF/OFD扫描及文字识别OCR软件)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/14741.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

np.zeros_like奇怪的bug

import numpy as np aa np.array([[1,2,3],[2,3,3]]) cc np.random.randn(2,3) print(aa) print(cc)bb np.zeros_like(aa) print(bb)for i in range(bb.shape[0]):for j in range(bb.shape[1]):bb[i,j] cc[i,j]print(bb)结果如下 这里发现这个bb的结果是没有赋值的 正确做…

C++(Qt)软件调试---内存泄漏分析工具MTuner (25)

C(Qt)软件调试—内存泄漏分析工具MTuner &#xff08;25&#xff09; 文章目录 C(Qt)软件调试---内存泄漏分析工具MTuner &#xff08;25&#xff09;[toc]1、概述&#x1f41c;2、下载MTuner&#x1fab2;3、使用MTuner分析qt程序内存泄漏&#x1f9a7;4、相关地址&#x1f41…

apk反编译修改教程系列-----apk应用反编译中AndroidManifest.xml详细代码释义解析 包含各种权限 代码含义

在反编译apk应用中。需要增加或者减少有些apk功能或者权限类的修改。其中大多都在于 AndroidManifest.xml文件中。了解AndroidManifest.xml其中每串代码代表的含义对修改apk有着至关重要的作用。 通过博文了解💝💝💝💝 1💝💝💝💝----AndroidManifest.xml中代…

项目功能--运营数据统计

一、需求分析 通过运营数据统计可以展示出体检机构的运营情况&#xff0c;包括会员数据、预约到诊数据、热门套餐等信息。我们要通过一个表格的形式来展示这些运营数据。如下图&#xff1a; 二、代码实现 实现步骤&#xff1a; 步骤一&#xff1a;定义数据模型&#xff0c;通过…

电子制造行业Top5贴片机品牌

在电子制造业的快速发展中&#xff0c;SMT&#xff08;Surface Mount Technology&#xff09;表面贴装技术扮演着至关重要的角色。贴片机作为SMT生产线的核心设备&#xff0c;其性能直接关系到整个生产线的效率和产品质量。 SPEA作为全球领先的自动化测试设备服务商&#xff0…

【maven踩坑】一个坑 junit报错 但真正导致这个的不是junit的原因

目录 事件起因环境和工具操作过程解决办法结束语 事件起因 报错一&#xff1a; Internal Error occurred. org.junit.platform.commons.JUnitException: TestEngine with ID junit-vintage failed to discover tests报错二&#xff1a; Internal Error occurred. org.junit.pl…

拷贝和浅拷贝的区别,以及对于循环引用如何处理深拷贝

深拷贝和浅拷贝的区别&#xff0c;以及对于循环引用如何处理深拷贝 浅拷贝仅拷贝对象的第一层属性值&#xff0c;对于基本数据类型&#xff0c;会复制其值&#xff1b;对于引用数据类型&#xff0c;仅复制引用地址而不复制实际的对象内容。浅拷贝后的新对象与原对象中的引用类…

gitlab与jenkins

一 gitlab代码仓库 1.1 gitlab简介 GitLab 是一个用于仓库管理系统的开源项目&#xff0c;使用 Git 作为代码管理工具&#xff0c;并在此基础上搭建起来的 web 服务。GitLab 具有很多功能&#xff0c;比如代码托管、持续集成和持续部署&#xff08;CI/CD&#xff09;、问题跟踪…

LeetCode 86.分隔链表

题目&#xff1a; 给你一个链表的头节点 head 和一个特定值 x &#xff0c;请你对链表进行分隔&#xff0c;使得所有 小于 x 的节点都出现在 大于或等于 x 的节点之前。 你应当 保留 两个分区中每个节点的初始相对位置。 思路&#xff1a; 代码&#xff1a; /*** Definiti…

Qt/C++ 开源控件 可折叠的标签管理控件

在 Qt 开发中&#xff0c;许多项目需要处理标签管理功能&#xff0c;例如分类管理、标签筛选等需求。本文将分享如何利用 Qt/C 实现一个具备动态增删标签、展开折叠功能的控件。此控件由 TagWindow 和 TagItemWidget 两个类组成&#xff0c;前者负责整个标签管理窗口的布局与逻…

Jmeter中的监听器(三)

9--断言结果 功能特点 显示断言结果&#xff1a;列出所有断言的结果&#xff0c;包括通过和失败的断言。详细信息&#xff1a;显示每个断言的详细信息&#xff0c;如断言类型、实际结果和期望结果。错误信息&#xff1a;显示断言失败时的错误信息&#xff0c;帮助调试。颜色编…

七牛云上传图片成功,但是无法访问显示{error : document not found}

上传图片成功&#xff0c;但是访问不了的问题&#xff0c;直接把地址放进浏览器显示{error : document not found}&#xff0c;直接访问 DCNF 404是符合预期的&#xff0c;因为还没有去空间复制外链&#xff0c;要访问实际存在的资源才可以的. 配置区域和访问域名 设置没问题了…

虚拟与现实交融,线上元宇宙会议应用场景有哪些?

随着科技的飞速发展&#xff0c;元宇宙技术正逐渐渗透到我们生活的各个领域&#xff0c;为企业会议、学术会议、行业展会以及文化娱乐等带来了前所未有的变革。线上元宇宙会议打破了地域和物理空间的限制&#xff0c;让人们能够在虚拟世界中实现跨时空的交互与合作。本文将深入…

构建高效在线商店:Spring Boot框架应用

1 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大&#xff0c;随着当前时代的信息化&#xff0c;科学化发展&#xff0c;让社会各行业领域都争相使用新的信息技术&#xff0c;对行业内的各种相关数据进行科学化&#xff0c;规范化管理。这样的大环境让那些止步不前&#…

鸿蒙网络编程系列47-仓颉版UDP客户端

1. UDP通讯简介 本系列的第1篇文章《鸿蒙网络编程系列1-UDP通讯示例》中基于ArkTS语言在API 9的环境下演示了UDP通讯的基础用法&#xff0c;本文将使用仓颉语言在API 12的环境中实现类似的功能。这可能听起来有点不太现实&#xff0c;在ArkTS语言下可以利用kit.NetworkKit下的…

Redis与IO多路复用

1. Redis与IO多路复用概述 1.1 Redis的单线程特性 Redis是一个高性能的键值存储系统&#xff0c;其核心优势之一便是单线程架构。在Redis 6.0之前&#xff0c;其所有网络IO和键值对的读写操作都是由一个主线程顺序串行处理的。这种设计简化了多线程编程中的锁和同步问题&…

HarmonyOS Next 组件或页面之间的所有通信(传参)方法总结

系列文章目录 【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器&#xff08;上&#xff09; 【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器&#xff08;下&#xff09; 【鸿蒙】HarmonyOS NEXT应用开发快速入门教程之布局篇&#xff08;上&#xff09; 【…

API接口:助力汽车管理与安全应用

随着汽车行业的飞速发展&#xff0c;越来越多的汽车管理技术被应用到交通安全和智慧交通系统中。在这一过程中&#xff0c;API接口起到了至关重要的作用。通过API接口&#xff0c;我们可以实现诸如车主身份验核、车辆信息查询等功能&#xff0c;从而为汽车智慧交通发展与安全应…

C哈的刷题计划之输出数字螺旋矩阵(1)

1、盲听C哈说 都说数据结构与算法是编程的核心&#xff0c;它们两个是内功与心法&#x1f600;&#xff0c;其它编程工具只是招式&#xff0c;学会了内功与心法&#xff0c;学习新事物&#xff08;这里特指层出不穷的IT技术&#xff09;就没有那么难了&#xff0c;实际上&#…

AD22Duplicate Net Names Wire问题

在验证的时候发现报了这个错误 我这个原理图都是用自定义的元件 只写在name引脚名字是会报这个错的 但是换成designator引脚标识就不会了 建议是name引脚名字和designator引脚标识都写 写成一样都行&#xff0c;就不会报这个错了&#xff0c;别空着