OCR识别系统 YOLOv8 +Paddle 方案落地

YOLOv8 + PaddleOCR 技术方案落地

  • Yolov8相关文档
    • Step 1 证件模型的训练
    • Step 2 Yolov8进行图片推理
    • Step 3 PaddleOCR进行识别
    • Step 4 整合Yolov8 + PaddleOCR 进行OCR

Yolov8相关文档

《yolov8 官方网站》
《Yolov8 保姆级别安装》

Ultralytics YOLOv8 是一款尖端的、最先进的 (SOTA) 模型,它以之前 YOLO 版本的成功为基础,并引入了新功能和改进,以进一步提高性能和灵活性。YOLOv8 旨在快速、准确且易于使用,使其成为各种对象检测和跟踪、实例分割、图像分类和姿势估计任务的绝佳选择

目前市面的OCR功能都已经比较完善了,Paddle也很出众,不过OCR出来后相关字段都是错乱,你通过正则表达式获取也不能满足特殊场景,那么就需要特别的位置检测。yolov家族就是做这个事情的!!,通过图片相关位置截取图片在进行OCR

Step 1 证件模型的训练

1、选取身份证标注 (300张样本,200张测试样本)
2、使用标注软件进行处理数据集(这里我用的是 makesense)
3、yolov8 进行训练模型 (这里可以参考《Yolov8 保姆级别安装》文章 )

yolo detect train model=yolov8n.pt data=idCard.yaml epochs=10 imgsz=640

样图:
在这里插入图片描述

在这里插入图片描述

Step 2 Yolov8进行图片推理

yolo predict model=best.pt  source=image_test imgsz=640 

检测后效果:
在这里插入图片描述

Step 3 PaddleOCR进行识别

paddleocr --image_dir ./imges/test.jpg --use_angle_cls true --use_gpu false 

[[[28.0, 37.0], [302.0, 39.0], [302.0, 72.0], [27.0, 70.0]], (‘姓名 xxxxxxx’, 0.9658738374710083)]

到这里相关操作都能正常运行,那么你的虚拟环境就好了。

Step 4 整合Yolov8 + PaddleOCR 进行OCR

1、通过Flask整合,通过http接口进行交互识别

"""
三大核心包
"""
from flask import Flask, request
from ultralytics import YOLO
from paddleocr import PaddleOCR//yolov 推理
model_idCard = YOLO('best_idCard.pt')
results = model_idCard.predict(img, device='cpu', stream=True)
....//获取yolov推理后的切片图进行ocr
ocr = PaddleOCR(lang='ch', use_angle_cls=True, enable_mkldnn=True, cpu_threads=8, ocr_version='PP-OCRv4')
result = ocr.ocr(img, cls=True)@app.route('/idCardOcr', methods=['POST'])
def idCardOcrRequest():
# f = request.files['file']json = request.jsonimagePath = 'temp/' + json['fileName']# imagePath = 'D:/work_project/useDeviceCloud/temp/' + json['fileName']return idCardOcr(imagePath)

yolov8推理出来的切图
在这里插入图片描述
效果:
在这里插入图片描述

效果还是比较可以的,不过低配置的机器可能有点限制。paddle要求比较高后续看看在接入其他的ocr通用版本来替换,让更多的机器能跑起来

看↓↓↓方格或搜索: 码猿趣事,回复关键字:yolov8+OCR持续更新中~。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1548056.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

深入探索与实战:高效利用苏宁商品详情API实现精准数据抓取与解析技术

在电商平台的开发中,获取商品详情是构建用户购物体验的重要一环。苏宁作为国内领先的电商平台,提供了丰富的商品信息和API接口供开发者使用。本文将介绍如何通过苏宁的商品详情接口获取特定商品的详细信息,并给出Python代码示例。 点击获取ke…

DreamBench++:由清华大学和西安交通大学等联合创建:一种人机交互的个性化图像生成基准测试

2024-07-10,由清华大学和西安交通大学等机构联合创建的DreamBench,这个任务目的是通过使用先进的多模态GPT模型来自动化评估,实现与人类评估一致的结果,从而提高个性化图像生成的可靠性和准确性。 一、引言: 个性化图…

Maven项目常见各类 QA

一、pom.xml文件 1.1 there is no POM in this directory [ERROR] The goal you specified requires a project to execute but there is no POM in this directory (/home/cys/SEtesting/example/smartut-report). Please verify you invoked Maven from the correct directo…

消费类摄像头热销海内外,萤石出货量全球排名第一

随着消费者对家庭安全、便捷生活的需求日益增长,智能摄像头作为智能家居的重要组成部分,其市场需求将持续扩大。 IDC《全球智能家居设备市场季度跟踪报告,2024年第二季度》显示,二季度全球智能摄像头市场(包含消费级室…

Vue2项目中vuex如何简化程序代码,提升代码质量和开发效率

Vuex为Vue中提供了集中式存储 库,其主要分为state、getter、mutation、action四个模块,它们每个担任了不同角色,分工不同;Vuex允许所有的组件共享状态抽取出来,以一个全局单例模式管理,状态集中存储在同一…

AniJS:无需编程的动画解决方案

前言 在网页设计中,动画效果能够显著提升用户体验,但传统的动画实现往往需要复杂的 JavaScript 代码。 AniJS 库的出现,为设计师和开发者带来了一种全新的动画实现方式,它通过简单的 HTML 属性就能创建出令人惊叹的动画效果。 介…

文档解析与向量化技术加速 RAG 应用落地

在不久前举办的 AICon 全球人工智能开发与应用大会上,合合信息智能创新事业部研发总监,复旦博士常扬从 RAG 应用落地时常见问题与需求(文档解析、检索精度)出发,分享了针对性的高精度、高泛化性、多版面多元素识别支持…

LeetCode[中等] 138. 随机链表的复制

给你一个长度为 n 的链表,每个节点包含一个额外增加的随机指针 random ,该指针可以指向链表中的任何节点或空节点。 构造这个链表的 深拷贝。 深拷贝应该正好由 n 个 全新 节点组成,其中每个新节点的值都设为其对应的原节点的值。新节点的 n…

贴片式TF卡(SD NAND)参考设计

【MK 方德】贴片 TF 卡参考设计 一、电路设计 1、 参考电路: R1~R5 (10K-100 kΩ)是上拉电阻,当 SD NAND 处于高阻抗模式时,保护 CMD 和 DAT 线免受总线浮动。 即使主机使用 SD NAND SD 模式下的 1 位模式,主机也应通过上拉电阻…

SpringBoot 流式输出时,正常输出后为何突然报错?

一个 SpringBoot 项目同时使用了 Tomcat 的过滤器和 Spring 的拦截器&#xff0c;一些线程变量在过滤器中初始化并在拦截器中使用。 该项目需要调用大语言模型进行流式输出。 项目中&#xff0c;笔者使用 SpringBoot 的 ResponseEntity<StreamingResponseBody> 将流式输…

照片压缩方法分享,掌握这些小技巧轻松压缩

照片已成为我们记录生活、分享美好的重要方式。然而&#xff0c;随着手机像素的不断提升&#xff0c;照片文件体积也越来越大&#xff0c;给存储和传输带来了不小的挑战。今天&#xff0c;就为大家介绍几种高效的照片压缩方法&#xff0c;掌握这些方法就能够轻易对图片进行压缩…

寻找右区间

题目链接 寻找右区间 题目描述 注意点 -10^6 < starti < endi < 10^6每个间隔的起点都 不相同如果某个区间 i 不存在对应的 右侧区间 &#xff0c;则下标 i 处的值设为 -1 解答思路 因为本题需要找到每个interval大于interval对应end的最小start值&#xff0c;所…

vue-i18n在使用$t时提示类型错误

1. 问题描述 Vue3项目中&#xff0c;使用vue-i18n&#xff0c;在模版中使用$t时&#xff0c;页面可以正常渲染&#xff0c;但是类型报错。 相关依赖版本如下&#xff1a; "dependencies": {"vue": "^3.4.29","vue-i18n": "^9.1…

红绿灯倒计时读秒数字识别系统源码分享

红绿灯倒计时读秒数字识别检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of …

小程序开发平台源码系统 各行各业适用的小程序开的平台 带完整的安装代码包以及搭建部署教程

系统概述 本系统采用模块化设计&#xff0c;包含前端展示层、后端逻辑处理层、数据库存储层以及管理后台等多个核心组件。前端展示层负责小程序的界面设计与交互体验&#xff1b;后端逻辑处理层则负责数据处理、业务逻辑实现及与第三方服务的对接&#xff1b;数据库存储层用于…

符合二级等保要求的SSL证书

根据等级保护对象在国家安全、经济建设、社会生活中的重要程度&#xff0c;以及一旦遭到破坏、丧失功能或者数据被篡改、泄露、丢失、损毁后&#xff0c;对国家安全、社会秩序、公共利益以及公民&#xff0c;法人和其他组织的合法权益的侵害程度等因素&#xff0c;等级保护对象…

第1章 C++初识

1.1 编写第一个C程序 1.打开Visual Studio点击"创建新项目" 2.点击"空项目"&#xff0c;并点击"下一步" 3.设置"项目名称"并"设置地址" 4.打开项目后&#xff0c;右击"源文件"并选择"添加"的"新建…

低代码可视化开发-uniapp新闻跑马灯组件-代码生成器

新闻跑马灯效果组件是一种在新闻、数据可视化大屏或其他信息展示场景中常用的动态文本展示方式。它通过滚动文本的形式&#xff0c;在有限的空间内展示更多的信息内容&#xff0c;同时增加了视觉吸引力和动态感。以下是对新闻跑马灯效果组件的详细介绍&#xff1a; 一、定义与…

LVGL-触摸屏-实体按键-编码器-多功能按键)

在使用stm32移植lvgl时由于没有触摸屏&#xff0c;所以选择了编码器和按键作为输入设备。但是按照教程全部正确的设置了编码器和按键后&#xff0c;编码器的回调函数不能被调用即encoder_read();函数中的内容不能被调用。debug后发现是创建输入设备时的indev_drv被覆盖&#xf…

​ETHShanghai 2024:十月盛典,首批嘉宾重磅揭晓!

随着「ETHShanghai 2024」的筹备工作不断推进&#xff0c;已经邀请了多位重要嘉宾参与。同时&#xff0c;以太坊联合创始人Vitalik Buterin 也将通过线上形式参与并进行开幕致辞。 目前&#xff0c;已经确认出席的嘉宾还包括 Mask Network 创始人 Suji Yan、EthStorage 创始人…