基于丹摩智算平台-手把手拿下经典目标检测模型 Faster-Rcnn

文章目录

    • 1. 前言
      • 1. 1 丹摩智算平台
      • 1.2 经典目标检测模型 Faster-Rcnn
    • 2. 前置准备
      • 2.1 WindTerm(远程连接服务器)
      • 2.2 项目源码
    • 3. 服务器平台配置
      • 3.1 创建实例
      • 3.2 远程链接
    • 4. Faster-rcnn 的环境配置
      • 4.1 上传文件,解压
      • 4.2 安装所需环境
    • 5. 数据集简介
    • 6. 开始训练
    • 7. 测试数据保存
    • 8. 训练结果导出
    • 9. 结语

1. 前言

1. 1 丹摩智算平台

DAMODEL(丹摩智算)是专为 AI 打造的智算云,致力于提供丰富的算力资源与基础设施助力 AI 应用的开发、训练、部署。

image-20240923113304837

平台特点:

  • 💡 超友好!配备 124G 大内存和 100G 大空间系统盘,一键部署,三秒启动,让 AI 开发从未如此简单!
  • 💡 资源多!从入门级到专业级 GPU 全覆盖,无论初级开发还是高阶应用,你的需求,我们统统 Cover!
  • 💡 性能强!自建 IDC,全新 GPU,每一位开发者都能体验到顶级的计算性能和专属服务,大平台值得信赖!
  • 💡 超实惠!超低价格体验优质算力服务,注册即送优惠券!还有各类社区优惠活动,羊毛薅不停!

1.2 经典目标检测模型 Faster-Rcnn

Faster RCNN是two-stage目标检测模型中的典型代表,已经是多年的老模型

Fast R-CNN的工作流程是先通过选择性搜索(Selective Search)算法等方法生成候选框,这些候选框作为可能包含目标的区域。接着,整个图像与其对应的候选框一起输入到CNN中。CNN在前向传播过程中同时完成了特征提取、边界框分类和边界框回归三个任务。通过将这三个任务融合到同一个CNN中,Fast R-CNN大大提高了目标检测的效率和准确性,不再需要对每个候选框单独进行特征提取和分类,从而加快了检测速度。

fast-RCNN算法的3个步骤:

1.一张图像生成1K~2K个候选区域(使用Selective Search方法)

2.将图像输入网络得到相应的特征图,将SS算法生成的候选框投影到特征图上获得相应的特征矩阵

3.将每个特征矩阵通过ROI pooling层缩放到7x7大小的特征图,接着将特征图展平通过一系列全连接层得到预测结果

2. 前置准备

2.1 WindTerm(远程连接服务器)

WindTerm SSH工具,服务器管理,远程桌面加速软件,支持Windows,macOS,Linux - WindTerm官网

image-20240923144116177

2.2 项目源码

下载地址:点击下载源码

3. 服务器平台配置

这里服务器平台我选择的是丹摩智算的平台,大家可以注册使用体验一下 丹摩智算平台

3.1 创建实例

  1. 创建实例,选择 4090 显卡,并且下载私钥

image-20240923114912171

image-20240923115204325

选择4090显卡,24g显存,124g内存,磁盘150g即可

  1. 镜像选择:pytorch 2.1.2,python 3.10

image-20240923115357419

  1. 创建密钥对

image-20240923115603704

密钥对创建后记得保存文件,用于后续免密链接登录,也可以不记录

  1. 完成创建

完善相关配置后,点击创建,等待创建完成

image-20240923115746105

3.2 远程链接

  1. 复制访问链接

image-20240923141817790

ssh -p 42894 root@cn-north-b.ssh.damodel.com
HFyoNrTei9
  1. WindTerm链接

回话-新建回话-根据链接完善主机,端口-输入密码

image-20240923144322914

  1. 连接成功

显示如下界面我们就成功了!

image-20240923144448910

4. Faster-rcnn 的环境配置

4.1 上传文件,解压

将我们的代码文件拖入/root/workspace/目录下,然后解压

image-20240923145002864

解压文件

unzip mmdetection-3.3.0.zip

image-20240923145018116

4.2 安装所需环境

# 安装mmcv包
pip install mmcv==2.1.0 -f https://download.openmmlab.com/mmcv/dist/cu121/torch2.1/index.html -i https://mirrors.aliyun.com/pypi/simple/# 从源码安装mmdetection-3.3.0
cd mmdetection-3.3.0
pip install -r requirements/build.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install -v -e ./ -i https://pypi.tuna.tsinghua.edu.cn/simple/# 安装必要包
pip install numpy==1.24.4 -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install setuptools==69.5.1 -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install instaboostfast -i https://pypi.tuna.tsinghua.edu.cn/simple/# 安装全景分割依赖panopticapi
cd panopticapi
pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple/
cd ..# 安装 LVIS 数据集依赖
cd lvis-api
pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple/
cd ..# 安装 albumentations 依赖
pip install -r requirements/albu.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip install mmengine -i https://pypi.tuna.tsinghua.edu.cn/simple/

逐个处理,保证环境配置正确

环境安装完成,简单测试

python 1.py

image-20240923145441626

5. 数据集简介

COCOmini 数据集是一个用于各种计算机视觉任务的数据集,包括但不限于目标检测、实例分割、关键点检测、和图像分类。

特点与组成部分:

  • 多标签:不同于单一标签的数据集,COCO 中的图像通常包含多个不同的对象类别,这使得它非常适合上下文理解的研究。
  • 多样性和复杂性:图像涵盖了广泛的生活场景,从室内到室外,从城市到自然环境,提供了丰富的视觉多样性。
  • 详尽的注释:每个对象实例都有精确的边界框和分割掩码,以及关键点注释对于人体类别的对象。
  • 80 个对象类别:COCO 包含了 80 种常见的物体类别,如人、动物、交通工具、家具等。

000000009590

6. 开始训练

# 为了方便上手,因此我们的代码都是调试好的,因此可以直接输入命令进行训练python ./tools/train.py ./checkpoints/faster-rcnn_r50_fpn_1x_coco.py# 他会自动下载权重,并开始训练,耐心等待即可~~~
  1. 输入命令,开始程序

image-20240923145822550

  1. 自行下载,数据准备

image-20240923145938473

  1. 数据训练中

image-20240923150607213

7. 测试数据保存

# 经过训练,我们得到pth权重,通过pth权重预测我们的数据集,左侧为真实物体的位置,右侧为预测结果。
# 我们这里直接使用训练好的权重进行预测python tools/test.py ./checkpoints/faster-rcnn_r50_fpn_1x_coco.py ./checkpoints/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth --show-dir /root/workspace/mmdetection-3.3.0/result/

训练完成,数据保存result文件夹

image-20240923151031838

8. 训练结果导出

选择result文件夹,导出本地文件

下载传输速度也是非常可观的

image-20240923151201478

训练结果展示:

image-20240923151314346

image-20240923151344834

image-20240923151419045

9. 结语

前往控制台-GPU云实例,保存镜像,这样我们可以下次使用时省去配置环境的过程。

image-20240923151517309

整体体验下来,我的使用感受还是很好的,有以下个人感受

  1. 收费较低,目前优惠力度很大,学生福利够给力
  2. 性能强劲,训练速度很快,响应快捷
  3. 官方界面整洁OK,感官不错
  4. 售后保证,有问题联系官方及时反馈

大家想做科研训练,需要算力可以考虑一下:丹摩智算

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1543327.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

springboot框架VUE3学院网站系统开发mysql数据库设计java编程计算机网页源码maven项目

博主介绍:专注于Java vue .net php phython 小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设,从业十五余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不然下次找不到哟 我的博客空间发布了1000毕设题目 方便大家学习使用 感兴趣的…

专业软件测试服务机构介绍:软件确认测试的类型和方法

随着现代科技的迅猛发展,软件开发逐渐成为各类企业发展的核心。然而,软件的质量直接关系到企业的运营效率和用户体验。因此,软件确认测试作为确保软件质量的重要环节,正受到越来越多的关注。 软件确认测试是指在软件开发周期的最…

tensorboard展示不同运行的曲线结果

运行tensorboard曲线如下: tensorboard --logdir .有时候,曲线图会展示多条曲线,以至于我们想分辨哪条线来自哪次训练都做不到了。如下图是设置smoothing-0.6的结果: smoothing可以在页面找到设置按钮,呼出设置侧边…

Llama 3.1 技术研究报告-2

3.3 基础设施、扩展性和效率 我们描述了⽀持Llama 3 405B⼤规模预训练的硬件和基础设施,并讨论了⼏项优化措施,这些措施提⾼了训练效率。 3.3.1 训练基础设施 Llama 1和2模型在Meta的AI研究超级集群(Lee和Sengupta,2022&#x…

直播美颜工具的开发详解:基于视频美颜SDK的解决方案

视频美颜SDK的出现,为开发直播美颜工具提供了一种高效的解决方案。本文将详细解析如何基于视频美颜SDK,开发一款性能优越、功能齐全的直播美颜工具。 1.视频美颜SDK的核心功能 视频美颜SDK是实现实时美颜的关键技术,其核心功能包括人脸检测、…

mysql逗号分隔的一行数据转为多行数据

原表: 结果: 方法一:如果每条数据的被逗号分隔的数量在637条以内,使用 mysql.help_topic(mysql自带的表,只有637个序号)。 select a.id,a.enclosure_ids,SUBSTRING_INDEX(SUBSTRING_INDEX(a.en…

harmonyOS 原来构建还有这么多弯弯绕绕

随着用户需求的不断增长,我们的 APP 已发展成功能丰富的超级APP,这也导致打包构建变得非常耗时,可能需要数小时,严重影响开发效率和产品迭代。通过采用模块化设计、增量构建、并行处理、缓存机制、优化依赖管理,以及云…

使用 Docker 部署 RStudio 的终极教程

一.介绍 在现代数据科学和统计分析领域,RStudio 是一个广受欢迎的集成开发环境(IDE),为用户提供了强大的工具来编写、调试和可视化 R 代码。然而,传统的 RStudio 安装可能面临环境配置复杂、版本兼容性等问题。Docker…

2.4K star的GOT-OCR2.0:端到端OCR 模型

GOT-OCR2.0是一款新一代的光学字符识别(OCR)技术,标志着人工智能在文本识别领域的重大进步。作为一款开源模型,GOT-OCR2.0不仅支持传统的文本和文档识别,还能够处理乐谱、图表以及复杂的数学公式,为用户提供…

报错解决方案

大模型-报错解决方案 百度千帆大模型 仅个人笔记使用,感谢点赞关注 百度千帆大模型 未开通付费模型 qianfan.errors.APIError: api return error, req_id: code: 17, msg: Open api daily request limit reached 可能的原因: 未开通所调用服务的付费权限&#xff0…

代码随想录算法day38 | 动态规划算法part11 | 1143.最长公共子序列,1035.不相交的线,53. 最大子序和,392.判断子序列

1143.最长公共子序列 体会一下本题和 718. 最长重复子数组 的区别 力扣题目链接(opens new window) 给定两个字符串 text1 和 text2,返回这两个字符串的最长公共子序列的长度。 一个字符串的 子序列 是指这样一个新的字符串:它是由原字符串在不改变字符的…

掌握Python自动化办公的3个核心技能,全是干货建议收藏

随着Python在办公自动化领域的广泛应用,掌握Python的相关技能变得越来越重要。本文将详细介绍Python在文件操作、数据处理以及Excel操作方面的核心技能,帮助读者提升工作效率。 掌握Python自动化办公的核心技能,主要包括以下几个方面&#x…

统信服务器操作系统进入【单用户模式】

统信服务器操作系统D版、E版、A版进入单用户模式的方式。 文章目录 前言一、问题现象二、问题原因三、解决方案1. D版问题解决方案2. E版及A版问题解决方案前言 D版又称企业版、E版又称欧拉版、A版又称龙蜥版。 单用户模式主要是在 grub2 引导时编辑内核引导,一般用于修改用…

828华为云征文 | 云服务器Flexus X实例,搭建ChatGpt:AI-OpenAI

828华为云征文 | 云服务器Flexus X实例,搭建ChatGpt:AI-OpenAI 搭建能AI-OpenAI 1、购买华为云 Flexus X 实例 Flexus云服务器X实例-华为云 (huaweicloud.com) 2、安装 Docker 的必要依赖 yum install -y yum-utils device-mapper-persistent-data lvm2…

自恢复保险丝到底是什么?一篇文章足够让你了解清楚!!!

自恢复保险丝简介: 自恢复保险丝主要由核心材料高分子聚合物复合材料体组成,它是一种可反复使用的具有自恢复特性非线性的过流保护器件,聚合物复合材料体一般由聚合物、导电微粒、无机填料等组成。 自恢复保险丝是一种过流电子保护元件&#…

opencv-python学习笔记11-视频处理

目录 一、opencv视频处理的框架: 二、捕获视频类VideoCapture: (1)创建 VideoCapture 对象: (2)读取视频帧: (3)设置和获取视频属性: &#…

#联合体#

目录 定义 联合体的对齐方式 举个栗子🌰 联合体判断小端或大端 定义 联合也是一种特殊的自定义类型 这种类型定义的变量也包含一系列的成员,特征是这些成员公用同一块空间,地址一样(所以联合也叫共用体)。 联合体…

【揭秘大脑与AI的鸿沟:电化学信号与非线性动态交互的奥秘】

目录 【揭秘大脑与AI的鸿沟:电化学信号与非线性动态交互的奥秘】 1. 信息传递的奇迹:电化学信号的奥秘 2. 非线性动态交互:大脑的智慧之源 3. 结构与功能的鸿沟:从并行分布到有限层次 结语:探索未知的边界 【揭秘大脑与AI的鸿沟:电化学信号与非线性动态交互的奥秘】…

sql serve时间的比较:船舶是否在线,基站网络是否在线

文章目录 引言I 在线船舶查询在线或者离线船舶显示在线状态统计在线船舶II 基站网络是否在线III 知识扩展MyBatis引言 I 在线船舶 查询在线或者离线船舶 假定2个小时之内有报位的数据认为在线 查询7天之内有报位的离线船舶AND s.dwtime BETWEEN dateadd(day,-7,GETDATE()

怎么把excel翻译成英文?这些翻译技巧记得收藏

在处理Excel数据时,我们常常会遇到多语言的数据集,这无疑给数据分析和整理带来了不小的挑战。 幸运的是,随着技术的发展,现在有多种工具可以帮助我们进行Excel中的批量翻译,这些工具以其强大的翻译功能和便捷的操作方…