在服务器上同时训练多个深度学习模型【nohup、后台、重定向】

在服务器上同时训练多个深度学习模型

在服务器上跑深度学习或其他程序时,如果程序没有提供命令行参数设置,我们常常需要多次修改代码后重新部署。本文将介绍如何通过命令行工具和编辑器查看代码特定行的方法,并展示如何同时训练多个基于不同ResNet层数的框架。

一、查看代码特定行的方法

当我们需要查看 train.py 文件的第 191 行,可以使用以下几种方法:

方法一:使用命令行工具

  1. sed 命令
    sed -n '191p' train.py
    
  2. awk 命令
    awk 'NR==191' train.py
    
  3. headtail 命令
    head -n 191 train.py | tail -n 1
    

方法二:使用文本编辑器

  1. nano 编辑器
    打开 train.py 文件并跳转到第 191 行:

    nano +191 train.py
    
  2. vim 编辑器
    打开 train.py 文件并跳转到第 191 行:

    vim +191 train.py
    
  3. less 命令
    使用 less 查看文件内容并跳转到第 191 行:

    less train.py
    

    less 中输入 191g,然后按 Enter 键跳转到第 191 行。
    请添加图片描述

方法三:使用 IDE

  1. Visual Studio Code
    在终端中打开 train.py 文件:

    code -g train.py:191
    
  2. PyCharm
    在 PyCharm 中打开 train.py 文件并跳转到第 191 行:

    1. 打开 train.py 文件。
    2. Ctrl + L(Windows/Linux)或 Cmd + L(Mac),然后输入 191 跳转到第 191 行。

二、将训练日志保存到不同文件

为了在服务器上同时训练多个基于不同ResNet层数的框架,我们可以使用 nohup 命令将训练任务放在后台运行,并将输出重定向到不同的日志文件中。

示例命令

nohup python train.py xxxx参数 > resnet18_nohup.out &

通过上述命令,我们可以同时运行多个训练任务,并将每个任务的输出保存到不同的日志文件中。

三、实时查看日志文件

方法一:tail -f

这是最常用的方法,可以实时查看文件的更新内容:

tail -f resnet18_nohup.out

方法二:less +F

使用 less 以更灵活的方式查看文件内容并保持更新:

less +F resnet18_nohup.out

less 中,你可以按 Ctrl+C 停止实时查看,进入正常的 less 查看模式。按 Shift+F 可以再次进入实时查看模式。
请添加图片描述

按下ctrl+C后,如下图所示
请添加图片描述

通过:q退出该模式

四、终止后台运行的程序

查看后台作业

  jobs -l

请添加图片描述

这将列出所有后台作业及其对应的 PID,它们的排列顺序通常是根据启动的顺序来显示的。每行包含以下信息:

  1. 作业编号(方括号内的数字):这是由 shell 分配给每个后台作业的唯一编号。
  2. 进程ID (PID):这是由操作系统分配给每个运行进程的唯一标识符。
  3. 作业状态:表示作业当前的状态,例如 “Running”。
  4. 命令:启动作业的完整命令。

解释每一列的内容:

  • [1] 是作业编号,3136874 是这个作业的进程 ID,Running 表示这个作业正在运行,后面是启动这个作业的完整命令及其输出重定向。
  • [2] 是第二个作业,以此类推。

作业编号的符号含义:

  • +- 是作业控制符,用来标记前台作业控制的优先级:
    • + 表示当前的作业。
    • - 表示上一个作业。
    • 没有符号表示较早的作业。

终止后台作业
可以通过 kill 命令终止指定的作业。使用作业编号或者 PID 都可以。

  • 通过作业编号终止(使用 % 前缀):

    kill %1  # 终止作业编号为1的作业
    kill %2  # 终止作业编号为2的作业
    kill %3  # 终止作业编号为3的作业
    kill %4  # 终止作业编号为4的作业
    
  • 通过 PID 终止:

    kill 3136874  # 终止进程ID为3136874的作业
    kill 3138054  # 终止进程ID为3138054的作业
    kill 3138988  # 终止进程ID为3138988的作业
    kill 3149585  # 终止进程ID为3149585的作业
    

如有需要,可以使用 kill -9 强制终止:

kill -9 %1  # 强制终止作业编号为1的作业
kill -9 3136874  # 强制终止进程ID为3136874的作业

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1488519.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Odoo 17 仪表盘开发指南:打造高效的数据可视化中心

在现代企业管理中,数据驱动的决策至关重要。Odoo 17 提供了强大的平台来构建自定义仪表板, 适用于数据统计、工作台、驾驶舱、数据可视化等场景,以便用户能够一目了然地监控关键指标并做出及时反应。本文将介绍如何在 Odoo 17 中开发一个灵活且高度定制化的仪表盘系统,包括…

opencv - py_calib3d - py_depthmap 来自立体图像的深度图

Depth Map from Stereo Images 来自立体图像的深度图 目标 在本课程中, 我们将学习从立体图像创建深度图。 基础知识 在上一节中,我们了解了极线约束和其他相关术语等基本概念。我们还看到,如果我们有两张相同场景的图像,我们…

从零开始:在linux系统安装MongoDB数据完整指南 新手常用命令

1 前言 MongoDB 是为快速开发互联网应用而设计的数据库系统。MongoDB 的设计目标是极简、灵活、作为 Web 应用栈的一部分。MongoDB 的数据模型是面向文档的,所谓文档是一种类似于json的结构。 官网教程:https://www.mongodb.com/docs/manual/ 2 安装部…

开源AI智能名片商城小程序:重塑中国市场智能化营销的新篇章

摘要 在数字化转型的加速推进下,中国市场的营销领域正经历着前所未有的变革。开源AI智能名片商城小程序作为一种创新的商业模式,融合了精准营销、智能搜索、语音识别、图像识别及创意内容生成等前沿技术,旨在为企业提供一个高效、个性化且用…

IOS微软语音转文本,lame压缩音频

在IOS开发中,用微软进行语音转文本操作,并将录音文件压缩后返回 项目中遇到了利用微软SDK进行实时录音转文本操作,如果操作失败,那么就利用原始音频文件通过网络请求操作,最终这份文件上传到阿里云保存,考…

学习测试14-实战2-介绍CANoe工具

功能: 1,半仿真测试(台架测试):台架上做测试 2,全仿真测试:无实体测试,全模拟 3,截取实车日志:故障报告,对照诊断说明 4,诊断测试组成…

机器学习笔记-01-初识基础(问题-解答自查版)

前言 以下问题以Q&A形式记录,基本上都是笔者在初学一轮后,掌握不牢或者频繁忘记的点 Q&A的形式有助于学习过程中时刻关注自己的输入与输出关系,也适合做查漏补缺和复盘。 本文对读者可以用作自查,答案在后面&#xff0…

使用 Visual Studio 2022 自带的 cl.exe 编译 tensorRT自带测试样例 sampleOnnxMNIST

1. 新建任意文件夹,将 D:\install\tensorRT\TensorRT-8.6.1.6\samples\sampleOnnxMNIST 下面的 sampleOnnxMNIST.cpp 文件复制进来,同时 D:\install\tensorRT\TensorRT-8.6.1.6\samples\sampleOnnxMNIST 下面的 sample_onnx_mnist.vcxproj 中的内容&…

江科大/江协科技 STM32学习笔记P13

文章目录 TIM定时中断1、TIM简介计数器预分频器自动重装寄存器 2、定时器类型基本定时器主模式触发DAC 通用定时器高级定时器 3、定时器原理定时中断基本结构预分频器时序计数器时序RCC时钟树 TIM定时中断 1、TIM简介 定时器的基准时钟一般都是主频72MHz,如果对72M…

IPD推行成功的核心要素(十五)项目管理提升IPD相关项目交付效率和用户体验

研发项目往往包含很多复杂的流程和具体的细节。因此,一套完整且标准的研发项目管理制度和流程对项目的推进至关重要。研发项目管理是成功推动创新和技术发展的关键因素。然而在实际管理中,研发项目管理常常面临着需求不确定、技术风险、人员素质、成本和…

分享一个好用的音频解码工具——音乐解锁

在酷狗、网易云、虾米、酷我等平台下载的音乐只能在各自平台的播放上播放。比如,kgm转MP3的方法想必大家在网上也寻找了各种解决方法,方法也不少,但大多数都是不好用或者需要充米。有没有白嫖的工具呢?当然有了,白嫖是…

如何使用 DSPy 构建多步骤推理的 RAG 系统

一、前言 检索增强生成 (RAG) 系统已经成为构建基于大语言模型 (LLM) 应用的强大方法。RAG 系统的工作原理是:首先使用检索模型从外部知识源检索相关信息,然后使用这些信息来提示 LLM 生成最终的响应。 然而,基本的 RAG 系统(也…

河南萌新联赛2024第(二)场:南阳理工学院(部分题解)

题目D&#xff1a; A*BBBB 题目链接 题意描述&#xff1a; t组输入&#xff0c;每组输入两个整数a&#xff0c;b&#xff0c;其中b的每位数字都相等&#xff0c;a&#xff0c;b非常大&#xff0c;0<a,b<101000000 ,并且a&#xff0c;b都不含前导0. 解题思路&#xff…

[Spring] MyBatis操作数据库(基础)

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏: &#x1f9ca; Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 &#x1f355; Collection与…

LINUX -exec函数族

1、功能&#xff1a; *让父子进程来执行不相干的操作 *能够替换进程地址空间的代码.text段 *执行另外的程序&#xff0c;不需要创建额外的的地址空间 *当前程序中调用另外一个应用程序 2、执行目录下的程序&#xff1a; *指定执行目录下的程序 int execl(const char *path,…

「12月·长沙」第四届机器人、自动化与智能控制国际会议(ICRAIC 2024)

随着科技的飞速发展&#xff0c;智能机器人在当今社会的重要性愈发凸显。从制造业的自动化生产线&#xff0c;到医疗领域的手术机器人&#xff0c;再到家庭生活中的智能助手&#xff0c;机器人与人工智能的融合正在改变着我们的生产和生活方式。第四届机器人、自动化与智能控制…

How can I fix my Flask server‘s 405 error that includes OpenAi api?

题意&#xff1a;解决包含OpenAI API的Flask服务器中出现的405错误&#xff08;Method Not Allowed&#xff0c;即方法不允许&#xff09; 问题背景&#xff1a; Im trying to add an API to my webpage and have never used any Flask server before, I have never used Java…

自定义协议(应用层协议)——网络版计算机基于TCP传输协议

应用层&#xff1a;自定义网络协议&#xff1a;序列化和反序列化&#xff0c;如果是TCP传输的&#xff1a;还要关心区分报文边界&#xff08;在序列化设计的时候设计好&#xff09;——粘包问题 1、首先想要使用TCP协议传输的网络&#xff0c;服务器和客户端都应该要创建自己…

友思特应用 | 硅片上的光影贴合:UV-LED曝光系统在晶圆边缘曝光中的高效应用

导读 晶圆边缘曝光是帮助减少晶圆涂布过程中多余的光刻胶对电子器件影响的重要步骤。友思特 ALE/1 和 ALE/3 UV-LED 高性能点光源&#xff0c;作为唯一可用于宽带晶圆边缘曝光的 i、h 和 g 线的 LED 解决方案&#xff0c;可高效实现WEE系统设计和曝光需求。 晶圆边缘曝光及处…

<数据集>棉花开花程度识别数据集<目标检测>

数据集格式&#xff1a;VOCYOLO格式 图片数量&#xff1a;13765张 标注数量(xml文件个数)&#xff1a;13765 标注数量(txt文件个数)&#xff1a;13765 标注类别数&#xff1a;4 标注类别名称&#xff1a;[Partially opened, Fully opened boll, Defected boll, Flower] 序…