文本批量处理不求人:化繁为简全攻略 (系列一)

在日常工作中,我们经常需要对一些文本文档进行批量操作或者对某一个文档进行繁琐操作,虽然windows系统自带的记事本自带批量替换修改内容的功能,但仅这一个功能往往不够,比如以下一些场景,用记事本就很难实现我们的目标。

场景一:
在IT行业中,聊天机器人是一种利用自然语言处理技术与人类进行交互的应用。它们广泛应用于客服、教育、娱乐等场景,提供24小时不间断的服务。而我们在处理聊天对话词库时,需要实现的目标是把原文档中的一行问、一行答、一行空行变成两个文档来存放,如图所示:

什么?一行一行复制?不可能的,像这样的文档,每个都有数十万、上百万行,一行行复制显然是行不通的。而用记事本自带的替换功能,显然也是没办法实现的。
【解决方案】
1、打开首助编辑高手软件,进入“文本批量操作”,把要处理的文档都添加进来,如图:

(本例只添加了一个文件演示,实际操作可以同时添加无限个文件一键处理)
2、先把文档中的空行删除掉,我们选择“删除内容”--“删除行”--“删除特定行”--“删除空白行”,选择“覆盖原文件”,如图:

(覆盖原文件修改后,原文件不能恢复,所以在修改文件前,最好先复制一份到别处备份起来,也可以打勾软件中的“自动备份原文件”到某一处。也可以把新文件保存在别处,但不建议,因为这样要操作其他步骤时,上面表格中的文件需要重新选择前面步骤已改过的文件才可以。)
3、点“批量删除内容”,完成后,可以双击上面表格中的文件名,查看原文件中的空行是否已被删除了,如图:

(这一步只是打开预览,验证一下看是否已删除空行成功,实际操作时,可以略过不打开文件查看。)
4、现在我们要把“问”的内容放在一个文件中,把“答”的内容放在另一个文件中,我们实际上只要把原文件偶数行删除掉,就剩下“问”的那一行,然后保存到新位置,再用同样的方法把奇数行删除掉,并保存为“答”的文件就可以了,如图操作:

(先删除偶数行,保存到新位置后,文件名会与原文件名相同,处理后,需要进入新文件保存位置,把文件名改成其他的,比如“问题.txt”。再用同样的方法删除奇数行,保存到新的位置后,手动改名为“回答.txt”即可)
5、最后在新保存位置可以看到效果如图所示:

(虽然教程看起来步骤挺多的,但实际上点几下鼠标就可以实现,不信你来试试)


场景二:
工作群是职场中的信息枢纽,它促进了团队成员间的快速沟通与协作,提升了工作效率。通过工作群,我们可以轻松分享文件、讨论工作,确保团队目标一致,工作进展顺利。工作群作为职场沟通的重要工具,让团队协作更加紧密,问题解决更加迅速。在工作群中,我们往往需要复制一些关键的内容,比如售后工作群中,我们需要把团队成员每天每时每刻发快递单号复制出来整理查单等,如果一条条信息去选中复制再粘贴,很影响工作效率。
比如某个团队从韵达售后群中导出所有聊天记录,效果如图:

现在需要实现的目标是把聊天记录中所有韵达快递单号都提取出来并查询物流信息,因为聊天记录中还有其他的文字,一个个复制,显示是行不通的,而用记事本自带的替换功能也是无法实现批量复制指定内容的。
【解决方案】
1、打开首助编辑高手软件,进入“自动粘贴文本”,在文本内容中选择“自定义正则”,在正则中输入:[3,4][0-9]{14},如图所示:

(韵达单号的特点是开头固定是数字“3”或“4”,后面是由“0”到“9”的数字组成,共15位数,所以正则要这么写。也就是前1位数固定,后14位数不固定。同理,如果要复制的是顺丰的单号,我们要先分析顺丰单号的特点,再来写规则,比如顺丰单号的特点是开头固定字母“SF”,后面是由13个数字组成的,那么我们就要写成:SF[0-9]{13}就可以。再比如极兔单号的特点是开头固定字母“JT”,后面也是由13个数字组成的,我们就要这样写:JT[0-9]{13}就可以。)
2、粘贴后的分隔符等选项,我们就用默认的换行符,然后点“启动自动粘贴”,如图所示:

3、在聊天记录中全选后复制,在软件中就会自动粘贴我们想要的信息了,如图所示:

4、如果有多个聊天文档,可以把每个文档都全选复制,这样软件中就会自动根据我们设置的条件提取需要的内容粘贴,都复制完成后,点“停止自动粘贴”,如图所示:

5、接下来可以把已提取的快递单号复制到表格中整理,也可以复制到“快递批量查询”功能中进一步跟踪物流信息了,如图:

6、添加单号后,自动查询效果如图所示:

(还可以对查询的结果进行筛选、分析、导出等)

未完,待续……
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/12037.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

智能电动机保护器在提升塑料制品厂电机稳定性中的应用

徐悦 安科瑞电气股份有限公司 在塑料制品生产过程中,电动机的高频启动、长时间连续运行和负载波动增加了电动机故障的风险,对电动机保护提出了高要求。本文从技术角度深入分析了 ARD2F 智能电动机保护器的应用原理,研究其在塑料制品厂不同生…

Unity学习笔记(3):场景绘制和叠层设置 Tilemap

文章目录 前言开发环境规则瓦片绘制拐角 动态瓦片总结 前言 这里学一下后面的场景绘制和叠层技巧。 开发环境 Unity 6windows 11vs studio 2022Unity2022.2 最新教程《勇士传说》入门到进阶|4K:https://www.bilibili.com/video/BV1mL411o77x/?spm_id_from333.10…

mysql利用.ibd文件恢复数据

1、停止原mysql数据库服务,备份原来的.ibd文件。(如果本身无法启动的mysql则无需此操作) 2、在目标MySQL数据库中创建一张新表,表结构与原表结构一致。确保新表的表结构与.ibd文件中的数据结构一致。--此步骤可以导入之前的备份s…

新手 Vue 项目运行

前言:前面讲了我们已经将spingboot项目运行起来了,现在我们只需将后台管理的Vue项目运行起来即可完成整个项目。 在运行vue项目之前,请先运行springboot项目,运行步骤请看:运行Springboot Vue 项目_springbootvue项目…

Python 如何通过 cron 或 schedule 实现爬虫的自动定时运行

Python 如何通过 cron 或 schedule 实现爬虫的自动定时运行 自动定时运行爬虫是很多数据采集项目的基本需求。例如,每天采集一次新闻数据,或每小时更新股票行情数据等。通过 Python 实现定时任务,可以保证数据采集的高效和持续性。本文将带大…

IEEE JSSC更新|Tiny Tapeout:让每个人都能设计定制芯片

简介 由于成本高昂且需要专业技术,设计和制造定制集成电路的传统上仅限于大型公司和机构。然而,名为Tiny Tapeout的创新项目正在改变这一现状,让业余爱好者、学生和小型团队也能设计定制芯片。本文将探讨Tiny Tapeout的工作原理,以…

【JAVA基础】MAVEN的安装及idea的引用说明

本篇文章主要讲解,maven的安装及集成在idea中进行构建项目的详细操作教程。 日期:2024年11月11日 作者:任聪聪 所需材料: 1、idea 2024版本及以上 2、maven 3.9.9安装包 3、一个空java springBoot项目,可以使用阿里云…

【西门子官方车轨级S7-1500F安全PLC标准 SICAR架构应用实例】

SICAR架构概述 SICAR架构硬件 SICAR核心功能块 SICAR工艺功能块 SICAR诊断和生产信息 SICAR 初始化FC 各个 OpMode 的特殊功能模式,只能由其所授权的 HMI 或者 Panel 在对应的操作模式下 来激活(未选择任何 OpMode 时,则对所有 OpMode 选择该…

Cynet:全方位一体化安全防护工具

前言 1999年,布鲁斯施奈尔曾说过:“复杂性是安全最大的敌人。”彼时还是19年前,而现在,网络安全已然变得更加繁杂。 近日我在网上冲浪过程中发现了这么一个平台性质的软件,看似具有相当强的防护能力。 根据Cynet的描…

.普通铜导线、漆包线、普通电线能代替绕线电阻材料吗

5.普通铜导线、漆包线、普通电线能代替绕线电阻材料吗 不能, 电阻温度系数和电阻率不一样 纯金属的电阻温度系数都非常大,只有几款电阻合金温度系数比较小,且电阻率大,适合作绕线电阻。 线绕电阻大多是用精密锰铜漆包线。电阻温…

李佳琦回到巅峰背后,双11成直播电商分水岭

时间倏忽而过,又一年的双11即将宣告结束。 从双11正式开始前的《新所有女生的offer》,到被作为“比价”标杆被其他平台直播间蹭、被与其他渠道品牌比较,再到直播间运营一时手快多发了红包……整个双11周期下来,李佳琦直播间在刷新…

“牛市筹码峰”,筹码密集的地方就是买点或卖点 源码(手机+电脑)

使用技巧 “牛市筹码峰”无需下载专业的财务数据,通过计算当前流通股本和成本分布,提供对筹码密集区域的分析。它采用未来函数的方式,不影响使用,且兼容手机和电脑平台。 在股市中,筹码密集的地方会形成所谓的“筹码峰…

【AIGC】2017-NIPS-神经离散表征学习

2017-NIPS-Neural Discrete Representation Learning 神经离散表征学习摘要1. 引言2. 相关工作3. VQ-VAE3.1 离散隐变量3.2 学习3.3 先验 4 实验4.1 与连续变量的比较4.2 图像4.3 音频4.4 视频 5 结论参考文献 神经离散表征学习 作者:Aaron van den Oord, Oriol Vin…

每日OJ题_牛客_JZ38字符串的排列_DFS_C++_Java

目录 牛客_JZ38字符串的排列_DFS 题目解析 C代码 Java代码 牛客_JZ38字符串的排列_DFS 字符串的排列_牛客题霸_牛客网 描述: 输入一个长度为 n 字符串,打印出该字符串中字符的所有排列,你可以以任意顺序返回这个字符串数组。 例如输入…

企业知识库管理系统的创新模式及其智能化转型

在知识经济时代,企业知识库管理系统已成为企业知识管理、共享和创新的核心工具。本文将探讨企业知识库管理系统的创新模式及其智能化转型,分析其在提升企业核心竞争力中的作用。 一、知识库管理系统的创新模式 从存储到共享:传统的信息管理模…

办公新装备,好用还不贵

电脑采购预算低低低低……经费不足怎么办?买移动云笔电 线上开会时间长长长长……电量告急怎么办?用#移动云笔电 电脑运维时间久久久久……分身乏术怎么办?换#移动云笔电

嵌入式学习-网络高级-Day03

嵌入式学习-网络高级-Day03 基于webserver的工业数据采集 HTTP协议 http简介 http特点 http协议格式 客户端请求数据格式 请求行: 请求头部 空行: 请求体 服务器响应数据格式 webserver源码分析 postman的使用 整体流程分析 任务 html html简介 html标签…

补: 力扣145 : 二叉树的后序遍历

天才的回归 ---- 二叉树的后序遍历 描述: **给你一棵二叉树的根节点 root ,返回其节点值的 后序遍历 ** 示例: 解法:递归就不说了,看下遍历法,与先序和中序略有不同 简单来说注意两个点: 1&…

刷题强训(day05) -- 游游的you、腐烂的苹果、孩子们的游戏(圆圈中最后剩下的数)

目录 1、游游的you 1.1 题目 1.2 思路 1.3 代码实现 2、腐烂的苹果 2.1 题目 2.2 思路 2.3 代码实现 3、孩子们的游戏(圆圈中最后剩下的数) 3.1 题目 3.2 思路 3.3 代码实现 3.3.1 环形链表 ​编辑3.3.2 动态规划 ​编辑 1、游游的you 1.1 题目 1.2 思路 根据题…

数据库sql初识以及-增删改查

查看已有数据库show databases; 创建数据库:create database数据库名字 DEFAULT CHARSET utf8 COLLATE utf8_general_ci; 删除数据库drop database 名字 进入数据库:use 数据库; 查看文件夹中所有数据表:show tables; 创建表: create t…