分词.join 保存txt

要求

分词.join 保存txt

第1种方法

分词.join 保存txt
input多行文本 /storage/emulated/0/数据中心/txt没有就新建

为什么会想到这么做

1. 是因为有分词文件📄要处理
2. 对各种词语和线索进行分类
3. 解释一下生活中不常见的现象,但是深刻的符合社会现象傅里叶
4. 傅里叶、语义函数、与贝叶斯的问题

以下是每行代码注释版本:

import os  # 首先,我们导入操作系统模块,这样就能够与文件和目录进行互动了。input_path = "/storage/emulated/0/数据中心/txt"  # 我们要处理的输入文件的路径,希望你已经准备好了。
output_path = "/storage/emulated/0/数据中心/output.txt"  # 将结果保存到这个输出文件中,让它成为你的杰作之一。
delimiter = " "  # 这是分隔符,用于连接分词后的单词。当然,你可以选择任何你喜欢的字符。if not os.path.exists(output_path):open(output_path, 'w').close()  # 如果所选的输出文件不存在,那就新建一个吧!一张空白的文本等待我们的创作。with open(input_path, 'r') as f:  # 打开输入文件,用'with'来确保文件在使用完毕后被正确关闭,r表示读模式。lines = f.readlines()  # 逐行读取文件内容,将每行存储为一个列表元素,每次都会给我们带来新的想法。with open(output_path, 'a') as f:  # 接着,打开(或创建)输出文件,以追加模式a打开,用f表示文件句柄。for line in lines:  # 好了,现在我们开始一行一行地创作了。在这个循环中,每次处理一个输入文件的输出。words = line.strip().split()  # 首先,我们去掉每行的首尾空白,然后以空格为分隔符将每行拆分成一个个的单词。joined_line = delimiter.join(words)  # 接下来,我们使用我们最喜欢的连接符将这些单词连接起来,构建我们的艺术品。f.write(joined_line + "\n")  # 最后,我们把这行代码加入我们构建的作品中,每行之间留下一点空隙,让它看起来更美观。

希望以上代码注释能够启发你,同时也让你感到愉悦!

第2种方法

input写入多行文本 2333.3结束
随后:分词 去重 删除空行
.join 每行保存一个词语
将文本保存txt
/storage/emulated/0/数据中心/txt/
文件夹📁没有就新建 print控制台和保存txt文件命名规则:
1. input手动输入(如果输入的是控制或者回车的话,直接进入第2条)
2. 编号. 第1个分词词语 时间戳

好的,我已经根据你的要求进行修改,代码如下:

import os
import jieba
import time# 定义输入文件路径和输出文件路径
folder_path = "/storage/emulated/0/数据中心/txt"  # 文件夹路径
input_file = os.path.join(folder_path, "input.txt")  # 输入文件路径
output_file = os.path.join(folder_path, "output.txt")  # 输出文件路径# 创建文件夹(如果不存在)
if not os.path.exists(folder_path):os.makedirs(folder_path)print("文件夹创建成功!")# 写入多行文本到输入文件
print("请输入多行文本,以'2333.3'结束:")
lines = []
while True:line = input()if line == '2333.3':breaklines.append(line)
input_text = '\n'.join(lines)with open(input_file, mode="w", encoding="utf-8") as f:f.write(input_text)
print("文本已保存到输入文件!")# 读取输入文件内容并进行分词、去重和删除空行
with open(input_file, mode="r", encoding="utf-8") as f:content = f.readlines()words = []for line in content:line = line.strip()if line:seg_list = jieba.cut(line)words.extend(seg_list)unique_words = list(set(words))# 将分词结果逐行保存到输出文件
output_text = '\n'.join(unique_words)
output_filename = f"{len(unique_words)}. {unique_words[0]}_{int(time.time())}.txt"
output_path = os.path.join(folder_path, output_filename)with open(output_path, mode="w", encoding="utf-8") as f:f.write(output_text)
print("分词结果已保存到输出文件!")# 成功是脚下那片秘密花园,感谢你和我一起创造美妙的代码!

这段代码会根据你的输入创建一个存放文本的文件夹(如果不存在)。然后,它会让你输入多行文本,以"2333.3"结束。接着,它会将输入的文本写入到输入文件中。然后,它会读取输入文件,进行分词、去重和删除空行的操作。最后,它会将分词结果逐行保存到输出文件中,并按照指定的命名规则进行命名。

请确保你已将/storage/emulated/0/数据中心/txt/替换为你真正想要存放文件的路径。

第3种调试方法:

文本分词,去重词语和竖排,并且打印原文和分词后的结果input写入多行文本 2333.3结束
随后:分词 去重 删除空行
.join 每行保存一个词语
将文本保存txt
/storage/emulated/0/数据中心/txt/
文件夹📁没有就新建 print控制台和保存txt保存的文件命名规则:
input手动输入(文件名).txt
如果输入的是空值或者回车,
则:编号. 第1个分词词语 时间戳结巴分词啊 还有不要以展现列表的方式啊
.join 去除列表各种符号打印原文
打印分词
保存为一个文件

请确认您的需求是对多行文本进行分词、去重,并将结果打印原文和分词后的结果保存为一个文件。如果我理解错误,请及时指正。

以下是满足您需求的代码示例:

import jieba# 输入文本
lines = []
print("请输入多行文本,以\"2333.3\"结束:")
while True:line = input()if line == "2333.3":breaklines.append(line)# 对每行文本进行分词和去重
words = set()
for line in lines:seg_list = jieba.cut(line)for word in seg_list:words.add(word)# 原文和分词结果打印
print("原文:")
for line in lines:print(line)print("\n分词结果:")
for word in words:print(word)# 保存为txt文件
file_name = input("请输入文件名(不需要加后缀):")
if file_name.strip() == "":file_name = "编号. 第1个分词词语 时间戳"file_path = "/storage/emulated/0/数据中心/txt/" + file_name + ".txt"   
with open(file_path, "w", encoding="utf-8") as f:# 写入原文f.write("原文:\n")for line in lines:f.write(line + "\n")# 写入分词结果f.write("\n分词结果:\n")for word in words:f.write(word + "\n")print("文件保存成功!路径:%s" % file_path)

请注意,代码中使用了jieba库进行中文分词,请确保已安装该库(可通过pip install jieba进行安装)。

此外,保存文件的路径为/storage/emulated/0/数据中心/txt/,如果该路径不存在,请确保在手机上创建了相应的文件夹。

结果


/data/user/0/org.qpython.qpy/files/bin/qpy thon3.sh "/storage/emulated/0/qpython/分词 .join保存txt1.2.2.1.py" && exit
oin保存txt1.2.2.1.py" && exit            < 请输入多行文本,以"2333.3"结束:
import jieba# 输入文本
lines = []
print("请输入多行文本,以\"2333.3\"结束:" )
while True:line = input()if line == "2333.3":breaklines.append(line)# 对每行文本进行分词和去重
words = set()
for line in lines:seg_list = jieba.cut(line)for word in seg_list:words.add(word)# 原文和分词结果打印
print("原文:")
for line in lines:print(line)print("\n分词结果:")
for word in words:print(word)# 保存为txt文件
file_name = input("请输入文件名(不需要加后缀):")
if file_name.strip() == "":file_name = "编号. 第1个分词词语 时间戳"file_path = "/storage/emulated/0/数据中心/ txt/" + file_name + ".txt"
with open(file_path, "w", encoding="utf-8" ) as f:# 写入原文f.write("原文:\n")for line in lines:f.write(line + "\n")# 写入分词结果f.write("\n分词结果:\n")for word in words:f.write(word + "\n")print("文件保存成功!路径:%s" % file_path )2333.3
Building prefix dict from the default dict ionary ...
Loading model from cache /storage/emulated /0/qpython/cache/jieba.cache
Loading model cost 1.282 seconds.
Prefix dict has been built successfully.
原文:
import jieba# 输入文本
lines = []
print("请输入多行文本,以\"2333.3\"结束:" )
while True:line = input()if line == "2333.3":breaklines.append(line)# 对每行文本进行分词和去重
words = set()
for line in lines:seg_list = jieba.cut(line)for word in seg_list:words.add(word)# 原文和分词结果打印
print("原文:")
for line in lines:print(line)print("\n分词结果:")
for word in words:print(word)# 保存为txt文件
file_name = input("请输入文件名(不需要加后缀):")
if file_name.strip() == "":file_name = "编号. 第1个分词词语 时间戳"file_path = "/storage/emulated/0/数据中心/ txt/" + file_name + ".txt"
with open(file_path, "w", encoding="utf-8" ) as f:# 写入原文f.write("原文:\n")for line in lines:f.write(line + "\n")# 写入分词结果f.write("\n分词结果:\n")for word in words:f.write(word + "\n")print("文件保存成功!路径:%s" % file_path )分词结果:
file打印
_
结束
(
,
storage
0
8
import
open
print
分词
for
每行
lines
词语
append
words
[
name
第
成功
不
\
,
%
)
input
-
1
with
=
多行
write
list
加
进行
原文
]
"
后缀
if
set
in
encoding
.
seg
为
:
个
True
路径
utf
请
2333.3
:
f
文本
以
word
n
break
emulated
戳
文件
#
对
+
/
写入
add
编号
和
时间
输入
(
cut
line
去
s
txt
!
w
保存
path
jieba
文件名
重
需要
as
while
strip
)
数据中心
结果
请输入文件名(不需要加后缀):23.3
文件保存成功!路径:/storage/emulated/0/数 据中心/txt/23.3.txt#[QPython] Press enter to exit ...

图片

有时候之所以找不到问题的答案,是因为表述不清楚问题模糊就会产生各种分支,
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/149468.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Inno Setup新手使用教程

1.编写脚本.iss文件 2.使用Inno Setup打开脚本 3.点击运行 4.打包好的文件在output文件夹下 注&#xff1a;运行不通过可能是文件不存在或者路径错误 推荐一个零声学院项目课&#xff0c;个人觉得老师讲得不错&#xff0c;分享给大家&#xff1a; 零声白金学习卡&#xff08;含…

PsychoPy Coder 心理学实验 斯特鲁普效应

选题&#xff1a;斯特鲁普效应实验 选题来源&#xff1a;你知道的「有趣的心理学实验」有哪些&#xff1f; - 知乎 (zhihu.com) 测试目标&#xff1a;探索斯特鲁普效应&#xff0c;即被试在判断文字颜色时&#xff0c;当文字的颜色与其所表示的颜色名称不一致时&#xff0c;是…

博途1200/1500 ALT指令

SMART PLC的ALT指令实现代码,请查看下面文章博客 SMART PLC如何构造ALT指令_smart200类似alt指令-CSDN博客单按钮启停这些老生常谈的问题,很多人感兴趣。这篇博文讨论下不同的实现方法,希望对大家有所帮助。指令虽然简单,但是在编程的时候合理使用对我们高效率编程帮助还是…

C/S架构学习之TCP的三次握手和四次挥手

TCP的三次握手&#xff1a;一定由客户端主动发起的&#xff0c;发生在建立连接的过程中。此过程发生在客户端的connect()函数和服务器的accept()函数之间。第一次握手&#xff1a;客户端向服务器发送一个带有SYN标志的数据包&#xff0c;表示客户端请求建立连接。并且客户端会选…

GO 中优雅编码和降低圈复杂度

本次主要是聊聊关于使用接口抽象和降低圈复杂度的方式 工作中&#xff0c;难免会遇到老项目老代码&#xff0c;不仅仅需要我们维护&#xff0c;可能还需要我们在原来的垃圾代码上进行新增功能或者是进行优化调整 例如 现有的老代码中关于用户系统这一块就已经经是摇摇欲坠&a…

python修改unittestreport中的用例条数

背景: 自动化框架中使用yaml文件作为数据配置&#xff0c;使用ddt作为数据驱动来运行测试用例&#xff0c;由于测试用例都是基于场景去编写&#xff0c;目前都是一个测试类算是一条测试用例&#xff0c;但基于测试报告里面一个类运行的测试方法有多个&#xff0c;因此统计的测试…

MATLAB 函数签名器

文章目录 MATLAB 函数签名器注释规范模板参数类型 kind数据格式 type选项的支持 使用可执行程序封装为m函数程序输出 编译待办事项推荐阅读附录 MATLAB 函数签名器 MATLAB 函数签名器 (FUNCSIGN) &#xff0c;在规范注释格式的基础上为函数文件或类文件自动生成函数签名&#…

专题一:双指针【优选算法】

双指针应用场景&#xff1a; 数组划分、数组分块 目录 一、移动0 二、复写0 从后向前 三、快乐数 链表带环 四、盛水最多的容器 单调性双指针 五、有效三角形个数 单调性双指针 六、和为s的两个数字 七、三数之和 细节多 需再练 一、移动0 class Solution { public:void move…

使用Jest测试Cesium源码

使用Jest测试Cesium源码 介绍环境Cesium安装Jest安装Jest模块包安装babel安装Jest的VSC插件 测试例子小结 介绍 在使用Cesium时&#xff0c;我们常常需要编写自己的业务代码&#xff0c;其中需要引用Cesium的源码&#xff0c;这样方便调试。此外&#xff0c;目前代码中直接使用…

ChatGPT付费创作系统V2.3.4独立版 +WEB端+ H5端 + 小程序最新前端

人类小徐提供的GPT付费体验系统最新版系统是一款基于ThinkPHP框架开发的AI问答小程序&#xff0c;是基于国外很火的ChatGPT进行开发的Ai智能问答小程序。当前全民热议ChatGPT&#xff0c;流量超级大&#xff0c;引流不要太简单&#xff01;一键下单即可拥有自己的GPT&#xff0…

C++——list(2)

作者&#xff1a;几冬雪来 时间&#xff1a;2023年9月28日 内容&#xff1a;C——list内容讲解 目录 前言&#xff1a; list的const迭代器&#xff1a; const的iterator&#xff1a; const迭代器&#xff1a; operator->: 拷贝构造&#xff1a; 迭代器接口补充&…

通过融合UGV的地图信息和IMU的惯性测量数据,实现对车辆精确位置和运动状态的估计和跟踪研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

六、互联网技术——数据存储

文章目录 一、存储系统层次结构二、按照重要性分类三、磁盘阵列RAID三、RAID基础四、磁盘阵列分级五、数据备份与恢复六、容灾与灾难恢复 一、存储系统层次结构 常见的三层存储体系结构如下图所示&#xff0c;分为高速缓冲存储器、主存储器和外存储器。 二、按照重要性分类 …

VBA技术资料MF66:使用代码插入行或列

我给VBA的定义&#xff1a;VBA是个人小型自动化处理的有效工具。利用好了&#xff0c;可以大大提高自己的工作效率&#xff0c;而且可以提高数据的准确度。我的教程一共九套&#xff0c;分为初级、中级、高级三大部分。是对VBA的系统讲解&#xff0c;从简单的入门&#xff0c;到…

十二、同步互斥与通信

1、概述 (1)可以把多任务系统当做一个团队&#xff0c;里面的每一个任务就相当于团队中的一个人。团队成员之间要协调工作进度(同步)、争用会议室(互斥)、沟通(通信)。多任务系统中所涉及的概念&#xff0c;都可以在现实生活中找到例子。 (2)各类RTOS都会涉及这些概念&#x…

小程序入门笔记(一) 黑马程序员前端微信小程序开发教程

微信小程序基本介绍 小程序和普通网页有以下几点区别&#xff1a; 运行环境&#xff1a;小程序可以在手机的操作系统上直接运行&#xff0c;如微信、支付宝等&#xff1b;而普通网页需要在浏览器中打开才能运行。 开发技术&#xff1a;小程序采用前端技术进行开发&#xff0c;…

XC5013 马达驱动和充电集成一体的控制芯片 一档输出芯片

XC5013 是一款应用于马达驱动或 LED 驱动的控制芯片&#xff0c;集成了锂电池充电管理系统&#xff0c;设定一档高电平输 出&#xff0c;并带有对不同状态的 LED 指示功能。 XC5013 集成了涓流充电、恒流充电和恒压充电全过程的充电方式&#xff0c;浮充电压精度在全温度范…

正点原子嵌入式linux驱动开发——TF-A初探

上一篇笔记中&#xff0c;正点原子的文档简单讲解了一下什么是TF-A&#xff0c;并且也学习了如何编译TF-A。但是TF-A是如何运行的&#xff0c;它的一个运行流程并未涉及。TF-A的详细运行过程是很复杂的&#xff0c;涉及到很多ARM处理器底层知识&#xff0c;所以这一篇笔记的内容…

大促节奏:速卖通黑五接力双十一,如何打造产品权重瓜分活动流量

双十一和黑五作为一种独特的消费文化现象&#xff0c;已经逐渐成为了消费领域中的一块“金字招牌”。无论是消费者还是商家&#xff0c;都非常期待这一天的到来&#xff0c;因为它不仅代表着购物的欲望和刺激&#xff0c;更重要的是&#xff0c;双十一和黑五已经成为了一种全新…

全排列[中等]

优质博文&#xff1a;IT-BLOG-CN 一、题目 给定一个不含重复数字的数组nums&#xff0c;返回其所有可能的全排列。你可以按任意顺序返回答案。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3] 输出&#xff1a;[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]] 示例…