中文文本分词-技术实现

    当做语音&文本相关的技术时,经常会涉及到文本的分词实现。以下是对中文的文本简单实现。
 一、单个中文句子的分词

import jiebatext_ = "我爱我的祖国!"
# 精确模式
seg_list = jieba.cut(text_, cut_all=False)
print("精确模式: " + "/ ".join(seg_list))# 全模式
seg_list = jieba.cut(text_, cut_all=True)
print("全模式: " + "/ ".join(seg_list))# 搜索引擎模式
seg_list = jieba.cut_for_search(text_)
print("搜索引擎模式: " + "/ ".join(seg_list))


输出信息为:

精确模式: 我/ 爱/ 我/ 的/ 祖国/ !
全模式: 我/ 爱/ 我/ 的/ 祖国/ !
搜索引擎模式: 我/ 爱/ 我/ 的/ 祖国/ !


二、一段中文的分词
分词内容保存在 example.txt

路上只我一个人,背着手踱着。
这一片天地好像是我的;我也像超出了平常旳自己,到了另一世界里。
我爱热闹,也爱冷静;爱群居,也爱独处。
像今晚上,一个人在这苍茫旳月下,什么都可以想,什么都可以不想,便觉是个自由的人。
白天里一定要做的事,一定要说的话,现在都可不理。这是独处的妙处,我且受用这无边的荷香月色好了。


以下对中文锻炼进行分词。

import jieba
f=open("example.txt","r",encoding='utf-8') # 读取中文
str_lines = f.readlines()
text_list = []
idx = 0
for line in str_lines:if len(line)>0:idx += 1text_ =lineprint("{}) ------------------------".format(idx))print("原句:",text_)seg_list = jieba.cut(text_, cut_all=False)print("分词精确模式: " + "/ ".join(seg_list))

输出信息:

1) ------------------------
原句: 路上只我一个人,背着手踱着。
分词精确模式: 路上/ 只/ 我/ 一个/ 人/ ,/ 背着手/ 踱/ 着/ 。/2) ------------------------
原句: 这一片天地好像是我的;我也像超出了平常旳自己,到了另一世界里。
分词精确模式: 这/ 一片/ 天地/ 好像/ 是/ 我/ 的/ ;/ 我/ 也/ 像/ 超出/ 了/ 平常/ 旳/ 自己/ ,/ 到/ 了/ 另/ 一/ 世界/ 里/ 。/3) ------------------------
原句: 我爱热闹,也爱冷静;爱群居,也爱独处。
分词精确模式: 我/ 爱/ 热闹/ ,/ 也/ 爱/ 冷静/ ;/ 爱/ 群居/ ,/ 也/ 爱/ 独处/ 。/4) ------------------------
原句: 像今晚上,一个人在这苍茫旳月下,什么都可以想,什么都可以不想,便觉是个自由的人。
分词精确模式: 像/ 今晚/ 上/ ,/ 一个/ 人/ 在/ 这/ 苍茫/ 旳/ 月/ 下/ ,/ 什么/ 都/ 可以/ 想/ ,/ 什么/ 都/ 可以/ 不想/ ,/ 便觉/ 是/ 个/ 自由/ 的/ 人/ 。/5) ------------------------
原句: 白天里一定要做的事,一定要说的话,现在都可不理。这是独处的妙处,我且受用这无边的荷香月色好了。
分词精确模式: 白天/ 里/ 一定/ 要/ 做/ 的/ 事/ ,/ 一定/ 要说/ 的话/ ,/ 现在/ 都/ 可/ 不理/ 。/ 这是/ 独处/ 的/ 妙处/ ,/ 我且/ 受用/ 这/ 无边/ 的/ 荷香/ 月色/ 好/ 了/ 。/

欢迎加入 TechLinkX AI微信群,技术交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/149132.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

打造以太坊数据监控利器:InfluxDB与Grafana构建Geth可视化分析平台

前言 以太坊客户端收集大量数据,这些数据可以按时间顺序数据库的形式读取。为了简化监控,这些数据可以输入到数据可视化软件中。在此页面上,将配置 Geth 客户端以将数据推送到 InfluxDB 数据库,并使用 Grafana 来可视化数据。 一…

惊!国产便宜猫罐头也有精品!鲜朗、希喂、顽皮测评

好多进口猫罐头二十多一罐,家里两个超能吃的十斤四岁布偶,每月至少得买100多罐,我直呼“钱包告急”,难以承担。只好把目光投向国内的主食罐。这一年里,我试了挺多国产品牌,一开始看着不到十元的价格&#x…

力扣周赛 —— 416

前言 只做出了第一道,第二第三道都超时。 痛,太痛了。 题目 Q1.举报垃圾信息 给你一个字符串数组 message 和一个字符串数组 bannedWords。 如果数组中 至少 存在两个单词与 bannedWords 中的任一单词 完全相同,则该数组被视为 垃圾信息。…

深入探秘:Linux内存管理与泄漏检测

目录 1. 朋友,了解一下Linux的内存工作原理吧! 1.1. 这张图展示的是一个Linux进程的虚拟内存结构 2. 内存分配与回收:让你的程序跑得更稳健 2.1. 内存分配与内存泄漏 3. 内存泄漏检测代码分析 3.1. 预处理宏替换方法 3.2. 动态链接库挂…

2024华为杯E题成品文章已出!

E题高速公路应急车道紧急启用模型 点击链接加入群聊【2024华为杯数学建模助攻资料】:http://qm.qq.com/cgi-bin/qm/qr?_wv1027&kxtS4vwn3gcv8oCYYyrqd0BvFc7tNfhV7&authKeyedQFZne%2BzvEfLEVg2v8FOm%2BWNg1V%2Fiv3H4tcE6X%2FW6lCmkhaSaZV4PwQ%2FOVPDtF%2B&…

kismet和war driving具体准备(仅供无线安全学习)

war driving准备 一台笔记本 一个最好是双频的网卡,单频搜集信号少 我自己买的是http://e.tb.cn/h.grI4EmkDLOqQXHG?tkKZ5g3RVeH6f 如果经济条件允许可以去买大功率天线(我买的车载的 大概40db这样子 范围广) http://e.tb.cn/h.grCM0CQ6L…

Python Appium自动化操作抖音

1、功能介绍 使用Python和Appium给手机抖音上的同城模块自动评论,主要是通过模拟用户在抖音同城模块的操作,实现自动发送评论的功能。具体步骤如下: - 安装并配置好Python环境; - 安装Appium库,用于自动化操作手机应…

【CSS in Depth 2 精译_038】6.2 CSS 定位技术之:绝对定位

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第一章 层叠、优先级与继承(已完结)第二章 相对单位(已完结)第三章 文档流与盒模型(已完结)第四章 Flexbox 布局(已…

大模型深入行业,正从“星星之火”走向“燎原之势”

2024年,当越来越多的企业从赶大模型的潮流与炫大模型的参数规模开始转移到行业落地时,华为携生态伙伴用大模型深耕行业的成果俨然遍地开花。 在9月19日华为全联接大会2024大会上同期举办的华为云AI用户峰会上,华为云为28个创新项目颁发了“A…

应用密码学第一次作业(9.23)

一、Please briefly describe the objectives of information and network security,such as confidentiality, integrity, availability , authenticity , and accountability The objectives of information and network security include: Confidentiality: Protecting se…

快手旗下——Kolors模型部署与使用指南

以下是按照要求重写后的 Kolors 模型部署与使用指南,文章风格偏技术性,但保持简洁和易懂的特点: Kolors 模型部署与使用指南 一、Kolors 简介 Kolors 是由快手 Kolors 团队开发的文本到图像生成模型,基于大规模的潜在扩散技术。…

vue-animate-onscroll动画库(可来回触发动画)

效果展示 ①触发一次动画 触发一次 ②触发多次动画 触发多次 1.什么是vue-animate-onscroll 它是一个 Vue 插件,用于在滚动时触发动画效果。它可以帮助开发者在用户滚动页面时,逐渐展示元素,增强用户体验。基本用法是通过在元素上添加特定的指…

Soul APP创始人张璐团队探讨新世代婚恋观:基于兴趣爱好的“轻相亲”正逐渐流行

近年来,随着社会经济的快速发展和文化观念的不断演变,婚恋观念正在经历显著变化。为深入了解当代年轻人对婚恋的态度与趋势,Soul APP创始人张璐团队与上海大学社会学青年研究团队合作,联合发布了《2024年青年婚恋观念及趋势调查报告》(以下简称“报告”)。该报告基于Soul APP用…

qml PathView入门

PathView是一个用于在用户界面中沿着定义的路径显示和滚动项目的视图组件。它提供了丰富的定制选项,允许开发者创建复杂的动画效果和自定义的滚动行为,特别适用于需要展示非线性排列项目的场景,如图片轮播、自定义滚动菜单等。 一、主要属性 …

[教程]如何在iPhone上启用中国移动/联通/电信RCS消息

目前 苹果已经在 iOS 18 中带来 RCS 富媒体消息的支持,该消息基于网络传递,用户可以通过 RCS 免费将消息发送到其他 iPhone 或 Android 设备。在苹果面向测试版用户推出的 iOS 18.1 Beta 版中,中国网络运营商包括中国移动、中国联通、中国电信…

JavaSE - 面向对象编程05

01 正则表达式 【1】概念:正则表达式是由一些特定字符组成的,代表的是一个规则。 【2】可以用来做什么? ① 用于校验数据格式的合法性 ② 用于在文本中爬取满足要求的内容 ③ 用于String类的replace方法,split方法的替换和分割 …

【学习笔记】Linux系统基础知识3 —— cd命令详解

一、前期准备 1.已经正确安装并成功进入Linux系统 说明:本实验采用的 Redhat 系统(因系统不一致,可能部分显示存在差异) 二、学习内容 提示:学习Linux系统基础命令 cd 命令详解 1、cd命令 1. 功能说明 cd 命令用…

Simple Calculator(算法初阶,代码基础,“纯”手撕)

简单计算器:仅适用无括号加减乘除,算法初阶,代码基础,不调库或模块“纯”手撕。 (笔记模板由python脚本于2024年09月22日 12:08:02创建,本篇笔记适合喜欢用python解决实际问题的coder翻阅) 【学习的细节是欢悦的历程】…

Qt中多语言的操作(以QtCreator为例)

1、首先,我们在代码中与文本相关的且需要支持多语言的地方,用tr来包含多语言key(多语言key是我们自己定义的),如下 //举例 QPushButton* btnnew QPushButton(this); btn->move(20,20); btn->resize(100,50); //…

在 deepin 上除了 Steam,还能怎么玩游戏?

查看原文 前段时间,很多朋友在 deepin 23 上实现了《黑神话:悟空》的通关,那么除了通过 Steam 玩 Windows 游戏之外,还有其他可以使用的游戏平台吗? 回答,当然是可以哒! 游戏平台介绍 今天介…