重生之我们在ES顶端相遇第10 章- 分分分词器的基本使用

文章目录

      • 思维导图
      • 0. 前言
      • 1. 光速上手
        • 1.1 指定分词器
        • 1.2 测试分词器
      • 2. 分词流程(重要)
        • 2.1 基本介绍
        • 2.2 深入如何测试分词器
      • 3. 自定义一个简单的分词器

思维导图

在这里插入图片描述

0. 前言

分词器在 ES 搜索使用中非常关键,一个好的分词器能够提高搜索的质量,让用户搜索到其想要的内容。
下面我将带大家从整体了解分词器。

1. 光速上手

1.1 指定分词器
DELETE test8
PUT test8
{"mappings": {"properties": {"title": {"type": "text","analyzer": "whitespace"}}}
}

test8 索引的 title 字段,分词器为 whitespace

1.2 测试分词器
POST _analyze
{"analyzer": "whitespace","text": "hello world"
}

2. 分词流程(重要)

2.1 基本介绍

ES 分词可以包含:

  1. 0个或多个 character filters
  2. 有且仅 1 个 tokenizer
  3. 0个或多个 token filters

工作流程如下:
在这里插入图片描述

  • character filters: 对输入进行预处理,比如删除 html 元素,比如将表情符号映射为文本
  • tokenizer: 分词器,上面说到的 standard,whitespace 都属于分词器
  • token filters: 对分词后的结果进行处理。例如输入 Is this déja vu, 如果按照空格分词的话,会被分为 Is, this, déja, vu。我们可以设置 asciifolding token filters, 将 déja, 转换为 deja
2.2 深入如何测试分词器
POST _analyze
{"char_filter": ["html_strip", {"type": "mapping","mappings": ["😂 => happy"]}],"tokenizer": "standard","filter": ["lowercase", "asciifolding"],"text": "Is this déja vu? 😂 <b>Important</b>"
}
  • html_strip 用于去掉 html 元素
  • mapping 则是将表情转换为文本
  • standard 用于分词
  • lowercase 用于将所有的大写转换为小写
  • asciifolding 用于将 Unicode 字符转换为 ASCII 字符
{"tokens" : [{"token" : "is","start_offset" : 0,"end_offset" : 2,"type" : "<ALPHANUM>","position" : 0},{"token" : "this","start_offset" : 3,"end_offset" : 7,"type" : "<ALPHANUM>","position" : 1},{"token" : "deja","start_offset" : 8,"end_offset" : 12,"type" : "<ALPHANUM>","position" : 2},{"token" : "vu","start_offset" : 13,"end_offset" : 15,"type" : "<ALPHANUM>","position" : 3},{"token" : "happy","start_offset" : 17,"end_offset" : 19,"type" : "<ALPHANUM>","position" : 4}]
}

3. 自定义一个简单的分词器

DELETE test8
PUT test8
{"mappings": {"properties": {"name": {"type": "text","analyzer": "my_custom_analyzer"}}},"settings": {"analysis": {"char_filter": {"cf_happy": {"type": "mapping","mappings": ["😂 => happy"]}},"analyzer": {"my_custom_analyzer": {"type": "custom","tokenizer": "standard","char_filter": ["html_strip", "cf_happy"],"filter": ["lowercase", "asciifolding"]}}}}
}

测试分词器

POST test8/_analyze
{"analyzer": "my_custom_analyzer","text": "😂 I Like Elasticsearch"
}

输出结果

{"tokens" : [{"token" : "happy","start_offset" : 0,"end_offset" : 2,"type" : "<ALPHANUM>","position" : 0},{"token" : "i","start_offset" : 3,"end_offset" : 4,"type" : "<ALPHANUM>","position" : 1},{"token" : "like","start_offset" : 5,"end_offset" : 9,"type" : "<ALPHANUM>","position" : 2},{"token" : "elasticsearch","start_offset" : 10,"end_offset" : 23,"type" : "<ALPHANUM>","position" : 3}]
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1522256.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

mysql中的mysql 库不存在,进行恢复

mysql中的mysql 库不存在&#xff0c;进行恢复 解决方法&#xff1a; 关闭数据库 service mysqld stop 以跳过权限认证方式启动mysql mysqld_safe --defaults-file/etc/my.cnf --skip-grant-tables & 在输入&#xff1a;mysql -u root 在输入&#xff1a;use mysql 在输…

【C++ Primer Plus习题】9.1

问题: 解答: main.cpp #include <iostream> #include <string> #include "golf.h" using namespace std;#define SIZE 5int main() {golf ann;setgolf(ann, "AnnBirdfree", 24);golf andy;setgolf(andy);showgolf(ann);showgolf(andy);return…

JVM1-初识JVM

目录 什么是JVM JVM的功能 解释和运行 内存管理 即时编译 Java性能低的主要原因和跨平台特性 常见的JVM 什么是JVM JVM 全称是 Java Virtual Machine&#xff0c;中文译名&#xff1a;Java虚拟机 JVM本质上是一个运行在计算机上的程序&#xff0c;它的职责是运行Java字…

自建远程桌面RustDesk服务器(CentOS配置,保姆级案例)

安装环境: 系统:Centos7 网络:连接互联网 一、环境准备: ①变更国内yum源(方便安装包下载) 备份源文件 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup 下载国内(阿里)源文件: curl -o /etc/yum.repos.d/CentOS-Base.repo htt…

蔡英丽医生:“斑块克星”三种食物,轻松守护心血管健康

在这个快节奏的时代&#xff0c;心血管疾病悄然成为威胁我们健康的“隐形杀手”。尤其是血管斑块&#xff0c;它不仅悄悄堵塞着我们的生命通道&#xff0c;还可能引发心脏病、中风等严重后果。但别担心&#xff0c;今天我们就来揭秘那些藏在日常餐桌上的“斑块克星”&#xff0…

CMU 10423 Generative AI:lec1

文章目录 1 概述2 内容摘录AIGC的主要应用大模型训练时&#xff0c;分布式训练有哪几种方式&#xff1f;NLP模型和CV模型发展历史本课程触及的主题课程前提、评分标准、阅读材料、5个作业、大项目课程学习目标 3 阅读材料3.1 Sequence Modeling: Recurrent and Recursive Nets.…

Faiss向量数据库

Faiss&#xff08;Facebook AI Similarity Search&#xff09;向量数据库是由Facebook AI研究院开发的一种高效相似性搜索和聚类的库。Faiss不仅支持在高维空间中进行高效的相似性搜索&#xff0c;还能够在处理大规模数据集时展现出卓越的性能&#xff0c;尤其适用于图像检索、…

C++和蓝图混用事件

一、在C中创建动态多播委托 1、UEBpAndCpp_Sender.h //声明一个蓝图可调用的多播委托的类型DECLARE_DYNAMIC_MULTICAST_DELEGATE_OneParam(FUEBpAndCpp_Broadcast, int, Param);//创建对象UPROPERTY(BlueprintAssignable)FUEBpAndCpp_Broadcast UEBpAndCpp_Broadcast;注意&…

Vue3其他Api

1.shallowRef与shallowReactive <template><div class"app"><h2>求和为:{{ sum }}</h2><h2>名字为:{{ person.name }}</h2><h2>年龄为:{{ person.age }}</h2><button click"sum 1">sum1</butto…

深入浅出:模拟实现 C++ STL 中的 unordered_map 和 unordered_set

目录 引言基础知识 散列表哈希函数负载因子模拟实现 unordered_set 数据结构设计哈希函数碰撞解决策略插入操作查找操作删除操作模拟实现 unordered_map 键值对存储插入操作查找操作删除操作代码示例总结 1. 引言 unordered_map 和 unordered_set 是 C 标准模板库 (STL) 中非…

LeetCode: 543. 二叉树的直径

二叉树的直径 原题 给你一棵二叉树的根节点&#xff0c;返回该树的 直径 。 二叉树的 直径 是指树中任意两个节点之间最长路径的 长度 。这条路径可能经过也可能不经过根节点 root 。 两节点之间路径的 长度 由它们之间边数表示。 示例 1&#xff1a; 输入&#xff1a;roo…

Vulnhub:hacksudo search

靶机下载地址。下载完成后&#xff0c;在VirtualBox中导入虚拟机&#xff0c;系统处理器修改为2&#xff0c;网卡配置修改为桥接。 信息收集 主机发现 扫描攻击机同网段存活主机。 nmap 192.168.31.0/24 -Pn -T4 靶机ip&#xff1a;192.168.31.218 端口扫描 nmap 192.168…

大数据采集迁移工具

Flume Sqoop kafka框架 MQ&#xff1a;消息队列 broker相当于服务器 消息队列

视频化时代,用好AIGC产品赋能企业培训打造增效降本“最佳实践”

根据IBM的数据&#xff0c;85%的中国企业正在加速投资AI领域&#xff0c;其中超过63%的企业已积极采用生成式AI。德勤的调研进一步显示&#xff0c;近80%的全球受访企业高管认为&#xff0c;生成式AI的兴起与发展将在3年内推动组织和行业发生实质性变革&#xff0c;这也就意味着…

2024爆火全网大模型书籍:《从零构建大型语言模型》星标17.8k

2024爆火全网大模型书籍&#xff1a;《从零构建大型语言模型》星标17.8k 近期&#xff0c;机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又写了一本新书 ——《Build a Large Language Model (From Scratch)》&#xff0c;旨在讲解从头开始构建大型…

线性代数 -- 矩阵求导

Tips&#xff1a;本文为理解神经网络的前置知识&#xff0c;整体内容并不全&#xff0c;相关内容还需后续进一步完善。 一、基础 1、标量、向量和矩阵 标量&#xff1a;只有大小&#xff0c;没有方向的量 向量&#xff08;欧几里得向量&#xff09;&#xff1a;具有大小和方向…

数仓建模:一文带你读懂什么是数仓建模? | 详聊数据建模的几种形式

目录 1 数据仓库的特点和意义 1.1 数仓特点 1.2 数仓形态演进 1.3 数仓建模的意义 1.4 数仓价值 2 数仓建模流派之争 2.1 Inmon数仓架构 2.2 Kimball数仓架构 2.3 两种建模方式对比分析 3 数仓建模流程 3.1 整体流程 3.2 数仓建模三步调研 3.3 业务流程构建 3.4 领…

MySQL的服务器与客户端:架构解析与实践

文章目录 MySQL的服务器和客户端服务端处理客户端请求连接管理解析与优化查询缓存语法解析查询优化 存储引擎不同的存储引擎查看支持的存储引擎为不同的表设置存储引擎 MySQL是一个广泛使用的开源关系数据库管理系统&#xff0c;其核心架构由服务器端和客户端两大部分组成。本文…

Tableau 社区项目 | 参与 Data+TV 挑战,洞悉全球电视剧集数据的精彩故事!

如果你钟爱某部电视剧集&#xff0c;正苦于没有数据练手&#xff0c;就快来参与 DataTV 挑战吧~ 去年&#xff0c;Tableau 和 IMDb 携手发起 DataMovies 挑战&#xff0c;吸引了全球各地的数据爱好者与影迷参与。今年&#xff0c;TC24 Viz 竞赛也以此为主题&#xff0c;让我们领…

LLM大模型学习路径指南速成,两月学完

大家好&#xff01;整理了一些我的大模型学习路线和参考资料&#xff0c;供初学者入门了解和实践 以下是简化版的学习路线&#xff1a; 第1周&#xff1a;基础知识储备 了解人工智能和大模型的基本概念。 学习线性代数、概率论和统计学的基本知识。 掌握Python编程基础。 第2…