ElasticSearch安装分词器与整合SpringBoot

ElasticSearch安装分词器与整合SpringBoot在这里插入图片描述

如果还没安装的点击安装ElasticSearch查看怎么安装

分词器

1.分词器

在Elasticsearch中,分词器(Tokenizer)是分析器(Analyzer)的一部分,它的主要职责是将文本输入(如字符串)分割成一系列的词元(tokens)。这些词元是搜索和索引的基础单元。

分词器的作用
  • 分割文本:将输入文本按照特定的规则分割成独立的词元。
  • 记录位置信息:为每个词元记录其在原始文本中的位置信息,如起始和结束字符偏移量。
  • 记录词元顺序:确定词元的顺序,这对于短语查询和词近邻查询非常重要。
内置分词器
  • Whitespace Tokenizer:按空白字符分割文本。
  • Standard Tokenizer:基于Unicode字符属性进行分词,类似于Java的String.split方法。
  • Punctuation Tokenizer:按标点符号分割文本。
  • Keyword Tokenizer:不进行分词,将整个输入文本作为一个词元。
  • Pattern Tokenizer:使用正则表达式进行分词。

2.ik分词器

在这里插入图片描述

  • 点击下载:注意你是什么版本的下什么版本,如:我的elasticsearch是7.6.2就下7.6.2
  • 解压后找到你的/usr/share/elasticsearch/plugins挂载的目录下,例如:
#当初我挂载的是/docker/elasticsearch/plugins
-v /docker/elasticsearch/plugins:/usr/share/elasticsearch/plugins
  • 把解压后得到的ik目录放入plugins,只要ik目录,别是ik/ik/
  • 重启

3.测试分词器

  • 使用默认
POST _analyze
{ "text": "我是中国人"
}
  • 使用分词器
POST _analyze
{ "analyzer": "ik_smart", "text": "我是中国人"
}
  • 另外一个分词器ik_max_word
POST _analyze
{ "analyzer": "ik_max_word", "text": "我是中国人"
}

观察结果,就可以看出使用分词器之后的区别了

整合SpringBoot

Elasticsearch-Rest-Client

3.Maven导入
<dependency><groupId>org.elasticsearch.client</groupId><artifactId>elasticsearch-rest-high-level-client</artifactId><version>7.6.2</version>
</dependency>
2.配置
@Bean
RestHighLevelClient client() {
RestClientBuilder builder = RestClient.builder(new HttpHost("<你的虚拟机ip>", 9200, "http"));
return new RestHighLevelClient(builder);
}
3.测试
@Test
void test1() throws IOException {IndexRequest request = new IndexRequest("test").id("20").source("name","中国","id",20L);try {IndexResponse response = client.index(request, RequestOptions.DEFAULT);System.out.println(request.toString());IndexResponse response2 = client.index(request, RequestOptions.DEFAULT);} catch (ElasticsearchException e) {if (e.status() == RestStatus.CONFLICT) {}}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1547497.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

玩转指针(3)

一、字符指针变量 字符指针变量&#xff08;如char* p&#xff09;的两种赋值方式 ①将字符类型地址赋值给字符指针变量 int main() {char a w;char* p &a;*p m;return 0; }②将常量字符串赋值给字符指针变量 常量字符串的介绍&#xff1a;用" "引起来的就…

【ARM 嵌入式 编译系列 10.4 -- GNU Binary Utilies】

文章目录 GNU Binary Utilities 详细介绍常用工具介绍1. arm-none-eabi-objcopy2. arm-none-eabi-readelf3. arm-none-eabi-size4. arm-none-eabi-objdump5. arm-none-eabi-nm6. arm-none-eabi-strip7. arm-none-eabi-ld8. arm-none-eabi-as9. arm-none-eabi-addr2line10. arm-…

追随 HarmonyOS NEXT,Solon v3.0 将在10月8日发布

Solon &#xff08;开放原子开源基金会&#xff0c;孵化项目&#xff09;原计划10月1日发布 v3.0 正式版。看到 HarmonyOS NEXT 将在 10月8日启用公测&#xff0c;现改为10月8日发布以示庆贺。另外&#xff0c;Solon 将在2025年启动“仓颉”版开发&#xff08;届时&#xff0c;…

迅雷笔试 最长相等子段数列长度 滑动窗口

&#x1f468;‍&#x1f3eb; 牛马Code&#xff1a;最长相等子段数列长度 import java.io.BufferedReader; import java.io.InputStreamReader; import java.util.Arrays; import java.util.HashMap;public class Main {// 创建一个输入流读取器&#xff0c;用于读取控制台输…

调用飞书接口导入供应商bug

1、业务背景 财务这边大部分系统都是供应商项目&#xff0c;由于供应商的研发人员没有飞书项目的权限&#xff0c;涉及到供应商系统需求 财务这边都是通过多维表格进行bug的生命周期管理如图&#xff1a; 但多维表格没有跟飞书项目直接关联&#xff0c;测试组做bug统计的时候无…

第十六章 模板与泛型编程

16.1 定义模板 模板是C泛型编程的基础。为模板提供足够的信息&#xff0c;就能生成特定的类或函数。 16.1.1 函数模板 在模板定义中&#xff0c;模板参数列表不能为空。 //T的实际类型在编译时根据compare的使用情况来确定 template <typename T> int compare(const …

VmWare17直接开箱即用Win10虚拟机

你是否曾想过在电脑上安装一个Windows 10虚拟机来执行一些高风险的操作&#xff1f;比如测试某个文件是否携带病毒&#xff0c;或者想要在隔离的环境中使用电脑&#xff1f;那么&#xff0c;接下来我将为你提供一份详细的Windows 10虚拟机快速启动教程&#xff0c;让你能够轻松…

electron 设置界面右下角打开

功能需求场景 写一个可以下载各种平台的小工具&#xff0c;需要右下角打开方便做其它事情 实现基础 要在屏幕的右下角设置窗口&#xff0c;可以调整mainWindow的创建参数&#xff0c;特别是通过使用x和y坐标来定位窗口 &#xff1b; 需要获取屏幕的尺寸&#xff0c;并据此计算…

计算机的错误计算(一百零五)

摘要 本节探讨多项式的计算精度问题。 例1. 已知多项式 计算 不妨在Visual Studio 2010下编程计算&#xff0c;其中主要语句如下&#xff1a; #include <math.h>double x1234; double c91021263,c8-1260239000,c7565172,c2-21,c031977890.4; double yc9*pow(x,9)c8*…

WSL进阶体验:gnome-terminal启动指南与中文显示问题一网打尽

起因 我们都知道 wsl 启动后就死一个纯命令行终端&#xff0c;一直以来我都是使用纯命令行工具管理Linux的。今天看到网上有人在 wsl 中启动带图形界面的软件。没错&#xff0c;就是在wsl中启动带有图形界面的Linux软件。比如下面这个编辑器。 ​​ 出于好奇&#xff0c;我就…

YOLOv9改进,YOLOv9主干网络替换为GhostNetV3(2024年华为提出的轻量化架构,全网首发),助力涨点

摘要 GhostNetV3 是由华为诺亚方舟实验室的团队发布的,于2024年4月发布。 摘要:紧凑型神经网络专为边缘设备上的应用设计,具备更快的推理速度,但性能相对适中。然而,紧凑型模型的训练策略目前借鉴自传统模型,这忽略了它们在模型容量上的差异,可能阻碍紧凑型模型的性能…

通信工程学习:什么是TDD时分双工

TDD:时分双工 TDD(时分双工,Time Division Duplexing)是一种在移动通信系统中广泛使用的全双工通信技术。以下是TDD的详细解释: 一、定义与原理 TDD是一种通过时间划分来实现双向通信的技术。在TDD模式中,接收和传送在同一频率信道(即载波)的不同时隙…

Chirp通过Sui让IoT世界变得更简单

据估计&#xff0c;未来十年内&#xff0c;联网设备的数量将增长到近400亿台。无论是追踪共享出行车辆的移动、改善食品追溯性、监控制造设施&#xff0c;还是保障家庭安全&#xff0c;物联网 ( Internet of Things&#xff0c;IoT) 对企业和消费者来说都已经成为一项关键技术。…

认知杂谈84《菜鸟的自我修炼:知易行难与行难知易》

内容摘要&#xff1a; 理解与行动之间的差距是日常生活的常见挑战。"知易行难"体现在理解简单但执行困难&#xff0c;例如知道蔬菜有益但难以坚持食用。而"行难知易"则是开始时困难但后来容易的任务&#xff0c;如学习骑自行车。 这种差异源于心理惰性和习…

【ARM 嵌入式 编译系列 10.5 -- ARM toolchain naming convention】

文章目录 ARM 工具链命名规范详细介绍1. arch(架构)2. vendor(供应商)3. os(操作系统)4. abi(应用二进制接口)ABI(应用二进制接口)常见的 ABI 类型工具链命名约定ExamplesABI 合规性ARM 工具链命名规范详细介绍 ARM 工具链的命名规范指示了 GCC 工具链的构建目的和所…

AI 智能体 | 手捏素材选题库 Coze Bot,帮你实现无限输出

做自媒体的同学经常遇到的一个痛点就是无限输出&#xff0c;那怎么才能有源源不断的选题呢&#xff1f;那就是搭建一个选题素材库。 下面就为大家介绍一下基于 Coze Bot 快速搭建素材选题库&#xff0c;希望能让大家才思泉涌。 一、流程拆解 日常素材库积累的过程可以描述为…

WPF项目中使用Caliburn.Micro框架实现日志和主题切换

目录 一、添加Caliburn.Micro框架 二、配置Serilog日志 三、实现主题切换 Caliburn.Micro是MVVM模式的轻量级WPF框架&#xff0c;简化了WPF中的不少用法。这个框架中所有的页面控制都是通过ViewModel去实现的。 以下内容是自己在进行项目实战的同时进行记录的&#xff0c;对于…

使用npm link 把一个本地项目变成依赖,引入到另一个项目中

突然有天,发现线上的项目有块功能缺失,我以为是我优化的时候不小心改坏了什么代码,导致的,先上图 第一反应,就以为天塌了,完全无从入手,然后我就找了之前的离职的同事,他又给我两个包,让我打成依赖扔进去,这两个包分别是scratch-blocks,scratch-vm, 然后我就使用了npm link np…

【HarmonyOS】组件长截屏方案

【HarmonyOS】普通组件与web组件长截屏方案&#xff1a;原则是利用Scroll内的组件可以使用componentSnapshot完整的截屏 【普通组件长截屏】 import { componentSnapshot, promptAction } from kit.ArkUI import { common } from kit.AbilityKit import { photoAccessHelper }…

001、视频添加字幕

1. 腾讯智影 (可用) https://zenvideo.qq.com/ 1.1 操作步骤 https://zenvideo.qq.com/ https://zenvideo.qq.com/my/material?typeexport 上传资源 自动字幕识别 修改字幕 下载字幕 上传字幕 https://zenvideo.qq.com/my/material?typeexport 2. 秒剪–手机版app &a…