elasticSearch(一):elasticSearch介绍

一、搜索引擎

搜索引擎的核心目的是帮助用户以最小的成本才海量数据中找到最想要的结果。糟糕的搜索引擎往往会所问非所答,用户查了半天也得不到自己想要的,好的搜索引擎往往第一页就是用户最想要的结果。而目前判断搜索引擎好坏一般是从召回率、精确率两个指标来衡量搜索质量:

image.png

 

css

代码解读

复制代码

召回率 = B / (A + B) 精确率 = B / (B + D)

一、elasticSearch诞生

lucence在1999年首次发布,并于2005年成为apache基金会项目。它提供了强大的索引和搜索功能,通过简单的api就可以对外提供功能。

在2004年,Shay Banno帮助妻子学习,为其开发了一个方便搜索菜谱的应用,此时他就接触lecence,并对lecence进行了封装,此时elaseticSearch的前身Compass便诞生了。后面在2010年Compass更名为elasticSearch并对外发布;

由于ElasticSearch的火爆,Shay Banno与Uri Boness、Simon Willnauer共同组建了ElasticSarch公司,后续整合了Kibana、Beats、Logstash于2015年更名为Elastic。

二、介绍

ElasticSearch是分布式搜索和分析引擎,它基于java编程语言构建,可以在主流硬件平台上运行。在存储和计算、分析方面,elasticSearch允许执行和合并多种类型的搜索,适用于各种新用例,具有极高的可用性和容错性。

它拥有以下特点:

  1. 使用简单的ReSTful Api,天然兼容多语言开发;
  2. 使用水平横向拓展节点,通过增加节点来实现负载均衡以及增强集群可靠性;
  3. 面向文档,不使用“表”来存储数据,而使用“文档”来存储数据;
  4. 无模式,无须定义好字段类型、长度等,可以直接导入文档;
  5. 近实时存储,使每个字段都被索引且可用于搜索;
  6. 响应快,海量数据下能实现秒级响应速度;
  7. 易拓展,支持处理PB级数据;
  8. 多租户,支持多个业务共用,并且确保业务数据间的隔离性。

三、elasticSearch核心概念

集群

elasticSearch集群是一组elasticSearch节点的集合;节点根据用途不同分为不同的角色,每个节点之间可以相互通信。通常都采用集群形式部署elasticSearch,目的是实现容错和高可用。elasticSearch集群需要一个唯一标识的集群名称来防止不必要的节点加入。根据实际业务场景一个集群的节点数据从一个到数千个不等。

节点

节点指的是一个elasticSearch实例,也可以说是一个elasticSearch进程。节点可以部署到物理机或者虚拟机上。每当elasticSearch启动时,节点就会开始运行。每个节点都有唯一标识的名称,在部署多节点集群环境的时候要注意节点名称不要写错。

索引

索引时elasticSearch用于存储和管理相关数据的逻辑容器。索引可以看到数据库中的一个表。数据以JSON格式的文档存储在索引中。每个索引具有唯一的名称,并且名称必须为小谢。

分片

分片是包含索引数据的一个子集,它本身就具备完整的功能和独立性,可以将分片看成索引。当一个索引有多个分片时,elasticSearch会将请求分发到各个分片处理请求,并将他们的结果集进行处理。而对于使用elasticSearch并不需要关心它底层的分片结构,elasticSearch会自动帮忙处理好。

副本

为了防止硬件上的故障,保证集群的容错性和高可用性,elasticSearch提供了复制数据的特性。分片可以被复制,被复制的分片称为“主分片”,复制的称为“副本分片”;当主分片数据节点不可用时,集群会将副本分片升为主分片。

文档

关系型数据库,以行作为存储单元,而elasticSearch以文档作为存储单元;文档中的数据由键值对构建,键为字段的名称,值为具体的值;值包含字符串类型、数字类型等,后续详细介绍。

字段

字段是elasticSearch中的最小单位,可以把它理解成关系型数据库中的字段;差别是关系型数据库字段类型是唯一的,而elasticSearch中字段可以设定为多种。

倒排索引

在elasticSearch每个文档都可以当作一些词的集合,倒排索引就是将这些词映射到该文档上,它与关系型数据库的索引刚好相反,因此倒排索引成为elasticSearch以及其他支持全文索引数据库的关键。

映射

在elasticSearch中映射类似于关系型数据库中的Schema,但在elasticSearch中映射更为复杂,不同业务场景下映射的创建对业务使用影响会很大,后续详细介绍。

分词

构建倒排索引的关键,使elasticSearch能让用户在O(1)时间复杂度快速找回数据结果。在elasticSearch中有很多种分词器,例如常用的IK分词器,后续详细介绍。

作者:想打游戏的程序猿
链接:https://juejin.cn/post/7389428858390478859
来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/34651.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

python解析各城市历史天气数据

1 背景介绍 python解析各城市历史天气数据 2 基本思路 获取原始数据,解析,然后保存到excel表格里面。 以浙江省杭州市西湖区2016年9月到2017年4月的 历史天气数据为例,最终成果如下: 3 核心代码 对于数据比较少时&#xff…

【并集查询】.NET开源 ORM 框架 SqlSugar 系列

.NET开源 ORM 框架 SqlSugar 系列 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列【Code First】.NET开源 ORM 框架 SqlSugar 系列【数据事务…

组件中的生命周期

文章目录 1 概念介绍2 使用方法3 示例代码我们在上一章回中介绍了Flutter中如何使用三方包相关的内容,本章回中将介绍Widget的生命周期.闲话休提,让我们一起Talk Flutter吧。 1 概念介绍 本章回中介绍的生命周期是指Widget从创建到结果的整个过程,这里提到的Widget是一个泛…

DAY35|动态规划Part03|LeetCode:01背包问题 二维、01背包问题 一维、416. 分割等和子集

目录 01背包理论基础(一) 基本思路 C代码 01背包理论基础(二) 基本思路 C代码 LeetCode:416. 分割等和子集 基本思路 C代码 01背包理论基础(一) 题目链接:卡码网46. 携带研究材料 文字…

Shopee大卖选品策略揭秘:印尼市场选品与成本分析案例

东南亚电商市场愈发成熟,越来越多做跨境的卖家转向本土。但对于“本土化选品运营”这个问题还相当疑惑!看别人本土店销量飞起,自己却还在就纠结做啥能挣钱? 别急,今天EasyBoss根据之前合作的Shopee大卖分享的经验&…

鸿蒙特色实战2

服务卡片开发 创建服务卡片 创建一个新的工程后,可以通过如下方法进行创建服务卡片: 创建服务卡片包括如下两种方式: 选择模块(如entry模块)下的任意文件,单击菜单栏File > New > Service Widget创…

php基础:文件处理2

1.文件属性 当我们在程序中操作文件时,可能会使用到文件的一些常见属性,比如文件的大小、类型、修改时间、访问时间以及权限等等。PHP 中提供了非常全面的用来获取这些属性的内置函数,如下表所示。 2.目录操作 新建目录:mkdir(路…

激活函数在神经网络中的应用与选择

目录 ​编辑 Sigmoid函数 代码示例与分析 Tanh函数 代码示例与分析 ReLU函数 代码示例与分析 Leaky ReLU函数 代码示例与分析 PReLU函数 代码示例与分析 ELU函数 代码示例与分析 SELU函数 代码示例与分析 Softmax函数 代码示例与分析 结论 在深度学习领域&am…

如何在.NET 8.0 上安装 FastReport 并创建简单报告(下)

FastReport 是一款灵活而强大的报告工具。它允许用户以各种格式访问数据源并以可视化方式呈现它们。使用 FastReport 创建的报告可以在用户界面中使用拖放逻辑轻松设计,并转换为不同的格式(PDF、Excel、Word 等)。>> 如何在.NET 8.0 上…

SpringBoot期末知识点大全

一、学什么 IoC AOP:面向切面编程。 事物处理 整合MyBatis Spring框架思想! 二、核心概念 问题:类之间互相调用/实现,导致代码耦合度高。 解决:使用对象时,程序中不主动new对象,转换为由外部提…

vscode CMakeLists中对opencv eigen的引用方法

CMakeLists.txt 项目模式(只有一个main函数入口) cmake_minimum_required(VERSION 3.5)project(vsin01 VERSION 0.1 LANGUAGES CXX)set(CMAKE_CXX_STANDARD 17) set(CMAKE_CXX_STANDARD_REQUIRED ON)set(OpenCV_DIR G:/MinGW_Opencv/opencv4.10/opencv…

11.15【JAVA】【网络编程】【DEBUG】

代码以开源至cqujk/CquJavaEE 的myExp-socketCode分支,欢迎拷打 参考REPO Java 11: Standardized HTTP Client API 没反应 这是因为这应当是两个线程,当server创建好套接字后,进入accept时,就不会继续向下运行,客户端自然也就无法发送请求 首先要保证server进入accept(这个…

华为HCIE-Datacom认证笔试+实验考试介绍

华为HCIE数通认证考试是面向那些希望成为数通网络领域专家的人员,考试通常两部分:笔试和实验考试。 考试科目: HCIE-Datacom笔试考试内容: HCIE-Datacom V1.0考试覆盖数据通信领域路由交换高阶技术、企业网络架构全景、园区网络…

Android环境搭建

Android环境搭建 第一步:安装 Homebrew 执行以下命令来安装 Homebrew: /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"检测是否安装成功: brew --version第二步:安装 No…

WLAN漫游

定义 WLAN漫游 是指STA在不同AP覆盖范围之间移动且保持用户业务不中断的行为 实现WLAN漫游的两个AP必须使用相同的SSID和安全模板(安全模板名称可以不同,但是安全模板下的配置必须相同),认证模板的认证方式和认证参数也要配置相…

排序2(万字详细版)

一 快速排序 快速排序是Hoare于1962年提出的⼀种⼆叉树结构的交换排序⽅法,其基本思想为:任取待排序元素 序列中的某元素作为基准值,按照该排序码将待排序集合分割成两⼦序列,左⼦序列中所有元素均⼩ 于基准值,右⼦序列…

[ACTF2020 新生赛]Include

感觉毫无头绪e一下,发现要使用伪协议 伪协议:是PHP自己支持的一种协议与封装协议,简单说就是PHP定义的一种特殊访问资源的方法。 2.什么时候用PHP伪协议? 可能遇到的文件包含函数: 1、include 2、require 3、include_once 4、r…

链表【Lecode_HOT100】

1.相交链表No.160 public ListNode getIntersectionNode(ListNode headA, ListNode headB) {if(headAnull||headBnull) return null;ListNode pAheadA;ListNode pBheadB;while(pA!pB){pA(pAnull)?headB:pA.next;pB(pBnull)?headA:pB.next;}return pA; }2.反转链表No.206 pu…

时频转换 | Matlab格拉姆角和场Gramian angular summation field一维数据转二维图像方法

目录 基本介绍程序设计参考资料获取方式 基本介绍 时频转换 | Matlab格拉姆角和场Gramian angular summation field一维数据转二维图像方法 程序设计 clear clc % close all load x.mat % 导入数据 x x(1:5120); % 本数据只选择5120个点进行分析 fs 6400 ; % 数据采样频…

试题转excel;pdf转excel;试卷转Excel,word试题转excel

一、问题描述 一名教师朋友,偶尔会需要整理一些高质量的题目到excel中 以往都是手动复制搬运,几百道题几乎需要一个下午的时间 关键这些事,枯燥无聊费眼睛,实在是看起来就很蠢的工作 就想着做一个工具,可以自动处理…