elasticsearch 解决全模糊匹配最佳实践

事件背景:

某 CRM 系统,定义了如下两个表:

客户表 t_custom

字段名

类型

描述

idlong自增主键
phonestring客户手机
.........

客户产品关系表 t_custom_product

字段名

类型

描述

idlong自增主键
custom_idlong客户id
product_idlong产品id
.........

有个页面查询的需求,需要根据手机号模糊匹配,查询出所有匹配上的产品信息。

想要快速实现,可以写出如下 sql:

select from t_custom_product as ta left join t_custom as tb on ta.custom_id = tb.id where tb.phone like %#{phone}%

过了3年,其中 t_custom 已经有了100w 数据、t_custom_product 有了 1000w 数据,这时候,这条 sql 理所当然成了头号慢 sql。

新来的开发 @纪潘霞,受命解决这个问题。

改造 sql

一开始,纪先生想快速解决,就将 sql 改造成如下模式,然后给 phone 字段添加了正向以及反向索引 index(phone,id)   和 index (reverse(phone),id)

SELECT *  FROM (

    (select from t_custom_product as ta left join t_custom as tb on ta.custom_id = tb.id where tb.phone like #{phone}% order by id desc limit 10)

        UNION ALL 

    (select from t_custom_product as ta left join t_custom as tb on ta.custom_id = tb.id where tb.phone like %#{phone} order by id desc limit 10)

AS combined 

ORDER BY id DESC  

LIMIT 10;

改造之后,查询速度飞起,慢 sql 没有了。但是线上用户开始抱怨了,只输中间号码的场景,无法查询了。例如某客户手机号为:13098830998,查询 988 就无法查询出来。

纪先生说:

es 保存宽表

因为不符合需求,方案打回重做。

这时候,纪先生申请了一套 ES 集群。使用黄工提供的 canal 、datax 技术,将这个表的数据打成大宽表,写入 ES,字段大致如下:

客户关系宽表 index_custom_product (1000w数据)

字段名

类型

描述

idlongt_custom_product 的主键
custom_idlongt_custom 的主键
phonestringt_custom 的手机号
product_idlong产品id
.........

先采用 wildcard 的语句进行查询,查询语句如下 (不加 keyword 什么都查不出来):

GET index_custom_product/_search

{

    "query": {

        "wildcard" : {

            "phone.keyword" "*#{phone}*"

        }

    }

}

结果发现性能超差,查询资料得知,这种也是走的全表扫描。

es 匹配搜索

考虑 es 本身支持搜索,所以将查询改用搜索的方式:

GET index_custom_product/_search

{

    "query": {

        "match" : {

            "phone" "#{phone}"

        }

    }

}

结果在搜索号码片段的时候,什么都查不出来。查阅资料得知,默认分词器,不会对数字进行分词。

考虑切换成 N-gram 分词器,这个分词器特性如下:

POST _analyze

{

  "tokenizer""ngram",

  "text""Quick Fox"

}

将会返回(其中 min length = 1 ,max length = 2 )

[ Q, Qu, u, ui, i, ic, c, ck, k, "k "" "" F", F, Fo, o, ox, x ]

原理讲解部分(略,即兴演讲)

纪先生切换之后,这时候对手机号 13098830995 分词,会返回如下结果:

1133300099988...... ]

然后如果用户查询 988,这个查询会被解析为如下词组的查询

9,98,8,88 ]

显然,可以匹配到手机号 13098830995 的分词,从而查询出结果。
 

仍然有问题

改造之后,纪先生高兴的发布了,结果毫无疑问的,被测试打回来了。

因为测试拿 998 查询,结果只要手机号有 9 的数据都查询出来了。

因为 match  只要有一个词匹配,即匹配成功。

将 match 改成 match_phrase 即可。

GET index_custom_product/_search

{

    "query": {

        "match_phrase" : {

            "phone" "#{phone}"

        }

    }

}

还有问题?

改造之后,纪先生高兴的发布了,结果又被测试打回来了。

测试拿出 9888 进行查询,这个查询的分词组为:

9,98,8,88 ]

显然,可以匹配到手机号 13098830995。

纪先生接着又改了一版,考虑到查询出的结果集已经比较固定了,所以加了 filter 作为后置过滤,通过正则过滤出正确的手机号。

GET index_custom_product/_search

{

    "query": {

      "must": [

        "match_phrase": { "phone":   "#{phone}"        }}

      ],

      "filter": [

        "regexp":  { "phone""#{phone_regexp}" }}

      ]

    }

}

性能问题?调优

发布之后,某天,用户输入了 1111111111111(11个1) 进行查询,因为查询很慢,用户等不及狂点起来了。

毫无疑问的,ES 集群挂了。

这个是个开放性的结果,有后面几个调优方向:

  1. 经过纪先生和产品的激烈沟通,业务同意这个查询框加入一个判断条件:至少输入 4 位数字。然后 ngram length 调整到 4、4。(需要业务妥协,资源消耗少)
  2. ngram 调整 length 到 2、11,但是这样会让 es 内存占用加倍,需要扩容一下 ES。(业务体验最好,最占资源)
  3. ngram 调整 length 到 2、2,然后改用 term 查询,但是会有一定的幻觉。例如 8398 可以查询出 13398830995 => 高亮词汇为 83、39、98。(资源消耗少,极端情况会有异常数据)

这里只是给一个思路,调优本质上还是根据具体业务场景进行定制,技术和业务的互相妥协

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1487670.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Leetcode—74. 搜索二维矩阵【中等】

2024每日刷题&#xff08;149&#xff09; Leetcode—74. 搜索二维矩阵 实现代码 class Solution { public:bool searchMatrix(vector<vector<int>>& matrix, int target) {int m matrix.size();int n matrix[0].size();int l 0;int r m * n;int mid -1…

数据结构--二叉树详解

一&#xff0c;概念 1&#xff0c;结点的度&#xff1a;一个结点含有子树的个数称为该结点的度 2&#xff0c; 树的度&#xff1a;一棵树中&#xff0c;所有结点度的最大值称为树的度&#xff1b; 3&#xff0c;叶子结点或终端结点&#xff1a;度为0的结点称为叶结点&#x…

【React】JSX:从基础语法到高级用法的深入解析

文章目录 一、什么是 JSX&#xff1f;1. 基础语法2. 嵌入表达式3. 使用属性4. JSX 是表达式 二、JSX 的注意事项1. 必须包含在单个父元素内2. JSX 中的注释3. 避免注入攻击 三、JSX 的高级用法1. 条件渲染2. 列表渲染3. 内联样式4. 函数作为子组件 四、最佳实践 在 React 开发中…

【玩转C语言】第五讲--->数组-->一维和多维深度理解

&#x1f525;博客主页&#x1f525;&#xff1a;【 坊钰_CSDN博客 】 欢迎各位点赞&#x1f44d;评论✍收藏⭐ 引言&#xff1a; 大家好&#xff0c;我是坊钰&#xff0c;为了让大家深入了解C语言&#xff0c;我开创了【玩转C语言系列】&#xff0c;将为大家介绍C语言相关知识…

如何使用 SQLite ?

SQLite 是一个轻量级、嵌入式的关系型数据库管理系统&#xff08;RDBMS&#xff09;。它是一种 C 库&#xff0c;实现了自给自足、无服务器、零配置、事务性 SQL 数据库引擎。SQLite 的源代码是开放的&#xff0c;完全在公共领域。它被广泛用于各种应用程序&#xff0c;包括浏览…

重生之“我打数据结构,真的假的?”--4.二叉树(无习题)

1.二叉树 1.1概念与结构 在树形结构中&#xff0c;我们最常⽤的就是⼆叉树&#xff0c;⼀棵⼆叉树是结点的⼀个有限集合&#xff0c;该集合由⼀个根结点 加上两棵别称为左⼦树和右⼦树的⼆叉树组成或者为空。 1. ⼆叉树不存在度⼤于 2 的结点 2. ⼆叉树的⼦树有左右之分&…

《梦醒蝶飞:释放Excel函数与公式的力量》20.2 教学材料的自动化处理

第20章&#xff1a;自动化教学辅助工具 20.2 教学材料的自动化处理 自动化处理教学材料是利用编程技术和工具&#xff0c;自动执行教学材料的生成、整理和分发等任务的过程。通过自动化&#xff0c;可以提高教学材料处理的效率&#xff0c;减少手动操作的时间&#xff0c;从而…

用Swagger进行后端接口测试的实战操作

目录 一.什么是Swagger&#xff1f; 二.Swagger的使用操作流程&#xff1a; 1.在pom.xml配置文件导入 Knife4j 的依赖&#xff1a; 2.在config配置类中加入 Knife4j 的相关配置并设置静态资源映射&#xff08;否则接口文档无法访问&#xff09;&#xff1a; 三.Swagger的四个…

InteliJ IDEA最新2024版下载安装与快速配置激活使用教程+jdk下载配置

第一步&#xff1a;下载ideaIC-2024.1.4 方法1&#xff1a;在线链接 IntelliJ IDEA – the Leading Java and Kotlin IDE (jetbrains.com) 选择社区版进行下载 方法2&#xff1a;百度网盘 链接&#xff1a;https://pan.baidu.com/s/1ydS6krUX6eE_AdW4uGV_6w?pwdsbfm 提取…

解决django与sqlite3不兼容报SQLite 3.9.0 or later is required错的问题

今天在尝试用pytest进行django的单元测试&#xff0c;pytest用的数据库是sqlite3&#xff0c;在window环境下测试得好好的&#xff0c;但是放到linux环境下就报错&#xff0c;具体是报django.core.exceptions.ImproperlyConfigured: SQLite 3.9.0 or later is required (found …

LabVIEW学习-LabVIEW处理带分隔符的字符串从而获取数据

带分隔符的字符串很好处理&#xff0c;只需要使用"分隔符字符串至一维字符串数组"函数或者"一维字符串数组至分隔符字符串"函数就可以很轻松地处理带分隔符地字符串。 这两个函数所在的位置为&#xff1a; 函数选板->字符串->附加字符串函数->分…

超声波俱乐部:AI应用大爆发前夜,场景、闭环与LLM进化

7月13日&#xff0c;第十九期超声波俱乐部内部分享会在北京望京举行&#xff0c;本期的主题是&#xff1a;AI应用大爆发前夜&#xff0c;场景、闭环与LLM进化。 到场的嘉宾有&#xff1a;超声波创始人杨子超&#xff0c;超声波联合创始人、和牛商业创始人刘思雨&#xff0c;豆…

html+css 边框滑动按钮效果

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享htmlcss 绚丽效果&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 文…

基于 HTML+ECharts 实现智慧工地数据可视化大屏(含源码)

构建智慧工地数据可视化大屏&#xff1a;基于 HTML 和 ECharts 的实现 智慧工地已成为建筑行业的新趋势。通过实时监控和数据分析&#xff0c;智慧工地可以提高施工效率、降低安全风险。本文将详细介绍如何利用 HTML 和 ECharts 实现一个功能强大的智慧工地数据可视化大屏。 源…

vue3前端开发-小兔鲜项目-sku的实现

vue3前端开发-小兔鲜项目-sku的实现&#xff01;这是一个会计学的特殊专业名词&#xff0c;可以理解为产品的型号&#xff0c;规格的货品计量单位。 它是一组数据的混合体。比如&#xff1a;尺寸&#xff0c;材料&#xff0c;品质&#xff0c;等等。组合在一起形成的一个混合数…

pikachu Fileinclusion(local)

随便选择一个都试试 发现url上数字会变 发现文件名确实是file1.php~file5.php 那么会不会还有别的burp抓包选中数字 设置6-100的爆破 strat attack 678异常还有个100也是 先改一下试试看 其他的会报错 但是通过这我们可以得到路径 先写一个 下一步 读取系统文件 windows系统肯定…

产品系统的UI暗色系和浅色系模式切换是符合人体视觉工程学的设计

视觉革命&#xff1a;UI设计中的暗夜与黎明 UI设计如同夜空中最亮的星辰&#xff0c;引领着用户穿梭于信息的海洋。而今&#xff0c;一场视觉革命正在悄然上演&#xff0c;它关乎于我们的眼睛&#xff0c;关乎于我们的体验——那就是产品系统的UI暗色系和浅色系模式的切换。如…

Git merge

Git merge 参考文档&#xff1a; https://marsishandsome.github.io/2019/07/Three_Way_Merge https://git-scm.com/docs/merge-strategies https://stackoverflow.com/questions/56889406/how-does-git-compare-two-files-while-merging Git merge的目标是合并changes&#x…

web小项目-曼波生日录(Servlet+JSP+MySQL)

效果演示&#xff1a; 当记录条数过多时会自动出现滚轮&#xff0c;数据不会超出紫框 数据库实时记录&#xff1a; 项目源代码以及所用到的资源&#xff1a; 链接: https://pan.baidu.com/s/1w0czmH9xBfetk7CZ7RNbtQ?pwd6666 提取码: 6666 复制这段内容后打开百度网盘手机App…

vue3+openLayers点击标记事件

<template><!--地图--><div class"distributeMap" id"distributeMap"></div> </template> <script lang"ts" setup> import { onMounted, reactive } from "vue"; import { Feature, Map, View }…