在 Hugging Face MTEB 排行榜上比较 ELSER 的检索相关性

作者:来自 Elastic Aris Papadopoulos 及 Serena Chou

本博客对 ELSER 在 Hugging Face MTEB 排行榜上的检索相关性进行了比较。

在 Hugging Face MTEB 排行榜上比较 ELSER 的检索相关性

ELSER(Elastic Learned Sparse EncodeR)是 Elastic 用于语义搜索的转换器语言模型,对于任何有兴趣利用机器学习来提升传统搜索体验的相关性或为新设计的检索增强生成 (Retrieval Augmented Generation - RAG) 应用程序提供支持的人来说,它都是一种流行的模型。

当将同一竞争者系列的多种风格组合在一起时,ELSER v2 仍然位列 MTEB 检索的前 10 名模型之列。它也是前 10 名中极少数在 2023 年发布的模型之一,而大多数竞争对手都在 2024 年发布。

ELSER 的时间线

ELSER 于 2023 年 6 月首次推出,第二版于 2023 年 11 月全面上市,从第一天起,它就被设计为通过捕捉上下文、语义关系和自然语言中的用户意图,最大限度地减少语义搜索的障碍,同时显著提高搜索相关性。在其他用例中,这是 RAG 应用程序的一个非常直观和有价值的补充,因为显示最相关的结果对于生成应用程序根据你自己的私人数据产生准确的响应并最大限度地降低幻觉的可能性至关重要。

ELSER 可以与高度可扩展的分布式 Elasticsearch 向量数据库、开放的推理 API、本机模型管理和 Search AI 平台的全部功能一起使用。

ELSER 是一个组件,它为广泛的用例和组织提供了最先进的语义搜索的附加值。由于它是一个稀疏向量模型(稍后将在博客中进一步解释),它针对 Elasticsearch 平台进行了优化,并且实现了域外的卓越相关性。

ELSER 首次发布时,它在域外检索方面的表现优于竞争对手,即你无需在自己的数据上重新训练/微调模型,这是由行业标准 BEIR 基准衡量的。这证明了 Elastic 致力于实现 AI 搜索的民主化。

ELSER v2 于 2023 年 10 月发布,通过增加针对 Intel CPU 的优化和引入 token 修剪,在你首选的价格区间内实现了显著的性能提升。因为我们知道,实现 AI 搜索民主化的另一个同样重要的部分是降低其成本。因此,我们提供了两个模型工件:一个针对 Intel CPU 进行了优化(由 Elastic Cloud 利用),另一个跨平台。

BM25 和 ELSER V2 的 BEIR 数据集的 NDCG@10

客户反馈

如今,全球各地的客户都在生产搜索环境中使用 ELSER,这证明了其易用性和只需点击几下即可实现的即时相关性提升。

ELSER 客户成功案例包括 Consensus、佐治亚州立大学等。

当这些客户在试点或初始原型中测试 ELSER 时,一个常见的问题是,ELSER 与使用传统关键字(即 BM25)检索或使用许多其他模型(例如 OpenAI 的 text-embedding-ada-002)可实现的相关性相比如何。为了提供相关的比较见解,我们在 MTEB(v1.5.3)上发布了对 ELSER(通用版本)的整体评估。MTEB 是经过精心挑选的任务和数据集的集合,旨在为 NLP 模型提供可靠的比较框架。引入该模型的动机如下:“文本嵌入通常在单个任务的一小部分数据集上进行评估,而不涵盖其在其他任务中的可能应用。目前尚不清楚最先进的语义文本相似性 (semantic textual similarity - STS) 嵌入是否可以同样很好地应用于其他任务,如聚类或重新排名。这使得该领域的进展难以追踪,因为各种模型不断被提出而没有适当的评估。为了解决这个问题,我们引入了大规模文本嵌入基准 (Text Embedding Benchmark - MTEB)。” (源论文)。

MTEB 比较 - 你需要了解的内容

要对 MTEB 进行有意义的比较,需要考虑许多因素。

  • 首先,参数的数量。模型的参数越多,其潜力就越大,但同时也会耗费更多的资源和成本。大小相似(参数数量)的模型最适合进行比较,因为参数数量相差很大的模型通常在搜索架构中用于不同的目的。
  • 其次,MTEB 的目标之一是比较模型及其在多个不同任务中的变体。ELSER 专门设计用于降低 AI 搜索的门槛,为你提供最先进的域外(state-of-the-art out-of-domain)检索,因此我们将重点关注检索任务的结果。检索使用 ndcg@10 指标进行衡量。
  • 最后,一些模型以多种形式出现,包含不同数量的参数和其他差异,形成一个系列。将它们分组在一起并与该系列中表现最好的模型进行比较更有意义。

ELSER on MTEB

根据上述内容,过滤多达 2.5 亿个参数的类别(ELSER 有 1.1 亿个参数),在撰写本博客时以及我们正在开发 ELSER v3 时,当将同一竞争者系列的多种风格组合在一起时,ELSER v2 仍然位列检索的前 10 个模型中。它也是 2023 年发布的前 10 名中极少数的模型之一,而大多数竞争者已于 2024 年发布。

对于参数少于 2.5 亿的模型,检索 (nDCG@10) 的 MTEB 列表的顶部。在撰写本文时,ELSER 在检索任务中排名前 10。它是该组中极少数于 2023 年发布的模型之一,绝大多数于 2024 年发布。该列表在按内联所述进行过滤后,在撰写本文时包含 80 多个模型(未分组)。

Elastic 继续投资 ELSER

如前所述,ELSER 使用上下文稀疏向量表示,这种设计选择使其具有前面提到的良好属性,并为未来版本中已经开发的功能扩展和增益提供了所有空间。这使其在 MTEB 上脱颖而出,因为排行榜上的绝大多数模型都是嵌入,即密集向量。这就是为什么你会注意到 ELSER 的相应 MTEB 列中的维度数量比其他模型多得多。ELSER 扩展了 BERT 的架构,并通过保留掩码语言模型 (masked language model - MLM) 头并对其进行调整以创建和聚合每个输入序列的每个标记激活分布来扩展输出嵌入。因此,维度的数量等于 BERT 的词汇表,对于给定的输入序列,只有一小部分词汇表被激活。

即将推出的 ELSER v3 模型目前正在开发中,并使用 LLM 生成的数据、新的高级训练方案和其他最先进和新颖的策略进行训练,并支持 GPU 推理。

结论

该领域的创新速度超出了许多客户采用、测试和确保将新模型以企业质量纳入其搜索应用程序的能力。许多客户缺乏对模型工件训练背后的指标和方法的全面了解,导致采用延迟。

从首次推出 ELSER 模型开始,我们就透明地展示了我们的相关性目标、我们为提高相关性而采取的评估方法,以及对本地、自我管理部署(甚至托管在笔记本电脑上的部署!)上该模型的高效性能的投资,并具备可扩展性以实现大规模生产级搜索体验的能力。

我们的完整结果现已发布在 MTEB 排行榜上,以提供与新兴模型相比的额外基准。在即将推出的 ELSER 版本中,我们预计将应用新的最先进的检索技术,评估模型本身的新用例,并为快速 GPU 驱动的 ELSER 推理工作负载提供额外的基础设施支持。敬请期待!

链接

  • https://www.elastic.co/search-labs/blog/introducing-elser-v2-part-1
  • https://www.elastic.co/search-labs/blog/introducing-elser-v2-part-2
  • https://www.elastic.co/search-labs/blog/may-2023-launch-information-retrieval-elasticsearch-ai-model

准备好自己尝试一下了吗?开始免费试用。

想要将 RAG 构建到您的应用程序中吗?想要使用向量数据库尝试不同的 LLMs 吗?
在 Github 上查看我们针对 LangChain、Cohere 等的示例笔记本,并立即加入 Elasticsearch Relevance Engine 培训。

原文:Elasticsearch ELSER: Comparing retrieval relevance on Hugging Face MTEB — Search Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1557268.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Linux TFTP服务器搭建

话得多说 先水一波字 TFTP(Trivial File Transfer Protocol)是一种简单的文件传输协议。它用于在计算机网络中传输文件,特别适用于在网络设备(如开发板和Linux系统下)代码调试等操作。TFTP使用UDP(User Da…

多模态大语言模型(MLLM)-Blip2深度解读

前言 Blip2是一个多模态大语言模型,因其提出时间较早(2023年),且效果较好,很快成为一个标杆性工作。Blip2中提出的Q-former也成为衔接多模态和文本的重要桥梁。 Blip2发表时间是2023年,现在引用已经3288了…

计算机毕业设计 自习室座位预约系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

【2024最新】基于springboot+vue的家具销售电商平台lw+ppt

作者:计算机搬砖家 开发技术:SpringBoot、php、Python、小程序、SSM、Vue、MySQL、JSP、ElementUI等,“文末源码”。 专栏推荐:SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:Java精选实战项…

Android OpenGLES2.0开发(四):矩阵变换和相机投影

事物的本质是事物本身所固有的、深藏于‌现象背后并决定或支配现象的方面‌。 还记得我们上一篇绘制的三角形吗,我们确实能够顺利用OpenGL ES绘制出图形了,这是一个好的开始,但这还远远不够。我们定义的坐标是正三角形,但是绘制出…

Python网络爬虫从入门到实战

目录 引言 一、网络爬虫的概念 二、 网络爬虫的基本工作流程 (一)过程: (二)安装requests模块和beautifulsoup4模块 (三)requests库的使用 1、requests库的基本介绍 2、导入requests库的…

使用tcpkill断开异常tcp连接

在linux系统中,遇到TCP链接迟迟不能释放的情况,类似FIN_WAIT1、FIN_WAIT2的状态,释放时间不确定,而且对应的程序已经关闭,相应的端口也不再监听,无法通过杀进程来解决,这种情况下,为…

大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

HarmonyOS NEXT - 表单录入组件封装(TextInput)

demo 地址: https://github.com/iotjin/JhHarmonyDemo 组件对应代码实现地址 代码不定时更新,请前往github查看最新代码 HarmonyOS NEXT - 表单录入组件封装(TextInput) 序JhFormInputCellJhFormSelectCellJhLoginTextField 序 鸿蒙next中有两…

PMP--冲刺题--解题--81-90

文章目录 12.采购管理--1.规划采购管理--在自制或外购分析中,可以使用回收期、投资回报率(ROI)内部报酬率(IRR)、现金流贴现、净现值(NPV)、收益成本净现值(BCA)或其他分…

如何使用ssm实现公司进销存管理系统设计与开发

TOC ssm792公司进销存管理系统设计与开发jsp 第1章 绪论 1.1选题动因 当前的网络技术,软件技术等都具备成熟的理论基础,市场上也出现各种技术开发的软件,这些软件都被用于各个领域,包括生活和工作的领域。随着电脑和笔记本的广…

python画图|曲线动态输出基础教程

在前述学习过程中,已经掌握基本的曲线图像画法,并尝试探索过3D动画基础教程。 相关文章可以通过下述链接直达: python画三角函数图|小白入门级教程_正余弦函数画图python-CSDN博客 python动画教程|Animations using Matplotlib-官网教程程…

电玩体验馆计时软件可以倒计时的软件试用版下载 佳易王ps5计时器管理系统使用教程

一、前言 【软件试用版下载可以点击本文章最下方官网卡片】 电玩体验馆计时软件可以倒计时的软件试用版下载 佳易王ps5计时器管理系统使用教程 1、软件能够记录玩家开始的时间和节数时间,从而计算出时长。 2、根据预设的收费标准,软件可以自动计算出…

各省份自然灾害损失造成的直接经济损失数据(2009-2022年)

自然灾害是自然演变过程中不可避免的现象,它们对人类社会构成了巨大的威胁。中国作为一个自然灾害频发的国家,面临着种类繁多的灾害挑战,包括气象灾害、地质灾害、海洋灾害、生物灾害和森林草原火灾等。 数据来源:《中国环境统计…

【GESP】C++一级练习BCQM3030,保留12位小数

浮点数数位保留练习,%m.nf知识点,已在BCQM3027中详细介绍。 题解详见:https://www.coderli.com/gesp-1-bcqm3030/ 【GESP】C一级练习BCQM3030,保留12位小数 | OneCoder浮点数数位保留练习,%m.nf知识点,已在…

培训机构客户管理系统的设计+ssm论文源码调试讲解

2 系统开发环境 2.1微信开发者工具 微信开发者工具现在已经被小程序开发团队开发运行,目前微信开发者工具任然在不断的完善中,在开发小程序时经常要不断的更新。可以使用微信扫码登陆开发者工具,开发者工具将使用这个微信帐号的信息进行小程…

Android车载音频系统概览

目录 1. 什么是Android车载音频系统 2. Android 声音和声音流 2.1 Android 声音 2.2 外部声音流 2.3 输出设备 章节说明:本节内容是Android车载音频系统简介。 1. 什么是Android车载音频系统 官方英文名称是:Automotive audio systems 由于汽车上无论是音频设备的数量还…

QT 实现图片查看工具

QT 实现图片查看工具 1、选择图像文件 单文件选择 QFileDialog::getOpenFileName多文件选择 QFileDialog::getOpenFileNamesQList<QString> imageNames = QFileDialog::getOpenFileNames(this,tr("打开图片"),"",tr("图片文件 (*.png *.jpg *.b…

OpenHarmony中OpenSSL从1.1.1 升级到3.0.7 时不支持MD4算法导致wpa_supplicant报错问题解决

OpenHarmony中OpenSSL从1.1.1 升级到3.0.7 时不支持MD4算法导致wpa_supplicant报错问题解决 1 问题现象 我们在测试EAP-PEAP(MSCHAPV2)功能时发现如下打印,导致认证失败 2 初步分析 openssl_digest_vector 中 调用EVP_DigestInit_ex 时如果报错 会打印"OpenSSL: EVP…

人工智能重点知识点总结整理

一、章节知识点目录 绪论知识表示方法确定性推理非经典推理计算智能机器学习完结篇二、每章重点内容 1. 绪论 定义:人工智能(AI)