【Java-LangChain:使用 ChatGPT API 搭建系统-10】评估(下)-当不存在一个简单的正确答案时

第十章,评估(下)-当不存在一个简单的正确答案时

在上一章中,了解了如何评估 LLM 模型在 有明确正确答案 的情况下的输出,我们可以编写一个函数来判断 LLM 输出是否正确地分类并列出产品。

然而,如果 LLM 用于生成文本,而不仅仅是分类问题的答案呢?接下来,我们将探讨如何评估这种类型的 LLM 输出的方法。

一,环境配置

参考第二章的 环境配置小节内容即可。

二,运行问答系统获得一个复杂回答

String delimiter = "###";String customer = "告诉我有关 the smartx pro phone 和 the fotosnap camera, the dslr one 的信息。\n" +"另外,你们这有什么 TVs ?";//从问题中抽取商品大类和名称String result = this.getProductsFromQuery(customer);JSONArray jsonArray = JSONUtil.parseArray(result);//查找商品对应信息List<JSONObject> products = this.getMentionedProductInfo(jsonArray);List<ChatMessage> messages = new ArrayList<>();String system = "您是一家大型电子商店的客户服务助理。\n" +"请用友好和乐于助人的口吻回答问题,提供简洁明了的答案。\n" +"确保向用户提出相关的后续问题。";ChatMessage systemMessage = new ChatMessage();systemMessage.setRole("system");systemMessage.setContent(system);messages.add(systemMessage);ChatMessage userMessage = new ChatMessage();userMessage.setRole("user");userMessage.setContent(delimiter + customer + delimiter);messages.add(userMessage);ChatMessage assistantMessage = new ChatMessage();assistantMessage.setRole("assistant");assistantMessage.setContent("相关产品信息:\n" + JSONUtil.toJsonStr(products));messages.add(assistantMessage);String answer = this.getCompletionFromMessage(messages, 0);log.info("test1:\n{}", answer);
test1: 
我们有以下产品可供您选择:1. SmartX ProPhone - 这是一款功能强大的智能手机,拥有6.1英寸的显示屏,128GB的存储空间,12MP的双摄像头和5G网络支持。售价为899.99美元。2. FotoSnap DSLR Camera - 这是一款多功能的单反相机,拥有24.2MP的传感器,1080p的视频拍摄能力,3英寸的LCD屏幕和可更换镜头。售价为599.99美元。关于电视,我们有以下几款可供选择:1. CineView 4K TV - 这是一款55英寸的4K电视,支持HDR和智能电视功能。售价为599.99美元。2. CineView 8K TV - 这是一款65英寸的8K电视,支持HDR和智能电视功能。售价为2999.99美元。3. CineView OLED TV - 这是一款55英寸的OLED电视,支持4K分辨率、HDR和智能电视功能。售价为1499.99美元。请问您对以上产品有什么具体的要求或者其他问题吗?

三,使用 GPT 评估回答是否正确

我们希望您能从中学到一个设计模式,即当您可以指定一个评估 LLM 输出的标准列表时,您实际上可以使用另一个 API 调用来评估您的第一个 LLM 输出。

    /*** 使用 GPT API 评估生成的回答** @param customerMsg     用户的输入* @param context         回答需要的上下文内容* @param assistantAnswer GPT的回答*/public String evalWithRubric(String customerMsg, String context, String assistantAnswer) {String delimiter = "###";String system = "你是一位助理,通过查看客户服务代理使用的上下文来评估客户服务代理回答用户问题的情况。";String user = "你正在根据代理使用的上下文评估对问题的提交答案。以下是数据:\n" +"    [开始]\n" +"    ************\n" +"    [用户问题]: " + customerMsg + "\n" +"    ************\n" +"    [使用的上下文]: " + context + "\n" +"    ************\n" +"    [客户代理的回答]: " + assistantAnswer + "\n" +"    ************\n" +"    [结束]\n" +"\n" +"    请将提交的答案的事实内容与上下文进行比较,忽略样式、语法或标点符号上的差异。\n" +"    回答以下问题:\n" +"    助手的回应是否只基于所提供的上下文?(是或否)\n" +"    回答中是否包含上下文中未提供的信息?(是或否)\n" +"    回应与上下文之间是否存在任何不一致之处?(是或否)\n" +"    计算用户提出了多少个问题。(输出一个数字)\n" +"    对于用户提出的每个问题,是否有相应的回答?\n" +"    问题1:(是或否)\n" +"    问题2:(是或否)\n" +"    ...\n" +"    问题N:(是或否)\n" +"    在提出的问题数量中,有多少个问题在回答中得到了回应?(输出一个数字)";List<ChatMessage> messages = new ArrayList<>();ChatMessage systemMessage = new ChatMessage();systemMessage.setRole("system");systemMessage.setContent(system);messages.add(systemMessage);ChatMessage userMessage = new ChatMessage();userMessage.setRole("user");userMessage.setContent(delimiter + user + delimiter);messages.add(userMessage);String answer = this.getCompletionFromMessage(messages, 0);return answer;}

输出:

助手的回应只基于所提供的上下文。 (是)回答中不包含上下文中未提供的信息。 (否)回应与上下文之间不存在任何不一致之处。 (是)用户提出了2个问题。 (2)对于用户提出的每个问题,都有相应的回答。问题1:是
问题2:是在提出的问题数量中,有2个问题在回答中得到了回应。 (2)

四、给出一个标准回答,要求其评估生成回答与标准回答的差距

在经典的自然语言处理技术中,有一些传统的度量标准用于衡量 LLM 输出与人类专家编写的输出的相似度。例如,BLUE 分数可用于衡量两段文本的相似程度。

实际上有一种更好的方法,即使用 Prompt。您可以指定 Prompt,使用 Prompt 来比较由 LLM 自动生成的客户服务代理响应与人工理想响应的匹配程度。

    public String evalVsIdeal(String customerMsg, String idealAnswer, String assistantAnswer) {String system = "您是一位助理,通过将客户服务代理的回答与理想(专家)回答进行比较,评估客户服务代理对用户问题的回答质量。\n" +"请输出一个单独的字母(A 、B、C、D、E),不要包含其他内容。";String user = "您正在比较一个给定问题的提交答案和专家答案。数据如下:\n" +"    [开始]\n" +"    ************\n" +"    [问题]: " + customerMsg + "\n" +"    ************\n" +"    [专家答案]: " + idealAnswer + "\n" +"    ************\n" +"    [提交答案]: " + assistantAnswer + "\n" +"    ************\n" +"    [结束]\n" +"\n" +"    比较提交答案的事实内容与专家答案。忽略样式、语法或标点符号上的差异。\n" +"    提交的答案可能是专家答案的子集、超集,或者与之冲突。确定适用的情况,并通过选择以下选项之一回答问题:\n" +"    (A)提交的答案是专家答案的子集,并且与之完全一致。\n" +"    (B)提交的答案是专家答案的超集,并且与之完全一致。\n" +"    (C)提交的答案包含与专家答案完全相同的细节。\n" +"    (D)提交的答案与专家答案存在分歧。\n" +"    (E)答案存在差异,但从事实的角度来看这些差异并不重要。\n" +"    选项:ABCDE";List<ChatMessage> messages = new ArrayList<>();ChatMessage systemMessage = new ChatMessage();systemMessage.setRole("system");systemMessage.setContent(system);messages.add(systemMessage);ChatMessage userMessage = new ChatMessage();userMessage.setRole("user");userMessage.setContent(user);messages.add(userMessage);String answer = this.getCompletionFromMessage(messages, 0);return answer;}

这个评分标准来自于 OpenAI 开源评估框架,这是一个非常棒的框架,其中包含了许多评估方法,既有 OpenAI 开发人员的贡献,也有更广泛的开源社区的贡献。

在这个评分标准中,我们要求 LLM 针对提交答案与专家答案进行信息内容的比较,并忽略其风格、语法和标点符号等方面的差异,但关键是我们要求它进行比较,并输出从A到E的分数,具体取决于提交的答案是否是专家答案的子集、超集或完全一致,这可能意味着它虚构或编造了一些额外的事实。

LLM 将选择其中最合适的描述。

Java快速转换到大模型开发:
配套课程的所有代码已经发布在:https://github.com/Starcloud-Cloud/java-langchain
课程合作请留言

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/150179.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

PyTorch入门之【AlexNet】

参考文献&#xff1a;https://www.bilibili.com/video/BV1DP411C7Bw/?spm_id_from333.999.0.0&vd_source98d31d5c9db8c0021988f2c2c25a9620 AlexNet 是一个经典的卷积神经网络模型&#xff0c;用于图像分类任务。 目录 大纲dataloadermodeltraintest 大纲 各个文件的作用&…

[每日算法 - 阿里机试] leetcode19. 删除链表的倒数第 N 个结点

入口 力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台备战技术面试&#xff1f;力扣提供海量技术面试资源&#xff0c;帮助你高效提升编程技能&#xff0c;轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/remove-nth-node-from-end…

【AI视野·今日Robot 机器人论文速览 第四十七期】Wed, 4 Oct 2023

AI视野今日CS.Robotics 机器人学论文速览 Wed, 4 Oct 2023 Totally 40 papers &#x1f449;上期速览✈更多精彩请移步主页 Interesting: &#x1f4da;基于神经网络的多模态触觉感知, classification, position, posture, and force of the grasped object多模态形象的解耦(f…

多普勒频率相关内容介绍

图1 多普勒效应 1、径向速度 径向速度是作用于雷达或远离雷达的速度的一部分。 图2 不同的速度 2、喷气发动机调制 JEM是涡轮机的压缩机叶片的旋转的多普勒频率。 3、多普勒困境 最大无模糊范围需要尽可能低的PRF&#xff1b; 最大无模糊速度需要尽可能高的PRF&#xff1b…

【目标检测】——PE-YOLO精读

yolo&#xff0c;暗光目标检测 论文&#xff1a;PE-YOLO 1. 简介 卷积神经网络&#xff08;CNNs&#xff09;在近年来如何推动了物体检测的发展。许多检测器已经被提出&#xff0c;而且在许多基准数据集上的性能正在不断提高。然而&#xff0c;大多数现有的检测器都是在正常条…

项目环境搭建

注册中心网关配置 spring:cloud:gateway:globalcors:add-to-simple-url-handler-mapping: truecorsConfigurations:[/**]:allowedHeaders: "*"allowedOrigins: "*"allowedMethods:- GET- POST- DELETE- PUT- OPTIONroutes:# 平台管理- id: useruri: lb://…

基于SSM的大学生就业信息管理系统设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用JSP技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

【论文阅读】An Evaluation of Concurrency Control with One Thousand Cores

An Evaluation of Concurrency Control with One Thousand Cores Staring into the Abyss: An Evaluation of Concurrency Control with One Thousand Cores ABSTRACT 随着多核处理器的发展&#xff0c;一个芯片可能有几十乃至上百个core。在数百个线程并行运行的情况下&…

频次直方图、KDE和密度图

Seaborn的主要思想是用高级命令为统计数据探索和统计模型拟合创建各种图形&#xff0c;下面将介绍一些Seaborn中的数据集和图形类型。 虽然所有这些图形都可以用Matplotlib命令实现&#xff08;其实Matplotlib就是Seaborn的底层&#xff09;&#xff0c;但是用 Seaborn API会更…

黑马点评-02使用Redis代替session,Redis + token机制实现

Redis代替session session共享问题 每个Tomcat中都有一份属于自己的session,所以多台Tomcat并不共享session存储空间,当请求切换到不同tomcat服务时可能会导致数据丢失 用户第一次访问1号tomcat并把自己的信息存放session域中, 如果第二次访问到了2号tomcat就无法获取到在1号…

2023年CSP-J真题详解+分析数据(选择题篇)

目录 前言 2023CSP-J江苏卷详解 小结 前言 下面由我来给大家讲解一下CSP-J的选择题部分。 2023CSP-J江苏卷详解 1.答案 A 解析&#xff1a;const在C中是常量的意思&#xff0c;其作用是声明一个变量&#xff0c;值从头至尾不能被修改 2.答案 D 解析&#xff1a;八进制…

解决WPF+Avalonia在openKylin系统下默认字体问题

一、openKylin简介 openKylin&#xff08;开放麒麟&#xff09; 社区是在开源、自愿、平等和协作的基础上&#xff0c;由基础软硬件企业、非营利性组织、社团组织、高等院校、科研机构和个人开发者共同创立的一个开源社区&#xff0c;致力于通过开源、开放的社区合作&#xff…

【c++_containers】10分钟带你学会list

前言 链表作为一个像是用“链子”链接起来的容器&#xff0c;在数据的存储等方面极为便捷。虽然单链表单独在实际的应用中没用什么作用&#xff0c;但是当他可以结合其他结构&#xff0c;比如哈希桶之类的。不过今天学习的list其实是一个带头双向链表。 言归正传&#xff0c;让…

【LinuxC】时间、时区,相关命令、函数

文章目录 一、序1.1 时间和时区1.11 时间1.12 时区 1.2 查看时间时区的命令1.21 Windows1.22 Linux 二、C语言函数2.1 通用2.11 函数简介2.12 数据类型简介 2.2 windows 和 Linux特有函数2.3 C语言示例 一、序 1.1 时间和时区 1.11 时间 时间是一种用来描述物体运动变化的量…

【AI视野·今日CV 计算机视觉论文速览 第262期】Fri, 6 Oct 2023

AI视野今日CS.CV 计算机视觉论文速览 Fri, 6 Oct 2023 Totally 73 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Computer Vision Papers Improved Baselines with Visual Instruction Tuning Authors Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee大型多模…

【全3D打印坦克——基于Arduino履带式机器人】

【全3D打印坦克——基于Arduino履带式机器人】 1. 概述2. 设计机器人平台3. 3D 模型和 STL 下载文件3.1 3D打印3.2 组装 3D 打印坦克 – 履带式机器人平台3.3 零件清单 4. 机器人平台电路图4.1 定制电路板设计4.2 完成 3D 打印储罐组件 5. 机器人平台编程6. 测试3D打印机器人 -…

Docker 镜像的创建

目录 一、Docker镜像的创建 1、基于已有镜像创建 2、基于本地模板创建 3、基于dockerfile创建 3.1 dockerfile结构 3.2 构建镜像命令 二、镜像分层的原理 1、联合文件系统&#xff08;UnionFS&#xff09; 2、镜像加载的原理 三、Dockerfile 操作常用的指令 案例实验…

1.7.C++项目:仿muduo库实现并发服务器之Poller模块的设计

项目完整在&#xff1a; 文章目录 一、Poller模块&#xff1a;描述符IO事件监控模块二、提供的功能三、实现思想&#xff08;一&#xff09;功能&#xff08;二&#xff09;意义&#xff08;三&#xff09;功能设计 四、封装思想五、代码&#xff08;一&#xff09;框架&#…

pyqt5使用经验总结

pyqt5环境配置注意&#xff1a; 安装pyqt5 pip install PyQt5 pyqt5-tools 环境变量-创建变量名&#xff1a; 健名&#xff1a;QT_QPA_PLATFORM_PLUGIN_PATH 值为&#xff1a;Lib\site-packages\PyQt5\Qt\plugins pyqt5经验2&#xff1a; 使用designer.exe进行设计&#xff1…

【kubernetes】kubernetes中的应用配置(ConfigMap和Secret)

目录 1 为什么需要ConfigMap和Secret2 k8s中给容器传递配置的方式3 ConfigMap的基本使用4 ConfigMap的实践5 Secret的基本使用6 ConfigMap和Secret的对比 1 为什么需要ConfigMap和Secret 应用程序启动过程中通常需要传递参数&#xff0c;当参数较多时会将参数保存到配置文件中…