计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-24

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-24

1. Enriching Datasets with Demographics through Large Language Models: What’s in a Name?

K AlNuaimi, G Marti, M Ravaut, A AlKetbi, A Henschel… - arXiv preprint arXiv …, 2024

通过大型语言模型丰富数据集的人口统计学信息:名字里有什么?

摘要
本文探讨了如何利用大型语言模型(LLMs)从名字中预测性别、种族、年龄等人口统计信息,这对于医疗保健、公共政策和社会科学等领域至关重要。尽管以往的研究采用了隐马尔可夫模型和循环神经网络来预测名字中的人口统计信息,但存在显著的局限性,包括缺乏大规模、良好策划、无偏见、公开可用的数据集,以及缺乏跨数据集稳健的方法。本文展示了大型语言模型的零样本能力,其表现与专门训练的模型一样好,甚至更好。作者将这些LLMs应用于多个数据集,包括香港金融专业人士的真实未标记数据集,并批判性地评估了这些模型中固有的人口统计偏见。

创新点

  1. 零样本学习能力: 展示了现代零样本LLMs在从名字生成人口统计数据方面,性能优于或至少与以前的监督学习方法相当。
  2. 人口统计偏见的揭示: 特别是它们倾向于低估个体年龄,通常超过十年,这对于年龄敏感的应用(如医疗保健和市场营销)具有重要意义。
  3. 新数据集的分析和丰富: 分析、丰富并发布了一个专注于香港金融专业人士姓名的新数据集,填补了非西方人口统计数据集的空白。

算法模型

  • 大型语言模型(LLMs): 包括GPT-3、ChatGPT等,这些模型在零样本学习方面表现出色,无需监督调整即可生成类似人类的文本。
  • 传统监督学习方法: 包括隐马尔可夫模型和循环神经网络。

实验效果

  • 性别预测: 在佛罗里达选民注册数据集上,所有12个LLMs的准确率在0.96到0.99之间。
  • 出生日期预测: LLMs表现不佳,无法一致地提高简单基线。
  • 种族预测: 大多数LLMs的零样本准确率在0.75到0.85之间,与之前报道的随机森林或LSTM等机器学习模型相当。
  • 国籍预测: 在维基百科数据集上,准确率低于种族预测,但封闭源LLMs(特别是Claude和GPT系列)表现更好。
    在这里插入图片描述

结论
LLMs能够仅基于人名准确预测性别、种族甚至国籍。尽管预测年龄或出生日期更具挑战性,但LLMs在人口统计学注释生成方面开创了新纪元,这可能会显著简化医学等领域的许多人口层面的干预措施。

推荐阅读指数

★★☆☆☆

推荐理由:

  • 文章不仅展示了LLMs在人口统计学丰富化方面的潜力,还为未来研究提供了重要的资源,特别是在解决偏见和改进人口统计预测方面。

2. The Factuality of Large Language Models in the Legal Domain

RE Hamdani, T Bonald, F Malliaros, N Holzenberger…
来源: https://arxiv.org/pdf/2409.11798
在这里插入图片描述
大型语言模型在法律领域的事实性

摘要
本文研究了大型语言模型(LLMs)在法律领域作为知识库的事实性,允许模型在不确定时选择不回答,并接受答案的可接受变体。研究者设计了一个包含不同法律事实问题的数据集,并使用该数据集评估了几个LLMs。结果显示,使用别名匹配和模糊匹配方法时性能显著提高。此外,研究表明,额外的法律文件预训练,如SaulLM模型,可以将事实精确度从63%提高到81%。

创新点

  1. 允许模型不回答: 在不确定性情况下,模型可以决定不回答,减少了错误回答的可能性。
  2. 别名和模糊匹配: 引入了别名匹配和模糊匹配来评估LLMs的答案,以更准确地反映模型的性能。
  3. 法律文件预训练: 展示了通过对法律文件的额外预训练可以显著提高LLMs在法律领域的事实准确性。

算法模型

  • LLMs: 论文在多个开源模型上进行测试,包括如Gemma-2B、Gemma-7B、Llama-2-7B等,以及SaulLM(在法律语料上进一步训练的Mistral-7B)。
  • 评估方法: 包括精确匹配(Exact matching)、别名匹配(Alias matching)和模糊匹配(Fuzzy matching)。

实验效果

  • 性能提升: 使用别名匹配和模糊匹配方法相比于精确匹配显著提高了性能。
  • 法律文件预训练: SaulLM在法律文件上的预训练使其在事实准确性上显著优于其他模型,精确度达到81%。
  • 实验数据: 在不同的评估方法下,模型的排名和性能有显著变化。

核心结论
LLMs在法律领域作为知识库时,通过使用别名匹配和模糊匹配以及允许模型不回答可以显著提高其事实准确性。此外,对法律文件的额外预训练可以进一步提高LLMs的事实准确性。

推荐阅读指数
★★★☆☆

推荐理由:

  • 对于法律技术领域的研究人员和实践者,本文提供了LLMs在法律领域应用的实践。

3. Large Language Models for Cross-lingual Emotion Detection

RMR Kadiyala - Proceedings of the 14th Workshop of on Computational …, 2024, ACL

大型语言模型用于跨语言情感检测

摘要
本文详细介绍了参加WASSA 2024任务2的冠军系统,该任务专注于跨语言情感检测。作者利用大型语言模型(LLMs)及其集成,有效地理解和分类不同语言中的情感。该方法不仅大幅超越其他参赛作品,还展示了通过集成多个模型来提升性能的优势。此外,作者还对每个使用的模型的优缺点进行了彻底的比较,并包含了错误分析和未来改进的建议领域。
在这里插入图片描述

创新点

  1. 多模型集成: 通过集成多个LLMs来提升情感检测的性能。
  2. 跨语言情感检测: 在多种语言(荷兰语、英语、法语、俄语和西班牙语)上进行情感分类。
  3. 不同精度的测试: 在4位和16位精度上测试模型的鲁棒性和效率,以理解计算效率和模型性能之间的权衡。

算法模型

  • LLMs: 包括GPT-4、Claude-Opus等开源和专有的大型语言模型。
  • 模型微调: 对非专有的LLMs进行了微调,使用了5个epoch、学习率为0.0002、权重衰减为0.01。
  • 集成方法: 包括多数投票、基于宏观/微观/加权F1得分的模型选择。
    在这里插入图片描述

实验效果

  • 性能比较: 在开发集上,通过微调3个epoch的模型与以前年度最佳参赛作品进行了比较。
  • 错误分析: 展示了每种模型在每种语言上的性能,并发现某些模型在某些语言上表现更好。
  • 实验数据: 集成模型在测试集上达到了0.6295的F1得分,比其他方法平均高出3%。

数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论
集成模型在跨语言情感检测任务上取得了显著的性能提升。通过选择合适的模型和集成策略,可以进一步提高性能。此外,增加训练数据和使用更高版本的模型可能会进一步提升结果。

推荐阅读指数
★★★★☆

推荐理由:

  • 文章详细介绍了多种LLMs的集成策略,对提升模型性能有帮助。同时是跨语言情感检测的应用,属于LLM应用创新。

4. Using Large Language Models to Generate Clinical Trial Tables and Figures

Y Yang, P Krusche, K Pantoja, C Shi, E Ludmir… , 2024
https://arxiv.org/pdf/2409.12046

使用大型语言模型生成临床试验表格和图形
在这里插入图片描述

摘要
本文探讨了如何利用大型语言模型(LLMs)通过提示工程和少量样本迁移学习自动化生成临床试验数据的表格、图形和列表(TFLs)。研究结果表明,LLMs能够根据提示指令高效生成TFLs,展示了其在该领域的潜力。此外,研究者还开发了一个名为“Clinical Trial TFL Generation Agent”的对话代理应用程序,该程序将用户查询与预定义的提示相匹配,以生成定制化的程序来生成特定的预定义TFLs。

创新点

  1. 自动化TFLs生成: 使用LLMs自动化生成临床试验报告中的TFLs,以提高效率。
  2. 对话代理应用程序: 开发了“Clinical Trial TFL Generation Agent”,通过预定义的提示简化用户与模型的交互。
  3. 标准化的提示库: 通过标准化的提示库,确保生成的TFLs的一致性和准确性。

算法模型

  • LLMs: 使用了大型语言模型(如GPT-4)来理解表格结构和分析表格数据。
  • 提示工程: 设计了系统提示、用户提示和少量样本编码示例,以引导模型执行特定的数据分析任务。
  • 两阶段架构: 应用程序采用两阶段架构,先理解用户请求,再激活详细的提示生成表格。

实验效果

  • 100%的准确性: 在生成的代码和手动编码结果的比较中,预设计的提示在重现结果方面达到了100%的准确性。
  • 跨疾病领域的泛化能力: 在不同的疾病领域的临床试验数据集上测试预定义的提示,也显示出良好的泛化能力。
  • 用户界面友好: 开发的应用程序允许用户通过自然语言交互来生成特定的临床试验表格。
    在这里插入图片描述

结论
LLMs在自动化生成临床试验TFLs方面具有潜力,并且可以通过标准化的提示库和对话代理应用程序与现有的药物开发流程无缝集成。LLMs能够保留程序代码和自然语言/纯文本规范之间的联系,从而自然地融入并增强设计和制作TFLs的现有流程。

推荐阅读指数
★★★☆☆

推荐理由:

  • 对于医疗数据分析、临床试验报告自动化生成以及LLMs应用领域的研究人员和实践者有一定参考意义。

5. Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data

A Akkus, M Li, J Chu, M Backes, Y Zhang, S Sav - arXiv preprint arXiv:2409.11423, 2024

在这里插入图片描述
在生成数据上微调大型语言模型:假隐私的隐藏风险

摘要
本文探讨了使用大型语言模型(LLMs)在生成的数据上进行微调可能带来的隐私风险。尽管LLMs在特定领域任务上表现出色,但使用真实世界数据进行微调通常会导致隐私风险。为了避免使用真实数据的缺点,开发者经常使用自动生成的合成数据进行微调。然而,鉴于LLMs的高级能力,真实数据和LLM生成的数据之间的区别变得微不足道,这也可能带来像真实数据一样的隐私风险。

创新点

  1. 隐私风险分析: 对LLMs在生成数据上微调的隐私风险进行了实证分析。
  2. 两种微调方法: 研究了无结构生成数据的监督微调和自指导微调两种方法。
  3. 实际应用场景: 将研究应用于电子邮件和法律聊天机器人等实际场景,评估了微调后模型的隐私风险。

算法模型

  • LLMs: 使用了Pythia和Llama-3等模型进行实验。
  • 微调方法: 包括无结构数据的监督微调和自指导微调。
  • 攻击技术: 使用了个人身份信息(PII)提取和基于分数的成员推断攻击(MIA)技术来评估隐私风险。

实验效果

  • PII提取成功率提高: 在微调生成的数据后,Pythia模型在PII提取任务上的成功率提高了20%以上。
  • MIA攻击ROC-AUC得分提高: 自指导微调后的Pythia-6.9b模型在MIA攻击上的ROC-AUC得分比基模型提高了40%以上。
  • 数据和模型质量: 分析了生成数据的模板和质量对PII提取成功率的影响。

结论
研究表明,使用LLMs生成的数据进行微调可能会增加与预训练数据集相关的隐私风险。通过精心设计的提示和测试,可以可靠地产生正确的输出。

推荐阅读指数
★★★★☆

推荐理由:

  • 对于关注LLMs隐私保护和数据安全的研究人员有参考价值。

6. Jailbreaking Large Language Models with Symbolic Mathematics

E Bethany, M Bethany, JAN Flores, SK Jha, P Najafirad - arXiv preprint arXiv …, 2024
在这里插入图片描述
利用符号数学破解大型语言模型

摘要
本文介绍了一种名为MathPrompt的新型破解技术,该技术利用大型语言模型(LLMs)在符号数学方面的高级能力来绕过它们的安全机制。通过将有害的自然语言提示编码成数学问题,研究表明当前AI安全措施的关键漏洞。在13个最先进的LLMs上的实验显示,平均攻击成功率为73.6%,突出了现有安全训练机制无法泛化到数学编码输入的问题。

创新点

  1. MathPrompt技术: 提出一种新的破解方法,将有害的自然语言提示转换为符号数学问题。
  2. 跨模型攻击: 在多个不同的最新LLMs上测试了这种攻击方法,显示了跨不同模型的普遍脆弱性。
  3. 语义转换分析: 通过嵌入向量分析,揭示了原始提示和编码提示之间的语义转变。
    在这里插入图片描述
    算法模型
  • MathPrompt: 一种将自然语言提示转换为数学问题的攻击方法。
  • 嵌入向量分析: 使用all-MiniLM-L6-v2模型生成嵌入向量,分析原始和编码提示之间的语义差异。

实验效果

  • 攻击成功率: 在13个不同的LLMs上,MathPrompt的平均攻击成功率为73.6%。
  • 嵌入向量分析: 原始提示和数学编码提示之间的平均余弦相似度为0.2705,表明有明显的语义转变。

结论
研究揭示了当前LLM安全机制的一个关键漏洞,通过MathPrompt技术实现了高平均攻击成功率。嵌入分析进一步阐明了这种方法的有效性,显示出足够的语义转变以绕过安全过滤器。

推荐阅读指数
★★★★★

推荐理由:

  • 对于AI安全、LLMs和自然语言处理领域的研究人员和开发人员,本文提供了重要的见解和潜在的安全风险。
  • 文章详细介绍了MathPrompt技术,对于理解LLMs的安全漏洞和如何绕过现有安全机制具有重要意义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/149494.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

9.23作业

仿照string类&#xff0c;自己手动实现 My_string 代码如下 MyString.h #ifndef MYSTRING_H #define MYSTRING_H #include <iostream> #include <cstring>using namespace std;class My_string { private:char *ptr; //指向字符数组的指针int size; …

【LeetCode:1014. 最佳观光组合 + 思维题】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

5G-A“用铲子挖金子”,为何在云南地区商用成功?

作者 | 曾响铃 文 | 响铃说 随着技术的成熟与应用&#xff0c;AI、5G-A、物联网等前沿技术领域在市场看来都属于“金矿”型产业&#xff0c;蕴藏着巨大的经济财富。然而&#xff0c;在如今的市场上&#xff0c;“挖金子”的不好过&#xff0c;反而是卖“铲子”的人赚得盆满钵…

MySQL --基本查询(下)

文章目录 3.Update3.1将孙悟空同学的数学成绩变更为 80 分3.2将曹孟德同学的数学成绩变更为 60 分&#xff0c;语文成绩变更为 70 分3.3将总成绩倒数前三的 3 位同学的数学成绩加上 30 分3.4将所有同学的语文成绩更新为原来的 2 倍 4.Delete4.1删除数据4.1.1删除孙悟空同学的考…

微软推迟在MDM设备上启用OOBE强制更新 因为IT管理员反馈称缺乏控制

微软很久之前就计划在 Windows 10/11 OOBE 期间强制下载更新&#xff0c;即若检测到系统本身属于旧版本例如并未安装最新累积更新&#xff0c;则在 OOBE 期间强制下载最新累积更新并自动安装。这种更新方式已经在面向消费者的设备上启用&#xff0c;而上周微软则是在适用于企业…

CSS文档流以及脱离文档流的方法

文档流 文档流是文档中可显示对象在排列时占用的位置/空间。例如&#xff1a;块元素自上而下摆放&#xff0c;内联元素从左到右摆放。&#xff08;文档流中限制非常的多&#xff0c;导致很多页面效果无法实现)。 常见文档流限制 高低不齐&#xff0c;底边对齐 <head>&…

机器学习之概念1

今天去上机器学习的课&#xff0c;其中我觉得可以套用之前学的强化学习&#xff0c;其中P是评估&#xff0c;T是任务&#xff0c;E是经验&#xff0c;就是利用经验来提高相关的评估任务&#xff0c;从数据中学习&#xff0c;从统计机器中学习&#xff0c;其中可以分为有监督的机…

大型语言模型(Large Language Models)的介绍

背景 大型语言模型&#xff08;Large Language Models&#xff0c;简称LLMs&#xff09;是一类先进的人工智能模型&#xff0c;它们通过深度学习技术&#xff0c;特别是神经网络&#xff0c;来理解和生成自然语言。这些模型在自然语言处理&#xff08;NLP&#xff09;领域中扮…

MySQL | 实战 | 4 种将数据同步到ES方案

文章目录 1. 前言2. 数据同步方案2.1 同步双写2.2 异步双写2.3 定时更新2.4 基于 Binlog 实时同步 3. 数据迁移工具选型3.1 Canal3.2 阿里云 DTS3.3 Databus3.4 Databus和Canal对比3.4 其它 4. 后记 上周听到公司新同事分享 MySQL 同步数据到 ES 的方案&#xff0c;发现很有意思…

独立游戏《Project:Survival》UE5C++开发日志0——游戏介绍

该游戏是《星尘异变》团队的下一款作品&#xff0c;太空科幻题材的生存游戏&#xff0c;我将负责使用C、蓝图实现游戏的基础框架和核心功能&#xff0c;其中还包含使用人工智能算法助力游戏开发或帮助玩家运营 目前已有功能&#xff1a; 1.3D库存系统&#xff1a;所有库存中的物…

【运维监控】influxdb 2.0 + grafana 11 监控jmeter 5.6.3 性能指标(完整版)

运维监控系列文章入口&#xff1a;【运维监控】系列文章汇总索引 文章目录 一、部署influxdb2.0二、部署grafana三、jmeter配置1、下载jmeter插件2、部署jmeter插件3、添加Backend Listener 四、grafana集成influxdb监控jmeter1、建立grafana数据源2、导入grafana模板3、验证1&…

秒表【JavaScript】

这个代码实现了一个基本的功能性秒表。 实现功能&#xff1a; 代码&#xff1a; <!DOCTYPE html> <html lang"zh"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-sc…

文档矫正算法:DocTr++

文档弯曲矫正&#xff08;Document Image Rectification&#xff09;的主要作用是在图像处理领域中&#xff0c;对由于拍摄、扫描或打印过程中产生的弯曲、扭曲文档进行校正&#xff0c;使其恢复为平整、易读的形态。 一. 论文和代码 论文地址&#xff1a;https://arxiv.org/…

Android NestedScrollView+TabLayout+ViewPager+ 其它布局,ViewPager 不显示以及超出屏幕不显示问题

前言 此场景为 NestedScrollView 嵌套多个布局 &#xff0c;大致结构为 NestedScrollViewTabLayoutViewPagerfragment 其它View,如下图 &#xff0c; 一、ViewPager 设置高度才会显示内容问题 原因&#xff1a;NestedScrollView 计算高度先于 ViewPager 渲染前&#xff0c;所…

动手学深度学习8.7. 通过时间反向传播-笔记练习(PyTorch)

本节课程地址&#xff1a;本节无视频 本节教材地址&#xff1a;8.7. 通过时间反向传播 — 动手学深度学习 2.0.0 documentation (d2l.ai) 本节开源代码&#xff1a;...>d2l-zh>pytorch>chapter_multilayer-perceptrons>bptt.ipynb 通过时间反向传播 到目前为止&…

输出Hate-C语言

1.问题&#xff1a; C语言实现先后输出Hate四个字符。 2.解答&#xff1a; 定义4个字符变量&#xff0c;分别赋以初值H、a、t、e&#xff0c;然后用putchar函数输出4个字符变量的值。 3.代码&#xff1a; #include<stdio.h>int main(){char character1,character2,ch…

ArcGIS Desktop使用入门(三)图层右键工具——拓扑(下篇:地理数据库拓扑)

系列文章目录 ArcGIS Desktop使用入门&#xff08;一&#xff09;软件初认识 ArcGIS Desktop使用入门&#xff08;二&#xff09;常用工具条——标准工具 ArcGIS Desktop使用入门&#xff08;二&#xff09;常用工具条——编辑器 ArcGIS Desktop使用入门&#xff08;二&#x…

CSS中的多种关系选择器

后代选择器 选择所有被E元素包含的F元素&#xff0c;中间用空格隔开。 例&#xff1b; <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title…

使用Docker一键部署Blossom笔记软件

Blossom 是一个需要私有部署的笔记软件,虽然本身定位是一个云端软件,但你仍然可以在本地部署,数据和图片都将保存在你的设备,不依赖任何的图床或者对象存储。 客户端:支持 Windows 端和 ARM 架构的 Mac 端,以及作为网页端部署。移动端:响应式网页移动端,主要为移动端设…

基于单片机的智能窗帘控制系统

目录 一、主要功能 二、硬件资源 三、程序编程 四、实现现象 一、主要功能 基于51单片机&#xff0c;采用DHT11温湿度传感器检测温湿度&#xff0c;滑动变阻器连接ADC0832数模转换器转换模拟,光敏传感器&#xff0c;采用GP2D12红外传感器&#xff0c;通过LCD1602显示屏显示…