讨论人机交互研究中大语言模型的整合与伦理问题

概述

论文地址:https://arxiv.org/pdf/2403.19876.pdf
近年来,大规模语言模型发展迅速。它们给研究和教育领域带来了许多变化。这些模型也是对人机交互(HCI)研究过程的有力补充,可以分析定性和定量数据,再现社会科学实验,模拟新的社会动态。另一方面,已经发现了错误信息、歧视和侵犯隐私的风险,因此需要仔细考虑如何安全使用大规模语言模型。

过去曾对人机交互领域的伦理问题进行过研究,但大规模语言模型的应用带来了前所未有的挑战。关于如何将大规模语言模型纳入项目、存在哪些伦理问题以及如何解决这些问题,已经进行了大量的研究和讨论,以填补实际应用中的空白,实现大规模语言模型的有效和伦理整合。

本文通过对 50 名人机交互研究人员进行问卷调查和 16 次访谈得出的数据,展示了大规模语言模型在整个人机交互研究过程中的应用情况。这包括从创意生成到系统开发和论文撰写的一系列应用。本文还探讨了研究人员对与大规模语言模型相关的潜在伦理问题的预期和应对措施。

最后,基于这些发现,报告提出了研究伦理的重要性以及相关的具体建议,如与伦理审查委员会等合作、改进知情同意程序、扩大伦理教育机会、修改研究激励结构等。人机交互领域一直在与大型语言模型合作,这表明未来的主要挑战将是如何在整合模型时促进这些伦理考虑因素。

问卷调查

本文重点探讨人机交互研究人员如何将大规模语言模型纳入其研究过程,以及他们如何解决伦理方面的问题。为了全面了解这方面的情况,我们采用了顺序解释设计(SED)方法,通过调查和半结构化访谈来收集来自不同角度的意见。通过这种方法,可以深入调查研究人员处理伦理问题的具体方法。请注意,本研究项目已获得贵机构 IRB 的批准。

调查使用 Qualtrics 实施的在线问卷,收集了 50 名受访者的数据。参与者是通过社交媒体广告、直接电子邮件和大学邮件列表等多种渠道招募的。调查开始时已征得参与者的知情同意,个人身份信息不予记录。选择标准是,参与者必须是从事人机交互相关领域工作的研究人员,并具有使用大规模语言模型的经验。

在最后 77 名参与者中,有 50 人完成了所有部分(不包括人口信息)。在回答人口统计学信息的 43 位参与者中,许多人表示他们在学术界、工业界或非营利组织工作。这些参与者来自美国、阿富汗、德国、阿尔及利亚、香港、中国、西班牙、尼日利亚、澳大利亚和日本等不同国家,在人机交互领域的不同子领域工作。参与者从事人机交互研究的平均时间为四年。

它还使用了一份由 18 个问题组成的调查问卷。其中包括 14 个多项选择题和 4 个开放式问题。调查问卷将大规模语言模型定义为 “生成式(和多模态)语言模型的一个子集,其规模随参数数量和训练数据规模的增加而增加”,并将GPT-4、GPT-3.5、Llama 2 和 Vicuna描述为具体示例。

调查参与者被要求根据他们在近期研究项目中使用大规模语言模型的经验回答问题,这些问题分为三个部分

  • 关于在人机交互研究项目中使用大规模语言模型的问题
  • 在人机交互研究中使用大规模语言模型的伦理问题。
  • 与研究相关的人口统计学问题。

问卷的第一部分用一句话描述了该项目,并询问了所使用的主要研究方法、人机交互子领域以及纳入大规模语言模型的研究过程的各个阶段。它还重点关注了与使用大规模语言模型相关的潜在伦理考虑因素,询问 "您在研究项目中是否遇到或观察到任何与大规模语言模型相关的伦理挑战?"来询问有关伦理挑战的封闭式和开放式问题。它还询问了这些伦理挑战是如何发现、解决和报告的。最后,还包括有关受访者机构类型、国家和从事人机交互研究年限的人口统计学问题。请注意,此回答为可选回答。

数据分析使用 SPSS 计算描述性统计,分析研究人员如何处理与大规模语言模型相关的伦理问题。特别是,它纳入了提供多项选择答案的问题的统计数据(例如,使用大规模语言模型时的伦理问题)。对于只有部分受访者完成的问题,我们会计算特定问题的回复率以及回答该问题的受访者比例。

访谈调查

2023 年 10 月至 11 月间,16 位使用大规模语言模型开展研究项目的人机交互研究人员接受了采访。每次访谈都从描述参与者最近的项目开始,探讨大规模语言模型在项目中的应用情况。访谈的重点是大规模语言模型在整个研究过程中的使用、具体的伦理考虑因素、如何驾驭伦理考虑因素、IRB 的作用、伦理框架和工具包的作用、激励机制和责任。

参与者是通过分发名单、专业网络和个人联系等方式招募的,并采用滚雪球式抽样和目的性抽样进行重复抽样。样本包括来自美国、中国、新加坡和德国的研究人员,其中许多是在学术界工作的男性和女性研究人员。

访谈通过视频会议在线进行,所有环节均以英语进行。访谈前,我们会向参与者解释访谈目的,并获得电子版知情同意书,参与者可以随时拒绝回答问题或要求暂停录制。每次访谈大约持续 40-60 分钟,逐字记录的笔记和视频将用于日后分析。参与者可获得价值 30 美元的礼品卡。

采用了布劳恩和克拉克的反思性专题分析方法来分析定性数据。研究小组多次阅读每次访谈的记录,首先对伦理因素和问题进行开放式编码。研究小组定期召开会议,根据初始编码反复确定主题和类别。由此确定了研究过程、伦理问题和伦理考虑方法等类别,并最终将这些类别作为最高级别纳入研究结果中。

研究结果:人机交互研究人员在日常工作中使用的大规模语言模型

本文介绍了人机交互研究人员如何将大规模语言模型纳入日常研究工作的发现。它揭示了大规模语言模型是如何应用于研究的各个阶段的,包括构思、文献综述、研究设计、数据分析、系统构建、评估和撰写论文。

特别是,它们最常用于论文撰写和研究设计阶段,其次是项目范围界定、系统开发、数据生成和收集以及分析。研究表明,人们认识到,大规模语言模型为研究 “开辟了新的可能性”,而且 “如果使用得当,它们可以让人们做一些很酷的事情,真正增强能力”。

在研究的早期阶段,参与者使用大规模语言模型确定新的研究问题,然后将这些问题细化为具体的研究目标。例如,一位学员在大规模语言模型中输入了一个广泛的主题领域,并根据生成的研究问题确定了研究目标。另一位参与者则利用大规模语言模型寻求职业导师的建议,并探索人工智能与网络安全交叉领域的研究课题。这些活动让人机交互研究人员迅速产生了各种各样的想法,对头脑风暴大有帮助。

此外,大规模语言模型在数据相关任务中的应用也在不断扩大。许多研究人员正在利用大规模语言模型综合网络来源的信息,从而大大简化了通常需要花费大量时间和精力的任务。大规模语言模型还被纳入数据分析的每个过程,包括定性数据编码、绘图和数据可视化,有助于提高研究的质量和速度。

这项研究的结果表明了人机交互领域中法律硕士的多样化应用和潜力,并为研究人员提供了新的研究方法。

研究结果:人机交互研究人员对使用大规模语言模型的伦理关切

人机交互研究人员在使用大规模语言模型时遇到了各种伦理挑战。研究结果显示,30 位研究人员发现了伦理问题,10 位感到不确定,10 位没有意识到这些问题。数据隐私、版权、有害输出、版权问题和同意等问题尤为突出。这些问题在研究设计、执行、分析和撰写阶段都很常见。

当大规模语言模型被整合到与用户直接交互的系统和工具中时,研究对象接触有害输出结果的伦理问题也日益受到关注。大规模语言模型的输出结果可能会通过社会偏见和刻板印象造成不成比例的伤害,尤其是对那些不被认为重要的群体。

此外,大规模语言模型还可能带来新的风险,强化对残疾人的偏见。大规模语言模型生成的信息看似权威,实则捏造,会影响研究的可信度。特别是,识别大规模语言模型生成的虚假引文和不一致的文章参考文献对研究人员来说是一个巨大的挑战。

在研究设计和评估阶段从大规模语言模型中继承的偏见也是一个问题。研究人员对大规模语言模型产生同质内容和概括不同观点的倾向表示担忧。这种 "扁平化人类多样性和细微差别 "的趋势强调了在研究中捕捉生活经验复杂性的重要性。

研究人员对输入到大规模语言模型中的数据如何使用以及隐私如何受到侵犯也非常关注。尤其令人担忧的是大规模语言模型如何处理语音转录和导航数据等敏感信息。这些数据泄露给外界甚至可能导致人身伤害。研究人员还非常关注与 LLM 提供商共享数据所带来的个人数据泄露风险,指出安全漏洞可能会导致个人数据意外泄露。

此外,知识完整性也是一个问题,因为大规模语言模型生成的文本和视觉效果的所有权并不明确。在共同生产过程中,很难区分哪些部分是研究人员的原创贡献,哪些部分是大规模语言模型的功劳。当大规模语言模型成为研究成果的一部分时,还有关于剽窃风险的争论。研究人员对大规模语言模型生成的内容的所有权提出了质疑,尤其是在论文的写作阶段,因此需要适当地注明出处。

此外,使用大规模语言模型的研究成果的可重复性尤其受到技术快速和不透明更新的影响。如果研究人员不知道他们使用的是哪个版本的 LLM,那么过去有效的方法在未来就可能无法很好地发挥作用。这可能会削弱研究成果的可靠性。

随着大规模语言模型使用范围的扩大,这些问题使得加强人机交互研究中的道德准则和提高透明度势在必行。

研究结果:解决人机交互研究人员对大规模语言建模的伦理问题

在此,我们调查了人机交互研究人员如何应对与使用大规模语言模型相关的伦理挑战。我们发现,研究人员会根据大规模语言模型的使用环境和研究领域来调整他们的伦理对策。

研究表明,许多人机交互研究人员都意识到潜在的伦理问题,但却发现很难具体确定或解决这些问题。例如,当一个研究领域被认为风险较低时,大规模语言建模的伦理挑战往往会被忽视,并被认为不那么紧迫。另一方面,高风险领域需要采取更加积极主动的伦理措施,但在实践中却很少采取此类措施。

受访的研究人员将具体情况和伦理考虑作为优先考虑的理由,并表示与使用大规模语言模型相关的一般伦理问题并不适用于他们自己的研究。这种被动处理问题的方法导致人们寻求解决问题的直接办法,但解决根本问题往往被搁置一旁。

此外,由于大多数人机交互研究都是在实验室环境中进行的,因此伦理问题的表现形式与日常问题不同,短期可用性测试不太可能面对大规模语言建模的有害输出。然而,在长期研究中可能会出现更严重的问题。

人机交互研究人员也将大规模语言模型视为常规工具。因此,许多参与者显然认为没有必要向研究参与者、伦理审查委员会(IRB)或更广泛的学术界正式报告他们使用大规模语言模型的情况。

这项调查显示了人机交互研究人员如何看待大规模语言建模的伦理问题。
总结:人机交互研究中大规模语言模型的整合与伦理问题

本文揭示了人机交互(HCI)研究人员如何使用大规模语言模型(LLM)以及他们面临的伦理问题。本文基于通过问卷调查和访谈收集的数据,探讨了研究人员如何将 LLMs 整合到他们的研究中,以及他们如何应对遇到的伦理问题。

研究表明,尽管人机交互研究人员在研究的各个阶段都使用了大规模语言模型,但他们在有效识别和解决伦理问题方面却举步维艰。在每个项目中明确识别和充分解决伦理问题被认为是一项挑战。

本文还提出了一种新的方法来制定伦理规范,以促进在人机交互研究中负责任地使用大规模语言模型。它鼓励研究人员与伦理审查委员会(IRB)合作,并与政策制定者和生成式人工智能公司合作制定指导方针。他们还指出,有必要重新评估知情同意程序,并提供技术援助以中断大规模语言模型的供应链。此外,还需要在人机交互领域提供更多的伦理教育机会,并改变学术激励机制,以关注伦理问题。

希望这些举措将有助于在未来营造一个更加合乎伦理的研究环境。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1536040.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

架构师:在 Spring Cloud 中实现全局异常处理的技术指南

1、简述 在分布式系统中,微服务架构是最流行的设计模式之一。Spring Cloud 提供了各种工具和库来简化微服务的开发和管理。然而,随着服务的增多,处理每个服务中的异常变得尤为复杂。因此,实现统一的全局异常处理成为了关键。本篇博客将介绍如何在 Spring Cloud 微服务架构…

阿里P8和P9级别有何要求

阿里巴巴的P8和P9级别,代表着公司的资深技术专家或管理者岗位,要求候选人具有丰富的职业经历、深厚的技术能力以及出色的领导力。以下是对P8和P9级别的要求、考察点以及准备建议的详细分析。 P8 级别要求 1. 职业经历: 8年以上的工作经验&a…

idea连接数据库大避雷!!!

再跟着黑马学习的时候,用黑马的资料安装的数据库,命令行能正常启动,SQLyog也能正常连接,就是tmd idea连接不了。不论是原始的jdbc,还是其它方式都不行,一直报错: 然后就各种搜,有的说数据库驱动…

SQLite安装(含安装包)

安装包: 通过百度网盘分享的文件:sqlite-dll-win-x64-3460100.zip 链接:https://pan.baidu.com/s/1852coiq51QcNkeaHdu1Oyg 提取码:v2y6 解压 设置环境变量 验证安装成功 SQLite设置完成

恢弘集团SRM采购数字化项目成功上线,企企通助推新材料企业发展新质生产力

近日,企企通携手恢弘集团有限公司(以下简称“恢弘集团”)打造的一站式数字化采购管理平台正式上线。基于该平台,恢弘集团全流程全周期的数字化采购管理体系进一步升级,在推动企业提高效率的同时,也将形成新…

温习mysql函数 连接查询

字符串 1、CONCAT(S1,S2,...Sn) :字符串拼接,将S1 , S2 , ... Sn 拼接成一个字符串】 2、LOWER(str) :将字符串str全部转为小写 3、UPPER(str) :将字符串str全部转为大写 4、LPAD(str,n,pad): …

springboot 整合quartz定时任务

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、pom的配置1.加注解 二、使用方法1.工程图2.创建工具类 三、controller 实现 前言 提示:这里可以添加本文要记录的大概内容: 提示&a…

实现拖动标题栏窗口恢复+窗口跟着鼠标移动

窗口跟着鼠标移动 1.重写鼠标按下事件,记录鼠标在窗口中的相对位置 2.重写鼠标移动事件,调用move方法使得窗口移动到鼠标的位置(调用globalPos方法获取鼠标的位置) 3.注意点:移动时鼠标的位置还要减去一开始的相对位…

一文带你全面了解RAID技术:从基础到进阶的全景解析

一、引言 在如今这个数据爆炸的时代,数据的存储和安全性显得尤为重要。RAID技术作为一种将多块硬盘组合成一个逻辑单元,以实现数据冗余和性能优化的技术,被广泛应用于企业级和个人数据存储中。本文将对RAID的常见级别进行详细解析&#xff0…

[C语言]第九节 函数一基础知识到高级技巧的全景探索

目录 9.1 函数的概念 9.2 库函数 9.2.1 标准库与库函数 示例:常见库函数 9.2.2 标准库与头文件的关系 参考资料和学习工具 如何使用库函数 ​编辑 9.3 ⾃定义函数 9.3.1 函数的语法形式 9.3.2函数的举例 9.4 实参与形参 9.4.1 什么是实参? 9…

影刀RPA实战:网页爬虫之CSDN博文作品数据

今天我们使用影刀来采集网页数据,影刀RPA是一款功能强大的自动化办公软件,它可以模拟人工的各种操作,帮助企业自动处理大量重复性、有逻辑规则的工作。影刀RPA在网页数据采集方面表现出色,能够实现对任何桌面软件、Web程序的自动化…

NeMo Curator 整理用于 LLM 参数高效微调的自定义数据集

目录 概述 预备知识 定义自定义文档构建器 下载数据集 解析和迭代数据集 将数据集写入 JSONL 格式 使用文档构建器加载数据集 使用现有工具统一 Unicode 格式 设计自定义数据集过滤器 编辑所有个人识别信息 添加指令提示 整合管线 概述 出于演示目的,本…

6芯7芯可旋转电连接器航空插头

概述 可旋转电航空插头是一种能够在旋转或相对运动的部件间稳定传输电气信号或电源的装置,广泛应用于航空航天、自动化设备、医疗设备等多个领域。它的核心在于精密的接触系统,由旋转端和固定端两部分组成,通过金属触点或导电环实现电气连接。…

哪些网站用python开发

国内的话,知乎,网易,腾讯,搜狐,金山,豆瓣这些属于用Python比较知名的。大型的项目的话,网易的许多游戏,腾讯的某些网站,搜狐的邮箱,金山的测试框架等等都是或…

实习期间git的分枝管理以及最常用的命令

各位找工作实习的友友在工作之前一定要把git的相关知识掌握呀,我实现期间被leader说过关于git规范的相关问题了 目前已更新系列: 当前::实习期间git的分枝管理以及最常用的命令 Redis高级-----持久化AOF、RDB原理 Redis高级---面试总结5种…

【JavaEE初阶】多线程(4)

欢迎关注个人主页:逸狼 创造不易,可以点点赞吗~ 如有错误,欢迎指出~ 目录 线程安全的 第四个原因 代码举例: 分析原因 解决方法 方法1 方法2 wait(等待)和notify(通知) wait和sleep区别 线程安全的 第四个原因 内存可见性,引起的线程安全问…

springboot3.X版本集成mybatis遇到的问题

由于我本地springboot为3.x版本,如下图所示,最新版本 当我参照如下搜索的内容去集成mybatis的时候,会出现各种各样的报错 最根本的原因是搜出来的配置是参照springboot2.X版本,当我们使用springboot3.x版本之后,需要配…

JVM 垃圾回收机制和GC案例分析

1. 引言 Java 虚拟机(JVM)的垃圾回收(Garbage Collection, GC)机制,是自动内存管理的重要组成部分。它通过回收不再使用的对象,避免手动释放内存的麻烦。然而,随着系统复杂性的增加&#xff0c…

4.C_数据结构_队列

概述 什么是队列: 队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点 相关名词: 队尾:写入数据的一段队头:读取数据的一段空队:队列中没有数据,队头指针 队尾指针满队&#…