论文解读《CTRLsum: Towards Generic Controllable Text Summarization》


引言:一篇上交大佬的著作


✅ NLP 研 2 选手的学习笔记

笔者简介:Wang Linyong,NPU,2023级,计算机技术
研究方向:文本生成、大语言模型
论文链接:https://aclanthology.org/2022.emnlp-main.396.pdf,2022 EMNLP(CCF B) 长文
项目链接:https://github.com/salesforce/ctrl-sum
中文标题:《CTRLSUM:面向通用可控的文本摘要》

在这里插入图片描述


文章目录

  • 0 摘要(Abstract)
  • 1 前言(Introduction)
  • 2 方法(CTRLSUM)
  • 3 控制任务示例(The Example Control Tasks)
    • 3.1 通过关键字(Through Keywords)
    • 3.2 结合关键词和提示(Combining Keywords and Prompts)
  • 4 实验(Experiments)
    • 4.1 实验细节(Experimental Details)
    • 4.2 实体控制(Entity Control)
    • 4.3 长度控制(Length Control)
    • 4.4 贡献和目的的控制(Contribution and Purpose Control)
    • 4.5 问题指导总结(Question-Guided Summarization)
    • 4.6 无约束摘要(Unconstrained Summarization)
    • 4.7 人类评估(Human Evaluation)
  • 5 相关工作(Related Work)
  • 6 结论
  • 7 参考文献


0 摘要(Abstract)

● 当前的摘要系统产生的一般摘要与用户的偏好和期望脱节。为了解决这一限制,我们提出了 CTRLSUM,这是一个通过一组关键字(keywords)控制生成摘要的通用框架。在训练过程中,自动提取关键字,而不需要额外的人工注释。在测试时,CTRLSUM 具有将控制信号映射到关键字的控制函数;通过对控制函数的工程化(engineering),可以将同一个训练好的模型应用于各个维度的可控摘要,同时不影响模型的训练过程,也不影响预训练模型。我们还探索了关键字和文本提示的组合,以实现更多的控制任务。实验证明了 CTRLSUM 在 3 个领域的摘要数据集和 5 个控制任务上的有效性:(1)以实体为中心;(2)长度可控的摘要;(3)科学论文的贡献摘要;(4)专利申请的发明目的摘要;(5)新闻文章的问题导向摘要。此外,当在标准的、无约束的摘要设置中使用时,CTRLSUM 与强预训练系统相当或更好。


1 前言(Introduction)

● 神经摘要系统旨在将文档压缩为一个短段落或句子,同时保留关键信息。有两类常见的摘要系统:抽取式摘要,模型在其中查找和复制文档的重要部分 (Cheng和Lapata, 2016; Nallapati等人,2017; Narayan等人,2018) 以及抽象摘要,其中模型可以自由生成新句子 (Rush等人,2015; See et al., 2017; Paulus et al., 2018)。本文的重点是抽象式摘要。

● 在常见的设置中,摘要方法将源文档作为输入,并生成一个通用的摘要,该摘要涵盖了模型任意选择的内容。然而,为了有用,自动生成的摘要应该涵盖读者认为重要的内容。例如,图 1 显示了一篇 NBA 篮球新闻文章,而参考摘要汇总了几场比赛的结果。然而,某些球员或球队的球迷可能只对包括他们感兴趣的实体的比赛和数据感兴趣。

● 在这种观察的激励下,本文专注于可控摘要,允许用户控制生成的摘要。本文提出了 CTRLSUM,一个通过一组关键字来控制摘要的框架。在训练时,模型学习以 源文档关键字 为条件来预测摘要,这些关键字很容易从训练摘要中识别。在推理过程中,根据特定的控制方面设计了一个控制函数,将用户偏好映射到关键词上,从而实现对摘要的控制。

● 笔者提出两个问题,然后带着问题再继续读:1. 如何从训练摘要中识别关键字?2. 在推理过程中,控制函数是怎么起作用的?

在这里插入图片描述

图1: 右上角:将用户兴趣的特定控制方面纳入训练过程的传统方法,因此需要为每个方面训练单独的模型。 右下角:提出的 CTRLSUM 框架,其中模型训练依赖于自动关键字,并且与控制方面分离。在测试时,通过一个专门设计的控制函数将控制信号映射为关键字,单个训练好的模型实现了不同维度上的可控摘要。

● 虽然简单,关键字提供了测试时用户控制和训练过程的清晰分离——可以通过设计测试时控制函数来控制生成摘要的不同维度,而训练过程和预训练模型保持不变。相比之下,典型的可控摘要方法(Fan等人,2018;刘等人,2018;Tan等人,2020;Suhara等人,2020;Chan等人,2021)预定义特定的控制方面(如实体、长度、主题等),并在训练过程中依赖相应的控制注释。因此,它们需要为每个控制方面训练一个单独的模型,并且不能在测试时泛化到新的控制方面。图 1 展示了这种区别。CTRLSUM 中的训练过程与具体的控制方面(aspect)无关,既可能使用单一模型生成通用可控摘要。

● CTRLSUM 与最近的关键词引导摘要方法密切相关。虽然他们主要关注提高传统的、无约束的摘要任务中的摘要质量(Li等人,2018;Elsahar等人,2021年;Saito等人,2020b;Dou et al., 2021),或只研究特定的控制方面,如长度控制(Saito et al., 2020a),本文将关键词引导的摘要归纳为一个通用的可控摘要框架,并探索其在广泛的控制任务中的新应用。此外,受到语言模型通过提示的多任务能力的启发(Radford等人,2019;Brown et al., 2020),我们进一步研究了 CTRLSUM 中关键字和提示符(prompts)的可能组合,以实现更通用的控制目的。

● 我们使用预训练的BART (Lewis等人,2020)作为底层架构,并在三个数据集上进行实验:CNN/Dailymail 新闻文章(Hermann等人,2015)、arXiv 科学论文(Cohan等人,2018)和 BIGPATENT 专利文件(Sharma等人,2019)。从 5 个控制方面定量评估了 CTRLSUM:(1)以实体为中心(§4.2)和(2)长度可控的摘要(§4.3),(3)总结科学论文的贡献,(4)总结一项发明的目的(§4.4),以及(5)在零样本(zero-shot)阅读理解环境中总结对给定问题的答案(§4.5)。值得注意的是,所提出方法还在一个标准的、无约束的设置中,在所有数据集上实现了与强大的 BART 基线相当或更优越的性能(§4.6)。

● 我们发布了训练有素的 CTRLSUM 检查点(checkpoints),以鼓励其他人尝试使用 CTRLSUM 来控制自己的兴趣。在更高层次上,我们希望本文的探索能够引起人们对可控摘要任务的关注,并为个性化摘要系统的研究提供一个跳板。


2 方法(CTRLSUM)

2.1 定义(Formulation)

● 训练无约束神经摘要模型来学习条件分布 p ( y ∣ x ) p(\mathbf y|\mathbf x) p(yx),其中 x \mathbf x x y \mathbf y y 分别表示源文档和摘要。在这种情况下,生成的摘要仅依赖文档 x \mathbf x x,不需要人工参与。为了控制生成摘要的内容,我们提出使用额外的关键词 z \mathbf z z 来表示用户偏好,并训练一个预测条件分布 p ( y ∣ x , z ) p(\mathbf y|\mathbf x, \mathbf z) p(yx,z) 的模型。

● 形式上,在训练时,使用源文档和标准摘要来识别关键字,而在测试时,它们是源文档和用户控制信号的函数:
z train = f ( x , y ) , z test = g control ( x , c ) , ( 1 ) \mathbf{ z}_\text{train}=f(\mathbf{x}, \mathbf{y}), \quad\quad\quad \mathbf{z}_\text{test}=g_{\text{control}}(\mathbf{x}, \mathbf{c}), \quad\quad\quad(1) ztrain=f(x,y),ztest=gcontrol(x,c),(1)

  式中, f f f 为自动关键词提取算法, c \mathbf c c 为用户控制信号, g c o n t r o l g_{control} gcontrol 为控制函数。 c \mathbf c c 可以实例化为不同形式的控制信号(例如,实体单词或长度值),作为用户或测试阶段需要的控制任务,而不需要重新训练模型。控制功能允许根据控制任务进行不同的设计。我们接下来会详细介绍 g c o n t r o l g_{control} gcontrol,而在 §2.3 中会介绍自动关键词提取。

2.2 控制函数(The Control Function g c o n t r o l g_{control} gcontrol)

g control ( x , c ) g_{\text{control}}(\mathbf{x}, \mathbf{c}) gcontrol(x,c) 将用户控制信号 c \mathbf c c 映射到特定的关键字。给定一个控制任务(例如实体或长度控制), g c o n t r o l g_{control} gcontrol 可以被专门设计来执行该任务,例如,在实体控制中 c = e \mathbf c = e c=e 是感兴趣的实体, g c o n t r o l g_{control} gcontrol 可以直接输出 e e e 作为关键字;在长度控制中, c = l \mathbf c = l c=l 是所需的摘要长度值,在这种情况下, g c o n t r o l g_{control} gcontrol 可以自动从源文档中提取一定数量(取决于 l l l)的关键字。这样, g c o n t r o l g_{control} gcontrol 提供了测试时用户控制和训练过程的清晰分界——通过只对控制功能进行工程改造,相同的训练模型可以适应新的控制任务,而无需更改模型参数或训练过程。这种框架是通用的,并广泛适用于许多控制方面,这与之前关于可控摘要的工作形成了对比(Fan等人,2018;Liu等人,2018),预定义了一个控制方面,并为其设计了特定的训练程序。在 §3 中,我们将展示如何将相同的模型应用于 5 个不同的可控摘要任务。

关于重点范围的说明: 在数学上, g control ( x , c ) g_{\text{control}}(\mathbf{x}, \mathbf{c}) gcontrol(x,c) 涵盖了用户可以在测试时直接输入任意关键字序列的用例。然而,这种开放式设置作为控制任务的定义很差——具体的控制方面是无约束的和不明确的,这给由于缺乏参考而已经很难进行可控生成的评估带来了挑战。因此,我们将重点放在 §3 中所示的几个具体的、明确定义的控制任务上。在本文中,我们没有把 CTRLSUM 作为一个开放的系统来探讨,而是把它作为未来的工作。

2.3 自动提取关键字(Automatic Keyword Extraction)

● 如等式 1 所示,训练关键词 z t r a i n \mathbf z_{train} ztrain 同时依赖于源 x \mathbf x x 和参考 y \mathbf y y,而 z t e s t \mathbf z_{test} ztest 则根据控制信号进行操作。我们进一步为 g control ( x , c ) g_{\text{control}}(\mathbf{x}, \mathbf{c}) gcontrol(x,c) 提供了一个可选的推理时自动提取关键词的方法,当控制信号 c = ∅ \mathbf c = ∅ c= 时,该方法允许 CTRLSUM 执行无约束的摘要。在需要首先从 x \mathbf x x 中提取自动关键字的控制任务中,它也可能很有用。下面我们分别描述它们:

在训练时:我们首先从文档中贪婪地选择与参考摘要一起使 ROUGE 分数最大化的句子(Lin, 2004)这一步将关键字限制为那些在重要句子中找到的关键字。接下来,识别出所提取句子中与标准摘要中的子序列相匹配的所有最长子序列。最后,我们删除重复的单词和停用词,并将剩余的标记保留为关键字。 与典型的关键词提取方法 (Riloff 和 Lehnert, 1994;Mihalcea和Tarau, 2004) 由于只输出少量的显著词,我们的提取保留了摘要中发现的大多数实词(content words)。这是为了在输入和目标之间建立可靠的相关性,确保关键字在测试时不会被模型忽略。

● 笔者之前提出的第一个问题(1. 如何从训练摘要中识别关键字?),答案在上面。

在推理时: 将关键词提取表述为序列标注任务。具体来说,我们在训练数据集中的关键词和文档上训练一个基于 BERT 的序列标记器(Devlin等人,2019)。然后,该标记器计算测试文档中每个标记的选择概率 q j q_j qj。与训练时间提取类似,我们首先选择具有最高平均 token 选择概率的 n s n_s ns 个句子。在这些句子中,具有 q j > ϵ q_j >ϵ qj>ϵ 的单词被选择为 m max m_\text{max} mmax 数量最大的关键词 n s n_s ns ϵ ϵ ϵ m max m_\text{max} mmax 是根据在验证数据集上的无约束摘要性能选择的超参数,结果对不同值具有合理的鲁棒性,如附录 G 所示。

● 笔者之前提出的第二个问题(2. 在推理过程中,控制函数是怎么起作用的?),答案在上面。

2.4 训练细节(Training Details)

● 我们训练了 CTRLSUM 模型来最大化 p ( y ∣ x , z ) p(\mathbf y|\mathbf x, \mathbf z) p(yx,z),具体来说,我们将关键词序列 z \mathbf z z 前缀到用特殊标记 = > => => 分隔的源文档 x \mathbf x x,然后将得到的序列作为模型的输入来预测摘要。我们的训练过程与模型无关,因此 CTRLSUM 可以采用任何序列到序列的架构作为骨干,而无需修改。我们注意到,这比最近的基于关键词的摘要系统简单得多 (Li等人,2018;Saito等人,2020a;Dou等人,2021),他们调整特定的模型架构以纳入关键字信号。

关键字丢失(dropout):§2.3 所示,我们的训练关键字提取保留了摘要中的大部分实词(content words)。然而,我们发现这些关键字从经验上讲信息量太大,以至于模型在生成摘要时学会了忽略源文档。为了解决这个问题,我们在训练时随机删除关键字,以便模型学会依赖关键字,同时也学会仍然从源文档中携带关键信息。请注意,关键字的丢失仅在训练时应用。


3 控制任务示例(The Example Control Tasks)

● 在本节中,我们定义了本文研究的 5 个可控摘要任务以及各自的控制函数 g c o n t r o l g_{control} gcontrol。每个任务的定性例子如表 1 所示。

在这里插入图片描述

定性的例子从 CTRLSUM 的输出。左列显示来源或通用参考摘要。关键字加粗。“[]” 表示标记同时用作关键字和提示。关键字中的特殊符号 “|” 表示关键字在源文档中位置的句子边界,详见附录 A.1。

3.1 通过关键字(Through Keywords)

实体控制: 目标是生成聚焦于感兴趣的特定实体的摘要。我们直接使用实体词(entity word)作为关键字,即 g control ( x , c = e ) = e g_{\text{control}}(\mathbf{x}, \mathbf{c}=\mathbf{e})=\mathbf{e} gcontrol(x,c=e)=e,其中 e \mathbf{e} e 是实体。

长度控制: 我们允许通过用户指定的长度参数来操纵摘要的长度。具体来说,我们首先将训练数据按汇总长度分为 5 个桶,以便每个桶具有相同的示例数量。然后,我们计算每个桶在训练数据上的平均关键字数量 K l K_l Kl。在测试时,用户可以指定一个长度值 c = l ∈ { 0 , 1 , 2 , 3 , 4 } \mathbf c = l∈\{0,1,2,3,4\} c=l{0,1,2,3,4} g c o n t r o l g_{control} gcontrol 返回标记器计算出的具有最高选择概率的 top- K l K_l Kl 关键字。这类似于(Saito et al., 2020a);它们使用 “指导词” 的数量来控制摘要的长度,这也可以看作是 CTRLSUM 框架的一个实例。

● 除此之外,还可以在 g c o n t r o l g_{control} gcontrol 中加入更复杂的逻辑来执行其他控制任务——例如,为了实现主题控制,可以使用外部知识源选择与给定主题词相关的关键字。

● 类似的方法已用于方面控制(aspect-controlled)的摘要(Tan et al., 2020),而它们需要一个专门定制的训练程序。我们把这种探索留作以后的工作。

3.2 结合关键词和提示(Combining Keywords and Prompts)

● 受提示预训练模型最新进展的启发(Liu等人,2021),本文探索了结合关键词和提示来执行几种不同的可控摘要任务。特别地,我们为每个任务设计了一个指导 token 序列,既用作关键字输入,也用作解码器提示。在这种情况下,控制信号 c \mathbf{c} c 将任务作为一个值, g control ( x , c ) g_{\text{control}}(\mathbf{x}, \mathbf{c}) gcontrol(x,c) 直接输出给定任务 c \mathbf{c} c 的任何 x \mathbf{x} x 的指导序列。虽然传统的摘要系统也能够利用提示来约束和控制生成,但与关键字的结合是很重要的——关键字有助于关注编码器端的控制相关内容,而单独的提示只影响解码器。因此,“关键字+提示” 可以产生最佳性能,如 §4.4 所示。接下来定义并描述了本文所研究的 3 个控制任务。

论文贡献总结: 现有的关于科学论文的数据集,如 arXiv (Cohan et al., 2018),收集论文摘要作为摘要,这些摘要通常包括额外的背景背景,并且缺乏相关论文的详细贡献描述。在许多情况下,读者将受益于明确的贡献列表,以了解论文的新颖性。针对这些情况,我们提出 g c o n t r o l g_{control} gcontrol = “the main contributions of this paper are: (1)” 作为关键字和提示,以生成聚焦论文的摘要。

总结发明目的: 现有数据集中的专利文章摘要,如 BIGPATENT (Sharma等人,2019)可能过于复杂,往往涵盖核心方法细节。然而,对于非技术读者来说,最好提供一个关于发明目的的一句话总结,而忽略技术细节。因此,我们设置 g c o n t r o l g_{control} gcontrol = “the purpose of the present invention is”,以产生关于专利目的的简明摘要。

问题引导的摘要: 人工摘要可以受到问题的限制(Kryscinski等人,2019),这些问题需要在摘要中找到答案。这指向了摘要和阅读理解之间的联系,我们将进一步探索。假设一个摘要模型,如果引导得当,可以直接回答关于文章的一些问题。这表明了将阅读理解纳入摘要形式的可能性。为了验证这一点,我们设置 g c o n t r o l g_{control} gcontrol = “Q: question text?A: ” 产生阅读理解行为。

● 我们在本节中选择的引导序列是在没有任何调优的情况下随机选择的,而在附录 F 中,我们展示了在几个人工编写的引导序列上的性能相对鲁棒。最近关于 prompt 工程的工作表明,引导序列可以进一步自动优化 (Shin等人,2020;Li和Liang, 2021),而如果没有训练数据,它们不能直接适用于控制任务。

● 我们注意到,关键字和基于提示的控制在实践中是互补的,虽然提示可以理想地实现任何类型的控制,但根据经验,它们往往在许多方面效果不好。例如,我们发现单独使用提示符(例如 “a summary focused on [entity] is: ”)很难控制实体或长度。同样,仅靠关键词很难完成论文贡献或专利目的摘要。这些经验观察验证了结合关键词和提示对更通用的可控摘要的重要性。定量分析见附录 E


4 实验(Experiments)

● 在本节中,我们将对 CTRLSUM 进行定量测试,所有控制任务的定性输出示例的广泛列表可以在附录H中找到。

4.1 实验细节(Experimental Details)

● 在三个不同领域的摘要数据集上进行了实验:CNN/Dailymail (CNNDM)新闻文章(Hermann等人,2015)、arXiv科学论文(Cohan等人,2018)和 BIGPATENT 专利文章(Sharma等人,2019)。CTRLSUM 中的分布 p ( y ∣ x , z ) p(\mathbf y|\mathbf x, \mathbf z) p(yx,z) 是我们预训练的BARTLARGE模型的微调版本(Lewis et al., 2020)。完整的设置和培训细节可以在附录 A.1 中找到。

评估:§2.2 所强调的,我们将评估重点放在 5 个明确定义的任务上。当真实值可用时,测量 ROUGE分数(Lin, 2004)和最近提出的 BERTScore (Zhang等人,2020b)。在通常没有参考摘要的控制任务中,(1) 尽可能收集基本事实摘要,(2) 检查摘要是否尊重控制信号,或(3) 求助于人工评价。

4.2 实体控制(Entity Control)

Oracle实体设置(Oracle entity setup): 我们首先遵循(Fan等人,2018)的评估,通过向模型提供从标准目标中提取的 Oracle 实体来模拟可能的用户偏好。这种设置通过揭示参考信息来“作弊”,应该被视为一个完整性检查实验,只是为了验证模型是否可以利用输入实体。

任何实体设置(Any entity setup): 我们评估模型是否可以处理不同的偏好,文档中的每个实体都是可能的输入。为此,我们采样了 100 个测试文档,并重复获取文档中的每个实体以生成摘要,紧跟 Fan 等人(2018)。然后我们计算成功率,即实际出现在输出中的请求实体的比例。报告的结果区分了实体是来自前 3 个句子还是整个文章。为了测试摘要是否与文档在事实上一致,对于 100 个文档中的每个文档,我们随机抽样一个 “重要” 的实体出现在参考文献中,一个 “不重要” 的实体既没有出现在参考文献中,也没有出现在前三个源句子中。对于每个(文章,摘要)对,我们请来自 亚马逊土耳其机器人众包网站(Amazon Mechanical Turk) 的 3 名注释者做出一个二元决定,以确定摘要是否可以来自文章。然后,我们接受大多数投票,并报告事实正确的摘要的部分。仅在 CNNDM 上进行评估,因为 arXiv 和 BIGPATENT 中的许多示例没有可识别的实体。

结果: 在表 2 中,我们观察到与使用自动关键字相比,使用 oracle 实体有助于提高 ROUGE-2 分数,这表明 CTRLSUM 能够利用给定的实体。表 3 显示了成功率和事实正确性评估。我们包括来自(Fan等人,2018)(EntityCode)的数字作为参考点,该参考点在训练期间需要进行实体标注,并且基于卷积 seq2seq 模型值得注意的是,该模型对前 3 个实体和整篇文章实体都取得了很高的成功率,达到了 95% 左右。来自人类标注者的事实正确性得分表明,无论输入实体的重要性如何,CTRLSUM 都能够生成事实一致的摘要,与 BART 基线相当。

在这里插入图片描述

表2:参考摘要中包含 oracle 实体或长度信号的 ROUGE (1/2/L)分数。AK、OE、OL 分别表示自动关键字、oracle 实体、oracle 长度。LengthCode(†)是我们使用 BART 重新实现的一个 length-control 基线(Fan等人,2018)。

在这里插入图片描述

表3:CNNDM 上的实体控制结果评估所有可能的实体输入。成功率是提到给定实体的摘要的比例,而事实正确性来自人类标注者。 BART 数字来自无约束的摘要。EntityCode(†)数字来自(Fan等人,2018),使用卷积架构。

4.3 长度控制(Length Control)

Oracle长度设置: 与实体控制类似,我们从引用中检查 Oracle 长度信号的影响以进行完整性检查。

任意长度设置: 为了考虑任何可能的长度控制信号(任何长度),我们采样 1000 个测试文档,并迭代每个长度桶以解码每个文档的几个摘要,并测量生成的摘要是否遵循指定的长度信号。具体来说,我们计算解码汇总的实际长度桶码 l s y s l_{sys} lsys 与给定长度 l r e f l_{ref} lref 的绝对偏差均值(MAD),即 1 N ∑ n N ∣ l sys ( n ) − l ref ( n ) ∣ \frac{1}{N}\sum_{n}^{N}|l_{\text{sys}}^{(n)}-l_{\text{ref}}^{(n)}| N1nNlsys(n)lref(n)。我们还报告了输入的桶代码和实际桶代码之间的皮尔逊相关系数(PCC)。我们将其与 LengthCode (Fan et al., 2018)进行比较,其中在训练和测试时,地面真实长度的桶码都放在文章的前面。在 CNNDM 和 arXiv 数据集上进行实验。

结果: 在表 2 中,使用 oracle 长度信号的 CTRLSUM 相比于自动 CTRLSUM 基线只呈现出相对较小的增益。这意味着 oracle 长度只能传达有限的额外信息来帮助生成引用。表 4 包括任意长度设置的结果。使用 oracle 长度信号时,LengthCode 未能持续改善 BART。此外,我们发现 LengthCode 几乎忽略了 PCC 接近 0 的长度信号,如表 4 所示。这可能是因为长度码的帮助不大,因此当模型通过预训练变得更强时,它更可能被忽略相比之下,长度导向关键字的 CTRLSUM 实现了控制信号与实际输出长度之间的高 PCC,与无约束基线相比能够降低长度偏差 MAD。

4.4 贡献和目的的控制(Contribution and Purpose Control)

贡献摘要设置: 没有现有的数据集评估科学论文的贡献摘要。然而,研究人员经常在介绍部分总结他们论文的项目贡献,这启发我们将它们提取出来作为参考摘要。因此,我们求助于整个 arXiv 数据库,并下载首次提交日期在 2019 年前 6 个月内的所有论文,总共有 67K 篇论文。我们使用正则表达式提取引言部分和项目符号贡献,并过滤掉失败的贡献。将贡献作为参考,删除贡献声明后的介绍部分作为源文章。这个过程有 1018 个测试示例。测试了在 arXiv 上训练的模型。

目的摘要设置: 为了收集一个以一句话发明目的摘要为特征的测试数据集,从 BIGPATENT 中采样了 1000 个测试示例,并将它们的参考摘要展示给 亚马逊土耳其机器人众包网站(Amazon Mechanical Turk) 的人类标注者。对于每个示例,我们要求一个注释者选择传达发明目的的句子。我们提供了无法确定目的的选项。在过滤掉无效样本后,我们收集了 763 个样本作为测试数据。测试了在 BIGPATENT 上训练的模型。

结果: 结果见表 5。相比于单独使用提示符的 BART, CTRLSUM 通过同时使用指导文本作为关键字和提示符,在大多数情况下取得了优越的性能。除了 F1,我们还报告了 BERTScore 中的精度§和召回率®分数。单独使用 prompt 的 BART 过度生成了一个精度低的完整摘要,特别是在专利目的摘要中需要简洁的摘要时。CTRLSUM 能够通过关键字来缓解这个问题,这些关键字指导编码器的编码过程,而不是提示符。

4.5 问题指导总结(Question-Guided Summarization)

设置: 以零样本(zero-shot)的方式直接在阅读理解基准上测试问题引导的摘要。分别在域内 NewsQA (Trischler等人,2017)和域外SQuAD 1.1(Rajpurkar等人,2016)上评估了 CNNDM 模型除了 BART 基线,还包括 GPT2 语言模型的性能(Radford等人,2019)(不进行微调)作为参考点。BART 和 GPT2 都单独使用 prompt 进行解码。我们报告开发集上的 F1 分数。

结果: BART 通过去噪任务进行了预训练,以去噪源,不出所料地在零样本设置中获得了较差的结果,如表 6 所示。然而,有趣的是,BART在摘要任务上进行了微调——没有看到任何问题-答案对——能够将NewsQA和SQuAD上的F1分数分别提高24.4和25.9分。此外,结合关键字和提示符的CTRLSUM将F1值进一步提高了15.6和17.9点,接近有监督的MatchLSTM在NewsQA上的得分。这些结果表明,摘要可能是一种适合于抽象阅读理解的迁移任务,这将留给未来的工作去探索。

在这里插入图片描述

NewsQA 和 SQuAD 开发集上的 F1 分数。P、K、FT 分别表示提示、关键字和微调。

4.6 无约束摘要(Unconstrained Summarization)

● 表 7 展示了在没有用户输入的情况下,无约束的摘要性能,其中 CTRLSUM 使用从标签器中自动提取的关键字,如 §2.3 所述。在 CNNDM 和 arXiv 数据集上,CTRLSUM(自动关键字)的性能明显优于强基线 BART 和 PEGASUS。在 BERTScore 方面,它在 BIGPATENT 上的表现与 BART 相当,尽管 ROUGE-2 得分较低。基于 BART 的模型和 PEGASUS 在 BIGPATENT 上存在性能差距,这可能是由于 CNNDM 训练数据集中有 10 篇 NewsQA 测试文章,但我们仍然将其视为无监督设置,因为我们的模型在训练期间从未看到问题或答案。BART 和 PEGASUS之间的内在区别。

在这里插入图片描述

表7:无约束的摘要性能。自动关键词来自序列标注器,oracle 关键词则利用 标准摘要获取。我们报告 oracle 的性能作为参考点。BS 表示 BERTScore。

4.7 人类评估(Human Evaluation)

● 我们提出了对可控摘要任务的人工评价结果,但请读者参考附录 B 对无约束摘要的人工评价。完整的安装细节见附录 A.2。我们专注于实体和目的控制。告诉标注者我们的意图(即获得专注于特定实体或专利目的的摘要),然后要求他们提供两个维度上的分数:(1)控制精度(Control Accuracy,CA):摘要是否包含准确的意图主要信息,以及 (2)控制相关性(Control Relevance,CR):摘要如何与总体控制意图相关-包含与意图无关的冗余内容的摘要将受到惩罚。显著性检验结果见表 8。BART 和 CTRLSUM 在重要实体控制和目的控制上的控制精度相当,但差异不显著(p-value > 0.05),而 CTRLSUM 总体上表现出更好的控制相关性,更关注所需信息。此外,BART 无法生成分数较差的不重要的天线相关摘要。

在这里插入图片描述

实体控制和目的控制实验的人工评价(等级 `1-5`,越高越好)。报道了控制精度(CA)和控制相关性(CR)。其得分显著(acc. 对 Welch 二样本 t 检验,其中 p < 0.05) 比 CTRLSUM(用∗表示) 不同。

5 相关工作(Related Work)

● 之前关于可控摘要的工作通常收集控制代码作为监督(Fan等人,2018;Liu等,2018)。例如,Fan等人(2018)利用实体标记工具从参考摘要中识别实体,并在训练期间将这些实体与文档一起输入以进行实体控制。他们还通过训练一个单独的模型来学习长度控制,该模型使用长度码作为额外的输入。其他工作主要集中在有限环境下的特定控制任务(Saito等人,2020a;Tan等人,2020;Suhara等人,2020),然而 CTRLsum 的目标是一个更通用的框架。

● 关键词引导摘要的应用背景不同,目的也不同。关键词用作额外的输入,以改进无约束的摘要或减少幻觉(Gehrmann等人,2018;Li等人,2018;Saito等人,2020b;Elsahar等人,2021年;Dou等人,2021)。CTRLsum 还与基于查询的摘要相关(Dang, 2005;Wan等人,2007;Xu和Lapata, 2020, 2022),这些方法通常使用提供注释查询的数据集,而不侧重于通用的控制任务。


6 结论

● 文中提出了一种通用的框架——CTRLSUM,通过一组关键字来进行通用的可控摘要。在 5 个不同的控制方面的实验验证了该方法的有效性。


7 参考文献

51 篇


⭐️ ⭐️ 写于2024年11月13日 11:37 教研室工位

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/13978.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【spotfire】脚本相关

文章目录 ironpython脚本使用JS实现弹出窗口思路实现效果 脚本的使用可以极大扩展spotfire的功能&#xff0c;但如何使用脚本一直不得其门而入&#xff0c;咨询厂商、查询资料&#xff0c;特此记录备忘。 ironpython脚本使用 参见官网教程&#xff1b; 部分参考资料如下&#…

嵌入式硬件杂谈(一)-推挽 开漏 高阻态 上拉电阻

引言&#xff1a;对于嵌入式硬件这个庞大的知识体系而言&#xff0c;太多离散的知识点很容易疏漏&#xff0c;因此对于这些容易忘记甚至不明白的知识点做成一个梳理&#xff0c;供大家参考以及学习&#xff0c;本文主要针对推挽、开漏、高阻态、上拉电阻这些知识点的学习。 目…

RCAgent:云故障根因分析的自主智能体工具增强型大模型

人工智能咨询培训老师叶梓 转载标明出处 由于云上计算部署的不断扩展&#xff0c;手动在线异常RCA工作流程&#xff0c;如创建故障排除工具&#xff0c;常常使网站可靠性工程师&#xff08;SRE&#xff09;应接不暇。为了提高云服务可靠性效率&#xff0c;一系列人工智能运维&…

PET-文件包含-FINISHED

include发生错误报warning&#xff0c;继续执行。require发生错误直接error&#xff0c;不继续执行 无视扩展名&#xff0c;只要能解析&#xff0c;就能当可执行文件执行&#xff0c;哪怕文件后缀或没后缀 1 条件竞争 pass17 只需要知道tmp的路径。把xieshell.jpg上传&…

基于Java+SpringBoot+Vue前后端分离课程管理系统

一、作品包含 源码数据库设计文档全套环境和工具资源部署教程 二、项目技术 前端技术&#xff1a;Html、Css、Js、Vue、Element-ui 数据库&#xff1a;MySQL 后端技术&#xff1a;Java、Spring Boot、MyBatis 三、运行环境 开发工具&#xff1a;IDEA/eclipse 数据库&…

学术界的秘密武器:Zotero7大插件推荐

还在为海量文献管理头疼吗?还在为找不到合适的插件犯愁吗?别急,今天我就要带你解锁Zotero的终极武器 - 那些让你爱不释手的必备插件! 作为一个从小白到文献管理达人的过来人,我可以负责任地说:没有这些插件,你的Zotero只能发挥一半功力!安装了这些插件,你的效率绝对能飙升! …

Linux·进程信号

信号是一种用户、OS、其他进程&#xff0c;向目标进程发送异步事件的一种方式。 在系统中信号是OS出场时程序员就内置好了的&#xff0c;因此任何进程都认识所有信号&#xff0c;信号产生之前&#xff0c;信号的处理方案就已经设定好了&#xff0c;一般有三种 1. 默认行为 2.…

BizDevOps:从理念到实践,贯通企业全链路协同

&#x1f446; 点击蓝字 关注我们 引言 BizDevOps的概念由DevOps发展和进化而来&#xff0c;其目标超越了开发和运维的协同&#xff0c;进一步实现业务、研发和运维的全链条协作&#xff0c;让业务作为价值的起点及核心目标。 BizDevOps的核心驱动力在于解决效率和正确性上的割…

工厂方法模式和抽象工厂模式

序 本文主要是记录学习设计模式当中的工厂方法和抽象工厂时碰到的疑惑和对答案的探讨 刚接触时的工厂方法模式和抽象工厂模式 工厂方法模式 类图 代码 //工厂public interface TVFactory {TV produce(); }public class TclTVFactory implements TVFactory{Overridepublic T…

NVR小程序接入平台EasyNVR多品牌NVR管理工具/设备:RTMP协议摄像头的接入

随着安防技术的不断进步&#xff0c;越来越多的摄像头开始支持RTMP&#xff08;Real Time Messaging Protocol&#xff09;协议&#xff0c;这种协议使得视频流的实时传输和分发变得更加高效和便捷。NVR小程序接入平台EasyNVR作为一款功能强大的流媒体服务器&#xff0c;支持多…

硬件基础20 数模转换器D/A DAC

目录 一、DAC基本原理 二、倒T形电阻网络D/A转换器 三、权电流型D/A转换器 四、重要技术指标与参数 1、分辨率/位数 2、转换精度 &#xff08;1&#xff09;、比例系数误差 &#xff08;2&#xff09;、失调误差 3、转换速度 4、温度系数 五、DAC的应用 1、数字式可…

Memory consistency model 梳理目录

(图片来源&#xff1a;https://mp.weixin.qq.com/s/uz4fZgJSRNm-MIRdXgBMmw) 闲聊内存模型(Memory Model)https://blog.csdn.net/zhangshangjie1/article/details/143743250?sharetypeblogdetail&sharerId143743250&sharereferPC&sharesourcezhangshangjie1&…

WPF Prism框架

Prism 是一个开源框架&#xff0c;专门用于开发可扩展、模块化和可测试的企业级 XAML 应用程序&#xff0c;适用于 WPF&#xff08;Windows Presentation Foundation&#xff09;和 Xamarin Forms 等平台。它基于 MVVM&#xff08;Model-View-ViewModel&#xff09;设计模式&am…

智能零售柜商品识别

项目源码获取方式见文章末尾&#xff01; 600多个深度学习项目资料&#xff0c;快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【基于CNN-RNN的影像报告生成】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模型实现…

SSH远程连接工具详解

SSH远程连接工具指的是基于SSH&#xff08;Secure Shell&#xff09;协议进行远程连接和管理的工具。SSH是一种加密的网络协议&#xff0c;用于在不安全的网络环境中安全地传输数据&#xff0c;并实现远程访问和管理。以下是对远程SSH工具的详细解释&#xff1a; 一、SSH协议概…

卷积层的堆叠、Stacking堆叠法

3个3x3的卷积层串联的效果则相当于1个7x7的卷积层。那为什么选择使用3个3x3的卷积层而不是使用1个7x7的卷积层呢&#xff1f; &#xff08;1&#xff09;3个串联的3x3的卷积层&#xff0c;拥有比1个7x7的卷积层更少的参数&#xff0c;参数量是后者的&#xff08;3x3x3 ) /&…

【模块一】kubernetes容器编排进阶实战之containerd安装及nerdctl客户端⼯具

安装containerd apt/yum安装 #验证仓库版本 [rootk8s-node3 ~]#apt-cache madison containerd containerd | 1.7.12-0ubuntu2~22.04.1 | https://mirrors.aliyun.com/ubuntu jammy-updates/main amd64 Packages containerd | 1.6.12-0ubuntu1~22.04.3 | https://mirrors.aliy…

公司电脑加全屏水印怎么加(怎么打水印满屏)?4个方法精选!包教包会!

在企业管理中&#xff0c;为了保护公司机密信息的安全&#xff0c;给公司电脑添加全屏水印已成为一种常见的安全措施。 全屏水印不仅可以震慑潜在的窥探者&#xff0c;还能在信息不慎泄露时提供追溯线索。 那么&#xff0c;如何给公司电脑添加全屏水印呢&#xff1f; 以下是4…

public or static包下的 html 丢了(404)? 你快回来! 我一人承受不来

没想到吧&#xff0c;我把html还是放到了jar包中&#xff5e; 环境&#xff1a; Spring Boot 版本 2.XJava 版本 1.8.0 及以上 问题&#xff1a; public or static包下的 html 丢了&#xff08;404&#xff09;&#xff1f; 话不多说先上图 我的目录结构是这样的 src └─…

使用多种机器学习调参模型进行二分类建模的全流程,代做分析辅导

使用多种机器学习调参模型进行二分类建模的全流程教程 机器学习全流程分析各个模块用到的总的参数文件 0. 分析参数文件 参数文件名称&#xff1a;total_analysis_params_demo.xlsx &#xff0c;很多分析模块都是这个总的参数文件&#xff0c;我的这个总的参数文件如果有更新…