引言:一篇上交大佬的著作
✅ NLP 研 2 选手的学习笔记
笔者简介:Wang Linyong,NPU,2023级,计算机技术
研究方向:文本生成、大语言模型
论文链接:https://aclanthology.org/2022.emnlp-main.396.pdf,2022 EMNLP(CCF B) 长文
项目链接:https://github.com/salesforce/ctrl-sum
中文标题:《CTRLSUM:面向通用可控的文本摘要》
文章目录
- 0 摘要(Abstract)
- 1 前言(Introduction)
- 2 方法(CTRLSUM)
- 2.1 定义(Formulation)
- 2.2 控制函数(The Control Function g c o n t r o l g_{control} gcontrol)
- 2.3 自动提取关键字(Automatic Keyword Extraction)
- 2.4 训练细节(Training Details)
- 3 控制任务示例(The Example Control Tasks)
- 3.1 通过关键字(Through Keywords)
- 3.2 结合关键词和提示(Combining Keywords and Prompts)
- 4 实验(Experiments)
- 4.1 实验细节(Experimental Details)
- 4.2 实体控制(Entity Control)
- 4.3 长度控制(Length Control)
- 4.4 贡献和目的的控制(Contribution and Purpose Control)
- 4.5 问题指导总结(Question-Guided Summarization)
- 4.6 无约束摘要(Unconstrained Summarization)
- 4.7 人类评估(Human Evaluation)
- 5 相关工作(Related Work)
- 6 结论
- 7 参考文献
0 摘要(Abstract)
● 当前的摘要系统产生的一般摘要与用户的偏好和期望脱节。为了解决这一限制,我们提出了 CTRLSUM,这是一个通过一组关键字(keywords)控制生成摘要的通用框架。在训练过程中,自动提取关键字,而不需要额外的人工注释。在测试时,CTRLSUM 具有将控制信号映射到关键字的控制函数;通过对控制函数的工程化(engineering),可以将同一个训练好的模型应用于各个维度的可控摘要,同时不影响模型的训练过程,也不影响预训练模型。我们还探索了关键字和文本提示的组合,以实现更多的控制任务。实验证明了 CTRLSUM 在 3
个领域的摘要数据集和 5
个控制任务上的有效性:(1)以实体为中心;(2)长度可控的摘要;(3)科学论文的贡献摘要;(4)专利申请的发明目的摘要;(5)新闻文章的问题导向摘要。此外,当在标准的、无约束的摘要设置中使用时,CTRLSUM 与强预训练系统相当或更好。
1 前言(Introduction)
● 神经摘要系统旨在将文档压缩为一个短段落或句子,同时保留关键信息。有两类常见的摘要系统:抽取式摘要,模型在其中查找和复制文档的重要部分 (Cheng和Lapata, 2016; Nallapati等人,2017; Narayan等人,2018) 以及抽象摘要,其中模型可以自由生成新句子 (Rush等人,2015; See et al., 2017; Paulus et al., 2018)。本文的重点是抽象式摘要。
● 在常见的设置中,摘要方法将源文档作为输入,并生成一个通用的摘要,该摘要涵盖了模型任意选择的内容。然而,为了有用,自动生成的摘要应该涵盖读者认为重要的内容。例如,图 1
显示了一篇 NBA 篮球新闻文章,而参考摘要汇总了几场比赛的结果。然而,某些球员或球队的球迷可能只对包括他们感兴趣的实体的比赛和数据感兴趣。
● 在这种观察的激励下,本文专注于可控摘要,允许用户控制生成的摘要。本文提出了 CTRLSUM,一个通过一组关键字来控制摘要的框架。在训练时,模型学习以 源文档和关键字 为条件来预测摘要,这些关键字很容易从训练摘要中识别。在推理过程中,根据特定的控制方面设计了一个控制函数,将用户偏好映射到关键词上,从而实现对摘要的控制。
● 笔者提出两个问题,然后带着问题再继续读:1. 如何从训练摘要中识别关键字?2. 在推理过程中,控制函数是怎么起作用的?
● 虽然简单,关键字提供了测试时用户控制和训练过程的清晰分离——可以通过设计测试时控制函数来控制生成摘要的不同维度,而训练过程和预训练模型保持不变。相比之下,典型的可控摘要方法(Fan等人,2018;刘等人,2018;Tan等人,2020;Suhara等人,2020;Chan等人,2021)预定义特定的控制方面(如实体、长度、主题等),并在训练过程中依赖相应的控制注释。因此,它们需要为每个控制方面训练一个单独的模型,并且不能在测试时泛化到新的控制方面。图 1
展示了这种区别。CTRLSUM 中的训练过程与具体的控制方面(aspect)无关,既可能使用单一模型生成通用可控摘要。
● CTRLSUM 与最近的关键词引导摘要方法密切相关。虽然他们主要关注提高传统的、无约束的摘要任务中的摘要质量(Li等人,2018;Elsahar等人,2021年;Saito等人,2020b;Dou et al., 2021),或只研究特定的控制方面,如长度控制(Saito et al., 2020a),本文将关键词引导的摘要归纳为一个通用的可控摘要框架,并探索其在广泛的控制任务中的新应用。此外,受到语言模型通过提示的多任务能力的启发(Radford等人,2019;Brown et al., 2020),我们进一步研究了 CTRLSUM 中关键字和提示符(prompts)的可能组合,以实现更通用的控制目的。
● 我们使用预训练的BART (Lewis等人,2020)作为底层架构,并在三个数据集上进行实验:CNN/Dailymail 新闻文章(Hermann等人,2015)、arXiv 科学论文(Cohan等人,2018)和 BIGPATENT 专利文件(Sharma等人,2019)。从 5
个控制方面定量评估了 CTRLSUM:(1)以实体为中心(§4.2
)和(2)长度可控的摘要(§4.3
),(3)总结科学论文的贡献,(4)总结一项发明的目的(§4.4
),以及(5)在零样本(zero-shot)阅读理解环境中总结对给定问题的答案(§4.5
)。值得注意的是,所提出方法还在一个标准的、无约束的设置中,在所有数据集上实现了与强大的 BART 基线相当或更优越的性能(§4.6
)。
● 我们发布了训练有素的 CTRLSUM 检查点(checkpoints),以鼓励其他人尝试使用 CTRLSUM 来控制自己的兴趣。在更高层次上,我们希望本文的探索能够引起人们对可控摘要任务的关注,并为个性化摘要系统的研究提供一个跳板。
2 方法(CTRLSUM)
2.1 定义(Formulation)
● 训练无约束神经摘要模型来学习条件分布 p ( y ∣ x ) p(\mathbf y|\mathbf x) p(y∣x),其中 x \mathbf x x 和 y \mathbf y y 分别表示源文档和摘要。在这种情况下,生成的摘要仅依赖文档 x \mathbf x x,不需要人工参与。为了控制生成摘要的内容,我们提出使用额外的关键词 z \mathbf z z 来表示用户偏好,并训练一个预测条件分布 p ( y ∣ x , z ) p(\mathbf y|\mathbf x, \mathbf z) p(y∣x,z) 的模型。
● 形式上,在训练时,使用源文档和标准摘要来识别关键字,而在测试时,它们是源文档和用户控制信号的函数:
z train = f ( x , y ) , z test = g control ( x , c ) , ( 1 ) \mathbf{ z}_\text{train}=f(\mathbf{x}, \mathbf{y}), \quad\quad\quad \mathbf{z}_\text{test}=g_{\text{control}}(\mathbf{x}, \mathbf{c}), \quad\quad\quad(1) ztrain=f(x,y),ztest=gcontrol(x,c),(1)
式中, f f f 为自动关键词提取算法, c \mathbf c c 为用户控制信号, g c o n t r o l g_{control} gcontrol 为控制函数。 c \mathbf c c 可以实例化为不同形式的控制信号(例如,实体单词或长度值),作为用户或测试阶段需要的控制任务,而不需要重新训练模型。控制功能允许根据控制任务进行不同的设计。我们接下来会详细介绍 g c o n t r o l g_{control} gcontrol,而在 §2.3
中会介绍自动关键词提取。
2.2 控制函数(The Control Function g c o n t r o l g_{control} gcontrol)
● g control ( x , c ) g_{\text{control}}(\mathbf{x}, \mathbf{c}) gcontrol(x,c) 将用户控制信号 c \mathbf c c 映射到特定的关键字。给定一个控制任务(例如实体或长度控制), g c o n t r o l g_{control} gcontrol 可以被专门设计来执行该任务,例如,在实体控制中 c = e \mathbf c = e c=e 是感兴趣的实体, g c o n t r o l g_{control} gcontrol 可以直接输出 e e e 作为关键字;在长度控制中, c = l \mathbf c = l c=l 是所需的摘要长度值,在这种情况下, g c o n t r o l g_{control} gcontrol 可以自动从源文档中提取一定数量(取决于 l l l)的关键字。这样, g c o n t r o l g_{control} gcontrol 提供了测试时用户控制和训练过程的清晰分界——通过只对控制功能进行工程改造,相同的训练模型可以适应新的控制任务,而无需更改模型参数或训练过程。这种框架是通用的,并广泛适用于许多控制方面,这与之前关于可控摘要的工作形成了对比(Fan等人,2018;Liu等人,2018),预定义了一个控制方面,并为其设计了特定的训练程序。在 §3
中,我们将展示如何将相同的模型应用于 5
个不同的可控摘要任务。
● 关于重点范围的说明: 在数学上, g control ( x , c ) g_{\text{control}}(\mathbf{x}, \mathbf{c}) gcontrol(x,c) 涵盖了用户可以在测试时直接输入任意关键字序列的用例。然而,这种开放式设置作为控制任务的定义很差——具体的控制方面是无约束的和不明确的,这给由于缺乏参考而已经很难进行可控生成的评估带来了挑战。因此,我们将重点放在 §3
中所示的几个具体的、明确定义的控制任务上。在本文中,我们没有把 CTRLSUM 作为一个开放的系统来探讨,而是把它作为未来的工作。
2.3 自动提取关键字(Automatic Keyword Extraction)
● 如等式 1
所示,训练关键词 z t r a i n \mathbf z_{train} ztrain 同时依赖于源 x \mathbf x x 和参考 y \mathbf y y,而 z t e s t \mathbf z_{test} ztest 则根据控制信号进行操作。我们进一步为 g control ( x , c ) g_{\text{control}}(\mathbf{x}, \mathbf{c}) gcontrol(x,c) 提供了一个可选的推理时自动提取关键词的方法,当控制信号 c = ∅ \mathbf c = ∅ c=∅ 时,该方法允许 CTRLSUM 执行无约束的摘要。在需要首先从 x \mathbf x x 中提取自动关键字的控制任务中,它也可能很有用。下面我们分别描述它们:
● 在训练时:我们首先从文档中贪婪地选择与参考摘要一起使 ROUGE 分数最大化的句子(Lin, 2004)这一步将关键字限制为那些在重要句子中找到的关键字。接下来,识别出所提取句子中与标准摘要中的子序列相匹配的所有最长子序列。最后,我们删除重复的单词和停用词,并将剩余的标记保留为关键字。 与典型的关键词提取方法 (Riloff 和 Lehnert, 1994;Mihalcea和Tarau, 2004) 由于只输出少量的显著词,我们的提取保留了摘要中发现的大多数实词(content words)。这是为了在输入和目标之间建立可靠的相关性,确保关键字在测试时不会被模型忽略。
● 笔者之前提出的第一个问题(1. 如何从训练摘要中识别关键字?),答案在上面。
● 在推理时: 将关键词提取表述为序列标注任务。具体来说,我们在训练数据集中的关键词和文档上训练一个基于 BERT 的序列标记器(Devlin等人,2019)。然后,该标记器计算测试文档中每个标记的选择概率 q j q_j qj。与训练时间提取类似,我们首先选择具有最高平均 token 选择概率的 n s n_s ns 个句子。在这些句子中,具有 q j > ϵ q_j >ϵ qj>ϵ 的单词被选择为 m max m_\text{max} mmax 数量最大的关键词。 n s n_s ns, ϵ ϵ ϵ, m max m_\text{max} mmax 是根据在验证数据集上的无约束摘要性能选择的超参数,结果对不同值具有合理的鲁棒性,如附录 G
所示。
● 笔者之前提出的第二个问题(2. 在推理过程中,控制函数是怎么起作用的?),答案在上面。
2.4 训练细节(Training Details)
● 我们训练了 CTRLSUM 模型来最大化 p ( y ∣ x , z ) p(\mathbf y|\mathbf x, \mathbf z) p(y∣x,z),具体来说,我们将关键词序列 z \mathbf z z 前缀到用特殊标记 = > => => 分隔的源文档 x \mathbf x x,然后将得到的序列作为模型的输入来预测摘要。我们的训练过程与模型无关,因此 CTRLSUM 可以采用任何序列到序列的架构作为骨干,而无需修改。我们注意到,这比最近的基于关键词的摘要系统简单得多 (Li等人,2018;Saito等人,2020a;Dou等人,2021),他们调整特定的模型架构以纳入关键字信号。
● 关键字丢失(dropout): 如 §2.3
所示,我们的训练关键字提取保留了摘要中的大部分实词(content words)。然而,我们发现这些关键字从经验上讲信息量太大,以至于模型在生成摘要时学会了忽略源文档。为了解决这个问题,我们在训练时随机删除关键字,以便模型学会依赖关键字,同时也学会仍然从源文档中携带关键信息。请注意,关键字的丢失仅在训练时应用。
3 控制任务示例(The Example Control Tasks)
● 在本节中,我们定义了本文研究的 5
个可控摘要任务以及各自的控制函数 g c o n t r o l g_{control} gcontrol。每个任务的定性例子如表 1
所示。
3.1 通过关键字(Through Keywords)
● 实体控制: 目标是生成聚焦于感兴趣的特定实体的摘要。我们直接使用实体词(entity word)作为关键字,即 g control ( x , c = e ) = e g_{\text{control}}(\mathbf{x}, \mathbf{c}=\mathbf{e})=\mathbf{e} gcontrol(x,c=e)=e,其中 e \mathbf{e} e 是实体。
● 长度控制: 我们允许通过用户指定的长度参数来操纵摘要的长度。具体来说,我们首先将训练数据按汇总长度分为 5
个桶,以便每个桶具有相同的示例数量。然后,我们计算每个桶在训练数据上的平均关键字数量 K l K_l Kl。在测试时,用户可以指定一个长度值 c = l ∈ { 0 , 1 , 2 , 3 , 4 } \mathbf c = l∈\{0,1,2,3,4\} c=l∈{0,1,2,3,4}, g c o n t r o l g_{control} gcontrol 返回标记器计算出的具有最高选择概率的 top- K l K_l Kl 关键字。这类似于(Saito et al., 2020a);它们使用 “指导词” 的数量来控制摘要的长度,这也可以看作是 CTRLSUM 框架的一个实例。
● 除此之外,还可以在 g c o n t r o l g_{control} gcontrol 中加入更复杂的逻辑来执行其他控制任务——例如,为了实现主题控制,可以使用外部知识源选择与给定主题词相关的关键字。
● 类似的方法已用于方面控制(aspect-controlled)的摘要(Tan et al., 2020),而它们需要一个专门定制的训练程序。我们把这种探索留作以后的工作。
3.2 结合关键词和提示(Combining Keywords and Prompts)
● 受提示预训练模型最新进展的启发(Liu等人,2021),本文探索了结合关键词和提示来执行几种不同的可控摘要任务。特别地,我们为每个任务设计了一个指导 token 序列,既用作关键字输入,也用作解码器提示。在这种情况下,控制信号 c \mathbf{c} c 将任务作为一个值, g control ( x , c ) g_{\text{control}}(\mathbf{x}, \mathbf{c}) gcontrol(x,c) 直接输出给定任务 c \mathbf{c} c 的任何 x \mathbf{x} x 的指导序列。虽然传统的摘要系统也能够利用提示来约束和控制生成,但与关键字的结合是很重要的——关键字有助于关注编码器端的控制相关内容,而单独的提示只影响解码器。因此,“关键字+提示” 可以产生最佳性能,如 §4.4
所示。接下来定义并描述了本文所研究的 3
个控制任务。
● 论文贡献总结: 现有的关于科学论文的数据集,如 arXiv (Cohan et al., 2018),收集论文摘要作为摘要,这些摘要通常包括额外的背景背景,并且缺乏相关论文的详细贡献描述。在许多情况下,读者将受益于明确的贡献列表,以了解论文的新颖性。针对这些情况,我们提出 g c o n t r o l g_{control} gcontrol = “the main contributions of this paper are: (1)
” 作为关键字和提示,以生成聚焦论文的摘要。
● 总结发明目的: 现有数据集中的专利文章摘要,如 BIGPATENT (Sharma等人,2019)可能过于复杂,往往涵盖核心方法细节。然而,对于非技术读者来说,最好提供一个关于发明目的的一句话总结,而忽略技术细节。因此,我们设置 g c o n t r o l g_{control} gcontrol = “the purpose of the present invention is
”,以产生关于专利目的的简明摘要。
● 问题引导的摘要: 人工摘要可以受到问题的限制(Kryscinski等人,2019),这些问题需要在摘要中找到答案。这指向了摘要和阅读理解之间的联系,我们将进一步探索。假设一个摘要模型,如果引导得当,可以直接回答关于文章的一些问题。这表明了将阅读理解纳入摘要形式的可能性。为了验证这一点,我们设置 g c o n t r o l g_{control} gcontrol = “Q: question text?A:
” 产生阅读理解行为。
● 我们在本节中选择的引导序列是在没有任何调优的情况下随机选择的,而在附录 F
中,我们展示了在几个人工编写的引导序列上的性能相对鲁棒。最近关于 prompt 工程的工作表明,引导序列可以进一步自动优化 (Shin等人,2020;Li和Liang, 2021),而如果没有训练数据,它们不能直接适用于控制任务。
● 我们注意到,关键字和基于提示的控制在实践中是互补的,虽然提示可以理想地实现任何类型的控制,但根据经验,它们往往在许多方面效果不好。例如,我们发现单独使用提示符(例如 “a summary focused on [entity] is:
”)很难控制实体或长度。同样,仅靠关键词很难完成论文贡献或专利目的摘要。这些经验观察验证了结合关键词和提示对更通用的可控摘要的重要性。定量分析见附录 E
。
4 实验(Experiments)
● 在本节中,我们将对 CTRLSUM 进行定量测试,所有控制任务的定性输出示例的广泛列表可以在附录H中找到。
4.1 实验细节(Experimental Details)
● 在三个不同领域的摘要数据集上进行了实验:CNN/Dailymail (CNNDM)新闻文章(Hermann等人,2015)、arXiv科学论文(Cohan等人,2018)和 BIGPATENT 专利文章(Sharma等人,2019)。CTRLSUM 中的分布 p ( y ∣ x , z ) p(\mathbf y|\mathbf x, \mathbf z) p(y∣x,z) 是我们预训练的BARTLARGE模型的微调版本(Lewis et al., 2020)。完整的设置和培训细节可以在附录 A.1
中找到。
● 评估: 如 §2.2
所强调的,我们将评估重点放在 5
个明确定义的任务上。当真实值可用时,测量 ROUGE分数(Lin, 2004)和最近提出的 BERTScore (Zhang等人,2020b)。在通常没有参考摘要的控制任务中,(1) 尽可能收集基本事实摘要,(2) 检查摘要是否尊重控制信号,或(3) 求助于人工评价。
4.2 实体控制(Entity Control)
● Oracle实体设置(Oracle entity setup): 我们首先遵循(Fan等人,2018)的评估,通过向模型提供从标准目标中提取的 Oracle 实体来模拟可能的用户偏好。这种设置通过揭示参考信息来“作弊”,应该被视为一个完整性检查实验,只是为了验证模型是否可以利用输入实体。
● 任何实体设置(Any entity setup): 我们评估模型是否可以处理不同的偏好,文档中的每个实体都是可能的输入。为此,我们采样了 100
个测试文档,并重复获取文档中的每个实体以生成摘要,紧跟 Fan 等人(2018)。然后我们计算成功率,即实际出现在输出中的请求实体的比例。报告的结果区分了实体是来自前 3
个句子还是整个文章。为了测试摘要是否与文档在事实上一致,对于 100
个文档中的每个文档,我们随机抽样一个 “重要” 的实体出现在参考文献中,一个 “不重要” 的实体既没有出现在参考文献中,也没有出现在前三个源句子中。对于每个(文章,摘要)对,我们请来自 亚马逊土耳其机器人众包网站(Amazon Mechanical Turk) 的 3
名注释者做出一个二元决定,以确定摘要是否可以来自文章。然后,我们接受大多数投票,并报告事实正确的摘要的部分。仅在 CNNDM 上进行评估,因为 arXiv 和 BIGPATENT 中的许多示例没有可识别的实体。
● 结果: 在表 2
中,我们观察到与使用自动关键字相比,使用 oracle 实体有助于提高 ROUGE-2 分数,这表明 CTRLSUM 能够利用给定的实体。表 3
显示了成功率和事实正确性评估。我们包括来自(Fan等人,2018)(EntityCode)的数字作为参考点,该参考点在训练期间需要进行实体标注,并且基于卷积 seq2seq 模型值得注意的是,该模型对前 3
个实体和整篇文章实体都取得了很高的成功率,达到了 95%
左右。来自人类标注者的事实正确性得分表明,无论输入实体的重要性如何,CTRLSUM 都能够生成事实一致的摘要,与 BART 基线相当。
4.3 长度控制(Length Control)
● Oracle长度设置: 与实体控制类似,我们从引用中检查 Oracle 长度信号的影响以进行完整性检查。
● 任意长度设置: 为了考虑任何可能的长度控制信号(任何长度),我们采样 1000
个测试文档,并迭代每个长度桶以解码每个文档的几个摘要,并测量生成的摘要是否遵循指定的长度信号。具体来说,我们计算解码汇总的实际长度桶码 l s y s l_{sys} lsys 与给定长度 l r e f l_{ref} lref 的绝对偏差均值(MAD),即 1 N ∑ n N ∣ l sys ( n ) − l ref ( n ) ∣ \frac{1}{N}\sum_{n}^{N}|l_{\text{sys}}^{(n)}-l_{\text{ref}}^{(n)}| N1∑nN∣lsys(n)−lref(n)∣。我们还报告了输入的桶代码和实际桶代码之间的皮尔逊相关系数(PCC)。我们将其与 LengthCode (Fan et al., 2018)进行比较,其中在训练和测试时,地面真实长度的桶码都放在文章的前面。在 CNNDM 和 arXiv 数据集上进行实验。
● 结果: 在表 2
中,使用 oracle 长度信号的 CTRLSUM 相比于自动 CTRLSUM 基线只呈现出相对较小的增益。这意味着 oracle 长度只能传达有限的额外信息来帮助生成引用。表 4
包括任意长度设置的结果。使用 oracle 长度信号时,LengthCode 未能持续改善 BART。此外,我们发现 LengthCode 几乎忽略了 PCC 接近 0
的长度信号,如表 4
所示。这可能是因为长度码的帮助不大,因此当模型通过预训练变得更强时,它更可能被忽略相比之下,长度导向关键字的 CTRLSUM 实现了控制信号与实际输出长度之间的高 PCC,与无约束基线相比能够降低长度偏差 MAD。
4.4 贡献和目的的控制(Contribution and Purpose Control)
● 贡献摘要设置: 没有现有的数据集评估科学论文的贡献摘要。然而,研究人员经常在介绍部分总结他们论文的项目贡献,这启发我们将它们提取出来作为参考摘要。因此,我们求助于整个 arXiv 数据库,并下载首次提交日期在 2019
年前 6
个月内的所有论文,总共有 67K
篇论文。我们使用正则表达式提取引言部分和项目符号贡献,并过滤掉失败的贡献。将贡献作为参考,删除贡献声明后的介绍部分作为源文章。这个过程有 1018
个测试示例。测试了在 arXiv 上训练的模型。
● 目的摘要设置: 为了收集一个以一句话发明目的摘要为特征的测试数据集,从 BIGPATENT 中采样了 1000
个测试示例,并将它们的参考摘要展示给 亚马逊土耳其机器人众包网站(Amazon Mechanical Turk) 的人类标注者。对于每个示例,我们要求一个注释者选择传达发明目的的句子。我们提供了无法确定目的的选项。在过滤掉无效样本后,我们收集了 763
个样本作为测试数据。测试了在 BIGPATENT 上训练的模型。
● 结果: 结果见表 5
。相比于单独使用提示符的 BART, CTRLSUM 通过同时使用指导文本作为关键字和提示符,在大多数情况下取得了优越的性能。除了 F1,我们还报告了 BERTScore 中的精度§和召回率®分数。单独使用 prompt 的 BART 过度生成了一个精度低的完整摘要,特别是在专利目的摘要中需要简洁的摘要时。CTRLSUM 能够通过关键字来缓解这个问题,这些关键字指导编码器的编码过程,而不是提示符。
4.5 问题指导总结(Question-Guided Summarization)
● 设置: 以零样本(zero-shot)的方式直接在阅读理解基准上测试问题引导的摘要。分别在域内 NewsQA (Trischler等人,2017)和域外SQuAD 1.1(Rajpurkar等人,2016)上评估了 CNNDM 模型除了 BART 基线,还包括 GPT2 语言模型的性能(Radford等人,2019)(不进行微调)作为参考点。BART 和 GPT2 都单独使用 prompt 进行解码。我们报告开发集上的 F1 分数。
● 结果: BART 通过去噪任务进行了预训练,以去噪源,不出所料地在零样本设置中获得了较差的结果,如表 6
所示。然而,有趣的是,BART在摘要任务上进行了微调——没有看到任何问题-答案对——能够将NewsQA和SQuAD上的F1分数分别提高24.4和25.9分。此外,结合关键字和提示符的CTRLSUM将F1值进一步提高了15.6和17.9点,接近有监督的MatchLSTM在NewsQA上的得分。这些结果表明,摘要可能是一种适合于抽象阅读理解的迁移任务,这将留给未来的工作去探索。
4.6 无约束摘要(Unconstrained Summarization)
● 表 7
展示了在没有用户输入的情况下,无约束的摘要性能,其中 CTRLSUM 使用从标签器中自动提取的关键字,如 §2.3
所述。在 CNNDM 和 arXiv 数据集上,CTRLSUM(自动关键字)的性能明显优于强基线 BART 和 PEGASUS。在 BERTScore 方面,它在 BIGPATENT 上的表现与 BART 相当,尽管 ROUGE-2 得分较低。基于 BART 的模型和 PEGASUS 在 BIGPATENT 上存在性能差距,这可能是由于 CNNDM 训练数据集中有 10
篇 NewsQA 测试文章,但我们仍然将其视为无监督设置,因为我们的模型在训练期间从未看到问题或答案。BART 和 PEGASUS之间的内在区别。
4.7 人类评估(Human Evaluation)
● 我们提出了对可控摘要任务的人工评价结果,但请读者参考附录 B
对无约束摘要的人工评价。完整的安装细节见附录 A.2
。我们专注于实体和目的控制。告诉标注者我们的意图(即获得专注于特定实体或专利目的的摘要),然后要求他们提供两个维度上的分数:(1)控制精度(Control Accuracy,CA):摘要是否包含准确的意图主要信息,以及 (2)控制相关性(Control Relevance,CR):摘要如何与总体控制意图相关-包含与意图无关的冗余内容的摘要将受到惩罚。显著性检验结果见表 8
。BART 和 CTRLSUM 在重要实体控制和目的控制上的控制精度相当,但差异不显著(p-value > 0.05
),而 CTRLSUM 总体上表现出更好的控制相关性,更关注所需信息。此外,BART 无法生成分数较差的不重要的天线相关摘要。
5 相关工作(Related Work)
● 之前关于可控摘要的工作通常收集控制代码作为监督(Fan等人,2018;Liu等,2018)。例如,Fan等人(2018)利用实体标记工具从参考摘要中识别实体,并在训练期间将这些实体与文档一起输入以进行实体控制。他们还通过训练一个单独的模型来学习长度控制,该模型使用长度码作为额外的输入。其他工作主要集中在有限环境下的特定控制任务(Saito等人,2020a;Tan等人,2020;Suhara等人,2020),然而 CTRLsum 的目标是一个更通用的框架。
● 关键词引导摘要的应用背景不同,目的也不同。关键词用作额外的输入,以改进无约束的摘要或减少幻觉(Gehrmann等人,2018;Li等人,2018;Saito等人,2020b;Elsahar等人,2021年;Dou等人,2021)。CTRLsum 还与基于查询的摘要相关(Dang, 2005;Wan等人,2007;Xu和Lapata, 2020, 2022),这些方法通常使用提供注释查询的数据集,而不侧重于通用的控制任务。
6 结论
● 文中提出了一种通用的框架——CTRLSUM,通过一组关键字来进行通用的可控摘要。在 5
个不同的控制方面的实验验证了该方法的有效性。
7 参考文献
51 篇
⭐️ ⭐️ 写于2024年11月13日 11:37 教研室工位