传神社区|数据集合集第7期|法律NLP数据集合集

自从ChatGPT等大型语言模型(Large Language Model, LLM)出现以来,其类通用人工智能(AGI)能力引发了自然语言处理(NLP)领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的较小规模LLM开源之后,业界涌现了大量基于LLM的二次微调和应用案例。

传神社区(Opencsg)旨在收集和整理与中文NLP相关的开源数据集。如果本篇文章对您有帮助,欢迎点赞与收藏~

我们也欢迎大家贡献本文未收录的开源数据集,提供对应的资源,描述与链接,感谢您的支持!

目录

1. 法律问答

      • 1.1 哈佛法学院案例语料库

      • 1.2 中文司法阅读理解数据集

      • 1.3 隐私政策问答数据集

  • 2. 法律文本摘要

    3.1 PILE法律数据集

    3.2 Fairlex评估数据集

    3.3 LexGLUE评估检索数据集

    4. 其他

    4.1 面向非结构化法律文本的spaCy pipeline和NLP模型

    4.2 罪名法务名词及分类模型

      • 2.1 英国最高法院的案例文件及其摘要数据集

      • 2.2 印度最高法院的案例文件及其摘要数据集

      • 2.3 域指导隐私政策摘要数据集

      • 2.4 美国立法自动总结语料库

      • 2.5 合同英语摘要数据集

      • 2.6 美国法律案例摘要数据集

      • 2.7 法律案件报告数据集

      • 3. 法律基准数据集

01 法律问答

1.1 哈佛法学院案例语料库

CaseHOLD:

简介:预训练语料库是通过摄取从1965年至今的整个哈佛法学院案例语料库构建的。这个语料库(37GB)的大小很大,代表了所有联邦和州法院的3,446,187个法律判决,并且比最初用于训练BERT的BookCorpus/Wikipedia语料库(15GB)的大小还要大。我们从这个语料库中随机抽取 10% 的决策作为保留集,我们用它来创建 CaseHOLD 数据集。剩下的 90% 用于预训练。

地址:https://opencsg.com/datasets/MagicAI/CaseHOLD

图片

1.2 中文司法阅读理解数据集

CJRC:

简介:中文司法阅读理解(CJRC)数据集,其中包含约10,000份文件和近50,000个带答案的问题。这些文件来自判决书,问题则由法律专家进行标注。CJRC数据集可帮助研究人员通过阅读理解技术提取要素。要素提取是法律领域的一项重要任务。

地址:https://opencsg.com/datasets/MagicAI/CJRC

图片

1.3 隐私政策问答数据集

PrivacyQA:

简介:PrivacyQA 是一个语料库,由 1750 个关于隐私政策内容的问题组成,并配有专家注释。这项工作的目标是启动该领域问答方法的开发,以解决(不切实际的)期望,即大量人口每天应该阅读许多政策。

地址:https://opencsg.com/datasets/MagicAI/PrivacyQA

02 法律文本摘要

2.1 英国最高法院的案例文件及其摘要数据集

UK-Abs :

简介:这个数据集是从英国最高法院的网站爬取的,包含了793份完整的案件文档及其对应的摘要。这些数据被分为训练集和测试集,其中693对(文档,摘要)被随机抽样作为训练数据集,剩余的100对作为测试集。

地址:https://opencsg.com/datasets/MagicAI/UK-Abs

2.2 印度最高法院的案例文件及其摘要数据集

IN-Abs:

简介:这个数据集是从印度法律信息网站爬取的,包含了7,130份完整的案件文档及其对应的摘要。这些数据被分为训练集和测试集,其中7,030对(文档,摘要)被随机抽样作为训练数据集,剩余的100对作为测试集。

地址:https://opencsg.com/datasets/MagicAI/IN-Abs

2.3 域指导隐私政策摘要数据集

Domain-Guided-Summarization-of-Privacy-Policies:

简介:本数据集提取自151家公司的隐私政策、服务条款和Cookie政策文本。要点和简明英语摘要摘自 tosdr.org。

地址:https://opencsg.com/datasets/MagicAI/Domain-Guided-Summarization-of-Privacy-Policies

2.4 美国立法自动总结语料库

BillSum:

简介:BillSum 数据集是第一个用于自动汇总美国立法的语料库。该语料库包含来自美国国会和加利福尼亚州立法机关的法案文本和人工撰写的摘要。它作为论文发表在EMNLP 2019 New Frontiers in Summarization研讨会上。

地址:https://opencsg.com/datasets/MagicAI/BillSum

图片

2.5 合同英语摘要数据集

legal_summarization :

简介:这个数据集专注于单边法律合同,如服务条款,这类合同在现代数字生活中扮演着重要角色。然而,很少有人在接受这些条款之前会阅读这些文档,因为它们通常篇幅冗长且语言复杂。为了解决这一问题,我们提出了将这些法律文档以简洁的英语进行摘要的任务,这样可以帮助用户更好地理解他们正在接受的条款。

地址:https://opencsg.com/datasets/MagicAI/legal_summarization

图片

2.6 美国法律案例摘要数据集

BVA Cases:

简介:来自美国退伍军人上诉委员会的 92 对(案例、摘要)

地址:https://www.opencsg.com/datasets/MagicAI/BVA_Cases

2.7 法律案件报告数据集

LCR

简介:包含4000个法律案例的文本语料库,用于自动摘要和引文分析。对于每份文档,我们收集标语、引文句子、引文标语和引文类别。

地址:https://www.opencsg.com/datasets/MagicAI/LCR

图片

03 法律基准数据集

3.1 PILE法律数据集

Pile of Law:

简介:我们收集了大量的法律的和行政数据。这些数据的用途有两方面:(1)汇总体现不同数据过滤规范和法律的标准的法律的和行政数据源;(2)收集一个数据集,可用于未来的法律领域语言模型预训练,这是诉诸司法举措的一个关键方向。因此,对数据源进行策划以告知:(1)法律的分析、知识或理解;(2)论点形成;(3)隐私过滤标准。像法典和法律这样的来源倾向于提供信息(1)。成绩单和法庭文件往往提供信息(2)。意见倾向于告知(1)和(3)。

地址:https://www.opencsg.com/datasets/MagicAI/pile_of_Law

图片

3.2 Fairlex评估数据集

Fairlex:

简介:我们提出了一个由四个数据集组成的基准套件,用于评估预先训练的法律语言模型的公平性,以及用于为下游任务微调它们的技术。我们的基准涵盖四个司法管辖区(欧洲理事会、美国、瑞士和中国)、五种语言(英语、德语、法语、意大利语和中文)以及五个属性(性别、年龄、国籍/地区、语言和法律领域)的公平性。在我们的实验中,我们使用几种组鲁棒微调技术评估了预训练的语言模型,并表明在许多情况下,性能组差异是活跃的,而这些技术都不能保证公平性,也不能始终如一地减轻组差异。此外,我们还对结果进行了定量和定性分析,强调了在法律NLP中开发鲁棒性方法的开放挑战。了两个数据集。

地址:https://www.opencsg.com/datasets/MagicAI/Fairlex

图片

3.3 LexGLUE评估检索数据集

LexGLUE:

简介:与 GLUE 和 SuperGLUE ( Wang et al., 2109) 一样,我们的目标之一是推动能够处理多个 NLP 任务的通用(或基础)模型,在我们的例子中是合法的 NLP 任务,可能具有有限的特定任务微调。另一个目标是为希望探索或开发法律NLP方法的NLP研究人员和从业者提供一个方便且信息丰富的切入点。考虑到这些目标,我们在 LexGLUE 中包含的数据集及其处理的任务已通过多种方式进行了简化,如下所述,以使新手和通用模型更容易解决所有任务。

地址:https://www.opencsg.com/datasets/MagicAI/LexGLUE

图片

04 其他

4.1 面向非结构化法律文本的spaCy pipeline和NLP模型

Blackstone:

简介:Blackstone 是一个 spaCy 模型和库,用于处理长格式、非结构化的法律文本。Blackstone 是英格兰和威尔士法律报告委员会研究实验室 ICLR&D 的一个实验性研究项目。

地址:https://opencsg.com/datasets/MagicAI/Blackstone

4.2 罪名法务名词及分类模型

CrimeKgAssitant:

简介:,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能.

地址:https://opencsg.com/datasets/MagicAI/CrimeKgAssitant

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1486110.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

类和对象:完结

1.再深构造函数 • 之前我们实现构造函数时,初始化成员变量主要使⽤函数体内赋值,构造函数初始化还有⼀种⽅ 式,就是初始化列表,初始化列表的使⽤⽅式是以⼀个冒号开始,接着是⼀个以逗号分隔的数据成 员列表&#xf…

嵌入式C/C++、FreeRTOS、STM32F407VGT6和TCP:智能家居安防系统的全流程介绍(代码示例)

1. 项目概述 随着物联网技术的快速发展,智能家居安防系统越来越受到人们的重视。本文介绍了一种基于STM32单片机的嵌入式安防中控系统的设计与实现方案。该系统集成了多种传感器,实现了实时监控、报警和远程控制等功能,为用户提供了一个安全、可靠的家居安防解决方案。 1.1 系…

c++ 高精度加法(只支持正整数)

再给大家带来一篇高精度,不过这次是高精度加法!话不多说,开整! 声明 与之前那篇文章一样,如果看起来费劲可以结合总代码来看 定义 由于加法进位最多进1位,所以我们的结果ans[]的长度定义为两个加数中最…

【Linux】HTTP 协议

目录 1. URL2. HTTP 协议2.1. HTTP 请求2.2. HTTP 响应 1. URL URL 表示着是统一资源定位符(Uniform Resource Locator), 就是 web 地址,俗称“网址”; 每个有效的 URL 可以通过互联网访问唯一的资源, 是互联网上标准资源的地址; URL 的主要由四个部分组成: sche…

如何查看jvm资源占用情况

如何设置jar的内存 java -XX:MetaspaceSize256M -XX:MaxMetaspaceSize256M -XX:AlwaysPreTouch -XX:ReservedCodeCacheSize128m -XX:InitialCodeCacheSize128m -Xss512k -Xmx2g -Xms2g -XX:UseG1GC -XX:G1HeapRegionSize4M -jar your-application.jar以上配置为堆内存4G jar项…

广州邀请媒体宣传(附媒体名单)

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 广州地区 媒体邀约: 记者现场采访,电视台到场报道,展览展会宣传,广交会企业宣传,工厂探班,媒体专访等。 适合广州…

自监督学习在言语障碍及老年语音识别中的应用

近几十年来针对正常言语的自动语音识别(ASR)技术取得了快速进展,但准确识别言语障碍(dysarthric)和老年言语仍然是一项极具挑战性的任务。言语障碍是一种由多种运动控制疾病引起的常见言语障碍类型,包括脑瘫…

android studio中svn的使用

第一步,建立一个项目。 第二步,share project。 第三步,选择存放的位置,然后添加提交信息,最后点击share。这样就可以在svn上面看到一个空的项目名称。 第四步,看到文件变成了绿色,点击commit图…

高翔【自动驾驶与机器人中的SLAM技术】学习笔记(三)基变换与坐标变换;微分方程;李群和李代数;雅可比矩阵

一、基变换与坐标变换 字小,事不小。 因为第一反应:坐标咋变,坐标轴就咋变呀。事实却与我们想象的相反。这俩互为逆矩阵。 第一次读没有读明白,后面到事上才明白。 起因是多传感器标定:多传感器,就代表了多个坐标系,多个基底。激光雷达和imu标定。这个标定程序,网上,…

Python机器学习入门:从理论到实践

文章目录 前言一、机器学习是什么?二、机器学习基本流程三、使用Python进行机器学习1.数据读取2.数据规范化3. 数据降维(主成分分析)4. 机器学习模型的选择5. 线性回归模型的实现6. 可视化结果 总结 前言 机器学习是人工智能的一个重要分支&…

pytorch 笔记:torch.optim.Adam

torch.optim.Adam 是一个实现 Adam 优化算法的类。Adam 是一个常用的梯度下降优化方法,特别适合处理大规模数据集和参数的深度学习模型 torch.optim.Adam(params, lr0.001, betas(0.9, 0.999), eps1e-08, weight_decay0, amsgradFalse, *, foreachNone, maximizeFa…

1小时上手Alibaba Sentinel流控安全组件

微服务的雪崩效应 假如我们开发了一套分布式应用系统,前端应用分别向A/H/I/P四个服务发起调用请求: 但随着时间推移,假如服务 I 因为优化问题,导致需要 20 秒才能返回响应,这就必然会导致20秒内该请求线程会一直处于阻…

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第三篇 嵌入式Linux驱动开发篇-第三十八章 驱动模块编译进内核

i.MX8MM处理器采用了先进的14LPCFinFET工艺,提供更快的速度和更高的电源效率;四核Cortex-A53,单核Cortex-M4,多达五个内核 ,主频高达1.8GHz,2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…

OpenAI从GPT-4V到GPT-4O,再到GPT-4OMini简介

OpenAI从GPT-4V到GPT-4O,再到GPT-4OMini简介 一、引言 在人工智能领域,OpenAI的GPT系列模型一直是自然语言处理的标杆。随着技术的不断进步,OpenAI推出了多个版本的GPT模型,包括视觉增强的GPT-4V(GPT-4 with Vision&…

Sokit(TCP/UDP调试工具)

下载:http://www.winwin7.com/soft/56522.html#xiazai Sokit中文版是一款免费开源的TCP / UDP 测试(调试)工具,它主要可以用于接收和发送TCP/UDP数据包,让你更深的了解网络状况,能够有效地接收、发送、转…

Adobe国际认证详解-从零开始学做视频剪辑

从零开始学做视频剪辑,是许多初学者面临的挑战。在这个数字媒体时代,视频剪辑已经成为一种重要的技能,无论是个人爱好还是职业发展,掌握视频剪辑技能都是非常有价值的。 视频剪辑,简称“剪辑”,是视频制作过…

创建vue3项目,以及使用示例

1.在根目录下cmd:vue create myobj(没有切换淘宝镜像记得切换,这样创建项目运行快) 2. 3.(按空格键选中,选好回撤就到下一步了) 4. 5. 6. 7. 8. 9. 10. 11. 12. 13.然后输入执行以下两步就已经运行项目了 以…

SpringMVC实现文件上传

导入文件上传相关依赖 <!--文件上传--> <dependency><groupId>commons-fileupload</groupId><artifactId>commons-fileupload</artifactId><version>1.3.1</version> </dependency> <dependency><groupId>…

鱼眼摄像头-opencv校准(基于棋盘+畸变表)

一&#xff1a;主要参数说明 1&#xff1a;内参矩阵K 是3*3的矩阵&#xff0c;其类似格式 Knp.array([ [389.2109574522624, 0.0, 630.2525667489842], [0.0, 388.505701978078, 360.7886749292513], [0.0, 0.0, 1.0]]) 2&#xff1a;畸变系数 针对鱼眼相机&#xff1a;…

粘包问题、mmap和分片上传

一、粘包问题&#xff1a; 如果一端要把文件发给另一端&#xff0c;要发送两个部分的数据&#xff1a;其一是文件名&#xff0c;用于对端创建文件&#xff1b;另一个部分是文件内容。服务端在接收文件名&#xff0c;实际上并不知道有多长&#xff0c; 所以它会试图把网络缓冲区…