全新图文对、视频文本对数据集,高效赋能多模态大模型训练任务

海天瑞声11月数据集上新!这次推出的数据集包括语音识别、语音合成、多模态等领域,可用于多模态大模型训练任务,开发者可轻松应对数据瓶颈,高效提升模型性能。

  • 印度尼西亚语语音识别数据集

  • 泰语语音识别数据集

  • 温柔贴心中文女声语音合成数据集

  • 美国英语多情感语音合成数据集

  • 人体动作视频文本对数据集

  • 人体行为图文对数据集

  • 监控人体图文对数据集

  • 人脸图文对数据集

  • 专业场景图文对数据集

  • 通识图文对数据集

图片

印尼语语音识别数据集-对话

印尼语是印度尼西亚的官方语言,也是马来西亚和文莱的官方语言之一,在新加坡和东帝汶也有一定数量的使用者,全球约有1.9亿人口使用印尼语。高质量印尼语数据有助于提升模型语音识别能力,助力企业拓展东南亚市场。 

🔥 产品特色:数据集含 100名发音人,总时长109小时95%以上字准确率。发音人性别均衡,年龄跨度从18岁到65岁,全面覆盖了不同年龄段的语言特征。

🚀 话题内容:家庭、健康、音乐、购物、体育、旅行、工作、食物、教育、电影、社交网络、朋友、娱乐、新闻、宠物、计算机、电视、名人、生活、结婚、天气等日常闲聊话题。

图片

泰语语音识别数据集-对话

泰语又称泰国语或暹罗语,主要在泰国和老挝部分地区使用,全球约有6800万人口使用泰语。对话数据有助于模型理解真实场景的对话模式和语言习惯,提升对泰语理解的准确度。

🔥 产品特色:包含402名发音人,总时长超203小时,95%以上字准确率。61.69%男性和38.31%女性发音人,年龄跨度从18岁到65岁,全面覆盖了不同年龄段的语言特征。

🚀 话题内容:包括泰语独白和会话,覆盖金融、教育、医疗、技术、环境、旅游等11个行业。

图片

中文女声语音合成数据集-温柔贴心

卓越的数据质量深受客户喜爱,成为数字人和虚拟主播的理想选择,能够助力模型生成更加自然和有吸引力的音色。

🔥 产品特色:总时长4.43小时,99%以上字准确率。音色亲切温柔,语速均匀。标注发音、韵律等细节。

🚀 话题内容:包含情侣对话、电商直播、陈述语气、自由对话等内容。覆盖愉悦、不满、害怕、温柔、抒情、悲伤、严厉、友好、低语、抱歉、兴奋、撒娇、愤怒、平静等14种情感

图片

美国英语多情感语音合成数据集

在游戏、有声读物、虚拟人等领域,情感丰富的语音合成数据能够提升模型语音合成效果,增加用户体验,助力国内企业出海欧美市场。

🔥 产品特色:共包括3个数据集,每种音色3小时,由2男和1女录制,3个音色年龄段。每个音色包括中性、开心、愤怒、悲伤、震惊、憎恨、害怕、大喊、哭泣、大笑、虚弱等11种情感。

图片

人体动作视频文本对数据集

🔥 产品特色:多种场景(室内、室外),多种语言文本(中文、英文),多年龄段(青年、中年、老年)多种人体动作(包括但不限于打电话、抽烟、喝水等),文本描述视频中人员信息及人员动作内容。提供视频中主要元素的标签。

🚀 产品规模:100,000组

🖼️ 图片规格:不低于1080P,视频时长不低于5s

📝 文本规格:包含主要元素标签、中文及英文描述

图片

人体行为图文对数据集

🔥 产品特色:多色人种室内外不同采集场景下,涵盖了常见的面部表情及丰富肢体动作,不同拍摄角度及年龄段(均为成年人)的多种人体行为图片及文本描述。

🚀 产品规模:20,000组

🖼️ 图片规格:512P及以上

📝 文本规格:包含标签,中文及英文描述

图片

监控人体图文对数据集

🔥 产品特色:室内和室外多样采集环境,涵盖老中青不同年龄段,以及不同季节的人体图像。中英文本的描述,包含人体对应位置、方位指示等细节标注。

🚀 产品规模:20,000组

🖼️ 图片规格:720P以上

📝 文本规格:包含中文及英文描述

图片

人脸图文对数据集

🔥 产品特色:多色人种室内外不同采集场景下,成年人佩戴口罩、眼镜、耳机,表现多种常见表情的面部图片及文本描述。

🚀 产品规模:20,000组

🖼️ 图片规格:512P及以上

📝 文本规格:包含中文及英文描述

图片

专业场景图文对数据集

🔥 产品特色:多种场景、多时间段、多种拍摄角度的图像,图像覆盖建筑、陈列、城市街景、家庭环境、比赛场景、商场、学校、展览、自然环境等。提供对应文本描述。

🚀 产品规模:20,000组

🖼️ 图片规格:720P及以上

📝 文本规格:包含标签,中文及英文描述,中文描述大于30个汉字(不包含符号)。

图片

通识图文对数据集

🔥 产品特色:包含人物、美食、风景、建筑、城市、乡村、健康、运动、医疗、汽车、背景、金融、教育、油画、插画、水彩、旅行、时尚、浪漫、动物、植物、太空、科技等23种类别数据。

🚀 产品规模:2,000,000组

🖼️ 图片规格:2K及以上

📝 文本规格:包含标签,中文或英文描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/34079.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

ES集群规模与角色规划

业务场景需求 业务特征 目前日志统计分析集群具有以下关键特征: 延迟要求:30秒以内并发性能:高并发读写数据容错:可容忍少量数据丢失 数据规模 每日原始日志采集量:约150GB数据查询范围: 近期数据&…

[Redis#14] 持久化 | RDB | bgsave | check-rdb | 灾备

目录 0.概述 持久化的策略 1 RDB 1.1 触发机制 1.2 流程说明 1.3 RDB 的优缺点 0.概述 在学习 MySQL 数据库时,我们了解到事务的四个核心特性:原子性、一致性、持久性和隔离性。这些特性确保了数据库操作的安全性和可靠性。当我们转向 Redis 时&a…

Modern Effective C++ 条款二十九三十:移动语义和完美转发失败的情况

条款二十九:假定移动操作不存在,成本高,未被使用 移动语义可以说是C11最主要的特性。"移动容器和拷贝指针一样开销小","拷贝临时对象现在如此高效,“写代码避免这种情况简直就是过早优化"。很多开…

C++【模板】plus

目录 一、非类型模板参数 1.引入 2.使用 二、模板特化 1.函数模板特化 2.特化失效 3.类模板特化 应用 三、*带模板的分离编译 一、非类型模板参数 1.引入 我们使用宏对某个变量进行定值,如 #define N10 --->那么N在下面使用时始终为10,如果…

Leetcode 每日一题 290.单词规律

目录 一、问题分析 二、解题思路 三、代码实现 四、复杂度分析 五、总结 在编程的世界里,我们常常会遇到各种有趣的字符串匹配问题。今天要探讨的就是这样一个问题:给定一种规律 pattern 和一个字符串 s,判断 s 是否遵循与 pattern 相同…

浅谈FRTC8563M实时时钟芯片

FRTC8563M是NYFEA徕飞公司推出的一款实时时钟芯片和日历芯片,采用MSOP-8封装形式。它具有低功耗特性,适用于电池供电的便携式设备。该芯片提供年、月、日、星期、小时、分钟和秒的计时功能,并且具有闹钟功能。FRTC8563M通过I2C总线与微控制器…

HOC vs Render Props vs Hooks

相关问题 什么是 HOC / Render Props / Hooks为什么需要 HOC / Render Props / Hooks如何提高代码复用性Hooks 的实现原理Hooks 相比其他方案有什么优势 关键点 复用性HOC / Render Props / Hooks 三种写法都可以提高代码的复用性,但实现方法不同: H…

【每天一篇深度学习论文】2024多级卷积模块MCM

目录 论文介绍题目:论文地址: 创新点方法模型总体架构双流编码器特征融合模块解码器 核心模块描述多尺度感知融合模块(MAFM)全局融合模块(GFM)多级卷积模块(MCM) 即插即用模块作用特…

Play with docker 使用ssh命令远程登录时Permission denied (publickey)

可以看到这里使用的是 ssh-ed25519 在本机生成对应密钥: ssh-keygen -t ed25519 -P "" -f ~/.ssh/id_ed25519 然后再尝试远程连接就好了。 参考:无法通过SSH连接到码头游乐场中的实例-腾讯云开发者社区-腾讯云

我眼中的“懂重构”(一)

初识重构 2017年的时候,领导让我看公司的一本书《重构——改善代码的既有设计》,这是一本JAVA版本的,前后看了2遍。那时候看书因为不懂看的格外仔细。我只是那时候不懂,然而多年后的今天我仍然发现很多人对重构充满误解。在刚进入…

数字图像处理(15):图像灰度反转和彩色反转

(1)图像反转:是指对图像的颜色信息进行相反的处理,从而得到一个新的图像。在计算机视觉和图像处理领域,图像反转是一种常见的操作,它可以帮助我们实现不同的图像特效和视觉效果。 (2&#xff09…

Ubuntu系统上mysql服务部署

前段时间搞了一个mysql服务端的部署,在Ubuntu系统上,中间也踩了许多坑,特此记录下。 下载 官网:MySQL :: MySQL Community Downloads 这个里面有不同系统的安装包,根据自己的系统选择,我选了 MySQL Com…

linux 服务器 一次性查看 CPU、内存和磁盘使用情况

创建 vi check_usage.sh #!/bin/bashecho " CPU 使用率 " mpstat -P ALL 1 1echo -e "\n 内存使用情况 " free -hecho -e "\n 磁盘使用率 " df -h执行授权 chmod x check_usage.sh执行查看 ./check_usage.sh这样可以快速获取系统资源的概览。…

Unity HDRP Water Surface 水系统 基础教程

Unity HDRP Water Surface 水系统 基础教程 Unity Water SurfaceUnity 项目创建Unity Water Surface:Ocean(海洋)简介Ocean:Transform、GeneralOcean:Simulation(仿真模拟)Ocean:Sim…

【Golang】Golang基础语法(三):常量

常量 Golang 语言当中常量的定义和其它语言类似。 const filename_in_package string "abc.txt" // 可以定义为包内常量func consts() {const filename string "abc.txt" // 可以为常量规定类型const a, b 3, 4 // 也可以不规定const…

Cesium-环境搭建

安装步骤 1.安装node.js 2.去Cesium官网下载源码包 other:npm install Cesium 通过这种方式装 ,没有装成功,主要错误提示说缺少gulp文件,具体错误如下 ​ [1/5] Validating package.json... [2/5] Resolving packages... success Already up-to-date. $ gulp prepare &a…

mysql基础学习1

useradd -r -g mysql -s /bin/false mysql (-r)系统用户 不能登录 A temporary password is generated for rootlocalhost: d>#jT7rfoaz) 看是否启动 看进程 端口 直接连接 看日志 varchar (20) char(20)更耗空间 create table student_info(id int,name varchar(20),s…

行业Know-How助力零售企业数字化转型|StartDT Talk

【StartDT Talk】“客户成功三要素”系列直播第三期圆满收官! 本期直播聚焦于三要素之一的“好的行业Know-How”(行业理解),由奇点云创始人行在和资深产研专家追风共同探讨与零售相关的行业知识,以及我们在零售行业的…

linux——进程间通信system V消息队列

Linux——命名管道及日志-CSDN博客 文章目录 目录 文章目录 前言 一、system V消息队列是什么? 二、相关库接口 1.shmget接口 2、ftok接口 3、shmget、ftok接口封装 4、共享内存操作 ​编辑 5、shmdt接口 三.函数的调用 1、查看共享内存 2、shell 四…

【Redis】not support: redis

1、查看redis进程 2、查看是否安装redis扩展,此处以宝塔为例