海天瑞声11月数据集上新!这次推出的数据集包括语音识别、语音合成、多模态等领域,可用于多模态大模型训练任务,开发者可轻松应对数据瓶颈,高效提升模型性能。
印度尼西亚语语音识别数据集
泰语语音识别数据集
温柔贴心中文女声语音合成数据集
美国英语多情感语音合成数据集
人体动作视频文本对数据集
人体行为图文对数据集
监控人体图文对数据集
人脸图文对数据集
专业场景图文对数据集
通识图文对数据集
印尼语语音识别数据集-对话
印尼语是印度尼西亚的官方语言,也是马来西亚和文莱的官方语言之一,在新加坡和东帝汶也有一定数量的使用者,全球约有1.9亿人口使用印尼语。高质量印尼语数据有助于提升模型语音识别能力,助力企业拓展东南亚市场。
🔥 产品特色:数据集含 100名发音人,总时长109小时,95%以上字准确率。发音人性别均衡,年龄跨度从18岁到65岁,全面覆盖了不同年龄段的语言特征。
🚀 话题内容:家庭、健康、音乐、购物、体育、旅行、工作、食物、教育、电影、社交网络、朋友、娱乐、新闻、宠物、计算机、电视、名人、生活、结婚、天气等日常闲聊话题。
泰语语音识别数据集-对话
泰语又称泰国语或暹罗语,主要在泰国和老挝部分地区使用,全球约有6800万人口使用泰语。对话数据有助于模型理解真实场景的对话模式和语言习惯,提升对泰语理解的准确度。
🔥 产品特色:包含402名发音人,总时长超203小时,95%以上字准确率。61.69%男性和38.31%女性发音人,年龄跨度从18岁到65岁,全面覆盖了不同年龄段的语言特征。
🚀 话题内容:包括泰语独白和会话,覆盖金融、教育、医疗、技术、环境、旅游等11个行业。
中文女声语音合成数据集-温柔贴心
卓越的数据质量深受客户喜爱,成为数字人和虚拟主播的理想选择,能够助力模型生成更加自然和有吸引力的音色。
🔥 产品特色:总时长4.43小时,99%以上字准确率。音色亲切温柔,语速均匀。标注发音、韵律等细节。
🚀 话题内容:包含情侣对话、电商直播、陈述语气、自由对话等内容。覆盖愉悦、不满、害怕、温柔、抒情、悲伤、严厉、友好、低语、抱歉、兴奋、撒娇、愤怒、平静等14种情感。
美国英语多情感语音合成数据集
在游戏、有声读物、虚拟人等领域,情感丰富的语音合成数据能够提升模型语音合成效果,增加用户体验,助力国内企业出海欧美市场。
🔥 产品特色:共包括3个数据集,每种音色3小时,由2男和1女录制,3个音色年龄段。每个音色包括中性、开心、愤怒、悲伤、震惊、憎恨、害怕、大喊、哭泣、大笑、虚弱等11种情感。
人体动作视频文本对数据集
🔥 产品特色:多种场景(室内、室外),多种语言文本(中文、英文),多年龄段(青年、中年、老年)多种人体动作(包括但不限于打电话、抽烟、喝水等),文本描述视频中人员信息及人员动作内容。提供视频中主要元素的标签。
🚀 产品规模:100,000组
🖼️ 图片规格:不低于1080P,视频时长不低于5s
📝 文本规格:包含主要元素标签、中文及英文描述
人体行为图文对数据集
🔥 产品特色:多色人种室内外不同采集场景下,涵盖了常见的面部表情及丰富肢体动作,不同拍摄角度及年龄段(均为成年人)的多种人体行为图片及文本描述。
🚀 产品规模:20,000组
🖼️ 图片规格:512P及以上
📝 文本规格:包含标签,中文及英文描述
监控人体图文对数据集
🔥 产品特色:室内和室外多样采集环境,涵盖老中青不同年龄段,以及不同季节的人体图像。中英文本的描述,包含人体对应位置、方位指示等细节标注。
🚀 产品规模:20,000组
🖼️ 图片规格:720P以上
📝 文本规格:包含中文及英文描述
人脸图文对数据集
🔥 产品特色:多色人种室内外不同采集场景下,成年人佩戴口罩、眼镜、耳机,表现多种常见表情的面部图片及文本描述。
🚀 产品规模:20,000组
🖼️ 图片规格:512P及以上
📝 文本规格:包含中文及英文描述
专业场景图文对数据集
🔥 产品特色:多种场景、多时间段、多种拍摄角度的图像,图像覆盖建筑、陈列、城市街景、家庭环境、比赛场景、商场、学校、展览、自然环境等。提供对应文本描述。
🚀 产品规模:20,000组
🖼️ 图片规格:720P及以上
📝 文本规格:包含标签,中文及英文描述,中文描述大于30个汉字(不包含符号)。
通识图文对数据集
🔥 产品特色:包含人物、美食、风景、建筑、城市、乡村、健康、运动、医疗、汽车、背景、金融、教育、油画、插画、水彩、旅行、时尚、浪漫、动物、植物、太空、科技等23种类别数据。
🚀 产品规模:2,000,000组
🖼️ 图片规格:2K及以上
📝 文本规格:包含标签,中文或英文描述