语音大模型引领自然交互新时代,景联文科技推出高质量语音大模型数据库

news/2024/7/10 23:38:10 标签: 科技

近期,OpenAI正式发布语音大模型GPT-4o,可以综合利用语音、文本和视觉信息进行推理,扮演一个个人语音交互助手。

在音频处理方面,它不仅能识别和转录多种口音和方言,改变语音的速度音调和振动,还能进行声音模仿和合成,创造出自然流畅的语音内容。

高质量语音数据不仅可以丰富大语言模型处理和生成语音的能力,还能影响模型对语言深层次意义的理解,是推动人工智能迈向更加全面、自然交互的关键要素。

景联文科技是一家专业的大模型数据服务商,推出语音大模型数据库,致力于为不同训练阶段的算法精准匹配高质量数据资源。

语音大模型数据

普通话 65万小时真实人音,无背景杂音,24k真实采样率

数据规模

总时长:大于65万小时

播音人数:大于10000人

内容规模:大于6000本(部)

数据内容

语音语言: 中文普通话

语音来源: 真人主播;涵盖男女老少

内容形式: 包括单人、双人及多人录制的有声书和广播(影视)剧;其中有声书类型包括各类玄幻、都市、言情等网络小说和畅销出版物;广播(影视)剧包括小说、经典影视剧等改编录制。

质量参数

语音质量评估(PESQ)> 2

信噪比(SI-SDR)> 10

真实采样率> 20K(其中大于24K 的占比超过95% ),单通道

交付内容和格式 

交付物内容:

语音文件+数据清单.xlsx

交付物总大小: 约150TB

数据准确率99%,所有数据均经过严格流程质检。

该数据集提供了丰富、清晰、准确的语音语料,主播不仅涵盖了男女老少真人的口音和不同语速,还包括了不同的情感、语调和表达方式。经过我司严格的筛选和编辑,确保语音的品质和格式符合大模型训练的需求。

景联文科技拥有丰富的语音数据采集项目经验,自建了专业的语音采集录音室,有高度还原真实场景能力,在全国30多个省市有近一万人的被采集人员储备,全球范围内也有采集渠道,支持多语种、多方言语音采集。支持语音识别ASR采集、语音合成TTS采集、唤醒词采集、多人对话采集、车载语音采集、普通话采集、方言采集、英语采集、小语种采集、近远场采集、语音VAD采集等。

支持AI算法预处理,支持本地化部署和SAAS服务。通过智能化的标注平台产品赋能AI训练数据行业,能够有效提高人机协作效率扩大产能,及时调整方案做好逾期风险管控,准确把控数据质量问题,为语音相关企业提供处理大语音数据的能力,节省企业的时间和开发成本,实现人力驱动向技术驱动的重要升级,为行业赋能。

获取样例请登录景联文科技官网咨询客服。https://www.jinglianwen.com/ai/

或直接发送需求至邮箱:lx@jinglianwen.com

景联文科技|数据采集|数据标注|大语言模型数据集

助力人工智能技术,赋能传统产业智能化转型升级

文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。


http://www.niftyadmin.cn/n/5539687.html

相关文章

【Spring Boot】thymeleaf模板引擎

一、概述 Thymeleaf是新一代Java模板引擎,支持HTML原型,可以直接被浏览器打开,此时浏览器会忽略未定义的Thymeleaf标签属性,展示Thymeleaf模板的静态页面效果。当在应用程序中运行时,它会动态地替换掉页面设置的标签属…

智能井盖监测系统:守护城市安全的新防线

​ ​​在快速发展的现代都市中,井盖作为连接地上与地下世界的“隐形门”,其安全状态直接关系到市民的生命财产安全。随着物联网、大数据及人工智能技术的飞速发展,智能井盖监测系统的出现为解决传统井盖管理难题提供了创新方案&#xff0…

VSCode + 阿里云OSS + 图床插件Picgo

1. 引入 我前一阵发现用markdown做笔记,哇哇哇哇,好爽啊,但是有一个问题,图片的上传。因为在本地其实还好,因为本地查看就不用把图片转为网络的链接,但是在上传md(markdown)文件到c…

MySQL的Geometry数据处理之WKB方案

MySQL的Geometry数据处理之WKT方案:https://blog.csdn.net/qq_42402854/article/details/140134357 MySQL的Geometry数据处理之WKT方案中,介绍WTK方案的优点,也感受到它的繁琐和缺陷。比如: 需要借助 ST_GeomFromText和 ST_AsTex…

docker部署kafka(单节点) + Springboot集成kafka

环境: 操作系统:win10 Docker:Docker Desktop 4.21.1 (114176)、Docker Engine v24.0.2 SpringBoot:2.7.15 步骤1:创建网络: docker network create --subnet172.18.0.0/16 net-kafka 步骤2:安…

【CUDA】 由GPGPU控制核心架构考虑CUDA编程中线程块的分配

GPGPU架构特点 由于典型的GPGPU只有小的流缓存,因此一个存储器和纹理读取请求通常需要经历全局存储器的访问延迟加上互连和缓冲延迟,可能高达数百个时钟周期。与CPU通过巨大的工作集缓存而降低延迟不同,GPU硬件多线程提供了数以千计的并行独…

Vatee万腾平台:智慧生活的无限可能

在科技日新月异的今天,我们的生活正被各种智能技术悄然改变。从智能家居到智慧城市,从个人健康管理到企业数字化转型,科技的力量正以前所未有的速度渗透到我们生活的每一个角落。而在这场智能革命的浪潮中,Vatee万腾平台以其卓越的…

GuLi商城-商品服务-API-品牌管理-云存储开通与使用

这里学习下阿里云对象存储 地址:对象存储 OSS_云存储服务_企业数据管理_存储-阿里云 登录支付宝账号,找到了我以前开通的阿里云对象存储 熟悉下API 文档中心 简介_对象存储(OSS)-阿里云帮助中心 我们将用这种方式上传阿里云OSS