语音大模型引领自然交互新时代，景联文科技推出高质量语音大模型数据库

news/2024/7/10 23:38:10 标签: 科技

近期，OpenAI正式发布语音大模型GPT-4o，可以综合利用语音、文本和视觉信息进行推理，扮演一个个人语音交互助手。

在音频处理方面，它不仅能识别和转录多种口音和方言，改变语音的速度音调和振动，还能进行声音模仿和合成，创造出自然流畅的语音内容。

高质量语音数据不仅可以丰富大语言模型处理和生成语音的能力，还能影响模型对语言深层次意义的理解，是推动人工智能迈向更加全面、自然交互的关键要素。

景联文科技是一家专业的大模型数据服务商，推出语音大模型数据库，致力于为不同训练阶段的算法精准匹配高质量数据资源。

语音大模型数据

普通话 65万小时真实人音，无背景杂音，24k真实采样率

数据规模

总时长：大于65万小时

播音人数：大于10000人

内容规模：大于6000本（部）

数据内容

语音语言: 中文普通话

语音来源: 真人主播；涵盖男女老少

内容形式: 包括单人、双人及多人录制的有声书和广播（影视）剧；其中有声书类型包括各类玄幻、都市、言情等网络小说和畅销出版物；广播（影视）剧包括小说、经典影视剧等改编录制。

质量参数

语音质量评估（PESQ）> 2

信噪比（SI-SDR）> 10

真实采样率> 20K（其中大于24K 的占比超过95% ），单通道

交付内容和格式

交付物内容:

语音文件+数据清单.xlsx

交付物总大小: 约150TB

数据准确率99%，所有数据均经过严格流程质检。

该数据集提供了丰富、清晰、准确的语音语料，主播不仅涵盖了男女老少真人的口音和不同语速，还包括了不同的情感、语调和表达方式。经过我司严格的筛选和编辑，确保语音的品质和格式符合大模型训练的需求。

景联文科技拥有丰富的语音数据采集项目经验，自建了专业的语音采集录音室，有高度还原真实场景能力，在全国30多个省市有近一万人的被采集人员储备，全球范围内也有采集渠道，支持多语种、多方言语音采集。支持语音识别ASR采集、语音合成TTS采集、唤醒词采集、多人对话采集、车载语音采集、普通话采集、方言采集、英语采集、小语种采集、近远场采集、语音VAD采集等。

支持AI算法预处理，支持本地化部署和SAAS服务。通过智能化的标注平台产品赋能AI训练数据行业，能够有效提高人机协作效率扩大产能，及时调整方案做好逾期风险管控，准确把控数据质量问题，为语音相关企业提供处理大语音数据的能力，节省企业的时间和开发成本，实现人力驱动向技术驱动的重要升级，为行业赋能。

获取样例请登录景联文科技官网咨询客服。https://www.jinglianwen.com/ai/

或直接发送需求至邮箱：lx@jinglianwen.com

景联文科技｜数据采集｜数据标注｜大语言模型数据集

助力人工智能技术，赋能传统产业智能化转型升级

文章图文著作权归景联文科技所有，商业转载请联系景联文科技获得授权，非商业转载请注明出处。