SenseVoice

SenseVoice

分类:
智能工具
更新日期:
2025-01-27 13:17
介绍

SenseVoice,一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型,enseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测,具有多语种、混合语言、音色和情感控制能力,在零样本语音生成、跨语言语音克隆和指令跟踪方面的能力表现优秀。

FunAudioLLM 通过结合先进的语音理解和生成技术,可以处理复杂的语音任务,并在多种语言环境中实现自然交。

SenseVoice可以应用于语音翻译、情感语音聊天、互动播客和富有表现力的有声读物朗读等。

SenseVoice具有音频理解能力,包括语音识别(ASR)、语种识别(LID)、语音情感识别(SER)和声学事件分类(AEC)或声学事件检测(AED)

SenseVoice性能:

多语言语音识别:经过超过40万小时的数据训练,支持50多种语言,识别性能超越Whisper模型。

丰富转录:

拥有优秀的情绪识别能力,在测试数据上达到并超越目前最好的情绪识别模型的效果。

提供声音事件检测能力,支持bgm、掌声、笑声、哭泣、咳嗽、打喷嚏等各种常见人机交互事件的检测。

高效推理:SenseVoice-Small 模型采用非自回归端到端框架,从而实现极低的推理延迟。处理 10 秒的音频仅需 70ms,比 Whisper-Large 快 15 倍。

便捷的Finetuning:提供便捷的Finetuning脚本和策略,让用户根据业务场景轻松解决长尾样本问题。

服务部署:提供服务部署管道,支持多并发请求,客户端语言包括Python、C++、HTML、Java、C#等。

在aiSHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice上测试了多语言语音识别性能和推理效率,中文和粤语,SenseVoice-Small效果好。

github:https://github.com/FunAudioLLM/SenseVoice

最新AI教程资讯
更多

AI搜索引擎彻底鸽了!OpenAI出奇招抓“内鬼”:奥特曼宣布新品发布会主角为GPT-4大模型升级

当地时间5月10日,奥特曼最新官宣:5月13日开发布会,不是GPT-5,也不是盛传的GPT搜索引擎,改成对ChatGPT应用和GPT-4的升级。

「AI科技月」启动!人工智能大厂轮番上新丨OpenAI将推出多模态AI助理丨奥特曼:iPhone是最伟大的技术产品

【AI奇点网2024年5月13日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

美国议员发起新提案,拟立法禁止美国企业向中国出口AI大模型,我们胜算几何?

近日,美国国会发起新提案,拟禁止向中国出口AI大模型,继限制中国企业采购国际上的先进半导体设备与硬件设施后,美方再次酝酿祭出人工智能领域的“制裁大棒”。

美国加州政府引入ChatGPT等AI工具辅助公务员办公,税收、交通、公卫与公共服务4大部门率先试用

美联社消息,美国加州政府正在测试ChatGPT等生成式AI,应用在税收和收费管理部、交通部、公共卫生部以及卫生与公众服务部4大部门。

OpenAI今夜发布新版GPT-4大模型:“青春版”GPT4-Lite现身,AI搜索引擎「SearchGPT」代码首曝光

OpenAI春季新品发布会前一天(当地时间5月13日发布),OpenAI的员工集体在社交平台上抽风中,上演大型套娃行为艺术,为发布会预热造势。

李开复:中国需要自己的ChatGPT级产品,当下国内的AI工具都不够好,推荐试试“零一万物”的「万知」办公平台

对于美国人来说,“ChatGPT 时刻”发生在 17 个月之前。李开复认为,中国的“ChatGPT时刻”还没有到来,直到现在,国内的聊天机器人或工具“都还不够好”。

同类最新
同类热门

网站地图