FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型

今天要和大家分享的是阿里开源的一款语音大模型：FunAudioLLM，该项目仅开源2周，便已经获得了2.3K的收藏量，这增长速度在github已属于重点关注项目了！接下来，将详细讲解FunAudioLLM是什么？已经如何使用它！

FunAudioLLM是什么？

FunAudioLLM是阿里巴巴通义实验室推出的革命性开源语音大模型项目，包含了两个杰出模型：SenseVoice（语音识别）和CosyVoice（语音生成）。这不仅是技术的进步，更是语音交互的未来。

SenseVoice模型主要功能特点

多语言语音识别：支持超过50种语言，特别在中文和粤语上表现卓越。它比 Whisper-small 快 5 倍，比 Whisper-large 快 15 倍。
情绪识别：通过检测语音的音调、节奏和语调变化，识别语音中的情绪，如快乐、悲伤、愤怒等。
音频事件检测：可检测各种人机交互事件，如背景音乐、掌声、笑声、哭声、咳嗽声和打喷嚏声。

CosyVoice模型主要功能特点

情感调控：支持中英日粤韩五种语言，轻松控制音色和情感。
快速生成：根据少量原始音频，快速生成高质量模拟音色，细腻的韵律和情感细节如同艺术品般呈现。
跨语种能力：实现跨语种语音生成，精准控制情感细节。
多角色对话：它可以生成多字符对话语音，适用于互动播客和情感聊天等场景。

FunAudioLLM语音生成效果展示

videoplayback (1).mp4

FunAudioLLM 如何使用？

快速体验FunAudioLLM

官网地址

地址：https://fun-audio-llm.github.io/

CosyVoice（语音合成）在线体验地址

地址：https://www.modelscope.cn/studios/iic/CosyVoice-300M
按截图操作，选择好预置音色，再输入需要生成音频的文本，点击生成音频即可快速实现！

SenseVoice （语音识别）在线体验地址

地址：https://www.modelscope.cn/studios/iic/SenseVoice
进到体验地址，把音频直接拖进来，支持目前全部主流语言格式！选择好输出语言，即可快速完成语音识别

GitHub仓库地址

地址：https://github.com/FunAudioLLM
如果想搭建相关语音识别或者语音合成到本地，也可以把git上源码下载到本地机器，完成本地安装

arXiv技术论文地址

地址：https://arxiv.org/abs/2407.04051
以下是FunAudioLLM相关的论文实验报告

FunAudioLLM的应用场景有哪些？

开发者和研究人员：在语音识别、语音合成和情感分析领域，FunAudioLLM是你的理想伙伴。
企业用户：提升客户服务、智能助手和多语言翻译的效率和用户体验。
内容创作者：生成有声读物和播客，让你的内容更具吸引力。
教育领域：用于语言学习和听力训练，激发学习兴趣和提高效率。
残障人士：帮助视障人士通过语音交互获取信息，提升生活便利性。

总结

FunAudioLLM不仅是技术的结晶，更是开启语音交互新时代的钥匙。立即体验，让你的项目焕发新的生命力！

AI资讯互联

#AI音频

FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型

http://example.com/2024/07/19/AI资讯互联/FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型/

作者

技术Z先生

发布于

2024年7月19日

许可协议

AI变现之路分享上一篇

使用hexo快速搭建个人博客下一篇