语音大模型，能力大提升--北科瑞声语音识别引擎5.0升级上线_

关于我们

语音互联，未来已来

北科瑞声专注智能音频领域

打造中国最开放、最专注、最落地的AI公司

2023年北科瑞声一年一个台阶

大模型、大提升

在去年的6月

北科瑞声发布了语音识别引擎 4.0

我们一直在努力

今天我们的模型更大了

在多个场景下识别能力大大提升

大模型赋能新一代语音交互引擎

2023年是人工智能技术爆发式增长的一年，大模型促使各行业深刻变革。应用大模型，北科瑞声语音交互产品全面升级，各项核心产品激发更深能力。

北科瑞声的语音识别引擎从4.0升级到了5.0，语音智能感知能力再一次提升。我们使用了更多的不同场景的语音数据，采用多种策略优化训练过程，采用了最新的Paraformer框架，也引入了大型语言模型（LLM），在与行业融合的应用中进一步提升模型效果及场景适配能力，使得新语音识别引擎的准确性获得极大提升。

大模型提升语音转写准确性

2023年是大模型元年，LLM的应用广度超乎想象。在语音交互中，同样离不开LLM。通过升级的声学模型配合更大的100亿级参数混合语言LLM，并实现实时的多轮最优路径搜索。大模型，大提升，更懂你的语音。

多种环境下语音转写鲁棒性强

不同的语音采集设备、信道干扰和复杂背景噪声，是语音转写的极大挑战。新一代的识别引擎融合多种算法优化对底层声学特性的建模，同时大模型增加对高层语义和场景的感知，是复杂环境下语音转写错误显著减少。

中英文随意说

通过在训练优化，大模型的引入，以及多层次多轮路径得分重估的解码算法，可以实现inter-sentential和intra-sentential的code-switching中文混合语音识别；无论母语发音还是非母语发音都可处理。

秒级新词学习

行业用户都有各自领域的一套专业词汇和专业表述，对于行业信息系统具有重要的意义。最新快速热词导入算法，将语音识别引擎4.0所需几分钟学会成千上万的专业词汇，提升到10秒级别，可以做到每个用户都有自己的专用词库。

断网部署更加安全

智能应用，安全优先。为了更加安全可靠的智能语音应用，我们实现了现有智能语音大模型本地化断网部署，实时语音转写、角色分离、智能分段等功能一机搞定。移动部署，开机即用，保障安全。

面向未来的VoiceGPT

行业语音大模型将是智能语音的新前沿，在通用的LLM基础上，结合行业数据和用户数据将来可实现行业的VoiceGPT。北科瑞声正在研发自己的VoiceGPT，将应用在北科瑞声智能语音云平台和各项产品上。智能语音大模型将赋能千行百业。

声识未来·尽享其能

语音大模型·更懂你的声音