×

关于我们

关于我们

关于我们

语音互联,未来已来

北科瑞声专注智能音频领域

打造中国最开放、最专注、最落地的AI公司


2023年北科瑞声一年一个台阶

大模型、大提升


在去年的6月

北科瑞声发布了语音识别引擎 4.0

我们一直在努力

今天我们的模型更大了

在多个场景下识别能力大大提升

大模型赋能新一代语音交互引擎 

2023年是人工智能技术爆发式增长的一年,大模型促使各行业深刻变革。应用大模型,北科瑞声语音交互产品全面升级,各项核心产品激发更深能力。

北科瑞声的语音识别引擎从4.0升级到了5.0,语音智能感知能力再一次提升。我们使用了更多的不同场景的语音数据,采用多种策略优化训练过程,采用了最新的Paraformer框架,也引入了大型语言模型(LLM),在与行业融合的应用中进一步提升模型效果及场景适配能力,使得新语音识别引擎的准确性获得极大提升。

大模型提升语音转写准确性

2023年是大模型元年,LLM的应用广度超乎想象。在语音交互中,同样离不开LLM。通过升级的声学模型配合更大的100亿级参数混合语言LLM,并实现实时的多轮最优路径搜索。大模型,大提升,更懂你的语音。

多种环境下语音转写鲁棒性强

不同的语音采集设备、信道干扰和复杂背景噪声,是语音转写的极大挑战。新一代的识别引擎融合多种算法优化对底层声学特性的建模,同时大模型增加对高层语义和场景的感知,是复杂环境下语音转写错误显著减少。

中英文随意说

通过在训练优化,大模型的引入,以及多层次多轮路径得分重估的解码算法,可以实现inter-sentential和intra-sentential的code-switching中文混合语音识别;无论母语发音还是非母语发音都可处理。

秒级新词学习

行业用户都有各自领域的一套专业词汇和专业表述,对于行业信息系统具有重要的意义。最新快速热词导入算法,将语音识别引擎4.0所需几分钟学会成千上万的专业词汇,提升到10秒级别,可以做到每个用户都有自己的专用词库。

断网部署更加安全

智能应用,安全优先。为了更加安全可靠的智能语音应用,我们实现了现有智能语音大模型本地化断网部署,实时语音转写、角色分离、智能分段等功能一机搞定。移动部署,开机即用,保障安全。

面向未来的VoiceGPT

行业语音大模型将是智能语音的新前沿,在通用的LLM基础上,结合行业数据和用户数据将来可实现行业的VoiceGPT。北科瑞声正在研发自己的VoiceGPT,将应用在北科瑞声智能语音云平台和各项产品上。智能语音大模型将赋能千行百业。

声识未来·尽享其能

语音大模型·更懂你的声音