9月18日,在2020年Yunqi会议上,佛学院(Dharma Academy)宣布了语音AI技术的最新突破:设备上的语音识别和语音合成功能首次达到了可与云媲美的水平,这意味着将来,个人用户可以使用移动终端。
轻松体验接近真实人群的语音技术。
据报道,达摩学院最新的语音技术已在淘宝直播,DingTalk,AutoNavi导航等场景中得到了大规模应用,并向外界全面开放。
语音AI的核心是使机器能够理解人类的语音和语音。
语音合成和语音识别技术是实现这些目标的基础。
但是,由于该行业在过去几年中未能在语音模型上进行突破性创新,因此高精度语音交互任务长期以来一直依赖于云计算能力,从而导致诸如不可避免地延迟语音命令处理之类的问题。
这次,佛法学院率先创新算法模型,推出了E2E-ASR端到端语音识别技术和全新的端到端KAN-TTS语音合成技术,实现了接近语音识别和合成效果。
首次在移动终端上云。
据报道,在语音识别方面,达摩学院提出了一种SAN-M网络结构和一种基于SCAMA的流媒体端到端语音识别框架,可以提高计算效率,并在困难场景中将语音识别错误率降低近一半。
30%。
。
由Dharma Academy开发的语音识别系统可以完全离线且低成本地部署在手机上。
原型系统不到40MB,识别效果可媲美达摩学院上一代的DFSMN-CTC云系统(超过100GB)。
去年发布了自主开发的仿真率达97%的KAN-TTS语音合成模型后,达摩研究所(Dharma Institute)已实现了“大减肥”。
移动终端上的语音模型。
与云相比,终端上的模型尺寸减少了101倍。
计算量被压缩了35倍,并且可以通过终端的计算能力快速再现接近真实人的声音。
例如,AutoNavi Maps最近发布了李嘉琪,林志玲,小团团和其他使用佛法学院新语音技术合成的星空导航语音包。
语音效果比以前更自然,即使断开网络连接,语音导航也不会中断。
佛法学院语音实验室负责人严志杰说:“在终端上处理语音任务一直是学术界和工业界的难题。
佛法学院的最新语音技术有效地释放了终端设备的功能,使终端可以轻松地处理语音任务。
,我们相信,在终端计算能力和云计算能力的共同支持下,语音交互将在未来无处不在”。
在过去的几年中,阿里巴巴语音AI取得了一系列突破。
2019年,阿里巴巴语音AI被美国麻省理工学院评论评选为``全球十大突破性技术''之一,并且是名单上唯一的中国技术公司; IDC于今年7月发布了有关中国AI云服务市场的半年度研究报告。
阿里巴巴语音AI以44%的市场份额在云语音AI市场中排名第一。