Povey正式出任小米语音首席科学家,小米移动端MACE全面支持Kaldi

发布时间:2024-09-16

Image

Daniel Povey,这位被誉为“Kaldi之父”的语音识别大牛,于2019年正式加入小米,担任集团语音首席科学家。这一举动不仅在业界引起了广泛关注,更为小米在语音技术领域的快速发展注入了强劲动力。

Povey的学术背景和从业经历堪称辉煌。他拥有剑桥大学语音识别博士学位,曾在IBM和微软从事计算机语音识别工作,后在美国约翰霍普金斯大学担任语言和语音处理中心副教授。作为Kaldi的主要开发者和维护者,Povey对语音识别技术做出了巨大贡献,其论文被引用超过4万次。

加入小米后,Povey带领团队研发出了新一代Kaldi。这一项目包含核心算法库k2、通用语音数据处理工具包Lhotse、语音识别完整解决方案Icefall以及服务端引擎Sherpa四个子项目。新一代Kaldi在缩短训练时间、提高识别率和加速解码等方面取得了显著成果,如提出的pruned RNN-T损失函数比Pytorch中的实现快了一个数量级,ZipFormer模型的识别率超过了当前最好的Conformer模型。

小米对Povey及其团队的工作给予了高度认可。2023年,新一代Kaldi团队凭借创新技术成果在小米集团的年度技术大奖评选中获得二等奖。更重要的是,新一代Kaldi技术已经开始在小米的产品中得到广泛应用。例如,在座舱领域,使用新一代Kaldi引擎后,语音识别性能得到提升,服务器成本降低了一半。

Povey对开源的坚持与小米的开源文化不谋而合。他表示:“开源对每个人都有帮助,无法想象现代机器的发展离开开源的样子。”这种理念也体现在新一代Kaldi的开发中,它不仅是一个高效的语音识别工具,更是一个开放的平台,为开发者提供了极大的灵活性和可扩展性。

展望未来,Povey和他的团队正在探索语音识别技术的新方向。他们提出了Zipformer等新技术,并开始关注Text To Speech(TTS)领域。Povey认为,随着深度学习技术的发展和硬件算力的提升,智能语音领域正进入一个新的发展阶段,需要不断更新以适应新的应用场景和技术趋势。

Povey的加入不仅提升了小米在语音技术领域的实力,也为整个行业带来了新的活力。他的故事告诉我们,顶尖人才与优秀企业的结合,能够碰撞出令人惊叹的火花,推动技术创新和产业发展。在人工智能时代,像Povey这样的技术领袖将继续引领语音识别技术的发展,为人类创造更智能、更便捷的交互方式。