发布时间:2024-09-15
Daniel Povey,被誉为“Kaldi之父”的语音识别专家,近日在接受采访时表示:“开源环境比金钱和荣誉更吸引我。”这句话道出了这位AI领域顶尖科学家对开源文化的执着追求。
Povey的开源理念深深植根于他的职业生涯。2009年,他在约翰霍普金斯大学夏季研讨会结束后,决定开发一个工具包来普及正在研究的想法,Kaldi由此诞生。这个开源项目在最初的研讨会大约两年后终于完成,迅速成为业界语音识别框架的基石。据称,有关介绍Kaldi的论文被引用7000多次,Povey博士的论文也被引用了4万多次。
Kaldi的成功不仅体现在学术引用上,更在于其广泛的应用。自2011年发布以来,成千上万的人下载了Kaldi,几乎所有的语音团队都在使用Kaldi引擎来开发智能解决方案,包括MIT、哈佛、清华、微软、谷歌、Facebook等顶尖机构。Povey表示,他开发Kaldi的初心是“创建一个语音识别研发平台,使大学研究人员和小公司能够获得与大公司一样好的效果。”
Kaldi的开源模式为AI领域树立了典范。它不仅促进了技术的快速传播和广泛应用,还形成了一个活跃的开发者社区。Povey透露,直到今天,仍有人在Kaldi上贡献代码。这种持续的社区参与,是开源项目生命力的源泉。
然而,随着深度学习技术的飞速发展,Povey也看到了Kaldi的局限性。他意识到,Kaldi很难跟上深度神经网络库cuDNN等现代工具和模型架构的最新发展。因此,他决定开发新一代Kaldi,以适应新的应用场景和技术趋势。
新一代Kaldi由k2、Lhotse和Icefall三个独立项目组成,是一个全新的代码库,完全重新编写,主要由C++和CUDA完成,并可以在Python调用。Povey特别强调,新一代Kaldi与PyTorch兼容,可以从机器学习的最新发展中获益,并且代码更容易修改,比原来的Kaldi代码库灵活得多。
Povey对开源的坚持,反映了他对AI技术发展的深刻洞察。他认为,开源项目可以让很多人使用,并共同参与贡献,从而产生深远的影响。相比之下,闭源项目很难实现这样的广泛参与和持续创新。
然而,开源并非没有挑战。Povey在选择加入小米时,就考虑到了公司对开源的态度。他透露,除了小米,也有其他大型互联网公司希望他能加入,但他担心有些公司会在起初保证项目的开源,但过一两年后改变主意。选择小米是因为它是一家稳定的公司,同时也表现出对开源的重视,并承诺可以在这里一直做开源项目。
Povey的经历启示我们,在AI技术快速发展的今天,开源文化仍然具有不可替代的价值。它不仅能够加速技术的传播和应用,还能形成一个开放、协作的创新生态。在这个生态中,大公司、小企业和学术机构都能平等参与,共同推动技术的进步。
正如Povey所说:“开源对每个人都有帮助,无法想象现代机器的发展离开开源的样子。”在AI时代,开源精神或许正是推动技术普惠、促进公平竞争的关键力量。