开源免费录音转文字工程：Buzz，免费语音转文字

发布时间：2024-09-18

Buzz是一款基于OpenAI Whisper模型的开源免费录音转文字工具。它支持离线使用，无需联网即可实现语音转文字，这一特性使其在隐私保护和网络不稳定的情况下具有独特优势。

安装Buzz相对简单。首先，从GitHub下载适用于你操作系统的安装包。然后，解压安装包并按照提示将Buzz软件安装到“应用程序”文件夹。最后，将“whisper”模型文件夹复制到“~/.cache”目录下。值得注意的是，模型文件较大，下载可能需要一定时间。

使用Buzz时，首先选择所需的语言模型。Buzz支持多种语言，包括英语、中文、法语、德语等。然后，点击“开始录音”按钮，软件会实时将你的语音转化为文字并显示在界面上。完成录音后，可以点击“导出”按钮将文本文件保存到电脑上。

在准确率和效率方面，Buzz的表现令人印象深刻。以周杰伦的歌曲《告白气球》为例，Buzz的Medium模型准确率最高，基本没有漏字情况，且能用同音字代替难以识别的部分。相比之下，Word和Adobe Premiere Pro的识别率较低，漏字情况较严重。在日常会议和视频转文字方面，Buzz的模型漏字情况较少，对于难以识别的音频会用同音字代替，而其他软件则可能直接跳过。

然而，Buzz的效率表现则因模型而异。Tiny模型处理速度较快，但准确率一般；Large模型翻译最准确，但对硬件要求高，耗时较长。例如，使用Tiny模型处理一段音频耗时约1分24秒，而使用Large模型则耗时约20分40秒。

Buzz适用于多种场景，如学习、歌曲提取歌词、视频提取字幕等。然而，由于模型较大，离线使用时对硬件性能有一定要求。此外，对于专业级的语音转文字需求，Buzz可能无法完全替代商业软件。

随着人工智能技术的快速发展，语音识别的准确率和效率正在不断提升。未来，我们有望看到更智能、更高效的语音转文字工具出现，进一步简化我们的工作和生活。