Buzz

一款GitHub开源免费的,可以离线运行的语音识别软件。它有两个功能,一个是语音转文字,一个是实时语音识别。

特点

  • 从麦克风实时转录和翻译成文本
  • 导入音频和视频文件并导出文本到 TXT、SRT 和 VTT 字幕文件
  • 支持Whisper、 Whisper.cpp、 与Whisper 兼容的 Hugging Face 模型和 OpenAI Whisper API
  • 适用于 Mac、Windows 和 Linux

安装

以Windows系统为例简单说明,软件下载完成后,双击运行,进行安装:

image-20230311153109976

根据个人情况选择是为所有用户安装,还是仅为当前用户安装

选择安装位置(老朋友都知道,小编习惯将软件安装在非系统盘,养成良好的软件安装习惯,从我做起)。

后面基本一路 Next 即可进入安装阶段,等待安装完成即可。

使用

运行 Buzz ,进入软件主界面

点击工具栏的 + 号,导入需要转文本的音频或视频文件,如下:

支持文件类型:

*.mp3,*.wav,*.m4a,*.ogg,*.mp4,*.webm,*.ogm,*.mov

打开音频后,会进入设置窗口,Model选项为语音识别的模型,第一次使用时,会根据Model下方选择的不同的质量需求,下载指定的模型,具体如下:

Task任务只有两个选项,分别为Translate(翻译)、Transcribe(转录),可根据需要进行选择

Language选项为语言设置选项,默认为detect language(自动检测语言),注意,这里的自动检测只是检测前几秒音频中的语言,稳妥起见,还是推荐自己指定语言。

设置完成,点击 Run

如上所述,第一次运行,本地没有任何模型,所以会自动开始下载模型文件,下载完成后会自动执行语音转文本任务。

状态栏显示 Completed (完成)后,使用鼠标双击这一行,就会弹出识别的字幕内容,如下:

可以看到,内容中有不少地方声音识别出来,但文字是不对的,还需要手动调整,不过小编只是为了演示,也以只选择了较小体量的Base模型,大家可以下载质量更高的模型进行尝试。

image-20230311161239929

点击字幕列表右下角 Export (导出),可以选择导出为txt、srtvtt三种格式文件。

相关下载

https://www.123pan.com/s/IcP9-ZGOCA

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习使用,请在下载后24小时内删除,严禁商用。若由于商用引起版权纠纷,一切责任均由使用者承担。