简易的 Whisper 客户端，使用 OpenAI API 进行语音转文字

目录展开

Whisper 是一个由 OpenAI 训练并开源的神经网络，在英语语音识别方面的稳健性和准确性接近人类水平。当然也支持包括中文在内的多种语言。除了使用本地电脑的 CPU 与 GPU 进行语音转文字以外，实际上还可以直接使用用由 OpenAI 提供的服务进行语音转文字。站长找到的这个开源项目，就简单的提供了这项服务。@Appinn

#语音转文字的产品不少了，但本地（使用自己的电脑）的居多：

利用 iPhone 本地算力：

语音文字助手 – 基于 iPhone 原生语音识别，免费不限量的语音转文字、文字转语音应用

Windows，支持 GPU：

Whisper – 本地语音转文字工具，支持 GPU、支持实时语音转换[Windows]

利用 Windows 原生功能：

利用 Windows 10/11 原生语音输入功能，实现无限量、免费「语音转文字」

跨平台，基于 Whisper：

Buzz – 开源、可离线的实时语音转文字工具

等等，但本地的一个劣势是需要电脑性能好一些，并且还需要下载巨大的模型文件。如果偶尔用一次，真不如不折腾 😂

felixbade/transcribe 项目

这个项目名叫 transcribe，实际上它只有三个文件：index.html、index.js、style.css，只需要下载、解压缩，将 index.html 拖到浏览器里就能用：

然后，在顶部输入你的 OpenAI API key（和 ChatGPT 同一个），就可以选择音频文件进行转换了，支持文本、.srt、.vtt 三种格式。

它会直接将文本输出在页面上，而不是提供文件下载：

所以，转换成功之后，只需要将内容复制，放到文本编辑器中，保存为 .srt 就行了。

简单易用，三个文件加起来也只有 13KB…

另外，开发者也提供了一个 DEMO 页面，可以直接使用。

获取

GitHub
DEMO（可直接使用）
搬运

API 价格

另外需要注意，Whisper API 的价格为 $0.006 / 分钟。

作为对比，讯飞听见价格为 ¥128/5小时（快算下按分钟多少钱 😂），不过根据朋友反馈，讯飞的中文效果要好于 Whisper。