1 Whisper简介
如果希望离线识别语音,可以使用 OpenAI 的 Whisper,它是一个基于深度学习的语音识别模型,支持多语言(包括中文)。
2 Whisper安装
# 也可使用 GPU 加速(需安装 PyTorch)。
pip install openai-whisper
3 Whisper使用
import whisper
# 加载模型(第一次运行会自动下载)
model = whisper.load_model("base") # 可选 small / medium / large
# 加载音频文件并进行转录
result = model.transcribe("example.wav", language="zh") # 中文语音
print("识别结果:", result["text"])
import whisper
# 加载模型,并指定在 CPU 上使用 FP32 精度,download_root: 这是一个可选参数,用于指定模型下载的根目录。
model = whisper.load_model("small", device="cpu", download_root="./whisper_models")
# 转写音频文件(支持 mp3、wav、m4a 等格式)
result = model.transcribe("2.mp3", language="zh", fp16=False)
print("识别结果:", result["text"])