code stt是一个用于语音识别转文本的工具,专为离线使用设计。以下是关于这个项目的简介: https://github.com/jianchang512/stt/tree/0.0 用途:这个工具可以将音频或视频内容转换为文本,支持生成JSON、带时间戳的SRT格式以及纯文本格式的输出。 支持的模型:它使用了faster-whisper模型进行语音到文本的转换。支持的模型包括tiny、base、small、medium、large等,有通用和英语专用版本。此外,还提到了一个whisper-large-v3-turbo模型,可以通过稍作源代码修改来添加。 安装与设置: Windows:用户需要创建一个空目录,克隆该仓库到该目录中,设置Python虚拟环境,安装依赖(如果使用NVIDIA GPU,还需特别安装CUDA支持),并将ffmpeg和ffprobe的可执行文件放置在项目目录中以处理媒体文件。 跨平台支持:项目支持CUDA加速以实现更快的处理速度,并提供了下载CUDA工具包和cuDNN的说明。 这个工具旨在提供一个高效、灵活的离线语音识别解决方案,适合需要将音频或视频内容转为文本的各种应用场景。 stt+模型文件 https://www.123684.com/s/Xs6uVv-u981h https://pan.baidu.com/s/1LcfENSQ39f260jEsQYFr4w?pwd=a89f 提取码:a89f