created by snowlyg
模型简介
Seamless M4T 是由 Facebook AI Research 开发的基础多语言、多任务模型。最新版本为 Seamless M4T-v2(2023-11-30)。
该模型支持:
- 语音识别(Speech → Text)
- 语音转文本翻译(Speech → Text Translation)
- 语音转语音翻译(Speech → Speech Translation)
- 文本转文本翻译(Text → Text Translation)
- 文本转语音翻译(Text → Speech Translation)
支持近 100 种输入语言与 35 种(+英语)输出语言。
Seamless M4T 主要面向 Linux x86-64 与 macOS。由于 fairseq2 对 Windows 原生支持不完善,Windows 用户建议通过 WSL 安装与运行。
硬件规格(建议)
由于模型体积与推理开销较大,建议:
- CPU:至少 4 核
- GPU:NVIDIA GPU(CUDA),至少 4GB 显存(更高更好)
- 内存:至少 16GB RAM
- 存储:至少 100GB SSD(模型下载 + 依赖缓存)
方式 A:直接用 python:3.11 容器启动(适合快速验证)
1)拉取镜像
docker pull python:3.11