這是一個使用 nvidia/parakeet-tdt-0.6b-v2 模型的 Python 專案,專門用於將語音轉換成文字 (Speech-to-Text)。
- 支援影片和音訊檔案的語音轉寫
- 自動檢測並使用 GPU 加速(如果可用)
- 智慧記憶體管理,支援長音訊分段處理
- 支援多種輸入格式(透過 FFmpeg 轉換)
注意:此專案僅輸出純文字格式。如需時間軸字幕(SRT)格式,建議使用 Whisper 模型。
| 元件 | 最低需求 | 建議配置 |
|---|---|---|
| CPU | 任何現代多核心處理器 | - |
| 記憶體 | 8GB RAM | 16GB+ RAM |
| GPU | 4GB VRAM NVIDIA GPU | 6GB+ VRAM NVIDIA GPU |
注意:
- 使用 4GB VRAM GPU 時會自動啟用分段處理功能
- 無 GPU 時可使用 CPU 運行,但處理速度較慢
| 軟體 | 版本要求 |
|---|---|
| 作業系統 | Windows 10/11, macOS, 或 Linux |
| Python | 3.10(建議)或 3.9-3.11 |
| CUDA | 11.7+ (僅在使用 GPU 時必要) |
- 前往 Python 官網 下載 Python 3.10
- 安裝時請勾選「Add Python to PATH」選項
- 完成安裝後,開啟終端機輸入
python --version確認版本
- 使用 Chocolatey(推薦):
choco install ffmpeg
- 或手動安裝:
- 從 FFmpeg 官方建置 下載
- 解壓縮到
C:\Program Files\ffmpeg - 將
C:\Program Files\ffmpeg\bin加入系統環境變數 PATH
brew install ffmpegsudo apt update && sudo apt install ffmpeg- 前往 NVIDIA CUDA 下載頁面
- 選擇適合您作業系統的 CUDA 11.7 或更新版本
- 按照安裝嚮導完成安裝
- 重啟電腦
pip install moviepy torch torchaudio nemo_toolkit[asr]執行以下命令來驗證環境設置:
# 檢查 Python 版本
python --version # 應顯示 3.10.x(或 3.9.x-3.11.x)
# 檢查 FFmpeg
ffmpeg -version # 應顯示 FFmpeg 版本資訊
# 檢查 CUDA(若使用 GPU)
nvidia-smi # 應顯示 GPU 資訊和 CUDA 版本
# 檢查 Python 套件
pip list | findstr "moviepy torch torchaudio nemo_toolkit"
# 檢查 GPU 支援
python -c "import torch; print(f'GPU 可用: {torch.cuda.is_available()}')"
# 檢查 NeMo
python -c "from nemo.collections.asr.models import EncDecCTCModelBPE; print('NeMo ASR 已安裝')"- Clone 專案:
git clone https://github.com/s30122/yeh-asr-use-nvidia-parakeet-tdt-0.6b-v2.git
cd yeh-asr-use-nvidia-parakeet-tdt-0.6b-v2- 執行程式:
python main.py-
選擇檔案類型:
- 1:音訊檔案(.wav 或 .flac)
- 2:影片檔案(自動提取音訊)
-
輸入檔案路徑並等待處理
轉錄結果會自動儲存為「原檔名_轉寫結果.txt」
- 處理長音訊時,程式會自動分段處理以避免顯存不足
- 若要處理大型檔案,建議使用具有更多 VRAM 的 GPU