Spaces:
Running
Running
Upload README.md with huggingface_hub
Browse files
README.md
CHANGED
|
@@ -1,12 +1,103 @@
|
|
| 1 |
---
|
| 2 |
-
title:
|
| 3 |
-
emoji:
|
| 4 |
-
colorFrom:
|
| 5 |
-
colorTo:
|
| 6 |
sdk: gradio
|
| 7 |
-
sdk_version:
|
| 8 |
app_file: app.py
|
| 9 |
pinned: false
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 10 |
---
|
| 11 |
|
| 12 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
---
|
| 2 |
+
title: BreezyVoice 混合版
|
| 3 |
+
emoji: 🎭
|
| 4 |
+
colorFrom: blue
|
| 5 |
+
colorTo: purple
|
| 6 |
sdk: gradio
|
| 7 |
+
sdk_version: 4.40.0
|
| 8 |
app_file: app.py
|
| 9 |
pinned: false
|
| 10 |
+
license: apache-2.0
|
| 11 |
+
short_description: MediaTek BreezyVoice 零樣本語音克隆 (混合版)
|
| 12 |
+
hardware: zerogpu
|
| 13 |
+
models:
|
| 14 |
+
- MediaTek-Research/BreezyVoice
|
| 15 |
---
|
| 16 |
|
| 17 |
+
# 🎭 MediaTek BreezyVoice 混合版
|
| 18 |
+
|
| 19 |
+
**零樣本語音克隆系統** - 專為台灣繁體中文優化的混合版本
|
| 20 |
+
|
| 21 |
+
📊 **技術架構**: HuggingFace 模型 + GitHub 推論程式碼
|
| 22 |
+
|
| 23 |
+
## ✨ 特色
|
| 24 |
+
|
| 25 |
+
- 🇹🇼 **台灣繁體中文專門優化** - 針對台灣口音和用語習慣調整
|
| 26 |
+
- 🎯 **零樣本克隆** - 無需訓練,僅需 5-20 秒參考語音
|
| 27 |
+
- ⚡ **ZeroGPU 加速** - 免費 GPU 運算加速
|
| 28 |
+
- 🔊 **MediaTek 先進技術** - 頂尖語音合成模型
|
| 29 |
+
- 🤗 **混合架構** - HuggingFace 模型引用 + GitHub 推論程式碼
|
| 30 |
+
|
| 31 |
+
## 🚀 使用方式
|
| 32 |
+
|
| 33 |
+
### 步驟 1: 錄製參考語音
|
| 34 |
+
- 照著提供的範例文字朗讀 5-20 秒
|
| 35 |
+
- 確保環境安靜、發音清楚
|
| 36 |
+
- 支援錄音或上傳音訊檔案
|
| 37 |
+
|
| 38 |
+
### 步驟 2: 輸入合成文字
|
| 39 |
+
- 輸入想要用克隆聲音說出的內容
|
| 40 |
+
- 支援繁體中文和英文混合
|
| 41 |
+
|
| 42 |
+
### 步驟 3: 開始語音克隆
|
| 43 |
+
- 系統會自動處理並生成克隆語音
|
| 44 |
+
- 通常在 60-120 秒內完成
|
| 45 |
+
|
| 46 |
+
## 📊 混合版本優勢
|
| 47 |
+
|
| 48 |
+
### 技術架構
|
| 49 |
+
- ✅ **模型來源**: 直接引用 HuggingFace MediaTek-Research/BreezyVoice
|
| 50 |
+
- ✅ **推論程式**: 使用作者原始 GitHub mtkresearch/BreezyVoice
|
| 51 |
+
- ✅ **最佳實踐**: 尊重作者設計,同時展示模型使用
|
| 52 |
+
- ✅ **技術穩定**: 結合官方模型和原始推論程式碼
|
| 53 |
+
|
| 54 |
+
### 與其他版本比較
|
| 55 |
+
- **v3.1 版本**: 完全從 GitHub clone repository
|
| 56 |
+
- **混合版本**: HF 模型 + GitHub 推論程式碼,兩全其美
|
| 57 |
+
|
| 58 |
+
## 🔧 技術架構
|
| 59 |
+
|
| 60 |
+
```
|
| 61 |
+
HuggingFace MediaTek-Research/BreezyVoice 模型下載
|
| 62 |
+
↓
|
| 63 |
+
GitHub mtkresearch/BreezyVoice 推論程式碼
|
| 64 |
+
↓
|
| 65 |
+
CustomCosyVoice + single_inference.py
|
| 66 |
+
↓
|
| 67 |
+
Zero-shot 語音克隆推論
|
| 68 |
+
↓
|
| 69 |
+
22.05kHz 高品質語音輸出
|
| 70 |
+
```
|
| 71 |
+
|
| 72 |
+
## 📈 性能指標
|
| 73 |
+
|
| 74 |
+
- **模型載入時間**: ~60-120 秒 (首次)
|
| 75 |
+
- **推論速度**: 通常 RTF < 1.0 (實時)
|
| 76 |
+
- **VRAM 使用**: ~4-6GB (ZeroGPU)
|
| 77 |
+
- **音訊品質**: 22.05kHz, 專業級
|
| 78 |
+
|
| 79 |
+
## 🎯 最佳實踐
|
| 80 |
+
|
| 81 |
+
1. **參考語音品質**: 清晰無雜音,5-20 秒最佳
|
| 82 |
+
2. **轉錄文字匹配**: 參考語音轉錄越準確,克隆效果越好
|
| 83 |
+
3. **合成文字長度**: 建議 50-200 字,效果最自然
|
| 84 |
+
4. **語言一致性**: 參考語音和合成文字使用相同語言
|
| 85 |
+
|
| 86 |
+
## 🤖 模型資訊
|
| 87 |
+
|
| 88 |
+
- **模型**: MediaTek-Research/BreezyVoice
|
| 89 |
+
- **推論程式**: mtkresearch/BreezyVoice
|
| 90 |
+
- **架構**: CustomCosyVoice Zero-shot TTS
|
| 91 |
+
- **語言**: 繁體中文 (台灣) + 英文
|
| 92 |
+
- **採樣率**: 22.05kHz
|
| 93 |
+
- **聲道**: 單聲道
|
| 94 |
+
|
| 95 |
+
## 🙏 致謝
|
| 96 |
+
|
| 97 |
+
感謝 MediaTek Research 團隊開發 BreezyVoice 模型和推論程式碼:
|
| 98 |
+
- 🤗 [HuggingFace 模型](https://huggingface.co/MediaTek-Research/BreezyVoice)
|
| 99 |
+
- 📂 [GitHub 程式碼](https://github.com/mtkresearch/BreezyVoice)
|
| 100 |
+
|
| 101 |
+
## 📄 授權
|
| 102 |
+
|
| 103 |
+
Apache 2.0 License - 詳見 LICENSE 檔案
|