Spaces:

sheep52031
/

breezyvoice-hybrid

Running

App Files Files Community

sheep52031 commited on Sep 5

Commit

3d82360

verified ·

1 Parent(s): 8f73f5a

Upload README.md with huggingface_hub

Browse files

Files changed (1) hide show

README.md +97 -6

README.md CHANGED Viewed

@@ -1,12 +1,103 @@
 ---
-title: Breezyvoice Hybrid
-emoji: 📊
-colorFrom: red
-colorTo: green
 sdk: gradio
-sdk_version: 5.44.1
 app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: BreezyVoice 混合版
+emoji: 🎭
+colorFrom: blue
+colorTo: purple
 sdk: gradio
+sdk_version: 4.40.0
 app_file: app.py
 pinned: false
+license: apache-2.0
+short_description: MediaTek BreezyVoice 零樣本語音克隆 (混合版)
+hardware: zerogpu
+models:
+- MediaTek-Research/BreezyVoice
 ---
+# 🎭 MediaTek BreezyVoice 混合版
+**零樣本語音克隆系統** - 專為台灣繁體中文優化的混合版本
+📊 **技術架構**: HuggingFace 模型 + GitHub 推論程式碼
+## ✨ 特色
+- 🇹🇼 **台灣繁體中文專門優化** - 針對台灣口音和用語習慣調整
+- 🎯 **零樣本克隆** - 無需訓練，僅需 5-20 秒參考語音
+- ⚡ **ZeroGPU 加速** - 免費 GPU 運算加速
+- 🔊 **MediaTek 先進技術** - 頂尖語音合成模型
+- 🤗 **混合架構** - HuggingFace 模型引用 + GitHub 推論程式碼
+## 🚀 使用方式
+### 步驟 1: 錄製參考語音
+- 照著提供的範例文字朗讀 5-20 秒
+- 確保環境安靜、發音清楚
+- 支援錄音或上傳音訊檔案
+### 步驟 2: 輸入合成文字
+- 輸入想要用克隆聲音說出的內容
+- 支援繁體中文和英文混合
+### 步驟 3: 開始語音克隆
+- 系統會自動處理並生成克隆語音
+- 通常在 60-120 秒內完成
+## 📊 混合版本優勢
+### 技術架構
+- ✅ **模型來源**: 直接引用 HuggingFace MediaTek-Research/BreezyVoice
+- ✅ **推論程式**: 使用作者原始 GitHub mtkresearch/BreezyVoice
+- ✅ **最佳實踐**: 尊重作者設計，同時展示模型使用
+- ✅ **技術穩定**: 結合官方模型和原始推論程式碼
+### 與其他版本比較
+- **v3.1 版本**: 完全從 GitHub clone repository
+- **混合版本**: HF 模型 + GitHub 推論程式碼，兩全其美
+## 🔧 技術架構
+```
+HuggingFace MediaTek-Research/BreezyVoice 模型下載
+    ↓
+GitHub mtkresearch/BreezyVoice 推論程式碼
+    ↓
+CustomCosyVoice + single_inference.py
+    ↓
+Zero-shot 語音克隆推論
+    ↓
+22.05kHz 高品質語音輸出
+```
+## 📈 性能指標
+- **模型載入時間**: ~60-120 秒 (首次)
+- **推論速度**: 通常 RTF < 1.0 (實時)
+- **VRAM 使用**: ~4-6GB (ZeroGPU)
+- **音訊品質**: 22.05kHz, 專業級
+## 🎯 最佳實踐
+1. **參考語音品質**: 清晰無雜音，5-20 秒最佳
+2. **轉錄文字匹配**: 參考語音轉錄越準確，克隆效果越好
+3. **合成文字長度**: 建議 50-200 字，效果最自然
+4. **語言一致性**: 參考語音和合成文字使用相同語言
+## 🤖 模型資訊
+- **模型**: MediaTek-Research/BreezyVoice
+- **推論程式**: mtkresearch/BreezyVoice
+- **架構**: CustomCosyVoice Zero-shot TTS
+- **語言**: 繁體中文 (台灣) + 英文
+- **採樣率**: 22.05kHz
+- **聲道**: 單聲道
+## 🙏 致謝
+感謝 MediaTek Research 團隊開發 BreezyVoice 模型和推論程式碼：
+- 🤗 [HuggingFace 模型](https://huggingface.co/MediaTek-Research/BreezyVoice)
+- 📂 [GitHub 程式碼](https://github.com/mtkresearch/BreezyVoice)
+## 📄 授權
+Apache 2.0 License - 詳見 LICENSE 檔案