sheep52031 commited on
Commit
3d82360
·
verified ·
1 Parent(s): 8f73f5a

Upload README.md with huggingface_hub

Browse files
Files changed (1) hide show
  1. README.md +97 -6
README.md CHANGED
@@ -1,12 +1,103 @@
1
  ---
2
- title: Breezyvoice Hybrid
3
- emoji: 📊
4
- colorFrom: red
5
- colorTo: green
6
  sdk: gradio
7
- sdk_version: 5.44.1
8
  app_file: app.py
9
  pinned: false
 
 
 
 
 
10
  ---
11
 
12
- Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ title: BreezyVoice 混合版
3
+ emoji: 🎭
4
+ colorFrom: blue
5
+ colorTo: purple
6
  sdk: gradio
7
+ sdk_version: 4.40.0
8
  app_file: app.py
9
  pinned: false
10
+ license: apache-2.0
11
+ short_description: MediaTek BreezyVoice 零樣本語音克隆 (混合版)
12
+ hardware: zerogpu
13
+ models:
14
+ - MediaTek-Research/BreezyVoice
15
  ---
16
 
17
+ # 🎭 MediaTek BreezyVoice 混合版
18
+
19
+ **零樣本語音克隆系統** - 專為台灣繁體中文優化的混合版本
20
+
21
+ 📊 **技術架構**: HuggingFace 模型 + GitHub 推論程式碼
22
+
23
+ ## ✨ 特色
24
+
25
+ - 🇹🇼 **台灣繁體中文專門優化** - 針對台灣口音和用語習慣調整
26
+ - 🎯 **零樣本克隆** - 無需訓練,僅需 5-20 秒參考語音
27
+ - ⚡ **ZeroGPU 加速** - 免費 GPU 運算加速
28
+ - 🔊 **MediaTek 先進技術** - 頂尖語音合成模型
29
+ - 🤗 **混合架構** - HuggingFace 模型引用 + GitHub 推論程式碼
30
+
31
+ ## 🚀 使用方式
32
+
33
+ ### 步驟 1: 錄製參考語音
34
+ - 照著提供的範例文字朗讀 5-20 秒
35
+ - 確保環境安靜、發音清楚
36
+ - 支援錄音或上傳音訊檔案
37
+
38
+ ### 步驟 2: 輸入合成文字
39
+ - 輸入想要用克隆聲音說出的內容
40
+ - 支援繁體中文和英文混合
41
+
42
+ ### 步驟 3: 開始語音克隆
43
+ - 系統會自動處理並生成克隆語音
44
+ - 通常在 60-120 秒內完成
45
+
46
+ ## 📊 混合版本優勢
47
+
48
+ ### 技術架構
49
+ - ✅ **模型來源**: 直接引用 HuggingFace MediaTek-Research/BreezyVoice
50
+ - ✅ **推論程式**: 使用作者原始 GitHub mtkresearch/BreezyVoice
51
+ - ✅ **最佳實踐**: 尊重作者設計,同時展示模型使用
52
+ - ✅ **技術穩定**: 結合官方模型和原始推論程式碼
53
+
54
+ ### 與其他版本比較
55
+ - **v3.1 版本**: 完全從 GitHub clone repository
56
+ - **混合版本**: HF 模型 + GitHub 推論程式碼,兩全其美
57
+
58
+ ## 🔧 技術架構
59
+
60
+ ```
61
+ HuggingFace MediaTek-Research/BreezyVoice 模型下載
62
+
63
+ GitHub mtkresearch/BreezyVoice 推論程式碼
64
+
65
+ CustomCosyVoice + single_inference.py
66
+
67
+ Zero-shot 語音克隆推論
68
+
69
+ 22.05kHz 高品質語音輸出
70
+ ```
71
+
72
+ ## 📈 性能指標
73
+
74
+ - **模型載入時間**: ~60-120 秒 (首次)
75
+ - **推論速度**: 通常 RTF < 1.0 (實時)
76
+ - **VRAM 使用**: ~4-6GB (ZeroGPU)
77
+ - **音訊品質**: 22.05kHz, 專業級
78
+
79
+ ## 🎯 最佳實踐
80
+
81
+ 1. **參考語音品質**: 清晰無雜音,5-20 秒最佳
82
+ 2. **轉錄文字匹配**: 參考語音轉錄越準確,克隆效果越好
83
+ 3. **合成文字長度**: 建議 50-200 字,效果最自然
84
+ 4. **語言一致性**: 參考語音和合成文字使用相同語言
85
+
86
+ ## 🤖 模型資訊
87
+
88
+ - **模型**: MediaTek-Research/BreezyVoice
89
+ - **推論程式**: mtkresearch/BreezyVoice
90
+ - **架構**: CustomCosyVoice Zero-shot TTS
91
+ - **語言**: 繁體中文 (台灣) + 英文
92
+ - **採樣率**: 22.05kHz
93
+ - **聲道**: 單聲道
94
+
95
+ ## 🙏 致謝
96
+
97
+ 感謝 MediaTek Research 團隊開發 BreezyVoice 模型和推論程式碼:
98
+ - 🤗 [HuggingFace 模型](https://huggingface.co/MediaTek-Research/BreezyVoice)
99
+ - 📂 [GitHub 程式碼](https://github.com/mtkresearch/BreezyVoice)
100
+
101
+ ## 📄 授權
102
+
103
+ Apache 2.0 License - 詳見 LICENSE 檔案