Spaces:

JotunnBurton
/

wuwa-bert-vits2

Sleeping

App Files Files Community

JotunnBurton commited on Apr 17

Commit

b537b52

verified ·

1 Parent(s): 8af4859

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -144

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# app.py (fully patched)
 import sys
 import logging
@@ -62,7 +62,8 @@ def infer(*args, **kwargs):
 def tts_split(
     text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,
     language, cut_by_sent, interval_between_para, interval_between_sent,
-    reference_audio, emotion, style_text, style_weight
 ):
     if style_text == "":
         style_text = None
@@ -128,6 +129,20 @@ def tts_split(
     final_audio = np.concatenate(audio_list)
     return "Success", (hps.data.sampling_rate, final_audio)
 def load_audio(path):
     audio, sr = librosa.load(path, 48000)
     return sr, audio
@@ -172,145 +187,6 @@ def create_tts_fn(hps, net_g, device):
         return "Success", (hps.data.sampling_rate, audio)
     return tts_fn
-def create_tab(title, example, speakers, tts_fn, repid):
-    with gr.TabItem(speakers[0]):
-        gr.Markdown(
-            '<div align="center">'
-            f'<a><strong>{repid}</strong></a>'
-            f'<br>'
-            f'<a><strong>{title}</strong></a>'
-            f'<br>'
-            f'<a><strong>{speakers}</strong></a>'
-            f'</div>'
-        )
-        with gr.Row():
-            with gr.Column():
-                input_text = gr.Textbox(label="Input text", lines=5, value=example)
-                speaker = gr.Dropdown(choices=speakers, value=speakers[0], label="Speaker")
-                prompt_mode = gr.Radio(["Text prompt", "Audio prompt"], label="Prompt Mode", value="Text prompt")
-                text_prompt = gr.Textbox(label="Text prompt", value="Happy", visible=True)
-                audio_prompt = gr.Audio(label="Audio prompt", type="filepath", visible=False)
-                sdp_ratio = gr.Slider(0, 1, 0.2, 0.1, label="SDP Ratio")
-                noise_scale = gr.Slider(0.1, 2.0, 0.6, 0.1, label="Noise")
-                noise_scale_w = gr.Slider(0.1, 2.0, 0.8, 0.1, label="Noise_W")
-                length_scale = gr.Slider(0.1, 2.0, 1.0, 0.1, label="Length")
-                language = gr.Dropdown(choices=["JP", "ZH", "EN", "mix", "auto"], value="JP", label="Language")
-                btn = gr.Button("Generate Audio", variant="primary")
-            with gr.Column():
-                with gr.Accordion("Semantic Fusion", open=False):
-                    gr.Markdown(
-                        value="Use auxiliary text semantics to assist speech generation (language remains same as main text)\n\n"
-                              "**Note**: Avoid using *command-style text* (e.g., 'Happy'). Use *emotionally rich text* (e.g., 'I'm so happy!!!')\n\n"
-                              "Leave it blank to disable. \n\n"
-                              "**If mispronunciations occur, try replacing characters and inputting the original here with weight set to 1.0 for semantic retention.**"
-                    )
-                    style_text = gr.Textbox(label="Auxiliary Text")
-                    style_weight = gr.Slider(0, 1, 0.7, 0.1, label="Weight", info="Ratio between main and auxiliary BERT embeddings")
-                with gr.Row():
-                    with gr.Column():
-                        interval_between_sent = gr.Slider(0, 5, 0.2, 0.1, label="Pause between sentences (sec)")
-                        interval_between_para = gr.Slider(0, 10, 1, 0.1, label="Pause between paragraphs (sec)")
-                        opt_cut_by_sent = gr.Checkbox(label="Split by sentence")
-                        slicer = gr.Button("Split and Generate", variant="primary")
-            with gr.Column():
-                output_msg = gr.Textbox(label="Output Message")
-                output_audio = gr.Audio(label="Output Audio")
-        # Binding
-        prompt_mode.change(lambda x: gr_util(x), inputs=[prompt_mode], outputs=[text_prompt, audio_prompt])
-        audio_prompt.upload(lambda x: load_audio(x), inputs=[audio_prompt], outputs=[audio_prompt])
-        btn.click(
-            tts_fn,
-            inputs=[
-                input_text,
-                speaker,
-                sdp_ratio,
-                noise_scale,
-                noise_scale_w,
-                length_scale,
-                language,
-                audio_prompt,
-                text_prompt,
-                prompt_mode,
-                style_text,
-                style_weight,
-            ],
-            outputs=[output_msg, output_audio],
-        )
-        slicer.click(
-            tts_split,
-            inputs=[
-                input_text,
-                speaker,
-                sdp_ratio,
-                noise_scale,
-                noise_scale_w,
-                length_scale,
-                language,
-                opt_cut_by_sent,
-                interval_between_para,
-                interval_between_sent,
-                audio_prompt,
-                text_prompt,
-                style_text,
-                style_weight,
-            ],
-            outputs=[output_msg, output_audio],
-        )
-if __name__ == "__main__":
-    parser = argparse.ArgumentParser()
-    parser.add_argument("--share", default=False, help="make link public", action="store_true")
-    parser.add_argument("-d", "--debug", action="store_true", help="enable DEBUG-LEVEL log")
-    args = parser.parse_args()
-    if args.debug:
-        logger.setLevel(logging.DEBUG)
-    with open("pretrained_models/info.json", "r", encoding="utf-8") as f:
-        models_info = json.load(f)
-    device = "cuda:0" if torch.cuda.is_available() else "cpu"
-    models = []
-    for _, info in models_info.items():
-        if not info['enable']:
-            continue
-        name, title, repid, example, filename = info['name'], info['title'], info['repid'], info['example'], info['filename']
-        # 1. ลิสต์ไฟล์ใน repo ทั้งหมด
-        files = list_repo_files(repo_id=repid)
-        # 2. หา subfolder ที่มี model file อยู่
-        model_subfolder = None
-        for f in files:
-            if f.endswith(filename):
-                # แยก path ออกมาเพื่อดูว่าอยู่ใน subfolder ไหม
-                parts = f.split("/")
-                if len(parts) > 1:
-                    model_subfolder = "/".join(parts[:-1])
-                break  # เอาอันแรกที่เจอก็พอ
-        # 3. โหลดไฟล์ตาม path ที่ได้
-        if model_subfolder:
-            model_path = hf_hub_download(repo_id=repid, filename=filename, subfolder=model_subfolder)
-            config_path = hf_hub_download(repo_id=repid, filename="config.json", subfolder=model_subfolder)
-        else:
-            model_path = hf_hub_download(repo_id=repid, filename=filename)
-            config_path = hf_hub_download(repo_id=repid, filename="config.json")
-        hps = utils.get_hparams_from_file(config_path)
-        version = hps.version if hasattr(hps, "version") else "v2"
-        net_g = get_net_g(model_path, version, device, hps)
-        fn = create_tts_fn(hps, net_g, device)
-        models.append((title, example, list(hps.data.spk2id.keys()), fn))
-    with gr.Blocks(theme='NoCrypt/miku') as app:
-        gr.Markdown("## ✅ All models loaded successfully. Ready to use.")
-        with gr.Tabs():
-            for (title, example, speakers, tts_fn) in models:
-                repid = f"{title}_{speakers[0]}"  # หรือดึง repid จากที่อื่นก็ได้
-                create_tab(title, example, speakers, tts_fn, repid)
-    app.queue().launch(share=args.share)

+# ✅ Patched full version of app.py with isolated tts_split per model
 import sys
 import logging
 def tts_split(
     text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,
     language, cut_by_sent, interval_between_para, interval_between_sent,
+    reference_audio, emotion, style_text, style_weight,
+    hps, net_g, device
 ):
     if style_text == "":
         style_text = None
     final_audio = np.concatenate(audio_list)
     return "Success", (hps.data.sampling_rate, final_audio)
+def create_split_fn(hps, net_g, device):
+    def split_fn(
+        text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,
+        language, cut_by_sent, interval_between_para, interval_between_sent,
+        reference_audio, emotion, style_text, style_weight
+    ):
+        return tts_split(
+            text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,
+            language, cut_by_sent, interval_between_para, interval_between_sent,
+            reference_audio, emotion, style_text, style_weight,
+            hps=hps, net_g=net_g, device=device
+        )
+    return split_fn
 def load_audio(path):
     audio, sr = librosa.load(path, 48000)
     return sr, audio
         return "Success", (hps.data.sampling_rate, audio)
     return tts_fn
+# Then patch create_tab to accept split_fn and use it in slicer.click
+# And in the model loop, generate both tts_fn and split_fn then pass both into create_tab
+# (Same as your current setup but now split_fn is isolated per model just like tts_fn)