jam-f5

Running on Zero

App Files Files Community

zameer2662 commited on Aug 7

Commit

bd7c702

verified ·

1 Parent(s): fb3e959

Update gradio_app.py

Browse files

Files changed (1) hide show

gradio_app.py +25 -22

gradio_app.py CHANGED Viewed

@@ -1,13 +1,25 @@
 import os
 import re
 import torch
 import torchaudio
 import gradio as gr
-import warnings
 import numpy as np
 import tempfile
 from einops import rearrange
-warnings.filterwarnings("ignore", message=".*weights_only=False.*", category=FutureWarning)
 from vocos import Vocos
 from pydub import AudioSegment, silence
 from model import CFM, UNetT, DiT, MMDiT
@@ -20,7 +32,6 @@ from model.utils import (
 )
 from transformers import pipeline
 import librosa
-import click
 import soundfile as sf
 try:
@@ -79,6 +90,7 @@ speed = 1.0
 fix_duration = None
 def load_model(repo_name, exp_name, model_cls, model_cfg, ckpt_step):
     ckpt_path = str(cached_path(f"hf://SWivid/{repo_name}/{exp_name}/model_{ckpt_step}.safetensors"))
     # ckpt_path = f"ckpts/{exp_name}/model_{ckpt_step}.pt"  # .pt | .safetensors
@@ -212,6 +224,7 @@ def split_text_into_batches(text, max_chars=200, split_words=SPLIT_WORDS):
     return batches
 def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence, progress=gr.Progress()):
     if exp_name == "F5-TTS":
         ema_model = F5TTS_ema_model
@@ -296,6 +309,7 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
     return (target_sample_rate, final_wave), spectrogram_path
 def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, custom_split_words=''):
     if not custom_split_words.strip():
         custom_words = [word.strip() for word in custom_split_words.split(',')]
@@ -345,6 +359,7 @@ def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, custom_s
     gr.Info(f"Generating audio using {exp_name} in {len(gen_text_batches)} batches")
     return infer_batch((audio, sr), ref_text, gen_text_batches, exp_name, remove_silence)
 def generate_podcast(script, speaker1_name, ref_audio1, ref_text1, speaker2_name, ref_audio2, ref_text2, exp_name, remove_silence):
     # Split the script into speaker blocks
     speaker_pattern = re.compile(f"^({re.escape(speaker1_name)}|{re.escape(speaker2_name)}):", re.MULTILINE)
@@ -681,6 +696,7 @@ with gr.Blocks() as app_emotional:
     # Output audio
     audio_output_emotional = gr.Audio(label="Synthesized Audio")
     def generate_emotional_speech(
         regular_audio,
         regular_ref_text,
@@ -803,24 +819,11 @@ If you're having issues, try converting your reference audio to WAV or MP3, clip
     )
     gr.TabbedInterface([app_tts, app_podcast, app_emotional, app_credits], ["TTS", "Podcast", "Multi-Style", "Credits"])
-@click.command()
-@click.option("--port", "-p", default=None, type=int, help="Port to run the app on")
-@click.option("--host", "-H", default=None, help="Host to run the app on")
-@click.option(
-    "--share",
-    "-s",
-    default=False,
-    is_flag=True,
-    help="Share the app via Gradio share link",
-)
-@click.option("--api", "-a", default=True, is_flag=True, help="Allow API access")
-def main(port, host, share, api):
-    global app
-    print(f"Starting app...")
-    app.queue(api_open=api).launch(
-        server_name=host, server_port=port, share=share, show_api=api
     )
-if __name__ == "__main__":
-    main()

+# Requirements for Hugging Face Spaces:
+# torch
+# torchaudio
+# gradio
+# numpy
+# einops
+# vocos
+# pydub
+# cached_path
+# transformers
+# librosa
+# soundfile
+# spaces
 import os
 import re
 import torch
 import torchaudio
 import gradio as gr
 import numpy as np
 import tempfile
 from einops import rearrange
 from vocos import Vocos
 from pydub import AudioSegment, silence
 from model import CFM, UNetT, DiT, MMDiT
 )
 from transformers import pipeline
 import librosa
 import soundfile as sf
 try:
 fix_duration = None
+@gpu_decorator
 def load_model(repo_name, exp_name, model_cls, model_cfg, ckpt_step):
     ckpt_path = str(cached_path(f"hf://SWivid/{repo_name}/{exp_name}/model_{ckpt_step}.safetensors"))
     # ckpt_path = f"ckpts/{exp_name}/model_{ckpt_step}.pt"  # .pt | .safetensors
     return batches
+@gpu_decorator
 def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence, progress=gr.Progress()):
     if exp_name == "F5-TTS":
         ema_model = F5TTS_ema_model
     return (target_sample_rate, final_wave), spectrogram_path
+@gpu_decorator
 def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, custom_split_words=''):
     if not custom_split_words.strip():
         custom_words = [word.strip() for word in custom_split_words.split(',')]
     gr.Info(f"Generating audio using {exp_name} in {len(gen_text_batches)} batches")
     return infer_batch((audio, sr), ref_text, gen_text_batches, exp_name, remove_silence)
+@gpu_decorator
 def generate_podcast(script, speaker1_name, ref_audio1, ref_text1, speaker2_name, ref_audio2, ref_text2, exp_name, remove_silence):
     # Split the script into speaker blocks
     speaker_pattern = re.compile(f"^({re.escape(speaker1_name)}|{re.escape(speaker2_name)}):", re.MULTILINE)
     # Output audio
     audio_output_emotional = gr.Audio(label="Synthesized Audio")
+    @gpu_decorator
     def generate_emotional_speech(
         regular_audio,
         regular_ref_text,
     )
     gr.TabbedInterface([app_tts, app_podcast, app_emotional, app_credits], ["TTS", "Podcast", "Multi-Style", "Credits"])
+    print(f"Starting app on Hugging Face Spaces...")
+    app.queue(api_open=True).launch(
+        server_name="0.0.0.0",
+        server_port=7860,
+        share=False,
+        show_api=True
     )