Spaces:

aiconq
/

aiapp

Sleeping

App Files Files Community

aiconq commited on Jul 12

Commit

848785c

verified ·

1 Parent(s): b29f1c8

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -30

app.py CHANGED Viewed

@@ -1,47 +1,64 @@
-import sys
 import whisper
 from transformers import MarianMTModel, MarianTokenizer
 from gtts import gTTS
 import os
 import certifi
 os.environ["SSL_CERT_FILE"] = certifi.where()
-def process_audio(input_path, output_path, target_language):
-    # Model 1: Speech-to-Text using Whisper
-    model = whisper.load_model("tiny")
-    result = model.transcribe(input_path)
     text = result["text"]
-    # Model 2: Translation (Dynamic model selection based on target_language)
-    if target_language == 'hi':  # Hindi
-        model_name = "Helsinki-NLP/opus-mt-en-hi"
-    elif target_language == 'es':  # Spanish
-        model_name = "Helsinki-NLP/opus-mt-en-es"
-    elif target_language == 'fr':  # French
-        model_name = "Helsinki-NLP/opus-mt-en-fr"
-    elif target_language == 'bn':  # Bengali
-        model_name = "shhossain/opus-mt-en-to-bn"
-    else:
-        raise ValueError(f"Unsupported target language: {target_language}")
-    # Load translation model
     tokenizer = MarianTokenizer.from_pretrained(model_name)
-    model = MarianMTModel.from_pretrained(model_name)
-    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
-    outputs = model.generate(**inputs)
-    translation = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    # Model 3: Text-to-Speech using gTTS
-    tts = gTTS(translation, lang=target_language)
-    # Save the translated text as an audio file
     tts.save(output_path)
 if __name__ == "__main__":
-    input_file = sys.argv[1]  # Path to input audio file
-    output_file = sys.argv[2]  # Path to output audio file
-    target_language = sys.argv[3]  # Target language passed from backend
-    process_audio(input_file, output_file, target_language)

 import whisper
 from transformers import MarianMTModel, MarianTokenizer
 from gtts import gTTS
+import tempfile
 import os
 import certifi
+import gradio as gr
 os.environ["SSL_CERT_FILE"] = certifi.where()
+def process_audio(audio_file, target_language):
+    # Save audio to temp file
+    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
+        tmp.write(audio_file.read())
+        tmp_path = tmp.name
+    # 1. Transcribe with Whisper
+    whisper_model = whisper.load_model("tiny")
+    result = whisper_model.transcribe(tmp_path)
     text = result["text"]
+    # 2. Translate text
+    lang_map = {
+        'hi': "Helsinki-NLP/opus-mt-en-hi",
+        'es': "Helsinki-NLP/opus-mt-en-es",
+        'fr': "Helsinki-NLP/opus-mt-en-fr",
+        'bn': "shhossain/opus-mt-en-to-bn"
+    }
+    if target_language not in lang_map:
+        return "Unsupported language selected", None
+    model_name = lang_map[target_language]
     tokenizer = MarianTokenizer.from_pretrained(model_name)
+    translation_model = MarianMTModel.from_pretrained(model_name)
+    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
+    outputs = translation_model.generate(**inputs)
+    translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # 3. Convert to speech with gTTS
+    tts = gTTS(translated_text, lang=target_language)
+    output_path = tempfile.NamedTemporaryFile(suffix=".mp3", delete=False).name
     tts.save(output_path)
+    return translated_text, output_path
+# Gradio Interface
+iface = gr.Interface(
+    fn=process_audio,
+    inputs=[
+        gr.Audio(source="upload", type="file", label="Upload English Audio"),
+        gr.Dropdown(["hi", "es", "fr", "bn"], label="Target Language")
+    ],
+    outputs=[
+        gr.Textbox(label="Translated Text"),
+        gr.Audio(label="Output Audio")
+    ],
+    title="Audio Translator",
+    description="Upload an English audio clip to transcribe it, translate it to another language, and hear it spoken."
+)
 if __name__ == "__main__":
+    iface.launch()