Spaces:

amedcj
/

kmr_asr

Sleeping

App Files Files Community

amedcj commited on Jun 16

Commit

28251cb

verified ·

1 Parent(s): d33dce2

Update app.py

Browse files

Updated app.py

Files changed (1) hide show

app.py +76 -37

app.py CHANGED Viewed

@@ -4,9 +4,6 @@ import sys
 # Force upgrade gradio
 subprocess.check_call([sys.executable, "-m", "pip", "install", "--upgrade", "gradio>=4.44.0"])
-import gradio as gr
-import numpy as np
 from transformers import (
     pipeline,
     WhisperForConditionalGeneration,
@@ -14,49 +11,91 @@ from transformers import (
     WhisperFeatureExtractor,
     GenerationConfig
 )
-print("🔧 Loading ASR components...")
-# Load generation config and remove forced_decoder_ids
-gen_config = GenerationConfig.from_pretrained("amedcj/whisper-kurmanji")
-gen_config.forced_decoder_ids = None
-# Load model and set generation config directly
-model = WhisperForConditionalGeneration.from_pretrained("amedcj/whisper-kurmanji")
-model.generation_config = gen_config
-# Load tokenizer and feature extractor
-tokenizer = AutoTokenizer.from_pretrained("amedcj/whisper-kurmanji")
-feature_extractor = WhisperFeatureExtractor.from_pretrained("amedcj/whisper-kurmanji")
-# Create the ASR pipeline
-asr = pipeline(
-    "automatic-speech-recognition",
-    model=model,
-    tokenizer=tokenizer,
-    feature_extractor=feature_extractor,
-    device=-1  # CPU
-)
-def transcribe(audio_path):
-    print("📥 Transcription triggered")
-    if audio_path is None:
-        return "Please upload an audio file."
-    array, sampling_rate = librosa.load(audio_path, sr=None)
-    result = asr({"array": array, "sampling_rate": sampling_rate})
-    return result["text"]
-# Gradio Interface using Blocks with a Submit button (compatible with HF Spaces)
-with gr.Blocks() as demo:
-    gr.Markdown("## 🗣️ Kurdish ASR Demo")
-    audio_input = gr.Audio(type="filepath", label="🎤 Upload Kurdish Audio")
-    submit_btn = gr.Button("Submit")
-    output_text = gr.Textbox(label="📝 Transcription", interactive=False)
-    submit_btn.click(fn=transcribe, inputs=audio_input, outputs=output_text)
-print("🚀 Launching Gradio app...")
-demo.launch()

 # Force upgrade gradio
 subprocess.check_call([sys.executable, "-m", "pip", "install", "--upgrade", "gradio>=4.44.0"])
 from transformers import (
     pipeline,
     WhisperForConditionalGeneration,
     WhisperFeatureExtractor,
     GenerationConfig
 )
+import gradio as gr
+import traceback
+print("🔄 Starting ASR application...")
+# Global ASR pipeline
+asr = None
+def load_asr_pipeline():
+    global asr
+    try:
+        print("🔧 Loading ASR model and configuration...")
+        model_id = "amedcj/whisper-kurmanji"
+        # Load generation config and remove forced_decoder_ids
+        gen_config = GenerationConfig.from_pretrained(model_id)
+        gen_config.forced_decoder_ids = None
+        # Load model and attach config
+        model = WhisperForConditionalGeneration.from_pretrained(model_id)
+        model.generation_config = gen_config
+        # Load tokenizer and feature extractor
+        tokenizer = AutoTokenizer.from_pretrained(model_id)
+        feature_extractor = WhisperFeatureExtractor.from_pretrained(model_id)
+        # Assemble pipeline
+        asr = pipeline(
+            "automatic-speech-recognition",
+            model=model,
+            tokenizer=tokenizer,
+            feature_extractor=feature_extractor,
+            device=-1  # Use CPU
+        )
+        print("✅ ASR pipeline loaded successfully.")
+    except Exception as e:
+        print(f"❌ Failed to load ASR model: {e}")
+        traceback.print_exc()
+        asr = None
+# Load on startup
+load_asr_pipeline()
+def transcribe(audio_file):
+    print("🎙️ Transcribe function triggered.")
+    if not audio_file:
+        msg = "⚠️ Please upload an audio file."
+        print(msg)
+        return msg
+    if asr is None:
+        msg = "❌ ASR model not loaded properly."
+        print(msg)
+        return msg
+    try:
+        print(f"🔍 Transcribing: {audio_file}")
+        result = asr(audio_file)
+        print("✅ Transcription complete.")
+        return result["text"]
+    except Exception as e:
+        error_msg = f"❌ Error during transcription: {str(e)}"
+        print(error_msg)
+        traceback.print_exc()
+        return error_msg
+print("🚧 Building Gradio interface...")
+interface = gr.Interface(
+    fn=transcribe,
+    inputs=gr.Audio(type="filepath", label="🎤 Dengê Kurmancî barkirin / Upload Kurdish Audio"),
+    outputs=gr.Textbox(label="📝 Nivîsandin / Transcription"),
+    title="Dengê Kurmancî bo Nivîsandin – Kurdish ASR",
+    description="Dengê Kurmancî barkirin û nivîsa wê bibînin. / Upload Kurdish audio and get the transcription.",
+    submit_btn="Bişîne",
+    clear_btn="Paqij bike",
+    examples=[
+        ["samples/kurmanji_sample.wav"]
+    ]
+)
+print("🚀 Launching ASR interface...")
+if __name__ == "__main__":
+    interface.launch()