Spaces:

amedcj
/

kmr_asr

Sleeping

App Files Files Community

amedcj commited on Jun 16

Commit

1e44bd2

verified ·

1 Parent(s): 28251cb

Update app.py

Browse files

Updated app.py

Files changed (1) hide show

app.py +134 -59

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ import sys
 # Force upgrade gradio
 subprocess.check_call([sys.executable, "-m", "pip", "install", "--upgrade", "gradio>=4.44.0"])
 from transformers import (
     pipeline,
     WhisperForConditionalGeneration,
@@ -11,91 +12,165 @@ from transformers import (
     WhisperFeatureExtractor,
     GenerationConfig
 )
-import gradio as gr
 import traceback
-print("🔄 Starting ASR application...")
-# Global ASR pipeline
 asr = None
-def load_asr_pipeline():
-    global asr
     try:
-        print("🔧 Loading ASR model and configuration...")
-        model_id = "amedcj/whisper-kurmanji"
         # Load generation config and remove forced_decoder_ids
-        gen_config = GenerationConfig.from_pretrained(model_id)
         gen_config.forced_decoder_ids = None
-        # Load model and attach config
-        model = WhisperForConditionalGeneration.from_pretrained(model_id)
         model.generation_config = gen_config
-        # Load tokenizer and feature extractor
-        tokenizer = AutoTokenizer.from_pretrained(model_id)
-        feature_extractor = WhisperFeatureExtractor.from_pretrained(model_id)
-        # Assemble pipeline
         asr = pipeline(
             "automatic-speech-recognition",
             model=model,
             tokenizer=tokenizer,
             feature_extractor=feature_extractor,
-            device=-1  # Use CPU
         )
-        print("✅ ASR pipeline loaded successfully.")
     except Exception as e:
-        print(f"❌ Failed to load ASR model: {e}")
         traceback.print_exc()
         asr = None
-# Load on startup
-load_asr_pipeline()
 def transcribe(audio_file):
-    print("🎙️ Transcribe function triggered.")
-    if not audio_file:
-        msg = "⚠️ Please upload an audio file."
-        print(msg)
-        return msg
-    if asr is None:
-        msg = "❌ ASR model not loaded properly."
-        print(msg)
-        return msg
     try:
-        print(f"🔍 Transcribing: {audio_file}")
         result = asr(audio_file)
-        print("✅ Transcription complete.")
-        return result["text"]
     except Exception as e:
-        error_msg = f"❌ Error during transcription: {str(e)}"
-        print(error_msg)
         traceback.print_exc()
         return error_msg
-print("🚧 Building Gradio interface...")
-interface = gr.Interface(
-    fn=transcribe,
-    inputs=gr.Audio(type="filepath", label="🎤 Dengê Kurmancî barkirin / Upload Kurdish Audio"),
-    outputs=gr.Textbox(label="📝 Nivîsandin / Transcription"),
-    title="Dengê Kurmancî bo Nivîsandin – Kurdish ASR",
-    description="Dengê Kurmancî barkirin û nivîsa wê bibînin. / Upload Kurdish audio and get the transcription.",
-    submit_btn="Bişîne",
-    clear_btn="Paqij bike",
-    examples=[
-        ["samples/kurmanji_sample.wav"]
-    ]
-)
-print("🚀 Launching ASR interface...")
-if __name__ == "__main__":
-    interface.launch()

 # Force upgrade gradio
 subprocess.check_call([sys.executable, "-m", "pip", "install", "--upgrade", "gradio>=4.44.0"])
+import gradio as gr
 from transformers import (
     pipeline,
     WhisperForConditionalGeneration,
     WhisperFeatureExtractor,
     GenerationConfig
 )
 import traceback
+print("🚀 Starting Kurmanji ASR application...")
+# Global variables
 asr = None
+model = None
+tokenizer = None
+feature_extractor = None
+def load_asr_model():
+    global asr, model, tokenizer, feature_extractor
     try:
+        print("📥 Loading Whisper model for Kurmanji...")
         # Load generation config and remove forced_decoder_ids
+        print("⚙️ Loading generation config...")
+        gen_config = GenerationConfig.from_pretrained("amedcj/whisper-kurmanji")
         gen_config.forced_decoder_ids = None
+        print("✓ Generation config loaded")
+        # Load model and set generation config directly
+        print("🤖 Loading Whisper model...")
+        model = WhisperForConditionalGeneration.from_pretrained("amedcj/whisper-kurmanji")
         model.generation_config = gen_config
+        print("✓ Model loaded successfully")
+        # Load tokenizer explicitly
+        print("📝 Loading tokenizer...")
+        tokenizer = AutoTokenizer.from_pretrained("amedcj/whisper-kurmanji")
+        print("✓ Tokenizer loaded successfully")
+        # Load feature extractor explicitly
+        print("🔍 Loading feature extractor...")
+        feature_extractor = WhisperFeatureExtractor.from_pretrained("amedcj/whisper-kurmanji")
+        print("✓ Feature extractor loaded successfully")
+        # Create the pipeline with model, tokenizer and feature extractor
+        print("🔧 Creating ASR pipeline...")
         asr = pipeline(
             "automatic-speech-recognition",
             model=model,
             tokenizer=tokenizer,
             feature_extractor=feature_extractor,
+            device=-1  # CPU
         )
+        print("✅ ASR pipeline created successfully!")
     except Exception as e:
+        print(f"❌ Error loading ASR model: {e}")
         traceback.print_exc()
         asr = None
+# Load the model at startup
+load_asr_model()
 def transcribe(audio_file):
+    print("=== ASR Function Called ===")
+    print(f"Audio file: {audio_file}")
     try:
+        # Check if audio file is provided
+        if audio_file is None:
+            error_msg = "Ji kerema xwe dosyeyek deng bar bike. / Please upload an audio file."
+            print(f"Error: {error_msg}")
+            return error_msg
+        # Check if ASR model is loaded
+        if asr is None:
+            error_msg = "Model nehatiye barkirin. / ASR model not loaded properly."
+            print(f"Error: {error_msg}")
+            return error_msg
+        print("🎵 Processing audio file...")
+        # Transcribe the audio
         result = asr(audio_file)
+        transcription = result["text"]
+        print(f"✅ Transcription completed: {transcription}")
+        return transcription
     except Exception as e:
+        error_msg = f"Çewtî: {str(e)} / Error: {str(e)}"
+        print(f"❌ Error in transcription: {e}")
         traceback.print_exc()
         return error_msg
+# Create Gradio interface with Kurdish elements
+print("🎨 Creating Gradio interface...")
+with gr.Blocks(title="Kurmancî ASR - Kurdish Speech Recognition") as demo:
+    gr.Markdown("""
+    # 🗣️ Kurmancî ASR - Kurdish Speech Recognition
+    ### Deng bo Nivîs / Speech to Text
+    Dengê xwe bi Kurmancî tomar bike û wekî nivîs bibîne.
+    Record your voice in Kurmanji Kurdish and convert it to text.
+    """)
+    with gr.Row():
+        with gr.Column():
+            audio_input = gr.Audio(
+                sources=["microphone", "upload"],  # Enable both mic recording and file upload
+                type="filepath",
+                label="🎤 Dengî tomar bike yan dosyeyekê lê bar bike / Record Voice or Upload File"
+            )
+            submit_btn = gr.Button(
+                "Veguherîne / Transcribe",
+                variant="primary",
+                size="lg"
+            )
+            clear_btn = gr.Button(
+                "Paqij Bike / Clear",
+                variant="secondary"
+            )
+        with gr.Column():
+            output_text = gr.Textbox(
+                label="📝 Encam / Result",
+                placeholder="Li virê dê nivîsa veguherandî xuya bibe... / Transcribed text will appear here...",
+                lines=10,
+                interactive=True,  # Allow users to edit the result
+                show_copy_button=True
+            )
+    # Add examples section
+    gr.Markdown("### 💡 Mînak / Examples")
+    gr.Markdown("""
+    **Çawa bikar bînin / How to use:**
+    1. **Tomar bikin / Record:** Li ser butona mîkrofonê bitikînin û axaftin dest pê bikin
+    2. **An dosye bar bikin / Or upload:** Dosyeyek dengî (.wav, .mp3, .m4a) hilbijêrin
+    3. **Wergerînin / Transcribe:** Li ser "Wergerîne" bitikînin
+    **Supported formats:** WAV, MP3, M4A, FLAC
+    """)
+    # Event handlers
+    submit_btn.click(
+        fn=transcribe,
+        inputs=audio_input,
+        outputs=output_text,
+        show_progress=True
+    )
+    clear_btn.click(
+        fn=lambda: (None, ""),
+        inputs=[],
+        outputs=[audio_input, output_text]
+    )
+    # Auto-transcribe when audio is recorded/uploaded (optional)
+    audio_input.change(
+        fn=transcribe,
+        inputs=audio_input,
+        outputs=output_text,
+        show_progress=True
+    )