Spaces:

ardha27
/

Youtube-AI-Summarizer

Running

App Files Files Community

Zeph27 commited on Aug 16, 2024

Commit

e502065

1 Parent(s): 9d8380b

change pipe line code

Browse files

Files changed (1) hide show

app.py +22 -15

app.py CHANGED Viewed

@@ -15,6 +15,14 @@ default_gemini_api_key = os.getenv('gemini_api_key')
 device = 0 if torch.cuda.is_available() else "cpu"
 def configure_genai(api_key, model_variant):
     genai.configure(api_key=api_key)
     return genai.GenerativeModel(model_variant)
@@ -57,8 +65,20 @@ def summarize_transcription(transcription, model, gemini_prompt):
         return f"Error summarizing transcription: {str(e)}"
 @spaces.GPU(duration=120)
-def process_audio(inputs, pipe, language):
     print("Starting transcription...")
     if language:
         print(f"Using language: {language}")
         transcription = pipe(inputs, batch_size=8, generate_kwargs={"task": "transcribe", "language": language}, return_timestamps=True)["text"]
@@ -75,13 +95,6 @@ def transcribe(youtube_url, audio_file, whisper_model, gemini_api_key, gemini_pr
             gemini_api_key = default_gemini_api_key
         model = configure_genai(gemini_api_key, gemini_model_variant)
-        pipe = pipeline(
-            task="automatic-speech-recognition",
-            model=whisper_model,
-            chunk_length_s=30,
-            device=device,
-        )
         if youtube_url:
             progress(0.1, desc="Extracting YouTube ID")
             youtube_id = extract_youtube_id(youtube_url)
@@ -97,15 +110,9 @@ def transcribe(youtube_url, audio_file, whisper_model, gemini_api_key, gemini_pr
             progress(0.2, desc="Reading audio file")
             audio_file = f"{audio_file.name}"
             print(f"Audio file read: {audio_file}")
-        with open(audio_file, "rb") as f:
-            inputs = f.read()
-        inputs = ffmpeg_read(inputs, pipe.feature_extractor.sampling_rate)
-        inputs = {"array": inputs, "sampling_rate": pipe.feature_extractor.sampling_rate}
         progress(0.4, desc="Starting transcription")
-        transcription = process_audio(inputs, pipe, language)
         progress(0.6, desc="Cleaning up")
         # Delete the audio file after transcription

 device = 0 if torch.cuda.is_available() else "cpu"
+def load_pipeline(model_name):
+    return pipeline(
+        task="automatic-speech-recognition",
+        model=model_name,
+        chunk_length_s=30,
+        device=device,
+    )
 def configure_genai(api_key, model_variant):
     genai.configure(api_key=api_key)
     return genai.GenerativeModel(model_variant)
         return f"Error summarizing transcription: {str(e)}"
 @spaces.GPU(duration=120)
+def process_audio(audio_file, language):
     print("Starting transcription...")
+    with open(audio_file, "rb") as f:
+            inputs = f.read()
+    inputs = ffmpeg_read(inputs, pipe.feature_extractor.sampling_rate)
+    inputs = {"array": inputs, "sampling_rate": pipe.feature_extractor.sampling_rate}
+    if device == 0:
+        pipe = load_pipeline(whisper_model)
+    else:
+        pipe = load_pipeline("openai/whisper-tiny")
     if language:
         print(f"Using language: {language}")
         transcription = pipe(inputs, batch_size=8, generate_kwargs={"task": "transcribe", "language": language}, return_timestamps=True)["text"]
             gemini_api_key = default_gemini_api_key
         model = configure_genai(gemini_api_key, gemini_model_variant)
         if youtube_url:
             progress(0.1, desc="Extracting YouTube ID")
             youtube_id = extract_youtube_id(youtube_url)
             progress(0.2, desc="Reading audio file")
             audio_file = f"{audio_file.name}"
             print(f"Audio file read: {audio_file}")
         progress(0.4, desc="Starting transcription")
+        transcription = process_audio(audio_file, language)
         progress(0.6, desc="Cleaning up")
         # Delete the audio file after transcription