Spaces:

ashhadahsan
/

whisperX

Running

App Files Files Community

ashhadahsan commited on Mar 14, 2023

Commit

4751966

1 Parent(s): eeb50b0

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -28

app.py CHANGED Viewed

@@ -9,7 +9,6 @@ from utils import (
     read,
     get_key,
 )
-import subprocess
 import whisperx as whisper
 import json
 import pandas as pd
@@ -164,33 +163,22 @@ with output:
         if audio_uploaded is not None:
             if audio_uploaded.name.endswith(".wav"):
                 temp = AudioSegment.from_wav(audio_uploaded)
-                input=f"{name}.wav"
-                temp.export(input)
         if audio_uploaded.name.endswith(".mp3"):
-            input=f"{name}.mp3"
-            with open(input, "wb") as f:
-                f.write(audio_uploaded.getbuffer())
-            # subprocess.call(['ffmpeg', '-i', audio_uploaded.name,
-            #        f'{name}.wav'])
-            # try:
-            #     temp = AudioSegment.from_file(audio_uploaded, format="mp3")
-            #     temp.export(f"{name}.wav")
-            # except:
-            #     temp = AudioSegment.from_file(audio_uploaded, format="mp4")
-            #     temp.export(f"{name}.wav")
         if language == "":
             model = whisper.load_model(model_name)
             with st.spinner("Detecting language..."):
-                detection = detect_language(input, model)
                 language = detection.get("detected_language")
                 del model
         if len(language) > 2:
@@ -204,7 +192,7 @@ with output:
                 with st.container():
                     with st.spinner(f"Running with {model_name} model"):
                         result = model.transcribe(
-                            input,
                             language=language,
                             patience=patience,
                             initial_prompt=initial_prompt,
@@ -228,15 +216,15 @@ with output:
                         result["segments"],
                         model_a,
                         metadata,
-                        input,
                         device=device,
                     )
                 write(
-                    input,
                     dtype=transcription,
                     result_aligned=result_aligned,
                 )
-                trans_text = read(input, transcription)
                 trans.text_area(
                     "transcription", trans_text, height=None, max_chars=None, key=None
                 )
@@ -319,16 +307,16 @@ with output:
                         cont,
                         model_a,
                         metadata,
-                        input,
                         device=device,
                     )
                 words_segments = result_aligned["word_segments"]
                 write(
-                    input,
                     dtype=transcription,
                     result_aligned=result_aligned,
                 )
-                trans_text = read(input, transcription)
                 char_segments = []
                 word_segments = []
@@ -387,4 +375,4 @@ with output:
                     "detected language", language_dict.get(language), disabled=True
                 )
                 os.remove(f"{name}.wav")
-                os.remove(f"{json_filname}.json")

     read,
     get_key,
 )
 import whisperx as whisper
 import json
 import pandas as pd
         if audio_uploaded is not None:
             if audio_uploaded.name.endswith(".wav"):
                 temp = AudioSegment.from_wav(audio_uploaded)
+                temp.export(f"{name}.wav")
         if audio_uploaded.name.endswith(".mp3"):
+            try:
+                temp = AudioSegment.from_file(audio_uploaded, format="mp3")
+                temp.export(f"{name}.wav")
+            except:
+                temp = AudioSegment.from_file(audio_uploaded, format="mp4")
+                temp.export(f"{name}.wav")
         if language == "":
             model = whisper.load_model(model_name)
             with st.spinner("Detecting language..."):
+                detection = detect_language(f"{name}.wav", model)
                 language = detection.get("detected_language")
                 del model
         if len(language) > 2:
                 with st.container():
                     with st.spinner(f"Running with {model_name} model"):
                         result = model.transcribe(
+                            f"{name}.wav",
                             language=language,
                             patience=patience,
                             initial_prompt=initial_prompt,
                         result["segments"],
                         model_a,
                         metadata,
+                        f"{name}.wav",
                         device=device,
                     )
                 write(
+                    f"{name}.wav",
                     dtype=transcription,
                     result_aligned=result_aligned,
                 )
+                trans_text = read(f"{name}.wav", transcription)
                 trans.text_area(
                     "transcription", trans_text, height=None, max_chars=None, key=None
                 )
                         cont,
                         model_a,
                         metadata,
+                        f"{name}.wav",
                         device=device,
                     )
                 words_segments = result_aligned["word_segments"]
                 write(
+                    f"{name}.wav",
                     dtype=transcription,
                     result_aligned=result_aligned,
                 )
+                trans_text = read(f"{name}.wav", transcription)
                 char_segments = []
                 word_segments = []
                     "detected language", language_dict.get(language), disabled=True
                 )
                 os.remove(f"{name}.wav")
+                os.remove(f"{json_filname}.json")