Spaces:

ashhadahsan
/

whisperX

Running

App Files Files Community

ashhadahsan commited on Mar 9, 2023

Commit

5e3e8ef

1 Parent(s): 2f1bcc3

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -5

app.py CHANGED Viewed

@@ -6,6 +6,8 @@ from utils import translate_to_english, detect_language, write, read, get_key
 import whisperx as whisper
 import json
 import pandas as pd
 if "btn1" not in st.session_state:
     st.session_state["btn1"] = False
@@ -135,22 +137,37 @@ with input:
         )
     else:
         temperature = [temperature]
     # st.write(temperature)
     submit = st.button("Submit", type="primary")
 with output:
     st.header("Output")
     if submit:
         if audio_uploaded is None:
             # st.audio(audio_bytes, format="audio/wav")
             audio_uploaded = audio_file
         if audio_uploaded is not None:
             # audio_bytes = audio_uploaded.read()
             # st.audio(audio_bytes, format="audio/wav")
             if language == "":
                 model = whisper.load_model(model_name)
                 with st.spinner("Detecting language..."):
-                    detection = detect_language(audio_uploaded.name, model)
                     language = detection.get("detected_language")
                     del model
                     # st.write(language)
@@ -169,7 +186,7 @@ with output:
                     with st.container():
                         with st.spinner(f"Running with {model_name} model"):
                             result = model.transcribe(
-                                audio_uploaded.name,
                                 language=language,
                                 patience=patience,
                                 initial_prompt=initial_prompt,
@@ -193,7 +210,7 @@ with output:
                         result["segments"],
                         model_a,
                         metadata,
-                        audio_uploaded.name,
                         device=device,
                     )
@@ -212,11 +229,11 @@ with output:
             if text_json is None:
                 words_segments = result_aligned["word_segments"]
                 write(
-                    audio_uploaded.name,
                     dtype=transcription,
                     result_aligned=result_aligned,
                 )
-                trans_text = read(audio_uploaded.name, transcription)
                 trans.text_area(
                     "transcription", trans_text, height=None, max_chars=None, key=None
                 )
@@ -248,3 +265,4 @@ with output:
             lang.text_input(
                 "detected language", language_dict.get(language), disabled=True
             )

 import whisperx as whisper
 import json
 import pandas as pd
+from pydub import AudioSegment
+import os
 if "btn1" not in st.session_state:
     st.session_state["btn1"] = False
         )
     else:
         temperature = [temperature]
+    try:
+        if len(temperature) == 0:
+            st.error("Choose correct value for temperature")
+    except:
+        pass
     # st.write(temperature)
     submit = st.button("Submit", type="primary")
 with output:
     st.header("Output")
+    import uuid
+    name = str(uuid.uuid1())
     if submit:
         if audio_uploaded is None:
             # st.audio(audio_bytes, format="audio/wav")
             audio_uploaded = audio_file
         if audio_uploaded is not None:
+            if audio_uploaded.name.endswith(".wav"):
+                temp = AudioSegment.from_wav(audio_uploaded)
+                temp.export(f"{name}.wav")
+            if audio_uploaded.name.endswith(".mp3"):
+                temp = AudioSegment.from_wav(audio_uploaded)
+                temp.export(f"{name}.wav")
             # audio_bytes = audio_uploaded.read()
             # st.audio(audio_bytes, format="audio/wav")
             if language == "":
                 model = whisper.load_model(model_name)
                 with st.spinner("Detecting language..."):
+                    detection = detect_language(f"{name}.wav", model)
                     language = detection.get("detected_language")
                     del model
                     # st.write(language)
                     with st.container():
                         with st.spinner(f"Running with {model_name} model"):
                             result = model.transcribe(
+                                f"{name}.wav",
                                 language=language,
                                 patience=patience,
                                 initial_prompt=initial_prompt,
                         result["segments"],
                         model_a,
                         metadata,
+                        f"{name}.wav",
                         device=device,
                     )
             if text_json is None:
                 words_segments = result_aligned["word_segments"]
                 write(
+                    f"{name}.wav",
                     dtype=transcription,
                     result_aligned=result_aligned,
                 )
+                trans_text = read(f"{name}.wav", transcription)
                 trans.text_area(
                     "transcription", trans_text, height=None, max_chars=None, key=None
                 )
             lang.text_input(
                 "detected language", language_dict.get(language), disabled=True
             )
+            os.remove(f"{name}.wav")