ASR-High-Accuracy-Test

Build error

App Files Files Community

jbraun19

awacke1 commited on Feb 17, 2023

Commit

a5dbed4

0 Parent(s):

Duplicate from awacke1/ASR-High-Accuracy-Test

Browse files

Co-authored-by: Aaron C Wacker <[email protected]>

Files changed (6) hide show

.gitattributes +27 -0
README.md +14 -0
app.py +152 -0
packages.txt +1 -0
requirements.txt +10 -0
test.json +12 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,27 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: 🗣️ASR Wav2Vec2 GRadio Multilingual📄
+emoji: 🗣️ASR💻
+colorFrom: purple
+colorTo: pink
+sdk: gradio
+sdk_version: 3.0.17
+app_file: app.py
+pinned: false
+license: mit
+duplicated_from: awacke1/ASR-High-Accuracy-Test
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,152 @@

+import gradio as gr
+import logging
+import sys
+import tempfile
+import numpy as np
+import datetime
+from transformers import pipeline, AutoModelForCTC, Wav2Vec2Processor, Wav2Vec2ProcessorWithLM
+from typing import Optional
+from TTS.utils.manage import ModelManager
+from TTS.utils.synthesizer import Synthesizer
+logging.basicConfig(
+    format="%(asctime)s - %(levelname)s - %(name)s -   %(message)s",
+    datefmt="%m/%d/%Y %H:%M:%S",
+    handlers=[logging.StreamHandler(sys.stdout)],
+)
+logger = logging.getLogger(__name__)
+logger.setLevel(logging.DEBUG)
+LARGE_MODEL_BY_LANGUAGE = {
+    "Arabic": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-arabic", "has_lm": False},
+    "Chinese": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn", "has_lm": False},
+    #"Dutch": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-dutch", "has_lm": False},
+    "English": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-english", "has_lm": True},
+    "Finnish": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-finnish", "has_lm": False},
+    "French": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-french", "has_lm": True},
+    "German": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-german", "has_lm": True},
+    "Greek": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-greek", "has_lm": False},
+    "Hungarian": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-hungarian", "has_lm": False},
+    "Italian": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-italian", "has_lm": True},
+    "Japanese": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-japanese", "has_lm": False},
+    "Persian": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-persian", "has_lm": False},
+    "Polish": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-polish", "has_lm": True},
+    "Portuguese": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-portuguese", "has_lm": True},
+    "Russian": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-russian", "has_lm": True},
+    "Spanish": {"model_id": "jonatasgrosman/wav2vec2-large-xlsr-53-spanish", "has_lm": True},
+}
+XLARGE_MODEL_BY_LANGUAGE = {
+    "English": {"model_id": "jonatasgrosman/wav2vec2-xls-r-1b-english", "has_lm": True},
+    "Spanish": {"model_id": "jonatasgrosman/wav2vec2-xls-r-1b-spanish", "has_lm": True},
+    "German": {"model_id": "jonatasgrosman/wav2vec2-xls-r-1b-german", "has_lm": True},
+    "Russian": {"model_id": "jonatasgrosman/wav2vec2-xls-r-1b-russian", "has_lm": True},
+    "French": {"model_id": "jonatasgrosman/wav2vec2-xls-r-1b-french", "has_lm": True},
+    "Italian": {"model_id": "jonatasgrosman/wav2vec2-xls-r-1b-italian", "has_lm": True},
+    #"Dutch": {"model_id": "jonatasgrosman/wav2vec2-xls-r-1b-dutch", "has_lm": False},
+    "Polish": {"model_id": "jonatasgrosman/wav2vec2-xls-r-1b-polish", "has_lm": True},
+    "Portuguese": {"model_id": "jonatasgrosman/wav2vec2-xls-r-1b-portuguese", "has_lm": True},
+}
+# LANGUAGES = sorted(LARGE_MODEL_BY_LANGUAGE.keys())
+# the container given by HF has 16GB of RAM, so we need to limit the number of models to load
+LANGUAGES = sorted(XLARGE_MODEL_BY_LANGUAGE.keys())
+CACHED_MODELS_BY_ID = {}
+def run(input_file, language, decoding_type, history, model_size="300M"):
+    logger.info(f"Running ASR {language}-{model_size}-{decoding_type} for {input_file}")
+    history = history or []
+    if model_size == "300M":
+        model = LARGE_MODEL_BY_LANGUAGE.get(language, None)
+    else:
+        model = XLARGE_MODEL_BY_LANGUAGE.get(language, None)
+    if model is None:
+        history.append({
+            "error_message": f"Model size {model_size} not found for {language} language :("
+        })
+    elif decoding_type == "LM" and not model["has_lm"]:
+        history.append({
+            "error_message": f"LM not available for {language} language :("
+        })
+    else:
+        # model_instance = AutoModelForCTC.from_pretrained(model["model_id"])
+        model_instance = CACHED_MODELS_BY_ID.get(model["model_id"], None)
+        if model_instance is None:
+            model_instance = AutoModelForCTC.from_pretrained(model["model_id"])
+            CACHED_MODELS_BY_ID[model["model_id"]] = model_instance
+        if decoding_type == "LM":
+            processor = Wav2Vec2ProcessorWithLM.from_pretrained(model["model_id"])
+            asr = pipeline("automatic-speech-recognition", model=model_instance, tokenizer=processor.tokenizer,
+                           feature_extractor=processor.feature_extractor, decoder=processor.decoder)
+        else:
+            processor = Wav2Vec2Processor.from_pretrained(model["model_id"])
+            asr = pipeline("automatic-speech-recognition", model=model_instance, tokenizer=processor.tokenizer,
+                           feature_extractor=processor.feature_extractor, decoder=None)
+        transcription = asr(input_file, chunk_length_s=5, stride_length_s=1)["text"]
+        logger.info(f"Transcription for {input_file}: {transcription}")
+        history.append({
+            "model_id": model["model_id"],
+            "language": language,
+            "model_size": model_size,
+            "decoding_type": decoding_type,
+            "transcription": transcription,
+            "error_message": None
+        })
+    html_output = "<div class='result'>"
+    for item in history:
+        if item["error_message"] is not None:
+            html_output += f"<div class='result_item result_item_error'>{item['error_message']}</div>"
+        else:
+            url_suffix = " + LM" if item["decoding_type"] == "LM" else ""
+            html_output += "<div class='result_item result_item_success'>"
+            html_output += f'<strong><a target="_blank" href="https://huggingface.co/{item["model_id"]}">{item["model_id"]}{url_suffix}</a></strong><br/><br/>'
+            html_output += f'{item["transcription"]}<br/>'
+            html_output += "</div>"
+    html_output += "</div>"
+    return html_output, history
+gr.Interface(
+    run,
+    inputs=[
+        #gr.inputs.Audio(source="microphone", type="filepath", label="Record something..."),
+        gr.Audio(source="microphone", type='filepath', streaming=True),
+        #gr.inputs.Audio(source="microphone", type="filepath", label="Record something...", streaming="True"),
+        gr.inputs.Radio(label="Language", choices=LANGUAGES),
+        gr.inputs.Radio(label="Decoding type", choices=["greedy", "LM"]),
+        # gr.inputs.Radio(label="Model size", choices=["300M", "1B"]),
+        "state"
+    ],
+    outputs=[
+        gr.outputs.HTML(label="Outputs"),
+        "state"
+    ],
+    title="🗣️NLP ASR Wav2Vec2 GR📄",
+    description="",
+    css="""
+    .result {display:flex;flex-direction:column}
+    .result_item {padding:15px;margin-bottom:8px;border-radius:15px;width:100%}
+    .result_item_success {background-color:mediumaquamarine;color:white;align-self:start}
+    .result_item_error {background-color:#ff7070;color:white;align-self:start}
+    """,
+    allow_screenshot=False,
+    allow_flagging="never",
+    theme="grass",
+    live=True  # test1
+).launch(enable_queue=True)

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ ffmpeg

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+transformers
+torch
+pyctcdecode
+pypi-kenlm
+streamlit
+google-cloud-firestore
+firebase-admin
+Werkzeug==2.0.3
+huggingface_hub==0.4.0
+TTS==0.2.1

test.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "type": "service_account",
+  "project_id": "clinical-nlp-b9117",
+  "private_key_id": "6972d02311e8ee0c5b582551fbcf9c99b9169b58",
+  "private_key": "-----BEGIN PRIVATE KEY-----\nMIIEvQIBADANBgkqhkiG9w0BAQEFAASCBKcwggSjAgEAAoIBAQCmrSoB92G/ihxL\nzIk7Y8RUNc6Iezr6pZ+eSz2RGxEz2qPMfWjNeOJEAlACYJp4aUwyX5IHGb8Eh/oj\nkr7nVsgvuDyrTWpCAv16AuRycKgxvqj0+uDaVrF0vLgTumy62x5QM7i+n2YTDXoP\nXHMHX7yXZ6zc9Ibmm065f2kgWyjmIZDt+flTBYeBS203ZIzMBHhN1e1jdtzR36z/\n1MBmLjpRKvmuHF2SnraVjoRh7Xe6R99K8DxRQ61TJt9xLukvLBYelnqf2/cK8bZM\n5p2pErR4FE7ki3MX7HWdMJQSe+Uj10hurjNBdHcCaNUou5EL5+NRgqLow0tfatWC\n+Jpiw3K9AgMBAAECggEAGpT7YhzmBfos0RnpuQMMSLHcIoAkw9yuPDybsQy0DaUN\nAovtrvdcfqQvxnFJsXJ5qH79dwxwHnThO9MnhxWcD6A+bMOH8scvTcowTOASsvxJ\nTejE+41f99IxOVQ+Cv7vMrNM/3nEeb1ofhKsdbybAzqRoxuMeDLEt2jOh06Ck1D8\n/YV8kavGYR/VNxO2l7C5DZJYXgcm18ZrTFEXZes8bydZesoHl+JRVO1utjR2IhAj\nnYqqNaf5RXruEzXWxP0+jjEgg4NLFfqVnQTZFrLwokwc8NEMXf3dZJ0k0cHHmxOB\n6BHuPZhMOZ56U74PyWgCmbPp9g/SLt3iInpZ4ahmAQKBgQDhQwdbUEQ1q+KSMsMm\ndJl+ghX/Ff3uaZ7LjdBiOgtmTaIVbuf/bw0V9x8GbRGdJJyp546R5vhUE0zKzkMt\nTNdDNrWk3Zh4tCRHvPEHiqmDn91pWFeDDQf/OjKz+SFV31mQ050BOatZ8dBEy+md\nvHG8yLTB7oJvSpviim4ty15wIQKBgQC9a5jsBFB0fltHNJ0lZp7I2hF+aOqOngJM\nqEipPjJABJ4izGTOK/KW8CyWEP82nb6p7u9v0f4sV8CFWXG178DMv1NlRYzom3CQ\nkXdx+nRgO4oX4eEfYuoP2PxF0hCOwbh55NgFdwTt/dExX6bau4d9yQMV7o0TXpRW\nZzygOOTfHQKBgQC7ayhwyfymZydwmjmSAks/XX5tqN+IgGo1U/1/7GlVqdvkV01B\nUiUiFGTE1PRluXN7TYRqUjBky1YGGsz7oMYtTxScYh6ctszEvygPLUhSki0GnBDb\noXj42nQbF3mr19POUrJ7tX6irDWrN7lcmtBK0PbLr+ToMbw3JRP8mAsv4QKBgEac\nC18/pHYofAIpHMNKY7pff9HtbjJHuHe2648bPkQa9I/oPVOVklKtqREvuNM1LlPO\nW7cFQohpFb0fwIGfo/EvCPlhWcuD1gwuDaaRRDxzNWD9tJusla/epPup+L4efJQD\nuHshCNdmnEqZa2tyKGm9Osc8K56izQ0AYtsfGkIJAoGAMtaXTA96OXUvpEm4waQX\nOTbuEZQEdntnYWHacNrGlvwnNmvNC9hXwB38ijxXHEn0j1QUcV3w5QXFupwzjpZ2\nlIp9vTq1mOTVhHzmQmOb9DKKAE/2pi2HnekItncoQCBtgJ7k6tIk1KEfvXuQS/oM\nh8qPMwuMcQ/vKGhl3xLYo9M=\n-----END PRIVATE KEY-----\n",
+  "client_email": "firebase-adminsdk-qaxaj@clinical-nlp-b9117.iam.gserviceaccount.com",
+  "client_id": "117623958723912081118",
+  "auth_uri": "https://accounts.google.com/o/oauth2/auth",
+  "token_uri": "https://oauth2.googleapis.com/token",
+  "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
+  "client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/firebase-adminsdk-qaxaj%40clinical-nlp-b9117.iam.gserviceaccount.com"
+}