Spaces:

JacobLinCool
/

TWASR

Running on Zero

JacobLinCool commited on Mar 13

Commit

8488f1e

1 Parent(s): 487ed33

fix: flash attention

Files changed (2) hide show

model.py CHANGED Viewed

@@ -15,10 +15,23 @@ logging.basicConfig(
 )
 logger = logging.getLogger(__name__)
 # Model constants
 MODEL_ID = "JacobLinCool/whisper-large-v3-turbo-common_voice_19_0-zh-TW"
 PHI_MODEL_ID = "JacobLinCool/Phi-4-multimodal-instruct-commonvoice-zh-tw"
-USE_FA = torch.cuda.is_available()  # Use Flash Attention if CUDA is available
 # Model instances (initialized lazily)
 pipe: Optional[Pipeline] = None

 )
 logger = logging.getLogger(__name__)
+try:
+    import subprocess
+    subprocess.run(
+        "pip install flash-attn --no-build-isolation",
+        env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
+        shell=True,
+    )
+    logger.info("Flash Attention installed successfully.")
+    USE_FA = True
+except:
+    USE_FA = False
+    logger.warning("Flash Attention not available. Using standard attention instead.")
 # Model constants
 MODEL_ID = "JacobLinCool/whisper-large-v3-turbo-common_voice_19_0-zh-TW"
 PHI_MODEL_ID = "JacobLinCool/Phi-4-multimodal-instruct-commonvoice-zh-tw"
 # Model instances (initialized lazily)
 pipe: Optional[Pipeline] = None

requirements.txt CHANGED Viewed

@@ -4,4 +4,3 @@ transformers
 accelerate
 spaces
 librosa
-flash-attn

 accelerate
 spaces
 librosa