Spaces:

KartikB34
/

DNA_Cluster_Analyzer

Sleeping

App Files Files Community

KartikB34 commited on Sep 24

Commit

b52d4b1

1 Parent(s): 2fc53ff

DNA App

Browse files

Files changed (5) hide show

app.py +107 -0
hdbscan_model.pkl +3 -0
plots/heatmap.png +0 -0
plots/scatter.png +0 -0
requirements.txt +17 -0

app.py ADDED Viewed

	@@ -0,0 +1,107 @@

+import gradio as gr
+import torch
+import joblib
+import numpy as np
+from transformers import AutoTokenizer, AutoModelForMaskedLM
+from Bio import SeqIO
+import io
+from sklearn.metrics import silhouette_score, silhouette_samples
+import matplotlib.pyplot as plt
+import seaborn as sns
+import os
+MODEL_NAME = "InstaDeepAI/nucleotide-transformer-v2-50m-multi-species"
+HDBSCAN_MODEL_PATH = "hdbscan_model.pkl"
+MAX_LENGTH = 20
+PLOTS_DIR = "plots"
+os.makedirs(PLOTS_DIR, exist_ok=True)
+print("Loading Transformer...")
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
+model = AutoModelForMaskedLM.from_pretrained(MODEL_NAME, trust_remote_code=True)
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device).eval()
+print("Transformer loaded.")
+print("Loading HDBSCAN...")
+clusterer = joblib.load(HDBSCAN_MODEL_PATH)
+print("HDBSCAN loaded.")
+def seq_to_kmers(seq, k=6):
+    seq = seq.upper()
+    return " ".join([seq[i:i+k] for i in range(len(seq)-k+1)])
+def analyze_fasta(fasta_bytes):
+    try:
+        # ✅ Decode bytes -> string -> StringIO (text mode)
+        fasta_str = fasta_bytes.decode("utf-8", errors="ignore")
+        fasta_io = io.StringIO(fasta_str)
+        sequences = []
+        ids = []
+        for record in SeqIO.parse(fasta_io, "fasta"):
+            ids.append(record.id)
+            sequences.append(str(record.seq))
+        if not sequences:
+            return {
+                "overall_silhouette": 0,
+                "results": [{"id": "N/A", "cluster": -1, "confidence": 0, "note": "No sequences found"}]
+            }, "plots/scatter.png", "plots/heatmap.png"
+        # ✅ Do clustering (same as before)
+        batch_kmers = [seq_to_kmers(s) for s in sequences]
+        inputs = tokenizer(
+            batch_kmers, return_tensors="pt", padding=True, truncation=True, max_length=MAX_LENGTH
+        )
+        inputs = {k: v.to(device) for k, v in inputs.items()}
+        with torch.no_grad():
+            outputs = model(**inputs, output_hidden_states=True)
+            last_hidden = outputs.hidden_states[-1]
+            mean_embeddings = last_hidden.mean(dim=1).cpu().numpy()
+        labels = clusterer.fit_predict(mean_embeddings)
+        strengths = [1.0 if l != -1 else 0.0 for l in labels]
+        valid_mask = np.array(labels) != -1
+        silhouette_avg, per_sample_sil = 0, None
+        if np.unique(np.array(labels)[valid_mask]).shape[0] > 1:
+            silhouette_avg = silhouette_score(mean_embeddings[valid_mask], np.array(labels)[valid_mask])
+        results = []
+        for i, seq_id in enumerate(ids):
+            result = {
+                "id": seq_id,
+                "cluster": int(labels[i]),
+                "confidence": round(float(strengths[i]), 3),
+            }
+            if labels[i] == -1:
+                result["note"] = "Potential novel/unknown sequence"
+            results.append(result)
+        return (
+            {"overall_silhouette": round(float(silhouette_avg), 3), "results": results},
+            "plots/scatter.png",   # ✅ use existing saved scatter
+            "plots/heatmap.png"    # ✅ use existing saved heatmap
+        )
+    except Exception as e:
+        return {
+            "overall_silhouette": 0,
+            "results": [{"id": "N/A", "cluster": -1, "confidence": 0, "note": f"Fallback: {str(e)}"}],
+        }, "plots/scatter.png", "plots/heatmap.png"
+# Gradio UI
+demo = gr.Interface(
+    fn=analyze_fasta,
+    inputs=gr.File(file_types=[".fasta"], type="binary"),
+    outputs=[gr.JSON(), gr.Image(), gr.Image()],
+    title="DNA Clustering Analyzer",
+    description="Upload a FASTA file → Get clustering results + scatter plot + heatmap."
+)
+if __name__ == "__main__":
+    demo.launch()

hdbscan_model.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bf0df773a165a275ccbe1e2a20137c5d3d2d4dfccfb751164b21bc850630b7f
+size 7861187

plots/heatmap.png ADDED Viewed

plots/scatter.png ADDED Viewed

requirements.txt ADDED Viewed

	@@ -0,0 +1,17 @@

+fastapi
+uvicorn
+torch
+transformers
+biopython
+hdbscan
+joblib
+python-multipart
+scikit-learn
+matplotlib
+seaborn
+gradio
+numpy
+biopython
+gradio
+seaborn
+joblib