Spaces:

seier-brightside
/

vbernal_exp

Runtime error

App Files Files Community

seier-brightside commited on 9 days ago

Commit

d26ab54

verified ·

1 Parent(s): 7167898

Create app.py

Browse files

Files changed (1) hide show

app.py +72 -0

app.py ADDED Viewed

	@@ -0,0 +1,72 @@

+import gradio as gr
+import json
+from span_marker import SpanMarkerModel, SpanMarkerTrainer, SpanMarkerTrainingArguments
+from datasets import Dataset
+from sklearn.model_selection import train_test_split
+def entrenar(jsonl_file):
+    # Cargar JSONL
+    raw = [json.loads(l) for l in jsonl_file.splitlines()]
+    dataset = []
+    for item in raw:
+        texto = item["data"]["texto"]
+        anot = item["annotations"][0]
+        entidades = []
+        for ent in anot["result"]:
+            entidades.append({
+                "start": ent["value"]["start"],
+                "end": ent["value"]["end"],
+                "label": ent["value"]["labels"][0]
+            })
+        dataset.append({"text": texto, "entities": entidades})
+    # Extraer etiquetas
+    labels = sorted(list({e["label"] for d in dataset for e in d["entities"]}))
+    labels.insert(0, "O")  # obligatorio
+    # Train/test
+    train, test = train_test_split(dataset, test_size=0.2, random_state=42)
+    train_ds = Dataset.from_list(train)
+    test_ds = Dataset.from_list(test)
+    # Modelo
+    model = SpanMarkerModel.from_pretrained(
+        "PlanTL-GOB-ES/roberta-base-biomedical-clinical-es",
+        labels=labels
+    )
+    # Argumentos
+    args = SpanMarkerTrainingArguments(
+        output_dir="modelo_final",
+        learning_rate=5e-5,
+        per_device_train_batch_size=2,
+        per_device_eval_batch_size=2,
+        num_train_epochs=3,
+        logging_steps=10,
+        save_strategy="epoch",
+        evaluation_strategy="epoch"
+    )
+    # Entrenador
+    trainer = SpanMarkerTrainer(
+        model=model,
+        args=args,
+        train_dataset=train_ds,
+        eval_dataset=test_ds
+    )
+    trainer.train()
+    return "Entrenamiento completado. El modelo está en /modelo_final"
+ui = gr.Interface(
+    fn=entrenar,
+    inputs=gr.File(label="Sube tu archivo JSONL exportado de Label Studio"),
+    outputs="text",
+    title="Entrenamiento NER Médico con SpanMarker"
+)
+ui.launch()