Spaces:

dalybuilds
/

Bug-O-Scope

Sleeping

dalybuilds commited on Jan 27

Commit

2e6655e

verified ·

1 Parent(s): 0b3f5e5

Update dataset_utils.py

Files changed (1) hide show

dataset_utils.py CHANGED Viewed

@@ -3,21 +3,22 @@
 from datasets import load_dataset
 from transformers import ViTImageProcessor
 from PIL import Image
-def load_insect_dataset():
-    return load_dataset("Francesco/insects-mytwu")
 def preprocess_image(image_path):
     processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224")
     image = Image.open(image_path).convert("RGB")
-    return processor(image, return_tensors="pt")
-def load_species_descriptions():
-    dataset = load_dataset("Gharaee/BIOSCAN-5M")
-    descriptions = {}
-    # Limit to the first 500 records for testing
-    for record in dataset["train"].select(range(500)):
-        species_name = record.get("species_name", "Unknown Species")
-        description = record.get("description", "No description available.")
-        descriptions[species_name] = description
-    return descriptions

 from datasets import load_dataset
 from transformers import ViTImageProcessor
 from PIL import Image
+import os
+class DatasetHandler:
+    def __init__(self, dataset_name="Gharaee/BIOSCAN-5M"):
+        self.dataset_name = dataset_name
+    def load_descriptions(self, max_records=500):
+        dataset = load_dataset(self.dataset_name)
+        descriptions = {}
+        for record in dataset["train"].select(range(max_records)):
+            species_name = record.get("species_name", "Unknown Species")
+            description = record.get("description", "No description available.")
+            descriptions[species_name] = description
+        return descriptions
 def preprocess_image(image_path):
     processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224")
     image = Image.open(image_path).convert("RGB")
+    return processor(image, return_tensors="pt")