ctheodoris
/

Geneformer

Model card Files Files and versions

hchen725 commited on Sep 10, 2024

Commit

6cfc5c4

·

verified ·

1 Parent(s): be7ceb5

Update geneformer/tokenizer.py

Files changed (1) hide show

geneformer/tokenizer.py +8 -2

geneformer/tokenizer.py CHANGED Viewed

@@ -126,8 +126,11 @@ def sum_ensembl_ids(
             gene_ids_collapsed = [
                 gene_mapping_dict.get(gene_id.upper()) for gene_id in data.ra.ensembl_id
             ]
-            if len(set(gene_ids_in_dict)) == len(set(gene_ids_collapsed)):
                 # Keep original Ensembl IDs as `ensembl_id_original`
                 rename_attr(data.ra, "ensembl_id", "ensembl_id_original")
                 data.ra["ensembl_id"] = gene_ids_collapsed
@@ -223,7 +226,10 @@ def sum_ensembl_ids(
         gene_ids_collapsed = [
             gene_mapping_dict.get(gene_id.upper()) for gene_id in data.var.ensembl_id
         ]
-        if len(set(gene_ids_in_dict)) == len(set(gene_ids_collapsed)):
             data.var.ensembl_id = data.var.ensembl_id.map(gene_mapping_dict)
             return data

             gene_ids_collapsed = [
                 gene_mapping_dict.get(gene_id.upper()) for gene_id in data.ra.ensembl_id
             ]
+            gene_ids_collapsed_in_dict = [
+                gene for gene in gene_ids_collapsed if gene in gene_token_dict.keys()
+            ]
+            if len(set(gene_ids_in_dict)) == len(set(gene_ids_collapsed_in_dict)):
                 # Keep original Ensembl IDs as `ensembl_id_original`
                 rename_attr(data.ra, "ensembl_id", "ensembl_id_original")
                 data.ra["ensembl_id"] = gene_ids_collapsed
         gene_ids_collapsed = [
             gene_mapping_dict.get(gene_id.upper()) for gene_id in data.var.ensembl_id
         ]
+        gene_ids_collapsed_in_dict = [
+            gene for gene in gene_ids_collapsed if gene in gene_token_dict.keys()
+        ]
+        if len(set(gene_ids_in_dict)) == len(set(gene_ids_collapsed_in_dict)):
             data.var.ensembl_id = data.var.ensembl_id.map(gene_mapping_dict)
             return data