Handle case of single gene del for isp modeling of gene embs

Files changed (2) hide show

geneformer/in_silico_perturber.py CHANGED Viewed

@@ -636,7 +636,7 @@ class InSilicoPerturber:
                             if len(self.genes_to_perturb) > 1:
                                 tokens_to_perturb = tuple(self.tokens_to_perturb)
                             else:
-                                tokens_to_perturb = self.tokens_to_perturb
                             # fill in the gene cosine similarities
                             try:

                             if len(self.genes_to_perturb) > 1:
                                 tokens_to_perturb = tuple(self.tokens_to_perturb)
                             else:
+                                tokens_to_perturb = self.tokens_to_perturb[0]
                             # fill in the gene cosine similarities
                             try:

geneformer/in_silico_perturber_stats.py CHANGED Viewed

@@ -158,7 +158,7 @@ def token_tuple_to_ensembl_ids(token_tuple, gene_token_id_dict):
     try:
         return tuple([gene_token_id_dict.get(i, np.nan) for i in token_tuple])
     except TypeError:
-        return tuple(gene_token_id_dict.get(token_tuple, np.nan))
 def n_detections(token, dict_list, mode, anchor_token):
@@ -208,7 +208,7 @@ def find(variable, x):
     try:
         if x in variable:  # Test if variable is iterable and contains x
             return True
-    except TypeError:
         return x == variable  # Test if variable is x if non-iterable
@@ -239,8 +239,9 @@ def isp_aggregate_gene_shifts(
         cos_sims_df[cos_sims_df["Gene"] == k[0]]["Ensembl_ID"][0]
         for k, v in cos_data_mean.items()
     ]
     cos_sims_full_df["Affected"] = [k[1] for k, v in cos_data_mean.items()]
-    cos_sims_full_df["Affected_Gene_name"] = [
         gene_id_name_dict.get(gene_token_id_dict.get(token, np.nan), np.nan)
         for token in cos_sims_full_df["Affected"]
     ]
@@ -1026,7 +1027,7 @@ class InSilicoPerturberStats:
         cos_sims_df.to_csv(output_path)
     def token_to_gene_name(self, item):
-        if isinstance(item, int):
             return self.gene_id_name_dict.get(
                 self.gene_token_id_dict.get(item, np.nan), np.nan
             )

     try:
         return tuple([gene_token_id_dict.get(i, np.nan) for i in token_tuple])
     except TypeError:
+        return gene_token_id_dict.get(token_tuple, np.nan)
 def n_detections(token, dict_list, mode, anchor_token):
     try:
         if x in variable:  # Test if variable is iterable and contains x
             return True
+    except (ValueError, TypeError):
         return x == variable  # Test if variable is x if non-iterable
         cos_sims_df[cos_sims_df["Gene"] == k[0]]["Ensembl_ID"][0]
         for k, v in cos_data_mean.items()
     ]
     cos_sims_full_df["Affected"] = [k[1] for k, v in cos_data_mean.items()]
+    cos_sims_full_df["Affected_gene_name"] = [
         gene_id_name_dict.get(gene_token_id_dict.get(token, np.nan), np.nan)
         for token in cos_sims_full_df["Affected"]
     ]
         cos_sims_df.to_csv(output_path)
     def token_to_gene_name(self, item):
+        if np.issubdtype(type(item), np.integer):
             return self.gene_id_name_dict.get(
                 self.gene_token_id_dict.get(item, np.nan), np.nan
             )