Handle model parallelism

With this added line (similar to many models in Transformers), this model will work with `device_map="auto"` during training.

Files changed (1) hide show

modeling_codet5p.py CHANGED Viewed

@@ -927,6 +927,7 @@ class CodeT5pEncoderDecoderModel(PreTrainedModel):
         loss = None
         if labels is not None:
             # warnings.warn(DEPRECATION_WARNING, FutureWarning)
             logits = decoder_outputs.logits if return_dict else decoder_outputs[0]
             loss_fct = CrossEntropyLoss()
             loss = loss_fct(logits.reshape(-1, self.decoder.config.vocab_size), labels.view(-1))

         loss = None
         if labels is not None:
             # warnings.warn(DEPRECATION_WARNING, FutureWarning)
+            labels = labels.to(logits.device)
             logits = decoder_outputs.logits if return_dict else decoder_outputs[0]
             loss_fct = CrossEntropyLoss()
             loss = loss_fct(logits.reshape(-1, self.decoder.config.vocab_size), labels.view(-1))