fix config

Files changed (5) hide show

added_tokens.json ADDED Viewed

+{
+  "<ctc_blank>": 80,
+  "<mask>": 79
+}

config.json CHANGED Viewed

@@ -38,7 +38,6 @@
   "decoder_ffn_dim": 3072,
   "decoder_layerdrop": 0.1,
   "decoder_layers": 6,
-  "decoder_max_relative_position": 160,
   "decoder_start_token_id": 2,
   "encoder_attention_heads": 12,
   "encoder_ffn_dim": 3072,
@@ -49,6 +48,9 @@
   "feat_extract_activation": "gelu",
   "feat_extract_norm": "group",
   "feat_proj_dropout": 0.0,
   "hidden_act": "gelu",
   "hidden_dropout": 0.1,
   "hidden_size": 768,
@@ -82,7 +84,8 @@
   "speech_decoder_prenet_layers": 2,
   "speech_decoder_prenet_units": 256,
   "torch_dtype": "float32",
-  "transformers_version": "4.27.0.dev0",
   "use_cache": true,
   "vocab_size": 81
 }

   "decoder_ffn_dim": 3072,
   "decoder_layerdrop": 0.1,
   "decoder_layers": 6,
   "decoder_start_token_id": 2,
   "encoder_attention_heads": 12,
   "encoder_ffn_dim": 3072,
   "feat_extract_activation": "gelu",
   "feat_extract_norm": "group",
   "feat_proj_dropout": 0.0,
+  "guided_attention_loss_num_heads": 2,
+  "guided_attention_loss_scale": 10.0,
+  "guided_attention_loss_sigma": 0.4,
   "hidden_act": "gelu",
   "hidden_dropout": 0.1,
   "hidden_size": 768,
   "speech_decoder_prenet_layers": 2,
   "speech_decoder_prenet_units": 256,
   "torch_dtype": "float32",
+  "transformers_version": "4.28.0.dev0",
   "use_cache": true,
+  "use_guided_attention_loss": true,
   "vocab_size": 81
 }

generation_config.json CHANGED Viewed

@@ -5,5 +5,5 @@
   "eos_token_id": 2,
   "max_length": 450,
   "pad_token_id": 1,
-  "transformers_version": "4.27.0.dev0"
 }

   "eos_token_id": 2,
   "max_length": 450,
   "pad_token_id": 1,
+  "transformers_version": "4.28.0.dev0"
 }

preprocessor_config.json CHANGED Viewed

@@ -7,16 +7,11 @@
   "frame_signal_scale": 1.0,
   "hop_length": 16,
   "mel_floor": 1e-10,
-  "n_fft": 1024,
-  "n_freqs": 513,
   "num_mel_bins": 80,
   "padding_side": "right",
   "padding_value": 0.0,
   "processor_class": "SpeechT5Processor",
-  "reduction_factor": 2,
   "return_attention_mask": true,
-  "sample_size": 1024,
-  "sample_stride": 256,
   "sampling_rate": 16000,
   "win_function": "hann_window",
   "win_length": 64

   "frame_signal_scale": 1.0,
   "hop_length": 16,
   "mel_floor": 1e-10,
   "num_mel_bins": 80,
   "padding_side": "right",
   "padding_value": 0.0,
   "processor_class": "SpeechT5Processor",
   "return_attention_mask": true,
   "sampling_rate": 16000,
   "win_function": "hann_window",
   "win_length": 64

special_tokens_map.json CHANGED Viewed

@@ -1,6 +1,13 @@
 {
   "bos_token": "<s>",
   "eos_token": "</s>",
   "pad_token": "<pad>",
   "unk_token": "<unk>"
 }

 {
   "bos_token": "<s>",
   "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
   "pad_token": "<pad>",
   "unk_token": "<unk>"
 }