TTS-Spaces-Arena

Running

Pendrokar commited on Jun 19

Commit

fcff623

1 Parent(s): 9b87855

New TTS: Chatterbox

Files changed (3) hide show

app/models.py CHANGED Viewed

@@ -115,6 +115,9 @@ AVAILABLE_MODELS = {
     # Dia
     # 'nari-labs/Dia-1.6B': 'nari-labs/Dia-1.6B', # single speaker hallucinates
     # HF TTS w issues
     # 'LeeSangHoon/HierSpeech_TTS': 'LeeSangHoon/HierSpeech_TTS', # irresponsive to exclamation marks # 4.29
     # 'PolyAI/pheme': '/predict#0', # sleepy HF Space
@@ -543,6 +546,15 @@ HF_SPACES = {
         'is_zero_gpu_space': True,
         'series': 'Dia',
     },
 }
 # for zero-shot TTS - voice sample used by XTTS (11 seconds)
@@ -866,6 +878,15 @@ OVERRIDE_INPUTS = {
 		'cfg_filter_top_k': 35, # Top k filter for CFG guidance.
 		'speed_factor': 0.94, # Adjusts the speed of the generated audio (1.0 = original speed).
     },
 }
 # minor mods to model from the same space

     # Dia
     # 'nari-labs/Dia-1.6B': 'nari-labs/Dia-1.6B', # single speaker hallucinates
+    # Chatterbox
+    'ResembleAI/Chatterbox': 'ResembleAI/Chatterbox',
     # HF TTS w issues
     # 'LeeSangHoon/HierSpeech_TTS': 'LeeSangHoon/HierSpeech_TTS', # irresponsive to exclamation marks # 4.29
     # 'PolyAI/pheme': '/predict#0', # sleepy HF Space
         'is_zero_gpu_space': True,
         'series': 'Dia',
     },
+    'ResembleAI/Chatterbox' : {
+        'name': 'Chatterbox',
+        'function': '/generate_tts_audio',
+        'text_param_index': 'text_input',
+        'return_audio_index': 0,
+        'is_zero_gpu_space': True,
+        'series': 'Chatterbox',
+    },
 }
 # for zero-shot TTS - voice sample used by XTTS (11 seconds)
 		'cfg_filter_top_k': 35, # Top k filter for CFG guidance.
 		'speed_factor': 0.94, # Adjusts the speed of the generated audio (1.0 = original speed).
     },
+    # Chatterbox
+    'ResembleAI/Chatterbox': {
+		'audio_prompt_path_input': DEFAULT_VOICE_SAMPLE, # voice
+		'exaggeration_input': 0.5, # 1-2
+		'temperature_input': 0.8, # Lower values make the output more deterministic, higher values increase randomness.
+		'seed_num_input': 1, # Seed for random number generation, can be any integer.
+		'cfgw_input': 0.5, # CFG/Pace weight, can be any float value.
+    }
 }
 # minor mods to model from the same space

test_tts_chatterbox.py ADDED Viewed

+import os
+from test_overrides import _get_param_examples, _override_params
+from gradio_client import Client, file
+model = "ResembleAI/Chatterbox"
+client = Client(model, hf_token=os.getenv('HF_TOKEN'))
+endpoints = client.view_api(all_endpoints=True, print_info=False, return_format='dict')
+# print(endpoints)
+api_name = '/generate_tts_audio'
+fn_index = None
+end_parameters = None
+text = 'This is what my voice sounds like.'
+end_parameters = _get_param_examples(
+	endpoints['named_endpoints'][api_name]['parameters']
+)
+print(end_parameters)
+space_inputs = end_parameters
+# override some or all default parameters
+space_inputs = _override_params(end_parameters, model)
+if(type(space_inputs) == dict):
+	space_inputs['text_input'] = text
+	result = client.predict(
+		**space_inputs,
+		api_name=api_name,
+		fn_index=fn_index
+	)
+else:
+	space_inputs[0] = text
+	result = client.predict(
+		*space_inputs,
+		api_name=api_name,
+		fn_index=fn_index
+	)
+	# space_inputs = {str(i): value for i, value in enumerate(space_inputs)}
+print(space_inputs)
+# print(*space_inputs)
+# print(**space_inputs)
+# result = client.predict(
+# 	**space_inputs,
+# 	api_name=api_name,
+#     fn_index=fn_index
+# )
+print(result)

test_tts_zonos.py CHANGED Viewed

@@ -2,7 +2,8 @@ import os
 from test_overrides import _get_param_examples, _override_params
 from gradio_client import Client, file
-model = "Steveeeeeeen/Zonos/hybrid"
 # client = Client("Pendrokar/Zonos", hf_token=os.getenv('HF_TOKEN'))
 client = Client("Steveeeeeeen/Zonos", hf_token=os.getenv('HF_TOKEN'))
 # client = Client(model, hf_token=os.getenv('HF_TOKEN'))
@@ -12,7 +13,7 @@ endpoints = client.view_api(all_endpoints=True, print_info=False, return_format=
 api_name = '/generate_audio'
 fn_index = None
 end_parameters = None
-text = 'This is what my voice sounds like.'
 end_parameters = _get_param_examples(
 	endpoints['named_endpoints'][api_name]['parameters']
@@ -20,7 +21,7 @@ end_parameters = _get_param_examples(
 print(end_parameters)
-space_inputs = end_parameters
 # override some or all default parameters
 space_inputs = _override_params(end_parameters, model)

 from test_overrides import _get_param_examples, _override_params
 from gradio_client import Client, file
+model = "Steveeeeeeen/Zonos"
+# model = "Steveeeeeeen/Zonos/hybrid"
 # client = Client("Pendrokar/Zonos", hf_token=os.getenv('HF_TOKEN'))
 client = Client("Steveeeeeeen/Zonos", hf_token=os.getenv('HF_TOKEN'))
 # client = Client(model, hf_token=os.getenv('HF_TOKEN'))
 api_name = '/generate_audio'
 fn_index = None
 end_parameters = None
+text = 'The young girl.'
 end_parameters = _get_param_examples(
 	endpoints['named_endpoints'][api_name]['parameters']
 print(end_parameters)
+# space_inputs = end_parameters
 # override some or all default parameters
 space_inputs = _override_params(end_parameters, model)