Spaces:

leoxia711
/

assignment3

Sleeping

App Files Files Community

leoxia711 commited on May 1

Commit

a5b5a10

verified ·

1 Parent(s): a3070ae

Update function.py

Browse files

Files changed (1) hide show

function.py +1 -44

function.py CHANGED Viewed

@@ -1,15 +1,10 @@
 from transformers import pipeline
 import torch
 from datasets import load_dataset
-import soundfile as sf  # 用于保存音频文件
 from transformers import AutoTokenizer, AutoModelForCausalLM, VitsModel
-#tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B")
-#model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B")
-# function part
 # img2text
 def img2text(url):
     image_to_text_model = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")
@@ -60,44 +55,6 @@ def text2story(text):
     return story_text
-# Define the text-to-story function using T5-small
-#def text2story(text):
- #   # Load T5-small model for text-to-text generation
- #   generator = pipeline ("text-generation", model="pranavpsv/genre-story-generator-v2")
-  #  story_text = generator (text) [0] ['generated_text']
-   # return story_text
-# text2story
-#def text2story(text):
-#    story_text = "abcde"   # to be completed
-#    return story_text
-# text2audio
-#def text2audio(story_text):
-    # 加载 TTS 模型
-#    synthesiser = pipeline("text-to-speech", model="microsoft/speecht5_tts")
-    # 加载 speaker embeddings 数据集
-#    embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-    # 选择某个 speaker 的 xvector 作为嵌入向量（可以修改索引来选择其他说话人）
-#    speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
-    # 使用生成的文本和 speaker_embedding 生成语音
-#    speech = synthesiser(story_text, forward_params={"speaker_embeddings": speaker_embedding})
-    # 保存音频为 wav 文件
-#    sf.write("story_audio.wav", speech["audio"], samplerate=speech["sampling_rate"])
-    # 返回音频文件路径（如果需要的话，可以返回 audio 数据）
-#    return "story_audio.wav"
 def text2audio(story_text):
     from transformers import VitsModel, AutoTokenizer
     import torch

 from transformers import pipeline
 import torch
 from datasets import load_dataset
+import soundfile as sf
 from transformers import AutoTokenizer, AutoModelForCausalLM, VitsModel
 # img2text
 def img2text(url):
     image_to_text_model = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")
     return story_text
 def text2audio(story_text):
     from transformers import VitsModel, AutoTokenizer
     import torch