Spaces:

Ragnarok1988
/

Aula09

Sleeping

App Files Files Community

Ragnarok1988 commited on May 31

Commit

cc78a8c

verified ·

1 Parent(s): d046ad1

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -31

app.py CHANGED Viewed

@@ -2,12 +2,10 @@ import gradio as gr
 from huggingface_hub import InferenceClient
 import os
-"""
-Para obter mais informações sobre o suporte da API de inferência `huggingface_hub`, consulte a documentação:
-https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
-"""
-client = InferenceClient( model="HuggingFaceH4/zephyr-7b-alph", token=os.getenv("HF_TOKEN"))
 def responder(
     mensagem,
@@ -17,37 +15,35 @@ def responder(
     temperatura,
     top_p,
 ):
-    mensagens = [{"role": "system", "content": mensagem_do_sistema}]
-    for usuario, bot in historico:
-        if usuario:
-            mensagens.append({"role": "user", "content": usuario})
-        if bot:
-            mensagens.append({"role": "assistant", "content": bot})
-    mensagens.append({"role": "user", "content": mensagem})
-    resposta = ""
-    for resposta_parcial in client.chat_completion(
-        messages=mensagens,
-        max_tokens=max_tokens,
-        stream=True,
-        temperature=temperatura,
-        top_p=top_p,
-    ):
-        token = resposta_parcial.choices[0].delta.content or ""
-        resposta += token
-        yield resposta
-"""
-Para obter informações sobre como personalizar o ChatInterface, consulte:
-https://www.gradio.app/docs/chatinterface
-"""
 demo = gr.ChatInterface(
     responder,
     additional_inputs=[
-        gr.Textbox(value="Você é um Chatbot amigável.", label="Mensagem do sistema"),
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Máximo de novos tokens"),
         gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperatura"),
         gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (amostragem de núcleo)"),

 from huggingface_hub import InferenceClient
 import os
+client = InferenceClient(
+    model="mistralai/Mistral-7B-Instruct-v0.1",
+    token=os.getenv("HF_TOKEN")
+)
 def responder(
     mensagem,
     temperatura,
     top_p,
 ):
+    # Monta prompt manualmente
+    prompt = f"<s>[SYSTEM] {mensagem_do_sistema}\n"
+    for user_msg, bot_msg in historico:
+        if user_msg:
+            prompt += f"[USER] {user_msg}\n"
+        if bot_msg:
+            prompt += f"[ASSISTANT] {bot_msg}\n"
+    prompt += f"[USER] {mensagem}\n[ASSISTANT]"
+    resposta = ""
+    try:
+        for resposta_parcial in client.text_generation(
+            prompt=prompt,
+            max_new_tokens=max_tokens,
+            stream=True,
+            temperature=temperatura,
+            top_p=top_p,
+        ):
+            token = resposta_parcial.token.text
+            resposta += token
+            yield resposta
+    except Exception as e:
+        yield f"[ERRO]: {str(e)}"
 demo = gr.ChatInterface(
     responder,
     additional_inputs=[
+        gr.Textbox(value="Você é um assistente útil.", label="Mensagem do sistema"),
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Máximo de novos tokens"),
         gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperatura"),
         gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (amostragem de núcleo)"),