Spaces:

basmala12
/

smollm_interface5

Sleeping

App Files Files Community

basmala12 commited on Nov 21, 2025

Commit

96b0750

verified ·

1 Parent(s): 83b358b

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -35

app.py CHANGED Viewed

@@ -1,70 +1,80 @@
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 MODEL_NAME = "basmala12/smollm_finetuning5"
-# Load model & tokenizer
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
-pipe = pipeline(
-    "text-generation",
-    model=model,
-    tokenizer=tokenizer,
-)
 def respond(message, history, system_message, max_tokens, temperature, top_p):
-    # Build chat messages correctly
-    msgs = [{"role": "system", "content": system_message}]
-    # History as proper chat
-    for user_msg, bot_msg in history:
-        msgs.append({"role": "user", "content": user_msg})
-        msgs.append({"role": "assistant", "content": bot_msg})
-    # Add the new user message
-    msgs.append({"role": "user", "content": message})
-    # Apply chat template
     prompt = tokenizer.apply_chat_template(
-        msgs,
         tokenize=False,
         add_generation_prompt=True,
     )
-    # Generate output
-    out = pipe(
-        prompt,
-        max_new_tokens=max_tokens,
-        temperature=temperature,
-        top_p=top_p,
-        do_sample=True,
-    )[0]["generated_text"]
-    # Extract only the assistant answer
-    if "<|im_start|>assistant" in out:
-        out = out.split("<|im_start|>assistant", 1)[-1]
-    out = out.replace("<|im_end|>", "").strip()
-    # Enforce short answer + brief reasoning
-    # (additional safety)
-    if len(out.split()) > 45:
-        out = " ".join(out.split()[:45]) + " ..."
-    return out
 chatbot = gr.ChatInterface(
     fn=respond,
     type="messages",
     additional_inputs=[
-        gr.Textbox("Give short answers with brief logical reasoning.", label="System message"),
         gr.Slider(1, 512, value=256, step=1, label="Max new tokens"),
         gr.Slider(0.1, 4.0, value=0.7, step=0.1, label="Temperature"),
         gr.Slider(0.1, 1.0, value=0.9, step=0.05, label="Top-p"),
     ],
 )
 if __name__ == "__main__":

 import gradio as gr
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
 MODEL_NAME = "basmala12/smollm_finetuning5"
+# Load tokenizer & model once at startup (on CPU)
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
+model.eval()
 def respond(message, history, system_message, max_tokens, temperature, top_p):
+    """
+    ChatInterface (type="messages") passes:
+      - message: current user message (str)
+      - history: list of dicts: [{"role": "...", "content": "..."}, ...]
+      - system_message, max_tokens, temperature, top_p: from additional_inputs
+    We return a single string: the assistant reply.
+    """
+    # Build full conversation for the chat template
+    messages = [{"role": "system", "content": system_message}]
+    # history is a list of {"role": "user"/"assistant", "content": str}
+    # We append it as-is to preserve previous turns
+    messages.extend(history)
+    # Add the new user question
+    messages.append({"role": "user", "content": message})
+    # Turn into model prompt using the tokenizer's chat template
     prompt = tokenizer.apply_chat_template(
+        messages,
         tokenize=False,
         add_generation_prompt=True,
     )
+    # Tokenize
+    inputs = tokenizer(prompt, return_tensors="pt")
+    # Generate continuation (new assistant answer only)
+    with torch.no_grad():
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=max_tokens,
+            do_sample=True,
+            temperature=float(temperature),
+            top_p=float(top_p),
+        )
+    # Slice off the prompt tokens, keep only new tokens
+    generated_tokens = outputs[0][inputs["input_ids"].shape[1]:]
+    answer = tokenizer.decode(generated_tokens, skip_special_tokens=True).strip()
+    # Optional: enforce "short answer + brief reasoning"
+    words = answer.split()
+    if len(words) > 60:
+        answer = " ".join(words[:60]) + " ..."
+    return answer
 chatbot = gr.ChatInterface(
     fn=respond,
     type="messages",
     additional_inputs=[
+        gr.Textbox(
+            value="Give short answers with brief logical reasoning.",
+            label="System message",
+        ),
         gr.Slider(1, 512, value=256, step=1, label="Max new tokens"),
         gr.Slider(0.1, 4.0, value=0.7, step=0.1, label="Temperature"),
         gr.Slider(0.1, 1.0, value=0.9, step=0.05, label="Top-p"),
     ],
+    title="SmolLM2 – Short Reasoning Chatbot",
+    description="Fine-tuned SmolLM2 (basmala12/smollm_finetuning5) that gives short answers with brief logical reasoning.",
 )
 if __name__ == "__main__":