Upload 11 files

Browse files

Files changed (11) hide show

.gitattributes +0 -33
LICENSE +9 -0
README.md +58 -3
config.json +10 -0
example_conversations.txt +8 -0
inference.py +19 -0
requirements.txt +5 -0
special_tokens_map.json +6 -0
tokenizer_config.json +5 -0
train_chatbot.py +85 -0
utils.py +19 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,2 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text




1	*.bin filter=lfs diff=lfs merge=lfs -text





















2	*.safetensors filter=lfs diff=lfs merge=lfs -text

LICENSE ADDED Viewed

	@@ -0,0 +1,9 @@

+Apache License 2.0
+Copyright 2025 hmnshudhmn24
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+    http://www.apache.org/licenses/LICENSE-2.0

README.md CHANGED Viewed

@@ -1,3 +1,58 @@
----
-license: apache-2.0
----

+---
+language: en
+license: apache-2.0
+datasets: daily_dialog
+pipeline_tag: text-generation
+library_name: transformers
+tags:
+  - gpt2
+  - conversational
+  - chatbot
+  - nlp
+base_model: gpt2
+---
+# GPT-2 Personal Assistant
+**Model repo:** `hmnshudhmn24/gpt2-personal-assistant`
+A lightweight conversational assistant based on **GPT-2**, fine-tuned on the **DailyDialog** dataset for chat and casual Q&A.
+## Model details
+- **Base model:** gpt2
+- **Task:** Conversational text generation / Chatbot
+- **Dataset used for demo:** daily_dialog (small subset used in training script for quick demo)
+- **Language:** English
+- **License:** Apache-2.0
+## How to use (inference)
+```python
+from transformers import pipeline
+generator = pipeline("text-generation", model="hmnshudhmn24/gpt2-personal-assistant")
+prompt = "User: Hello\nAssistant: Hi! How can I help you?\nUser: What's the weather like today?\nAssistant:"
+print(generator(prompt, max_length=100, num_return_sequences=1)[0]["generated_text"])
+```
+## Train locally (quick demo)
+Run:
+```bash
+python train_chatbot.py
+```
+This script fine-tunes `gpt2` on a subset of the DailyDialog dataset and saves the model to `./gpt2-personal-assistant` folder.
+## Files in this repo
+- `config.json`, `tokenizer_config.json`, `special_tokens_map.json` — model/tokenizer configs
+- `train_chatbot.py` — training script (demo)
+- `inference.py` — simple inference example
+- `utils.py` — helper to build conversation prompts
+- `example_conversations.txt` — small sample dialogues
+- `requirements.txt` — Python dependencies
+## Notes & limitations
+- GPT-2 is a general-purpose LM; it can generate incorrect or unsafe outputs. Do not rely on it for critical advice.
+- For production, use larger datasets, more epochs, and safety filtering.
+- If uploading to Hugging Face, include `pytorch_model.bin` (weights) after training.
+## License
+Apache-2.0

config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_layer": 12,
+  "n_head": 12
+}

example_conversations.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+User: Hi, how are you?
+Assistant: I'm good — thanks! How can I assist you today?
+User: Tell me a short joke.
+Assistant: Why did the scarecrow win an award? Because he was outstanding in his field!
+User: How can I improve my focus while studying?
+Assistant: Create a distraction-free environment, use short focused sessions (25–50 minutes), take regular breaks, and set clear goals.

inference.py ADDED Viewed

	@@ -0,0 +1,19 @@

+# inference.py
+from transformers import pipeline
+from utils import build_conversation_prompt
+MODEL_ID = "hmnshudhmn24/gpt2-personal-assistant"
+def chat_once(model_id=MODEL_ID):
+    generator = pipeline("text-generation", model=model_id, tokenizer=model_id, device=0 if __import__('torch').cuda.is_available() else -1)
+    history = [
+        "User: Hello!",
+        "Assistant: Hi there! How can I help you today?"
+    ]
+    user_input = "Can you summarize the benefits of exercise?"
+    prompt = build_conversation_prompt(history, user_input, system_prompt="You are a helpful assistant.")
+    outputs = generator(prompt, max_length=300, num_return_sequences=1, do_sample=False, pad_token_id=50256)
+    print(outputs[0]["generated_text"])
+if __name__ == "__main__":
+    chat_once()

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+transformers>=4.44.0
+datasets>=2.21.0
+torch>=1.12.0
+accelerate>=0.20.3
+sentencepiece

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "eos_token": "",
+  "bos_token": " ",
+  "unk_token": "<|unk|>",
+  "pad_token": "<|pad|>"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "model_max_length": 1024,
+  "padding_side": "left",
+  "truncation_side": "right"
+}

train_chatbot.py ADDED Viewed

	@@ -0,0 +1,85 @@

+# train_chatbot.py
+import os
+from datasets import load_dataset
+from transformers import (
+    GPT2TokenizerFast,
+    GPT2LMHeadModel,
+    DataCollatorForLanguageModeling,
+    Trainer,
+    TrainingArguments
+)
+import torch
+# === EDITABLE SETTINGS ===
+HF_USERNAME = "hmnshudhmn24"
+REPO_ID = f"{HF_USERNAME}/gpt2-personal-assistant"
+BASE_MODEL = "gpt2"
+OUTPUT_DIR = "./results"
+MAX_TRAIN_SAMPLES = 4000
+MAX_VAL_SAMPLES = 500
+EPOCHS = 1
+BATCH_SIZE = 4
+LEARNING_RATE = 5e-5
+# =========================
+def prepare_dataset():
+    ds = load_dataset("daily_dialog")
+    def to_text(ex):
+        dialog = ex["dialog"]
+        text = "\n".join(dialog)
+        return {"text": text}
+    ds = ds.map(to_text, remove_columns=ds["train"].column_names)
+    ds["train"] = ds["train"].select(range(min(MAX_TRAIN_SAMPLES, len(ds["train"]))))
+    ds["validation"] = ds["validation"].select(range(min(MAX_VAL_SAMPLES, len(ds["validation"]))))
+    return ds
+def main():
+    tokenizer = GPT2TokenizerFast.from_pretrained(BASE_MODEL)
+    if tokenizer.pad_token is None:
+        tokenizer.add_special_tokens({"pad_token": "<|pad|>"})
+    model = GPT2LMHeadModel.from_pretrained(BASE_MODEL)
+    model.resize_token_embeddings(len(tokenizer))
+    ds = prepare_dataset()
+    def tokenize_batch(examples):
+        return tokenizer(examples["text"], truncation=True, max_length=512)
+    tokenized = ds.map(tokenize_batch, batched=True, remove_columns=["text"])
+    data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
+    training_args = TrainingArguments(
+        output_dir=OUTPUT_DIR,
+        overwrite_output_dir=True,
+        num_train_epochs=EPOCHS,
+        per_device_train_batch_size=BATCH_SIZE,
+        per_device_eval_batch_size=BATCH_SIZE,
+        evaluation_strategy="epoch",
+        save_strategy="epoch",
+        learning_rate=LEARNING_RATE,
+        weight_decay=0.01,
+        fp16=torch.cuda.is_available(),
+        push_to_hub=False,
+        logging_steps=100
+    )
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        train_dataset=tokenized["train"],
+        eval_dataset=tokenized["validation"],
+        data_collator=data_collator,
+        tokenizer=tokenizer
+    )
+    trainer.train()
+    save_path = "./gpt2-personal-assistant"
+    os.makedirs(save_path, exist_ok=True)
+    trainer.save_model(save_path)
+    tokenizer.save_pretrained(save_path)
+    print(f"Model and tokenizer saved to {save_path}")
+if __name__ == "__main__":
+    main()

utils.py ADDED Viewed

	@@ -0,0 +1,19 @@

+# utils.py
+from typing import List
+def build_conversation_prompt(history: List[str], user_input: str, system_prompt: str = None) -> str:
+    """
+    Build a single string prompt for the causal LM from conversation history and the new user input.
+    history: list of previous lines (alternating user/assistant) or full conversation pieces.
+    user_input: current user message.
+    system_prompt: optional introductory prompt at beginning.
+    """
+    parts = []
+    if system_prompt:
+        parts.append(system_prompt.strip())
+    for i, h in enumerate(history):
+        parts.append(h.strip())
+    parts.append("User: " + user_input.strip())
+    parts.append("Assistant:")
+    return "\n".join(parts)