Spaces:

Zenkad
/

Zenkapremiuim

Sleeping

App Files Files Community

Zenkad commited on 10 days ago

Commit

4e40ba5

verified ·

1 Parent(s): fec4279

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -80

app.py CHANGED Viewed

@@ -1,30 +1,15 @@
 import gradio as gr
 import torch
-from transformers import (
-    AutoTokenizer,
-    AutoModelForSeq2SeqLM,
-    AutoModelForCausalLM,
-)
 import pdfplumber
-# ---- Model isimleri ----
-CORE_MODEL_NAME = "TURKCELL/Turkcell-LLM-7b-v1"  # Ana sohbet / QA beyni
-SUMM_MODEL_NAME = "mukayese/mt5-base-turkish-summarization"  # Özet beyni
 device = "cuda" if torch.cuda.is_available() else "cpu"
-# Özet modeli (mT5)
-summ_tokenizer = AutoTokenizer.from_pretrained(SUMM_MODEL_NAME)
-summ_model = AutoModelForSeq2SeqLM.from_pretrained(SUMM_MODEL_NAME).to(device)
-# Ana LLM (Turkcell-LLM)
-core_tokenizer = AutoTokenizer.from_pretrained(CORE_MODEL_NAME)
-core_model = AutoModelForCausalLM.from_pretrained(
-    CORE_MODEL_NAME,
-    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
-)
-if device == "cpu":
-    core_model.to(device)
 # ---- Yardımcı fonksiyonlar ----
@@ -44,88 +29,59 @@ def extract_pdf_text(pdf_file) -> str:
     return full_text
-def summarize_text(text: str, max_input_chars: int = 6000) -> str:
-    """Türkçe özet üret."""
-    if not text:
-        return "PDF'ten metin çıkarılamadı veya dosya boş görünüyor."
-    text = text[:max_input_chars]
-    inputs = summ_tokenizer(
-        text,
         return_tensors="pt",
         truncation=True,
         max_length=1024,
     ).to(device)
     with torch.no_grad():
-        output_ids = summ_model.generate(
             **inputs,
-            max_length=256,
             num_beams=4,
             early_stopping=True,
         )
-    summary = summ_tokenizer.decode(output_ids[0], skip_special_tokens=True)
-    return summary.strip()
-def answer_question_from_text(text: str, question: str, max_context_chars: int = 4000) -> str:
-    """PDF metnine göre soru cevapla."""
     if not text:
-        return "Önce geçerli bir PDF yüklemelisin."
-    if not question:
-        return "Lütfen PDF hakkında bir soru yaz."
-    context = text[:max_context_chars]
     prompt = (
-        "Sen ZenkaMind adında, Türkçe konuşan akıllı bir asistansın. "
-        "Kullanıcının verdiği belge metnine göre soruya cevap ver. "
-        "Bilmediğin şeyi uydurma.\n\n"
-        "Belge metni:\n"
-        f"{context}\n\n"
-        f"Soru: {question}\n"
-        "Cevap:"
     )
-    inputs = core_tokenizer(
-        prompt,
-        return_tensors="pt",
-        truncation=True,
-        max_length=4096,
-    ).to(core_model.device)
-    with torch.no_grad():
-        output_ids = core_model.generate(
-            **inputs,
-            max_length=512,
-            do_sample=True,
-            top_p=0.9,
-            temperature=0.7,
-        )
-    full_answer = core_tokenizer.decode(output_ids[0], skip_special_tokens=True)
-    if "Cevap:" in full_answer:
-        answer = full_answer.split("Cevap:", 1)[-1].strip()
-    else:
-        answer = full_answer.strip()
-    return answer
-def summarize_pdf(pdf_file):
     text = extract_pdf_text(pdf_file)
     if not text:
-        return "PDF'ten metin çıkarılamadı. Dosya okunamıyor olabilir."
-    return summarize_text(text)
-def qa_on_pdf(pdf_file, question):
-    text = extract_pdf_text(pdf_file)
-    return answer_question_from_text(text, question)
 # ---- Gradio arayüzü ----
@@ -133,11 +89,12 @@ def qa_on_pdf(pdf_file, question):
 with gr.Blocks() as demo:
     gr.Markdown(
         """
-        # 🧠 ZenkaMind PDF Analiz (MVP)
         - PDF yükle
-        - İstersen sadece özet al
-        - İstersen PDF hakkında soru sor
         """
     )

 import gradio as gr
 import torch
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 import pdfplumber
+# ---- TEK MODEL: Türkçe özet + QA için mT5 ----
+MODEL_NAME = "mukayese/mt5-base-turkish-summarization"
 device = "cuda" if torch.cuda.is_available() else "cpu"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME).to(device)
 # ---- Yardımcı fonksiyonlar ----
     return full_text
+def generate_text(prompt: str, max_new_tokens: int = 256) -> str:
+    """mT5 ile verilen prompt'a göre metin üret."""
+    if not prompt:
+        return "Metin boş görünüyor."
+    inputs = tokenizer(
+        prompt,
         return_tensors="pt",
         truncation=True,
         max_length=1024,
     ).to(device)
     with torch.no_grad():
+        output_ids = model.generate(
             **inputs,
+            max_length=max_new_tokens,
             num_beams=4,
             early_stopping=True,
         )
+    text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
+    return text.strip()
+def summarize_pdf(pdf_file):
+    text = extract_pdf_text(pdf_file)
     if not text:
+        return "PDF'ten metin çıkarılamadı. Dosya boş veya okunamıyor olabilir."
     prompt = (
+        "Aşağıdaki Türkçe metni kısa ve anlaşılır bir şekilde özetle.\n\n"
+        f"Metin:\n{text}\n\n"
+        "Özet:"
     )
+    return generate_text(prompt, max_new_tokens=256)
+def qa_on_pdf(pdf_file, question):
     text = extract_pdf_text(pdf_file)
     if not text:
+        return "Önce geçerli bir PDF yüklemelisin."
+    if not question:
+        return "Lütfen PDF hakkında bir soru yaz."
+    prompt = (
+        "Aşağıdaki Türkçe metne göre soruya cevap ver. Bilmediğin şeyi uydurma.\n\n"
+        f"Metin:\n{text}\n\n"
+        f"Soru: {question}\n"
+        "Cevap:"
+    )
+    return generate_text(prompt, max_new_tokens=256)
 # ---- Gradio arayüzü ----
 with gr.Blocks() as demo:
     gr.Markdown(
         """
+        # 🧠 ZenkaMind PDF Analiz (hafif sürüm)
         - PDF yükle
+        - Özet al
+        - Aynı PDF hakkında soru sor
+        (Şu an tek model: mT5 Türkçe özet/QA)
         """
     )