Spaces:

Zenkad
/

Zenkapremiuim

Sleeping

App Files Files Community

Zenkad commited on 11 days ago

Commit

41e7713

verified ·

1 Parent(s): 3c418d2

Create app.py

Browse files

Files changed (1) hide show

app.py +190 -0

app.py ADDED Viewed

	@@ -0,0 +1,190 @@

+import gradio as gr
+import torch
+from transformers import (
+    AutoTokenizer,
+    AutoModelForSeq2SeqLM,
+    AutoModelForCausalLM,
+)
+import pdfplumber
+# ---- Modeller ----
+CORE_MODEL_NAME = "TURKCELL/Turkcell-LLM-7b-v1"  # Ana sohbet / QA beyni
+SUMM_MODEL_NAME = "mukayese/mt5-base-turkish-summarization"  # Özet beyni
+device = "cuda" if torch.cuda.is_available() else "cpu"
+# Özet modeli (mT5)
+summ_tokenizer = AutoTokenizer.from_pretrained(SUMM_MODEL_NAME)
+summ_model = AutoModelForSeq2SeqLM.from_pretrained(SUMM_MODEL_NAME).to(device)
+# Ana LLM (Turkcell-LLM)
+core_tokenizer = AutoTokenizer.from_pretrained(CORE_MODEL_NAME)
+core_model = AutoModelForCausalLM.from_pretrained(
+    CORE_MODEL_NAME,
+    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+    device_map="auto" if torch.cuda.is_available() else None,
+)
+if device == "cpu":
+    core_model.to(device)
+# ---- Yardımcı fonksiyonlar ----
+def extract_pdf_text(pdf_file) -> str:
+    """
+    Yüklenen PDF dosyasından düz metin çıkarır.
+    """
+    if pdf_file is None:
+        return ""
+    text_pages = []
+    with pdfplumber.open(pdf_file.name) as pdf:
+        for page in pdf.pages:
+            page_text = page.extract_text() or ""
+            text_pages.append(page_text)
+    full_text = "\n\n".join(text_pages).strip()
+    return full_text
+def summarize_text(text: str, max_input_chars: int = 6000) -> str:
+    """
+    PDF metnini kısaltarak mT5 ile özetler.
+    """
+    if not text:
+        return "PDF'ten metin çıkarılamadı veya dosya boş görünüyor."
+    # Çok uzun metni kırp (MVP için basit truncation)
+    text = text[:max_input_chars]
+    inputs = summ_tokenizer(
+        text,
+        return_tensors="pt",
+        truncation=True,
+        max_length=1024,
+    ).to(device)
+    with torch.no_grad():
+        output_ids = summ_model.generate(
+            **inputs,
+            max_length=256,
+            num_beams=4,
+            early_stopping=True,
+        )
+    summary = summ_tokenizer.decode(output_ids[0], skip_special_tokens=True)
+    return summary.strip()
+def answer_question_from_text(text: str, question: str, max_context_chars: int = 4000) -> str:
+    """
+    PDF metni + kullanıcının sorusuna göre, Turkcell-LLM ile cevap üretir.
+    """
+    if not text:
+        return "Önce geçerli bir PDF yüklemelisin."
+    if not question:
+        return "Lütfen PDF hakkında bir soru yaz."
+    # Konteksti çok büyütmemek için basit truncation
+    context = text[:max_context_chars]
+    prompt = (
+        "Sen ZenkaMind adında, Türkçe konuşan akıllı bir asistansın. "
+        "Kullanıcının verdiği belge metnine göre soruya cevap ver. "
+        "Bilmediğin şeyi uydurma.\n\n"
+        "Belge metni:\n"
+        f"{context}\n\n"
+        f"Soru: {question}\n"
+        "Cevap:"
+    )
+    inputs = core_tokenizer(
+        prompt,
+        return_tensors="pt",
+        truncation=True,
+        max_length=4096,
+    ).to(core_model.device)
+    with torch.no_grad():
+        output_ids = core_model.generate(
+            **inputs,
+            max_length=512,
+            do_sample=True,
+            top_p=0.9,
+            temperature=0.7,
+        )
+    full_answer = core_tokenizer.decode(output_ids[0], skip_special_tokens=True)
+    # Prompt'u cevaptan ayırmak için basit kesme
+    if "Cevap:" in full_answer:
+        answer = full_answer.split("Cevap:", 1)[-1].strip()
+    else:
+        answer = full_answer.strip()
+    return answer
+# ---- Gradio Arayüzü ----
+def summarize_pdf(pdf_file):
+    text = extract_pdf_text(pdf_file)
+    if not text:
+        return "PDF'ten metin çıkarılamadı. Dosya okunamıyor olabilir."
+    return summarize_text(text)
+def qa_on_pdf(pdf_file, question):
+    text = extract_pdf_text(pdf_file)
+    return answer_question_from_text(text, question)
+with gr.Blocks() as demo:
+    gr.Markdown(
+        """
+        # 🧠 ZenkaMind PDF Analiz (MVP)
+        - PDF yükle
+        - İstersen sadece özet al
+        - İstersen PDF hakkında soru sor
+        """
+    )
+    with gr.Row():
+        pdf_input = gr.File(label="PDF dosyası yükle", file_types=[".pdf"])
+    question = gr.Textbox(
+        label="PDF hakkında soru sor (opsiyonel)",
+        placeholder="Örnek: Bu PDF'in ana fikri ne?",
+    )
+    with gr.Row():
+        btn_summary = gr.Button("📄 PDF'yi Özetle")
+        btn_qa = gr.Button("❓ Soruyu Cevapla")
+    summary_output = gr.Textbox(
+        label="Özet",
+        lines=10,
+    )
+    answer_output = gr.Textbox(
+        label="Cevap",
+        lines=10,
+    )
+    btn_summary.click(
+        fn=summarize_pdf,
+        inputs=[pdf_input],
+        outputs=[summary_output],
+    )
+    btn_qa.click(
+        fn=qa_on_pdf,
+        inputs=[pdf_input, question],
+        outputs=[answer_output],
+    )
+if __name__ == "__main__":
+    demo.launch(