Spaces:

GilbertAkham
/

GJAI-R1

Sleeping

App Files Files Community

GilbertAkham commited on Nov 6, 2025

Commit

fc4efba

verified ·

1 Parent(s): bc8874a

Update app.py

Browse files

Change to ZeroGPU

Files changed (1) hide show

app.py +8 -8

app.py CHANGED Viewed

@@ -1,5 +1,7 @@
 import torch
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 from peft import PeftModel
@@ -12,13 +14,13 @@ ADAPTER_MODEL = "GilbertAkham/deepseek-R1-multitask-lora"
 print("🔄 Loading base model and LoRA adapter...")
 bnb_config = BitsAndBytesConfig(
-    load_in_4bit=True,                   # load in 4-bit for GPU memory efficiency
     bnb_4bit_use_double_quant=True,
     bnb_4bit_quant_type="nf4",
     bnb_4bit_compute_dtype=torch.float16,
 )
-tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
@@ -37,15 +39,14 @@ print("✅ Model and tokenizer loaded successfully!")
 # -------------------------------------------------
-# CHAT / GENERATION FUNCTION
 # -------------------------------------------------
 def generate_response(message, history, system_message, max_tokens, temperature, top_p):
     """
     Generates text using the multitask LoRA model.
-    Supports chat, reasoning, summarization, storytelling, etc.
     """
-    # Construct a conversation-style prompt
     prompt = f"{system_message}\n\n"
     for turn in history:
         prompt += f"User: {turn['content']}\nAssistant: {turn.get('response', '')}\n"
@@ -65,7 +66,6 @@ def generate_response(message, history, system_message, max_tokens, temperature,
         )
     text = tokenizer.decode(output[0], skip_special_tokens=True)
-    # Extract only the Assistant’s answer
     answer = text.split("Assistant:")[-1].strip()
     return answer
@@ -104,7 +104,7 @@ with gr.Blocks(title="Gilbert Multitask Reasoning AI") as demo:
             - **Base:** `deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B`
             - **Capabilities:**
               🧩 Reasoning, 🗣️ Chat, 📧 Email writing, 📚 Summarization, ✍️ Story continuation, 🧾 Report generation
-            - **Runs locally** (no Inference API required).
             """
         )
     chatbot.render()

+# app.py
 import torch
 import gradio as gr
+import spaces  # 👈 Required for ZeroGPU
 from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 from peft import PeftModel
 print("🔄 Loading base model and LoRA adapter...")
 bnb_config = BitsAndBytesConfig(
+    load_in_4bit=True,                   # 4-bit quantization for GPU memory efficiency
     bnb_4bit_use_double_quant=True,
     bnb_4bit_quant_type="nf4",
     bnb_4bit_compute_dtype=torch.float16,
 )
+tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True)
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
 # -------------------------------------------------
+# GPU INFERENCE FUNCTION
 # -------------------------------------------------
+@spaces.GPU  # 👈 Required for ZeroGPU runtime
 def generate_response(message, history, system_message, max_tokens, temperature, top_p):
     """
     Generates text using the multitask LoRA model.
+    Supports reasoning, chat, summarization, story continuation, etc.
     """
     prompt = f"{system_message}\n\n"
     for turn in history:
         prompt += f"User: {turn['content']}\nAssistant: {turn.get('response', '')}\n"
         )
     text = tokenizer.decode(output[0], skip_special_tokens=True)
     answer = text.split("Assistant:")[-1].strip()
     return answer
             - **Base:** `deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B`
             - **Capabilities:**
               🧩 Reasoning, 🗣️ Chat, 📧 Email writing, 📚 Summarization, ✍️ Story continuation, 🧾 Report generation
+            - **ZeroGPU Enabled:** GPU spins up only when generating responses.
             """
         )
     chatbot.render()