llama1

Runtime error

App Files Files Community

thinkingnew commited on Mar 27

Commit

c6509f9

1 Parent(s): cd55902

updated

Browse files

Files changed (2) hide show

.app.py.swp +0 -0
app.py +45 -8

.app.py.swp ADDED Viewed

Binary file (4.1 kB). View file

app.py CHANGED Viewed

@@ -2,24 +2,61 @@ from fastapi import FastAPI
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 from peft import PeftModel
 import torch
 app = FastAPI()
-# Load Model from Hugging Face Hub
 base_model_path = "NousResearch/Hermes-3-Llama-3.2-3B"
 adapter_path = "thinkingnew/llama_invs_adapter"
-base_model = AutoModelForCausalLM.from_pretrained(
-    base_model_path, torch_dtype=torch.float16, device_map="auto"
-)
-model = PeftModel.from_pretrained(base_model, adapter_path)
 tokenizer = AutoTokenizer.from_pretrained(base_model_path)
 @app.get("/")
 async def root():
     return {"message": "Model is running! Use /generate/ for text generation."}
 @app.post("/generate/")
 async def generate_text(prompt: str):
-    pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer, max_length=512)
-    result = pipe(f"<s>[INST] {prompt} [/INST]")
-    return {"response": result[0]['generated_text']}

 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 from peft import PeftModel
 import torch
+import os
 app = FastAPI()
+# Define paths
 base_model_path = "NousResearch/Hermes-3-Llama-3.2-3B"
 adapter_path = "thinkingnew/llama_invs_adapter"
+# Check if GPU is available
+device = "cuda" if torch.cuda.is_available() else "cpu"
+# Create offload directory if running on CPU
+offload_dir = "./offload"
+os.makedirs(offload_dir, exist_ok=True)
+# Load base model
+try:
+    base_model = AutoModelForCausalLM.from_pretrained(
+        base_model_path,
+        torch_dtype=torch.float16 if device == "cuda" else torch.float32,
+        device_map="auto",
+        offload_folder=offload_dir if device == "cpu" else None  # Offload to disk if running on CPU
+    )
+except Exception as e:
+    print(f"Error loading base model: {e}")
+    raise
+# Load adapter
+try:
+    model = PeftModel.from_pretrained(
+        base_model, adapter_path, offload_dir=offload_dir if device == "cpu" else None
+    )
+except Exception as e:
+    print(f"Error loading adapter: {e}")
+    raise
+# Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(base_model_path)
+# Load pipeline once for better performance
+text_pipe = pipeline(
+    task="text-generation",
+    model=model,
+    tokenizer=tokenizer,
+    max_length=512,
+    device=0 if device == "cuda" else -1
+)
+# Root endpoint for testing
 @app.get("/")
 async def root():
     return {"message": "Model is running! Use /generate/ for text generation."}
+# Text generation endpoint
 @app.post("/generate/")
 async def generate_text(prompt: str):
+    result = text_pipe(f"<s>[INST] {prompt} [/INST]")
+    return {"response": result[0]['generated_text']}