whatsthispdf04

Runtime error

App Files Files Community

mitulagr2 commited on Jun 6, 2024

Commit

5e8fd8b

1 Parent(s): 84b3afe

Add app file

Browse files

Files changed (6) hide show

Dockerfile +29 -0
app/__init__.py +0 -0
app/main.py +58 -0
app/rag.py +59 -0
requirements.txt +6 -0
start_service.sh +16 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,29 @@

+#
+FROM python:3.11
+#
+WORKDIR /code
+#
+COPY ./requirements.txt /code/requirements.txt
+#
+COPY ./start_service.sh /code/start_service.sh
+#
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+#
+COPY ./app /code/app
+#
+# EXPOSE 11434
+#
+RUN chmod +x /code/start_service.sh
+# # Run .sh file
+ENTRYPOINT ["/bin/bash", "/code/start_service.sh"]
+#
+# CMD ["fastapi", "run", "app/main.py", "--port", "80"]

app/__init__.py ADDED Viewed

File without changes

app/main.py ADDED Viewed

	@@ -0,0 +1,58 @@

+import os
+import shutil
+import tempfile
+from tempfile import NamedTemporaryFile
+from pathlib import Path
+from fastapi import FastAPI, UploadFile
+from fastapi.middleware import Middleware
+from fastapi.middleware.cors import CORSMiddleware
+from .rag import ChatPDF
+middleware = [
+    Middleware(
+        CORSMiddleware,
+        allow_origins=["*"],
+        allow_methods=['*'],
+        allow_headers=['*']
+    )
+]
+app = FastAPI(middleware=middleware)
+session_assistant = ChatPDF()
+session_messages = []
+@app.get("/query")
+def process_input(text: str):
+    if text and len(text.strip()) > 0:
+        text = text.strip()
+        agent_text = session_assistant.ask(text)
+        session_messages.append((text, True))
+        session_messages.append((agent_text, False))
+        return agent_text
+@app.post("/upload")
+def upload(files: list[UploadFile]):
+    session_assistant.clear()
+    session_messages = []
+    for file in files:
+        path = f"files/{file.filename}"
+        try:
+            suffix = Path(file.filename).suffix
+            with NamedTemporaryFile(delete=False, suffix=suffix) as tmp:
+                shutil.copyfileobj(file.file, tmp)
+                tmp_path = Path(tmp.name)
+            session_assistant.ingest(tmp_path)
+            os.remove(tmp_path)
+        finally:
+            file.file.close()
+    return "Files inserted!"
+@app.get("/")
+def ping():
+    return "Pong!"

app/rag.py ADDED Viewed

	@@ -0,0 +1,59 @@

+from langchain_community.vectorstores import Chroma
+from langchain_community.chat_models import ChatOllama
+from langchain_community.embeddings import FastEmbedEmbeddings
+from langchain.schema.output_parser import StrOutputParser
+from langchain_community.document_loaders import PyMuPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.schema.runnable import RunnablePassthrough
+from langchain.prompts import PromptTemplate
+from langchain_community.vectorstores.utils import filter_complex_metadata
+class ChatPDF:
+    vector_store = None
+    retriever = None
+    chain = None
+    def __init__(self):
+        self.model = ChatOllama(model="phi3:mini")
+        self.text_splitter = RecursiveCharacterTextSplitter(chunk_size=1024, chunk_overlap=100)
+        self.prompt = PromptTemplate.from_template(
+            """
+            <s> [INST] You are an assistant for question-answering tasks. Use the following pieces of retrieved context
+            to answer the question. If you don't know the answer, just say that you don't know. Use three sentences
+             maximum and keep the answer concise. [/INST] </s>
+            [INST] Question: {question}
+            Context: {context}
+            Answer: [/INST]
+            """
+        )
+    def ingest(self, pdf_file_path: str):
+        docs = PyMuPDFLoader(file_path=pdf_file_path).load()
+        chunks = self.text_splitter.split_documents(docs)
+        chunks = filter_complex_metadata(chunks)
+        vector_store = Chroma.from_documents(documents=chunks, embedding=FastEmbedEmbeddings())
+        self.retriever = vector_store.as_retriever(
+            search_type="similarity_score_threshold",
+            search_kwargs={
+                "k": 3,
+                "score_threshold": 0.5,
+            },
+        )
+        self.chain = ({"context": self.retriever, "question": RunnablePassthrough()}
+                      | self.prompt
+                      | self.model
+                      | StrOutputParser())
+    def ask(self, query: str):
+        if not self.chain:
+            return "Please, add a PDF document first."
+        return self.chain.invoke(query)
+    def clear(self):
+        self.vector_store = None
+        self.retriever = None
+        self.chain = None

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+fastapi
+pymupdf
+langchain
+langchain-community
+fastembed
+chromadb

start_service.sh ADDED Viewed

	@@ -0,0 +1,16 @@

+#!/bin/sh
+#
+curl -fsSL https://ollama.com/install.sh | sh
+# Start Ollama in the background
+ollama serve &
+# Wait for Ollama to start
+sleep 5
+# Pull and run <YOUR_MODEL_NAME>
+ollama pull phi3:mini
+#
+fastapi run /code/app/main.py --port 7860