SeaLLM-Chat

Paused

App Files Files Community

NGUYEN, Xuan Phi commited on Apr 12, 2024

Commit

4a01c79

1 Parent(s): 3b65eaa

update

Browse files

Files changed (3) hide show

multipurpose_chatbot/configs.py +1 -1
multipurpose_chatbot/demos/chat_interface.py +1 -1
multipurpose_chatbot/engines/transformers_engine.py +41 -34

multipurpose_chatbot/configs.py CHANGED Viewed

@@ -184,7 +184,7 @@ CHUNK_OVERLAP = int(os.environ.get("CHUNK_SIZE", "50"))
 DEFAULT_SYSTEM_PROMPT = """You are a helpful, respectful, honest and safe AI assistant."""
-DEFAULT_SYSTEM_PROMPT = """You are SeaLLM, you are a helpful, respectful and honest AI assistant. Based on your internal clock, the current date time: {cur_datetime}.
 Your knowledge base was last updated on August 2023. Thus, you should answer questions about events prior to and after August 2023 the way a highly informed individual in August 2023 would if they were talking to someone from the above date, and can let the human know this when relevant.

 DEFAULT_SYSTEM_PROMPT = """You are a helpful, respectful, honest and safe AI assistant."""
+DEFAULT_SYSTEM_PROMPT = """You are SeaLLM, you are a helpful, respectful and honest AI assistant. Based on your internal clock, the current date time is {cur_datetime}.
 Your knowledge base was last updated on August 2023. Thus, you should answer questions about events prior to and after August 2023 the way a highly informed individual in August 2023 would if they were talking to someone from the above date, and can let the human know this when relevant.

multipurpose_chatbot/demos/chat_interface.py CHANGED Viewed

@@ -110,7 +110,7 @@ def get_datetime_string():
     # tz_string = datetime.now().astimezone()
     # dt_string = now.strftime("%B %d, %Y, %H:%M:%S")
     # dt_string = datetime.now().astimezone().strftime("%B %d, %Y, %H:%M GMT%Z")
-    dt_string = datetime.now().astimezone().strftime("%B %d, %Y")
     return dt_string

     # tz_string = datetime.now().astimezone()
     # dt_string = now.strftime("%B %d, %Y, %H:%M:%S")
     # dt_string = datetime.now().astimezone().strftime("%B %d, %Y, %H:%M GMT%Z")
+    dt_string = datetime.now().strftime("%B %d, %Y")
     return dt_string

multipurpose_chatbot/engines/transformers_engine.py CHANGED Viewed

@@ -550,40 +550,47 @@ class TransformersEngine(BaseEngine):
         self._model.sample = types.MethodType(NewGenerationMixin.sample_stream, self._model)
         self.maybe_raise_safety(prompt)
-        with torch.no_grad():
-            inputs = self.tokenizer(prompt, return_tensors='pt')
-            num_tokens = inputs.input_ids.size(1)
-            inputs = inputs.to(self._model.device)
-            generator = self._model.generate(
-                **inputs,
-                do_sample=True,
-                temperature=temperature,
-                max_new_tokens=max_tokens,
-                pad_token_id=self.tokenizer.pad_token_id,
-            )
-            out_tokens = []
-            response = None
-            for index, token in enumerate(generator):
-                out_tokens.extend(token.tolist())
-                response = self.tokenizer.decode(out_tokens)
-                if "<|im_start|>assistant\n" in response:
-                    response = response.split("<|im_start|>assistant\n")[-1]
-                num_tokens += 1
-                # print(f"{response}", end='\r')
-                # sys.stdout.flush()
-                self.maybe_raise_safety(response, gen_index=index)
-                yield response, num_tokens
-            del generator
-            if response is not None:
-                if "<|im_start|>assistant\n" in response:
-                    response = response.split("<|im_start|>assistant\n")[-1]
-                self.maybe_raise_safety(response)
-                full_text = prompt + response
-                num_tokens = len(self.tokenizer.encode(full_text))
-                yield response, num_tokens

         self._model.sample = types.MethodType(NewGenerationMixin.sample_stream, self._model)
         self.maybe_raise_safety(prompt)
+        if temperature == 0:
+            temperature = 0.0001
+        try:
+            with torch.no_grad():
+                inputs = self.tokenizer(prompt, return_tensors='pt')
+                num_tokens = inputs.input_ids.size(1)
+                inputs = inputs.to(self._model.device)
+                generator = self._model.generate(
+                    **inputs,
+                    do_sample=True,
+                    temperature=temperature,
+                    max_new_tokens=max_tokens,
+                    pad_token_id=self.tokenizer.pad_token_id,
+                )
+                out_tokens = []
+                response = None
+                for index, token in enumerate(generator):
+                    out_tokens.extend(token.tolist())
+                    response = self.tokenizer.decode(out_tokens)
+                    if "<|im_start|>assistant\n" in response:
+                        response = response.split("<|im_start|>assistant\n")[-1]
+                    num_tokens += 1
+                    # print(f"{response}", end='\r')
+                    # sys.stdout.flush()
+                    self.maybe_raise_safety(response, gen_index=index)
+                    yield response, num_tokens
+                del generator
+                if response is not None:
+                    if "<|im_start|>assistant\n" in response:
+                        response = response.split("<|im_start|>assistant\n")[-1]
+                    self.maybe_raise_safety(response)
+                    full_text = prompt + response
+                    num_tokens = len(self.tokenizer.encode(full_text))
+                    yield response, num_tokens
+        except RuntimeError as e:
+            raise gr.Error(str(e))