Spaces:

cafe3310
/

ling-playground-basic

Running on Zero

cafe3310 commited on Sep 24

Commit

aa73b52

1 Parent(s): 9602bb7

feat: Refactor comp.py and add gitignore

Refactor comp.py to:
- Add trust_remote_code=True to AutoTokenizer.
- Change system prompt to Chinese.
- Add comments for better readability.

Add .gitignore to ignore temporary directories.

Files changed (2) hide show

.gitignore +0 -0
comp.py +12 -7

.gitignore ADDED Viewed

File without changes

comp.py CHANGED Viewed

@@ -1,10 +1,8 @@
-import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 from threading import Thread
 import spaces
-# --- 模型加载 ---
-# 使用 "auto" 模式加载模型和分词器，Hugging Face Accelerate 会自动处理设备和精度
 MODEL_NAME = "inclusionAI/Ring-mini-2.0"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
@@ -17,20 +15,25 @@ model = AutoModelForCausalLM.from_pretrained(
 @spaces.GPU(duration=120)
 def generate_response(message, history):
-    # Convert history to messages format
     messages = [
-        {"role": "system", "content": "You are Ring, an assistant created by inclusionAI"}
     ]
     # Add conversation history
     for human, assistant in history:
         messages.append({"role": "user", "content": human})
         messages.append({"role": "assistant", "content": assistant})
-    # Add current message
     messages.append({"role": "user", "content": message})
     # Apply chat template
     text = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
@@ -51,13 +54,15 @@ def generate_response(message, history):
         streamer=streamer,
     )
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
-    # Stream the response
     response = ""
     for new_text in streamer:
         response += new_text
         yield response
     thread.join()

 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 from threading import Thread
 import spaces
+# Model and tokenizer initialization
 MODEL_NAME = "inclusionAI/Ring-mini-2.0"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
 @spaces.GPU(duration=120)
 def generate_response(message, history):
+    # (msg, history) -> str: stream response (yielding partial responses)
+    # To construct the 'chat', we start with system prompt
+    # then append user and assistant messages from history
     messages = [
+        {"role": "system", "content": "你是 Ring，蚂蚁集团开发的智能助手，致力于为用户提供有用的信息和帮助，用中文回答用户的问题。"}
     ]
     # Add conversation history
+    # history is a list of (human, assistant) tuples
     for human, assistant in history:
         messages.append({"role": "user", "content": human})
         messages.append({"role": "assistant", "content": assistant})
+    # Add current message from user
     messages.append({"role": "user", "content": message})
     # Apply chat template
+    # Doc: https://github.com/huggingface/transformers/blob/main/src/transformers/tokenization_utils_base.py#L1510
     text = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
         streamer=streamer,
     )
+    # Start generation in a separate thread to enable streaming
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
+    # ... and yield the generated tokens as they are produced
     response = ""
     for new_text in streamer:
         response += new_text
         yield response
+    # wait for the generation thread to finish
     thread.join()