Spaces:

Dovakiins
/

qwerrwe

Build error

App Files Files Community

winglian commited on May 17, 2023

Commit

1365073

1 Parent(s): 8c2f3cb

concise multiple choice and tldr summarize

Browse files

Files changed (3) hide show

src/axolotl/prompt_tokenizers.py +10 -1
src/axolotl/prompters.py +8 -0
src/axolotl/utils/data.py +18 -2

src/axolotl/prompt_tokenizers.py CHANGED Viewed

@@ -97,7 +97,7 @@ class AlpacaMultipleChoicePromptTokenizingStrategy(InstructionPromptTokenizingSt
         return (
             prompt["question"],
             "\n".join(f'- "{choice}"' for choice in prompt["choices"]),
-            prompt["explanation"],
         )
@@ -119,6 +119,15 @@ class OpenAssistantPromptTokenizingStrategy(InstructionPromptTokenizingStrategy)
         )
 class GPTeacherPromptTokenizingStrategy(InstructionPromptTokenizingStrategy):
     def parse_instruction_fields(self, prompt) -> (str, str, str):
         return (

         return (
             prompt["question"],
             "\n".join(f'- "{choice}"' for choice in prompt["choices"]),
+            prompt["solution"] if "solution" in prompt else prompt["explanation"],
         )
         )
+class SummarizeTLDRPromptTokenizingStrategy(InstructionPromptTokenizingStrategy):
+    def parse_instruction_fields(self, prompt) -> (str, str, str):
+        return (
+            prompt["article"],
+            "",
+            prompt["summary"],
+        )
 class GPTeacherPromptTokenizingStrategy(InstructionPromptTokenizingStrategy):
     def parse_instruction_fields(self, prompt) -> (str, str, str):
         return (

src/axolotl/prompters.py CHANGED Viewed

@@ -39,6 +39,14 @@ class MultipleChoiceExplainPrompter(AlpacaPrompter):
     prompt_input = "Choose the answer that best answers the question. Explain your reasoning.\n\n### Question:\n{instruction}\n\n### Choices:\n{input}\n\n### Response:\n"
 class CompletionPrompter(AlpacaPrompter):
     def build_prompt(self, instruction: str, input=None, output=None) -> Generator[str, None, None]:
         yield instruction

     prompt_input = "Choose the answer that best answers the question. Explain your reasoning.\n\n### Question:\n{instruction}\n\n### Choices:\n{input}\n\n### Response:\n"
+class MultipleChoiceConcisePrompter(AlpacaPrompter):
+    prompt_input = "Choose the answer that best answers the question. Be concise in your response.\n\nUSER: {instruction}\n{input}\nASSISTANT:\n"
+class SummarizeTLDRPrompter(AlpacaPrompter):
+    prompt_no_input = "USER: Summarize the following article as a TL;DR.\n{instruction}\nASSISTANT:"
 class CompletionPrompter(AlpacaPrompter):
     def build_prompt(self, instruction: str, input=None, output=None) -> Generator[str, None, None]:
         yield instruction

src/axolotl/utils/data.py CHANGED Viewed

@@ -19,7 +19,9 @@ from axolotl.prompt_tokenizers import (
     AlpacaReflectionPTStrategy,
     ShareGPTPromptTokenizingStrategy,
     JeopardyPromptTokenizingStrategy,
-    CompletionPromptTokenizingStrategy, AlpacaMultipleChoicePromptTokenizingStrategy,
 )
 from axolotl.prompters import (
     AlpacaPrompter,
@@ -27,7 +29,9 @@ from axolotl.prompters import (
     ReflectAlpacaPrompter,
     ShareGPTPrompter,
     JeopardyPrompter,
-    CompletionPrompter, MultipleChoiceExplainPrompter,
 )
@@ -94,6 +98,18 @@ def load_tokenized_prepared_datasets(tokenizer, cfg, default_dataset_prepared_pa
                 )
                 ds_wrapper = TokenizedPromptDataset(ds_strategy, ds["train"])
                 datasets.append(ds_wrapper)
             elif d.type == "jeopardy":
                 ds_strategy = JeopardyPromptTokenizingStrategy(
                     JeopardyPrompter(), tokenizer, cfg.train_on_inputs, cfg.sequence_len

     AlpacaReflectionPTStrategy,
     ShareGPTPromptTokenizingStrategy,
     JeopardyPromptTokenizingStrategy,
+    CompletionPromptTokenizingStrategy,
+    AlpacaMultipleChoicePromptTokenizingStrategy,
+    SummarizeTLDRPromptTokenizingStrategy,
 )
 from axolotl.prompters import (
     AlpacaPrompter,
     ReflectAlpacaPrompter,
     ShareGPTPrompter,
     JeopardyPrompter,
+    CompletionPrompter,
+    MultipleChoiceExplainPrompter,
+    SummarizeTLDRPrompter, MultipleChoiceConcisePrompter,
 )
                 )
                 ds_wrapper = TokenizedPromptDataset(ds_strategy, ds["train"])
                 datasets.append(ds_wrapper)
+            elif d.type == "concisechoice":
+                ds_strategy = AlpacaMultipleChoicePromptTokenizingStrategy(
+                    MultipleChoiceConcisePrompter(), tokenizer, cfg.train_on_inputs, cfg.sequence_len
+                )
+                ds_wrapper = TokenizedPromptDataset(ds_strategy, ds["train"])
+                datasets.append(ds_wrapper)
+            elif d.type == "summarizetldr":
+                ds_strategy = SummarizeTLDRPromptTokenizingStrategy(
+                    SummarizeTLDRPrompter(), tokenizer, cfg.train_on_inputs, cfg.sequence_len
+                )
+                ds_wrapper = TokenizedPromptDataset(ds_strategy, ds["train"])
+                datasets.append(ds_wrapper)
             elif d.type == "jeopardy":
                 ds_strategy = JeopardyPromptTokenizingStrategy(
                     JeopardyPrompter(), tokenizer, cfg.train_on_inputs, cfg.sequence_len