TxT360

Paused

victormiller commited on Sep 26, 2024

Commit

a552bff

verified ·

1 Parent(s): 506b4ce

Update main.py

Files changed (1) hide show

main.py CHANGED Viewed

@@ -123,10 +123,15 @@ def main():
         ),
     )
-intro_text = P(
-"""Pretraining performant large language models (LLMs) requires trillions of tokens of high quality data. Many prior work, including our previous pretraining projects Amber-7B, Crystal-7B, and K2-65B have demonstrated how data curation is a ‘make-or-break’ decision for model quality and capability.""")
-intro_list = P("""We present TxT360, the Trillion eXtracted Text corpus, a 5.7T token dataset for pretraining projects that:""")
 intro_list1 = Ol(
                 Li("Curates commonly used pretraining datasets, including all CommonCrawl"),

         ),
     )
+intro_text = P("Pretraining performant large language models (LLMs) requires trillions of tokens of high quality data. Many prior work, including our previous pretraining projects ",
+            A("Amber-7B", href = "https://huggingface.co/LLM360/Amber"),
+            ", ",
+            A("Crystal-7B", href = "https://huggingface.co/LLM360/CrystalCoder"),
+            ", ",
+            A("K2-65B", href = "https://huggingface.co/LLM360/K2"),
+            "have demonstrated how data curation is a ‘make-or-break’ decision for model quality and capability.",)
+intro_list = P("We present TxT360, the Trillion eXtracted Text corpus, a 5.7T token dataset for pretraining projects that:")
 intro_list1 = Ol(
                 Li("Curates commonly used pretraining datasets, including all CommonCrawl"),