code-generation-space

Paused

App Files Files Community

loubnabnl HF Staff commited on May 27, 2022

Commit

aa07439

1 Parent(s): cddb272

use multithreading instead of multiprocessing

Browse files

Files changed (1) hide show

app.py +34 -16

app.py CHANGED Viewed

@@ -1,12 +1,10 @@
 import json
 import pandas as pd
 import requests
-from multiprocessing import Pool
-from functools import partial
 import streamlit as st
-GITHUB_CODE = "https://huggingface.co/datasets/lvwerra/github-code"
 MODELS = ["CodeParrot", "InCoder", "CodeGen", "PolyCoder"]
 GENERATION_MODELS = ["CodeParrot", "InCoder", "CodeGen"]
@@ -17,7 +15,14 @@ def load_examples():
     return examples
-def generate_code(model_name, gen_prompt, max_new_tokens, temperature, seed):
     url = (
         f"https://hf.space/embed/loubnabnl/{model_name.lower()}-subspace/+/api/predict/"
     )
@@ -25,12 +30,21 @@ def generate_code(model_name, gen_prompt, max_new_tokens, temperature, seed):
         url=url, json={"data": [gen_prompt, max_new_tokens, temperature, seed]}
     )
     generated_text = r.json()["data"][0]
-    return generated_text
-def read_markdown(path):
-    with open(path, "r") as f:
-        output = f.read()
-    st.markdown(output, unsafe_allow_html=True)
 st.set_page_config(page_icon=":laptop:", layout="wide")
 with open("utils/table_contents.txt", "r") as f:
@@ -45,9 +59,11 @@ read_markdown("utils/intro.txt")
 st.subheader("1 - Code datasets")
 read_markdown("datasets/intro.txt")
 read_markdown("datasets/github_code.txt")
 #st.markdown(f"Preview of some code files from Github repositories in [Github-code dataset]({GITHUB_CODE}):")
 #df = pd.read_csv("utils/data_preview.csv")
 #st.dataframe(df)
 col1, col2= st.columns([1,2])
 with col1:
     selected_model = st.selectbox("", MODELS, key=1)
@@ -107,19 +123,21 @@ gen_prompt = st.text_area(
 ).strip()
 if st.button("Generate code!"):
     with st.spinner("Generating code..."):
-        # Create a multiprocessing Pool
-        pool = Pool()
-        generate_parallel = partial(
-            generate_code,
             gen_prompt=gen_prompt,
             max_new_tokens=max_new_tokens,
             temperature=temperature,
             seed=seed,
         )
-        output = pool.map(generate_parallel, selected_models)
-        for i in range(len(output)):
             st.markdown(f"**{selected_models[i]}**")
-            st.code(output[i])
 # Resources
 st.subheader("Resources")

 import json
 import pandas as pd
 import requests
+import threading
 import streamlit as st
 MODELS = ["CodeParrot", "InCoder", "CodeGen", "PolyCoder"]
 GENERATION_MODELS = ["CodeParrot", "InCoder", "CodeGen"]
     return examples
+def read_markdown(path):
+    with open(path, "r") as f:
+        output = f.read()
+    st.markdown(output, unsafe_allow_html=True)
+def generate_code(generations, model_name, gen_prompt, max_new_tokens, temperature, seed):
+    # call space using its API endpoint
     url = (
         f"https://hf.space/embed/loubnabnl/{model_name.lower()}-subspace/+/api/predict/"
     )
         url=url, json={"data": [gen_prompt, max_new_tokens, temperature, seed]}
     )
     generated_text = r.json()["data"][0]
+    generations.append(generated_text)
+def generate_code_threads(generations, models, gen_prompt, max_new_tokens, temperature, seed):
+    threads = []
+    for model_name in models:
+        # create the thread
+        threads.append(
+            threading.Thread(target=generate_code, args=(generations, model_name, gen_prompt, max_new_tokens, temperature, seed))
+        )
+        threads[-1].start()
+    for t in threads:
+        t.join()
 st.set_page_config(page_icon=":laptop:", layout="wide")
 with open("utils/table_contents.txt", "r") as f:
 st.subheader("1 - Code datasets")
 read_markdown("datasets/intro.txt")
 read_markdown("datasets/github_code.txt")
+#GITHUB_CODE = "https://huggingface.co/datasets/lvwerra/github-code"
 #st.markdown(f"Preview of some code files from Github repositories in [Github-code dataset]({GITHUB_CODE}):")
 #df = pd.read_csv("utils/data_preview.csv")
 #st.dataframe(df)
 col1, col2= st.columns([1,2])
 with col1:
     selected_model = st.selectbox("", MODELS, key=1)
 ).strip()
 if st.button("Generate code!"):
     with st.spinner("Generating code..."):
+        # use threading
+        generations = []
+        generate_code_threads(
+            generations,
+            selected_models,
             gen_prompt=gen_prompt,
             max_new_tokens=max_new_tokens,
             temperature=temperature,
             seed=seed,
         )
+        for i in range(len(generations)):
+            print(generations[i])
+        for i in range(len(generations)):
             st.markdown(f"**{selected_models[i]}**")
+            st.code(generations[i])
 # Resources
 st.subheader("Resources")