Spaces:

jspr
/

autodrummer

Runtime error

App Files Files Community

jspr commited on Nov 2, 2022

Commit

0d9f09c

1 Parent(s): 8eb1d71

Upload 3 files

Browse files

Files changed (3) hide show

app.py +41 -0
mappings.py +81 -0
t2a.py +35 -0

app.py ADDED Viewed

	@@ -0,0 +1,41 @@

+import gradio as gr
+import openai
+from t2a import text_to_audio
+import joblib
+from sentence_transformers import SentenceTransformer
+import numpy as np
+reg = joblib.load('text_reg.joblib')
+model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
+finetune = "davinci:ft-personal:autodrummer-v4-2022-11-01-22-44-58"
+def get_note_text(prompt):
+    prompt = prompt + " ->"
+    # get completion from finetune
+    response = openai.Completion.create(
+        engine=finetune,
+        prompt=prompt,
+        temperature=0.7,
+        max_tokens=100,
+        top_p=1,
+        frequency_penalty=0,
+        presence_penalty=0,
+        stop=["###"]
+    )
+    return response.choices[0].text.strip()
+def get_drummer_output(prompt, openai_api_key):
+    openai.api_key = openai_api_key
+    note_text = get_note_text(prompt)
+    # note_text = note_text + " " + note_text
+    # note_text = "k n k n k n k n s n h n k n s n k n k n k n k n k n k n h n k n n"
+    prompt_enc = model.encode([prompt])
+    bpm = int(reg.predict(prompt_enc)[0]) + 20
+    print(bpm, "bpm", "notes are", note_text)
+    audio = text_to_audio(note_text, bpm)
+    # audio to numpy
+    audio = np.array(audio.get_array_of_samples(), dtype=np.float32)
+    return (96000, audio)
+iface = gr.Interface(fn=get_drummer_output, inputs=["text", "text"], outputs="audio")
+iface.launch()

mappings.py ADDED Viewed

	@@ -0,0 +1,81 @@

+inverse_mapping_old = {
+    36: 'kick',
+    38: 'snr', # snare
+    42: 'hh', # hihat
+    48: 'tom',
+    49: 'csh', # crash
+    51: 'ride',
+    39: 'clap',
+    56: 'cbl', # cowbell
+    75: 'claves',
+    64: 'conga',
+    70: 'maracas',
+    76: 'guiro',
+    69: 'cabasa',
+    60: 'bongo',
+    37: 'shkr', # shaker
+    54: 'tamb', # tambourine
+    81: 'triangle',
+    49: 'cymbal',
+    35: 'kick', # bass drum of some kind
+    55: 'spl', # splash cymbal
+    0: 'none',
+    46: 'hh_open', # hihat_open
+    44: 'hh', # hihat_pedal
+    40: 'snr', # snare_rimshot
+    43: 'tom_high_floor',
+    -1: 'none',
+    22: 'kick', # VERIFY
+    58: 'vibraslap',
+    53: 'ride_bell',
+    50: 'tom_high',
+    59: 'ride_2',
+    45: 'tom_low',
+    47: 'tom_low_mid',
+}
+inverse_mapping = {
+    36: 'k', # kick
+    38: 's', # snare
+    42: 'h', # hihat
+    48: 't0', # tom
+    49: 'c', # crash
+    51: 'r', # ride
+    39: 'l', # clap
+    56: 'b', # cowbell
+    37: 'z', # shaker
+    54: 'a', # tambourine
+    81: 'i', # triangle
+    49: 'y', # cymbal
+    35: 'k', # bass drum of some kind
+    55: 'p', # splash cymbal
+    0: 'n', # none
+    46: 'h1', # hihat_open
+    44: 'h', # hihat_pedal
+    40: 's', # snare_rimshot
+    43: 't2', # tom_high_floor
+    -1: 'n', # none
+    22: 'k', # VERIFY
+    58: 'v', # vibraslap
+    53: 'd', # ride_bell
+    50: 't1', # tom_high
+    59: 'e', # ride_2
+    45: 't3', # tom_low
+    47: 't4', # tom_low_mid
+}
+mappings = {
+    "k": "drum-samples/kick.wav",
+    "s": "drum-samples/snare.wav",
+    "h": "drum-samples/hihat.wav",
+    "c": "drum-samples/cymbal.wav",
+    "y": "drum-samples/cymbal.wav",
+    "l": "drum-samples/clap.wav",
+}
+replacements = {
+    "hh_closed": "hh",
+    "hh_open": "hh",
+}

t2a.py ADDED Viewed

	@@ -0,0 +1,35 @@

+from pydub import AudioSegment
+from tqdm import tqdm
+import os
+from mappings import mappings, replacements
+def bpm_to_ms(bpm):
+    return 60000 / 2 / bpm
+def text_to_audio(text, bpm):
+    buffer_length = bpm_to_ms(bpm)
+    audio = AudioSegment.silent(duration=0)
+    for key, value in replacements.items():
+        text = text.replace(key, value)
+    for note in text.split(" "):
+        if note in mappings:
+            to_add = AudioSegment.from_wav(mappings[note])
+            # slice to be of consistent length or add more silence
+            if len(to_add) < buffer_length:
+                to_add = to_add + AudioSegment.silent(duration=buffer_length - len(to_add))
+            elif len(to_add) > buffer_length:
+                to_add = to_add[:buffer_length]
+            audio = audio + to_add
+        elif note == "n":
+            audio = audio + AudioSegment.silent(duration=buffer_length)
+        else: # everything else is a clap
+            to_add = AudioSegment.from_wav(mappings["l"])
+            # slice to be of consistent length or add more silence
+            if len(to_add) < buffer_length:
+                to_add = to_add + AudioSegment.silent(duration=buffer_length - len(to_add))
+            elif len(to_add) > buffer_length:
+                to_add = to_add[:buffer_length]
+            audio = audio + to_add
+    return audio