Spaces:

Mikunono
/

Rally_ChatBot

Paused

Mikunono commited on Mar 19, 2024

Commit

27a0fd9

verified ·

1 Parent(s): 0e03caf

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,30 +2,6 @@ import gradio as gr
 from transformers import pipeline
 import librosa
-########################ASR model###############################
-from transformers import WhisperProcessor, WhisperForConditionalGeneration
-# load model and processor
-processor = WhisperProcessor.from_pretrained("openai/whisper-base")
-model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base")
-model.config.forced_decoder_ids = None
-sample_rate = 16000
-def ASR_model(audio, sr=16000):
-    DB_audio = audio
-    input_features = processor(audio, sampling_rate=sr, return_tensors="pt").input_features
-    # generate token ids
-    predicted_ids = model.generate(input_features)
-    # decode token ids to text
-    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
-    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
-    return transcription
 ########################LLama model###############################
 from transformers import AutoModelForCausalLM, AutoTokenizer
@@ -69,6 +45,31 @@ def RallyRespone(chat_history, message):
     res = t_chat[t_chat.rfind("Rally: "):]
     return res
 ########################Gradio UI###############################
 # Chatbot demo with multimodal input (text, markdown, LaTeX, code blocks, image, audio, & video). Plus shows support for streaming text.

 from transformers import pipeline
 import librosa
 ########################LLama model###############################
 from transformers import AutoModelForCausalLM, AutoTokenizer
     res = t_chat[t_chat.rfind("Rally: "):]
     return res
+########################ASR model###############################
+from transformers import WhisperProcessor, WhisperForConditionalGeneration
+# load model and processor
+processor = WhisperProcessor.from_pretrained("openai/whisper-base")
+model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base")
+model.config.forced_decoder_ids = None
+sample_rate = 16000
+def ASR_model(audio, sr=16000):
+    DB_audio = audio
+    input_features = processor(audio, sampling_rate=sr, return_tensors="pt").input_features
+    # generate token ids
+    predicted_ids = model.generate(input_features)
+    # decode token ids to text
+    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
+    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+    return transcription
 ########################Gradio UI###############################
 # Chatbot demo with multimodal input (text, markdown, LaTeX, code blocks, image, audio, & video). Plus shows support for streaming text.