Spaces:

pratikshahp
/

audio-to-text-conversion

Runtime error

pratikshahp commited on Apr 2, 2024

Commit

8b331ad

verified ·

1 Parent(s): 5c92be7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -54,9 +54,6 @@ import numpy as np
 # Load model directly
 from transformers import AutoProcessor, AutoModelForPreTraining
-processor = AutoProcessor.from_pretrained("facebook/wav2vec2-base")
-model = AutoModelForPreTraining.from_pretrained("facebook/wav2vec2-base")
 def transcribe_audio(audio_bytes):
  #   processor = AutoProcessor.from_pretrained("facebook/s2t-small-librispeech-asr")
   #  model = AutoModelForSpeechSeq2Seq.from_pretrained("facebook/s2t-small-librispeech-asr")
@@ -64,20 +61,14 @@ def transcribe_audio(audio_bytes):
     model = AutoModelForPreTraining.from_pretrained("facebook/wav2vec2-base")
     # Convert audio bytes to numpy array
     audio_array = np.frombuffer(audio_bytes, dtype=np.int16)
     # Normalize audio array
     audio_tensor = torch.tensor(audio_array, dtype=torch.float64) / 32768.0
     # Provide inputs to the processor
-    #inputs = processor(audio=audio_tensor, sampling_rate=16000, return_tensors="pt")
     input_features = processor(audio_tensor, sampling_rate=16000, return_tensors="pt").input_features
    # generate token ids
     predicted_ids = model.generate(input_features)
     # decode token ids to text
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
-    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
     return transcription
 # Streamlit app

 # Load model directly
 from transformers import AutoProcessor, AutoModelForPreTraining
 def transcribe_audio(audio_bytes):
  #   processor = AutoProcessor.from_pretrained("facebook/s2t-small-librispeech-asr")
   #  model = AutoModelForSpeechSeq2Seq.from_pretrained("facebook/s2t-small-librispeech-asr")
     model = AutoModelForPreTraining.from_pretrained("facebook/wav2vec2-base")
     # Convert audio bytes to numpy array
     audio_array = np.frombuffer(audio_bytes, dtype=np.int16)
     # Normalize audio array
     audio_tensor = torch.tensor(audio_array, dtype=torch.float64) / 32768.0
     # Provide inputs to the processor
     input_features = processor(audio_tensor, sampling_rate=16000, return_tensors="pt").input_features
    # generate token ids
     predicted_ids = model.generate(input_features)
     # decode token ids to text
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
     return transcription
 # Streamlit app