Spaces:

Detomo
/

aisatsu-api

Sleeping

App Files Files Community

vumichien commited on Mar 27, 2023

Commit

cd09ca8

1 Parent(s): 0f2bf45

Update utils.py

Browse files

Files changed (1) hide show

utils.py +58 -2

utils.py CHANGED Viewed

@@ -1,15 +1,19 @@
 from io import BytesIO
 import base64
 from PIL import Image
 import cv2
 import numpy as np
-from gtts import gTTS
 def tts(text: str, language="ja", encode=False) -> object:
     """Converts text into autoplay html.
     Args:
         text (str): generated answer of bot
         language (str): language of text
     Returns:
         html: autoplay object
     """
@@ -25,6 +29,25 @@ def tts(text: str, language="ja", encode=False) -> object:
         return "temp.mp3"
 def read_image_file(file) -> Image.Image:
     image = Image.open(BytesIO(file))
     return image
@@ -54,4 +77,37 @@ def base64_to_pil(img_str):
 def get_hist(image):
     hist = cv2.calcHist([np.array(image)], [0, 1, 2], None, [8, 8, 8], [0, 256, 0, 256, 0, 256])
     hist = cv2.normalize(hist, hist).flatten()
-    return hist

+from gtts import gTTS
 from io import BytesIO
 import base64
 from PIL import Image
 import cv2
 import numpy as np
+import subprocess
+from speech_recognition import AudioFile, Recognizer
 def tts(text: str, language="ja", encode=False) -> object:
     """Converts text into autoplay html.
     Args:
         text (str): generated answer of bot
         language (str): language of text
+        encode (bool): if True, return base64 encoded string
     Returns:
         html: autoplay object
     """
         return "temp.mp3"
+def stt(audio: object, language='ja') -> str:
+    """Converts speech to text.
+    Args:
+        audio: record of user speech
+        language (str): language of text
+    Returns:
+        text (str): recognized speech of user
+    """
+    # Create a Recognizer object
+    r = Recognizer()
+    # Open the audio file
+    with AudioFile(audio) as source:
+        # Listen for the data (load audio to memory)
+        audio_data = r.record(source)
+        # Transcribe the audio using Google's speech-to-text API
+        text = r.recognize_google(audio_data, language=language)
+    return text
 def read_image_file(file) -> Image.Image:
     image = Image.open(BytesIO(file))
     return image
 def get_hist(image):
     hist = cv2.calcHist([np.array(image)], [0, 1, 2], None, [8, 8, 8], [0, 256, 0, 256, 0, 256])
     hist = cv2.normalize(hist, hist).flatten()
+    return hist
+def ffmpeg_read(bpayload: bytes, sampling_rate: int) -> np.array:
+    """
+    Helper function to read an audio file through ffmpeg.
+    """
+    ar = f"{sampling_rate}"
+    ac = "1"
+    format_for_conversion = "f32le"
+    ffmpeg_command = [
+        "ffmpeg",
+        "-i",
+        "pipe:0",
+        "-ac",
+        ac,
+        "-ar",
+        ar,
+        "-f",
+        format_for_conversion,
+        "-hide_banner",
+        "-loglevel",
+        "quiet",
+        "pipe:1",
+    ]
+    try:
+        ffmpeg_process = subprocess.Popen(ffmpeg_command, stdin=subprocess.PIPE, stdout=subprocess.PIPE)
+    except FileNotFoundError:
+        raise ValueError("ffmpeg was not found but is required to load audio files from filename")
+    output_stream = ffmpeg_process.communicate(bpayload)
+    out_bytes = output_stream[0]
+    audio = np.frombuffer(out_bytes, np.float32)
+    return audio