Spaces:

Sakalti
/

Onsei-Tukuri

Sleeping

App Files Files Community

Sakalti commited on Apr 26

Commit

dc049ca

verified ·

1 Parent(s): 66f6922

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -25

app.py CHANGED Viewed

@@ -1,9 +1,9 @@
 import gradio as gr
-import pyttsx3
 from pydub import AudioSegment
-import numpy as np
 import tempfile
 import os
 # テンプレート設定
 TEMPLATES = {
@@ -21,20 +21,16 @@ TEMPLATES = {
 EFFECTS = ["なし", "ふわふわ化", "かちかち化", "減衰", "リバーブ", "音揺れ"]
-def generate_tts(text, template_name, pitch_factor=1.0, speed_factor=1.0, effect_type="なし"):
-    # 音声合成
-    engine = pyttsx3.init()
-    template = TEMPLATES[template_name]
-    engine.setProperty('rate', template["rate"])
-    engine.setProperty('volume', template["volume"])
-    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
         tts_path = f.name
-    engine.save_to_file(text, tts_path)
-    engine.runAndWait()
     # 音声読み込み
-    sound = AudioSegment.from_file(tts_path)
     # ピッチ変更
     sound = change_pitch(sound, pitch_factor)
@@ -43,11 +39,11 @@ def generate_tts(text, template_name, pitch_factor=1.0, speed_factor=1.0, effect
     sound = change_speed(sound, speed_factor)
     # エフェクト適用
-    sound = apply_effect(sound, effect_type)
     # 一時ファイルに保存
-    output_path = tts_path.replace(".wav", "_modified.wav")
-    sound.export(output_path, format="wav")
     return output_path
@@ -61,29 +57,29 @@ def change_speed(sound, speed=1.0):
     sped_up_sound = sound._spawn(sound.raw_data, overrides={"frame_rate": new_frame_rate})
     return sped_up_sound.set_frame_rate(44100)
-def apply_effect(sound, effect_type):
     if effect_type == "ふわふわ化":
-        return sound.low_pass_filter(1000)
     elif effect_type == "かちかち化":
-        return sound.high_pass_filter(3000)
     elif effect_type == "減衰":
-        return sound.fade_out(len(sound))
     elif effect_type == "リバーブ":
         reversed_sound = sound.reverse()
-        faded = reversed_sound.fade_in(200).fade_out(200)
-        return (sound + faded.reverse()) - 10
     elif effect_type == "音揺れ":
-        return wobble(sound)
     else:
         return sound
-def wobble(sound):
     # 0.2秒ごとにランダムにピッチを揺らす
     chunk_ms = 200
     chunks = [sound[i:i+chunk_ms] for i in range(0, len(sound), chunk_ms)]
     wobbled = AudioSegment.empty()
     for chunk in chunks:
-        pitch_shift = np.random.uniform(0.97, 1.03)  # ちょっと揺れる
         chunk = change_pitch(chunk, pitch_shift)
         wobbled += chunk
     return wobbled
@@ -103,6 +99,7 @@ with gr.Blocks() as app:
     with gr.Row():
         effect_dropdown = gr.Dropdown(choices=EFFECTS, value="なし", label="エフェクトを選ぶ")
     with gr.Row():
         submit_btn = gr.Button("生成する")
@@ -111,7 +108,7 @@ with gr.Blocks() as app:
     submit_btn.click(
         fn=generate_tts,
-        inputs=[text_input, template_dropdown, pitch_slider, speed_slider, effect_dropdown],
         outputs=audio_output
     )

 import gradio as gr
+from gtts import gTTS
 from pydub import AudioSegment
 import tempfile
 import os
+import numpy as np
 # テンプレート設定
 TEMPLATES = {
 EFFECTS = ["なし", "ふわふわ化", "かちかち化", "減衰", "リバーブ", "音揺れ"]
+def generate_tts(text, template_name, pitch_factor=1.0, speed_factor=1.0, effect_type="なし", effect_strength=1.0):
+    # 音声合成（Gtts使用）
+    tts = gTTS(text=text, lang='ja')
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as f:
         tts_path = f.name
+    tts.save(tts_path)
     # 音声読み込み
+    sound = AudioSegment.from_mp3(tts_path)
     # ピッチ変更
     sound = change_pitch(sound, pitch_factor)
     sound = change_speed(sound, speed_factor)
     # エフェクト適用
+    sound = apply_effect(sound, effect_type, effect_strength)
     # 一時ファイルに保存
+    output_path = tts_path.replace(".mp3", "_modified.mp3")
+    sound.export(output_path, format="mp3")
     return output_path
     sped_up_sound = sound._spawn(sound.raw_data, overrides={"frame_rate": new_frame_rate})
     return sped_up_sound.set_frame_rate(44100)
+def apply_effect(sound, effect_type, effect_strength):
     if effect_type == "ふわふわ化":
+        return sound.low_pass_filter(1000 * effect_strength)
     elif effect_type == "かちかち化":
+        return sound.high_pass_filter(3000 * effect_strength)
     elif effect_type == "減衰":
+        return sound.fade_out(int(len(sound) * effect_strength))
     elif effect_type == "リバーブ":
         reversed_sound = sound.reverse()
+        faded = reversed_sound.fade_in(200 * effect_strength).fade_out(200 * effect_strength)
+        return (sound + faded.reverse()) - (10 * effect_strength)
     elif effect_type == "音揺れ":
+        return wobble(sound, effect_strength)
     else:
         return sound
+def wobble(sound, strength):
     # 0.2秒ごとにランダムにピッチを揺らす
     chunk_ms = 200
     chunks = [sound[i:i+chunk_ms] for i in range(0, len(sound), chunk_ms)]
     wobbled = AudioSegment.empty()
     for chunk in chunks:
+        pitch_shift = np.random.uniform(1 - 0.03 * strength, 1 + 0.03 * strength)  # ちょっと揺れる
         chunk = change_pitch(chunk, pitch_shift)
         wobbled += chunk
     return wobbled
     with gr.Row():
         effect_dropdown = gr.Dropdown(choices=EFFECTS, value="なし", label="エフェクトを選ぶ")
+        effect_strength_slider = gr.Slider(0.1, 3.0, value=1.0, step=0.05, label="エフェクト強さ")
     with gr.Row():
         submit_btn = gr.Button("生成する")
     submit_btn.click(
         fn=generate_tts,
+        inputs=[text_input, template_dropdown, pitch_slider, speed_slider, effect_dropdown, effect_strength_slider],
         outputs=audio_output
     )