Spaces:

TTS-AGI
/

Voice-Clone-Arena

Running

kemuriririn commited on Jun 9

Commit

9cb346b

1 Parent(s): 0768c8a

(wip)debug

Files changed (1) hide show

tts.py CHANGED Viewed

@@ -3,6 +3,8 @@ from dotenv import load_dotenv
 import random
 from gradio_client import Client, handle_file,file
 from huggingface_hub.constants import HF_TOKEN_PATH
 load_dotenv()
@@ -151,6 +153,23 @@ def predict_gpt_sovits_v2(text, user_token=None,reference_audio_path=None):
     return result
 def predict_tts(text, model, user_token=None, reference_audio_path=None):
     print(f"Predicting TTS for {model}, user_token: {user_token}, reference_audio_path: {reference_audio_path}")
     # Exceptions: special models that shouldn't be passed to the router
@@ -166,7 +185,10 @@ def predict_tts(text, model, user_token=None, reference_audio_path=None):
         result = predict_gpt_sovits_v2(text, user_token, reference_audio_path)
     else:
         raise ValueError(f"Model {model} not found")
-    return result
 if __name__ == "__main__":
-    pass

 import random
 from gradio_client import Client, handle_file,file
 from huggingface_hub.constants import HF_TOKEN_PATH
+from pydub import AudioSegment
+import os.path
 load_dotenv()
     return result
+def normalize_audio_volume(audio_path):
+    """最大化音频音量"""
+    # 获取文件扩展名
+    file_name, ext = os.path.splitext(audio_path)
+    normalized_path = f"{file_name}_normalized{ext}"
+    # 读取音频文件
+    sound = AudioSegment.from_file(audio_path)
+    # 最大化音量 (标准化)
+    normalized_sound = sound.normalize()
+    # 保存处理后的音频
+    normalized_sound.export(normalized_path, format=ext.replace('.', ''))
+    return normalized_path
 def predict_tts(text, model, user_token=None, reference_audio_path=None):
     print(f"Predicting TTS for {model}, user_token: {user_token}, reference_audio_path: {reference_audio_path}")
     # Exceptions: special models that shouldn't be passed to the router
         result = predict_gpt_sovits_v2(text, user_token, reference_audio_path)
     else:
         raise ValueError(f"Model {model} not found")
+    # 对生成的音频进行音量最大化处理
+    normalized_result = normalize_audio_volume(result)
+    return normalized_result
 if __name__ == "__main__":
+    pass