Spaces:

jhtonyKoo
/

ITO-Master

Runtime error

App Files Files Community

jhtonyKoo commited on Oct 9, 2024

Commit

f9582e0

1 Parent(s): 6bd330e

modify app

Browse files

Files changed (1) hide show

inference.py +36 -17

inference.py CHANGED Viewed

@@ -114,24 +114,43 @@ class MasteringStyleTransfer:
         return min_loss_output, min_loss_params, min_loss_embedding, min_loss_step + 1
     def process_audio(self, input_audio, reference_audio, ito_reference_audio, params, perform_ito, log_ito=False):
-        print(input_audio[1])
-        input_audio[1], reference_audio[1], ito_reference_audio[1] = [
-            np.stack([audio, audio]) if audio.ndim == 1 else audio.transpose(1,0)
-            for audio in [input_audio, reference_audio, ito_reference_audio]
-        ]
-        input_tensor = torch.FloatTensor(input_audio).unsqueeze(0).to(self.device)
-        reference_tensor = torch.FloatTensor(reference_audio).unsqueeze(0).to(self.device)
-        ito_reference_tensor = torch.FloatTensor(ito_reference_audio).unsqueeze(0).to(self.device)
-        #resample to 44.1kHz if necessary
-        if input_audio[0] != self.args.sample_rate:
-            input_tensor = convert_audio(input_tensor, input_audio[0], self.args.sample_rate, 2)
-        if reference_audio[0] != self.args.sample_rate:
-            reference_tensor = convert_audio(reference_tensor, reference_audio[0], self.args.sample_rate, 2)
-        if ito_reference_audio[0] != self.args.sample_rate:
-            ito_reference_tensor = convert_audio(ito_reference_tensor, ito_reference_audio[0], self.args.sample_rate, 2)
         reference_feature = self.get_reference_embedding(reference_tensor)

         return min_loss_output, min_loss_params, min_loss_embedding, min_loss_step + 1
+    def preprocess_audio(self, audio, target_sample_rate=44100):
+        sample_rate, data = audio
+        # Normalize audio to -1 to 1 range
+        if data.dtype == np.int16:
+            data = data.astype(np.float32) / 32768.0
+        elif data.dtype == np.float32:
+            data = np.clip(data, -1.0, 1.0)
+        else:
+            raise ValueError(f"Unsupported audio data type: {data.dtype}")
+        # Ensure stereo channels
+        if data.ndim == 1:
+            data = np.stack([data, data])
+        elif data.ndim == 2:
+            if data.shape[0] == 2:
+                pass  # Already in correct shape
+            elif data.shape[1] == 2:
+                data = data.T
+            else:
+                data = np.stack([data[:, 0], data[:, 0]])  # Duplicate mono channel
+        else:
+            raise ValueError(f"Unsupported audio shape: {data.shape}")
+        # Convert to torch tensor
+        data_tensor = torch.FloatTensor(data).unsqueeze(0)
+        # Resample if necessary
+        if sample_rate != target_sample_rate:
+            data_tensor = julius.resample_frac(data_tensor, sample_rate, target_sample_rate)
+        return data_tensor.to(self.device)
     def process_audio(self, input_audio, reference_audio, ito_reference_audio, params, perform_ito, log_ito=False):
+        input_tensor = self.preprocess_audio(input_audio, self.args.sample_rate)
+        reference_tensor = self.preprocess_audio(reference_audio, self.args.sample_rate)
+        ito_reference_tensor = self.preprocess_audio(ito_reference_audio, self.args.sample_rate)
         reference_feature = self.get_reference_embedding(reference_tensor)