openbmb
/

MiniCPM-o-2_6

janak22 commited on Feb 28

Commit

e2e59be

1 Parent(s): 33bfc71

remove audio fusion for first chunk

Files changed (1) hide show

modeling_minicpmo.py CHANGED Viewed

@@ -1730,8 +1730,11 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
                         yield OmniOutput(text=cur_text, audio_wav=wav_np, sampling_rate=sr)
                     else:
-                        prev_wav = wav_np
                 if outputs.finished:
                     logger.debug("Generation finished.")
                     eos_lab = True
@@ -1828,6 +1831,7 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
                         prev_text_len = len(gen_text_raw)
                         yield OmniOutput(text=cur_text, audio_wav=wav_y, sampling_rate=sr)
                     else:
                         prev_wav = wav_np
                 else:
                     # smooth wav
@@ -1839,7 +1843,11 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
                         prev_text_len = len(gen_text_raw)
                         yield OmniOutput(text=cur_text, audio_wav=wav_np, sampling_rate=sr)
                     else:
-                        prev_wav = wav_np
                 if outputs.finished:
                     logger.debug("Generation finished.")

                         yield OmniOutput(text=cur_text, audio_wav=wav_np, sampling_rate=sr)
                     else:
+                        prev_wav = wav_np[-512 * 4:]
+                        wav_np = wav_np[:-512 * 4]
+                        cur_text = gen_text_raw[prev_text_len:]
+                        prev_text_len = len(gen_text_raw)
+                        yield OmniOutput(text=cur_text, audio_wav=wav_np, sampling_rate=sr)
                 if outputs.finished:
                     logger.debug("Generation finished.")
                     eos_lab = True
                         prev_text_len = len(gen_text_raw)
                         yield OmniOutput(text=cur_text, audio_wav=wav_y, sampling_rate=sr)
                     else:
                         prev_wav = wav_np
                 else:
                     # smooth wav
                         prev_text_len = len(gen_text_raw)
                         yield OmniOutput(text=cur_text, audio_wav=wav_np, sampling_rate=sr)
                     else:
+                        prev_wav = wav_np[-512 * 4:]
+                        wav_np = wav_np[:-512 * 4]
+                        cur_text = gen_text_raw[prev_text_len:]
+                        prev_text_len = len(gen_text_raw)
+                        yield OmniOutput(text=cur_text, audio_wav=wav_np, sampling_rate=sr)
                 if outputs.finished:
                     logger.debug("Generation finished.")