openbmb
/

MiniCPM-o-2_6

Model card Files Files and versions

yuzaa commited on Jan 22

Commit

4a25f99

·

verified ·

1 Parent(s): 1bbb766

fix vision-only inference

Files changed (1) hide show

modeling_minicpmo.py +4 -3

modeling_minicpmo.py CHANGED Viewed

@@ -484,9 +484,7 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
         Returns:
             List[List[torch.Tensor]]: audio embeddings
         """
-        dtype = self.apm.embed_positions.weight.dtype
-        device = self.apm.embed_positions.weight.device
         wavforms = data.get("audio_features", [])  # (bs, 80, frames) or [], multi audios need filled in advance
         audio_feature_lens_raw = data.get("audio_feature_lens", [])  # list, [[x1, x2], [y1], [z1]]
@@ -547,6 +545,9 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
                 final_audio_embeds.append(target_audio_embeds)
             return final_audio_embeds
         elif self.training and dummy:
             dummy_wavs = torch.zeros((1, 80, 100), device=device, dtype=dtype)
             audio_states = self.apm(dummy_wavs, output_hidden_states=True).hidden_states[self.audio_encoder_layer]

         Returns:
             List[List[torch.Tensor]]: audio embeddings
         """
         wavforms = data.get("audio_features", [])  # (bs, 80, frames) or [], multi audios need filled in advance
         audio_feature_lens_raw = data.get("audio_feature_lens", [])  # list, [[x1, x2], [y1], [z1]]
                 final_audio_embeds.append(target_audio_embeds)
             return final_audio_embeds
         elif self.training and dummy:
+            dtype = self.apm.embed_positions.weight.dtype
+            device = self.apm.embed_positions.weight.device
             dummy_wavs = torch.zeros((1, 80, 100), device=device, dtype=dtype)
             audio_states = self.apm(dummy_wavs, output_hidden_states=True).hidden_states[self.audio_encoder_layer]