Spaces:

Luigi
/

SmolVLM2-on-transformers

Sleeping

Luigi commited on Jun 19

Commit

56a78b6

1 Parent(s): bfdf2ce

type handling

Files changed (1) hide show

app.py CHANGED Viewed

@@ -81,7 +81,21 @@ def caption_frame(frame, model_id, interval_ms, sys_prompt, usr_prompt, device):
         tokenize=True,
         return_dict=True,
         return_tensors='pt'
-    ).to(model.device)
     debug_msgs.append(f'Tokenize: {int((time.time()-t1)*1000)} ms')
     # Inference

         tokenize=True,
         return_dict=True,
         return_tensors='pt'
+    )
+    # Move inputs to correct device and dtype (matching model parameters)
+    param_dtype = next(model.parameters()).dtype
+    cast_inputs = {}
+    for k, v in inputs.items():
+        if isinstance(v, torch.Tensor):
+            if v.dtype.is_floating_point:
+                # cast floating-point tensors to model's parameter dtype
+                cast_inputs[k] = v.to(device=model.device, dtype=param_dtype)
+            else:
+                # move integer/mask tensors without changing dtype
+                cast_inputs[k] = v.to(device=model.device)
+        else:
+            cast_inputs[k] = v
+    inputs = cast_inputs
     debug_msgs.append(f'Tokenize: {int((time.time()-t1)*1000)} ms')
     # Inference