Alibaba-NLP
/

gme-Qwen2-VL-2B-Instruct

Sentence Similarity

sentence-transformers

text-generation-inference

Model card Files Files and versions

kosung commited on Jun 9

Commit

89146e4

·

verified ·

1 Parent(s): 40ed72b

Update custom_st.py

Files changed (1) hide show

custom_st.py +8 -2

custom_st.py CHANGED Viewed

@@ -1,10 +1,13 @@
 from io import BytesIO
 from typing import Any, Dict, Optional, List
 import torch
 from PIL import Image
 from sentence_transformers.models import Transformer as BaseTransformer
 from transformers import AutoModelForVision2Seq, AutoProcessor
 class MultiModalTransformer(BaseTransformer):
     def __init__(
@@ -51,7 +54,10 @@ class MultiModalTransformer(BaseTransformer):
         self, features: Dict[str, torch.Tensor], **kwargs
     ) -> Dict[str, torch.Tensor]:
         if features.get("inputs_embeds", None) is None:
-            features["inputs_embeds"] = self.auto_model.base_model.embed_tokens(features["input_ids"])
             if features.get("pixel_values", None) is not None:
                 features["pixel_values"] = features["pixel_values"].type(self.auto_model.visual.get_dtype())
                 image_embeds = self.auto_model.visual(

+import math
+import logging
 from io import BytesIO
 from typing import Any, Dict, Optional, List
 import torch
 from PIL import Image
 from sentence_transformers.models import Transformer as BaseTransformer
 from transformers import AutoModelForVision2Seq, AutoProcessor
+from packaging import version
+import transformers
 class MultiModalTransformer(BaseTransformer):
     def __init__(
         self, features: Dict[str, torch.Tensor], **kwargs
     ) -> Dict[str, torch.Tensor]:
         if features.get("inputs_embeds", None) is None:
+            if version.parse(transformers.__version__) >= version.parse("4.52.0"):
+                features["inputs_embeds"] = self.auto_model.base_model.language_model.embed_tokens(features["input_ids"])
+            else:
+                features["inputs_embeds"] = self.auto_model.base_model.embed_tokens(features["input_ids"])
             if features.get("pixel_values", None) is not None:
                 features["pixel_values"] = features["pixel_values"].type(self.auto_model.visual.get_dtype())
                 image_embeds = self.auto_model.visual(