remyxai
/

SpaceQwen2.5-VL-3B-Instruct

Model card Files Files and versions

xet

Community

nielsr HF Staff commited on Jun 8

Commit

a3f9d19

verified ·

1 Parent(s): 3b9a814

Add link to paper, project page and Github repo

Browse files

This PR adds a link to the paper and the Github repository. It also corrects the project page URL.

Files changed (1) hide show

README.md +49 -230

README.md CHANGED Viewed

@@ -21,242 +21,61 @@ tags:
 - quantitative-spatial-reasoning
 new_version: remyxai/SpaceThinker-Qwen2.5VL-3B
 model-index:
-  - name: SpaceQwen2.5-VL-3B-Instruct
-    results:
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: 3DSRBench
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.515
-        results_by_subcategory:
-          - name: 3D Positional Relation / Orientation
-            success_rate: 0.4706
-          - name: Object Localization / 3D Localization
-            success_rate: 0.5629
-          - name: Object Properties / Size
-            success_rate: 0.5116
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: BLINK
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.5
-        results_by_subcategory:
-          - name: 3D Positional Relation / Orientation
-            success_rate: 0.6503
-          - name: Counting / Object Counting
-            success_rate: 0.6083
-          - name: Depth and Distance / Relative
-            success_rate: 0.5161
-          - name: Object Localization / 2D Localization
-            success_rate: 0.4426
-          - name: Point and Object Tracking / Point Correspondence
-            success_rate: 0.2849
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: MMIU
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.3045
-        results_by_subcategory:
-          - name: Camera and Image Transformation / 2D Transformation
-            success_rate: 0.245
-          - name: Camera and Image Transformation / 3D Camera Pose
-            success_rate: 0.215
-          - name: Camera and Image Transformation / Camera Motion
-            success_rate: 0.4436
-          - name: Depth and Distance / Absolute
-            success_rate: 0.265
-          - name: Object Localization / 3D Localization
-            success_rate: 0.48
-          - name: Point and Object Tracking / 3D Tracking
-            success_rate: 0.24
-          - name: Point and Object Tracking / Point Correspondence
-            success_rate: 0.28
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: MMVP
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.5767
-        results_by_subcategory:
-          - name: Others / Miscellaneous
-            success_rate: 0.5767
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: QSpatialBench-Plus
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.3663
-        results_by_subcategory:
-          - name: Depth and Distance / Absolute
-            success_rate: 0.3663
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: QSpatialBench-ScanNet
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.33
-        results_by_subcategory:
-          - name: Depth and Distance / Absolute
-            success_rate: 0.216
-          - name: Object Properties / Size
-            success_rate: 0.4444
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: RealWorldQA
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.4392
-        results_by_subcategory:
-          - name: Others / Miscellaneous
-            success_rate: 0.4392
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: SpatialSense
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.6554
-        results_by_subcategory:
-          - name: 3D Positional Relation / Orientation
-            success_rate: 0.6554
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: VGBench
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.2615
-        results_by_subcategory:
-          - name: Camera and Image Transformation / 2D Transformation
-            success_rate: 0.2277
-          - name: Camera and Image Transformation / 3D Camera Pose
-            success_rate: 0.2438
-          - name: Depth and Distance / Absolute
-            success_rate: 0.2696
-          - name: Depth and Distance / Relative
-            success_rate: 0.1945
-          - name: Object Localization / 3D Localization
-            success_rate: 0.3733
-          - name: Point and Object Tracking / 3D Tracking
-            success_rate: 0.2655
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: VSI-Bench_8
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.2322
-        results_by_subcategory:
-          - name: 3D Positional Relation / Orientation
-            success_rate: 0.3843
-          - name: Counting / Object Counting
-            success_rate: 0.1715
-          - name: Depth and Distance / Absolute
-            success_rate: 0.0299
-          - name: Depth and Distance / Relative
-            success_rate: 0.3521
-          - name: Object Properties / Size
-            success_rate: 0.2323
-          - name: Others / Miscellaneous
-            success_rate: 0.2525
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: VSR-ZeroShot
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.7373
-        results_by_subcategory:
-          - name: 3D Positional Relation / Orientation
-            success_rate: 0.7373
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: cvbench
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.5179
-        results_by_subcategory:
-          - name: Counting / Object Counting
-            success_rate: 0.6168
-          - name: Depth and Distance / Relative
-            success_rate: 0.4925
-          - name: Object Localization / 3D Localization
-            success_rate: 0.4446
-      - task:
-          type: visual-question-answering
-          name: Spatial Reasoning
-        dataset:
-          name: spatialbench
-          type: benchmark
-        metrics:
-          - type: success_rate
-            name: Overall Success Rate
-            value: 0.4879
-        results_by_subcategory:
-          - name: 3D Positional Relation / Orientation
-            success_rate: 0.5294
-          - name: Counting / Object Counting
-            success_rate: 0.7
-          - name: Object Properties / Existence
-            success_rate: 0.45
-          - name: Object Properties / Reachability
-            success_rate: 0.5
-          - name: Object Properties / Size
-            success_rate: 0.25
 ---
 <img src="https://cdn-uploads.huggingface.co/production/uploads/647777304ae93470ffc28913/v4edJliSy46xBA8g5ZXf8.png" width="500"/>
 # SpaceQwen2.5-VL-3B-Instruct
-The model was presented in the paper [OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models](https://huggingface.co/papers/2506.03135). More information can be found at the [project page](https://qizekun.github.io/omnispatial/).
 - **Model Type:** Multimodal, Vision-Language Model

 - quantitative-spatial-reasoning
 new_version: remyxai/SpaceThinker-Qwen2.5VL-3B
 model-index:
+- name: SpaceQwen2.5-VL-3B-Instruct
+  results:
+  - task:
+      type: visual-question-answering
+      name: Spatial Reasoning
+    dataset:
+      name: 3DSRBench
+      type: benchmark
+    metrics:
+    - type: success_rate
+      value: 0.515
+      name: Overall Success Rate
+    - type: success_rate
+      value: 0.5
+      name: Overall Success Rate
+    - type: success_rate
+      value: 0.3045
+      name: Overall Success Rate
+    - type: success_rate
+      value: 0.5767
+      name: Overall Success Rate
+    - type: success_rate
+      value: 0.3663
+      name: Overall Success Rate
+    - type: success_rate
+      value: 0.33
+      name: Overall Success Rate
+    - type: success_rate
+      value: 0.4392
+      name: Overall Success Rate
+    - type: success_rate
+      value: 0.6554
+      name: Overall Success Rate
+    - type: success_rate
+      value: 0.2615
+      name: Overall Success Rate
+    - type: success_rate
+      value: 0.2322
+      name: Overall Success Rate
+    - type: success_rate
+      value: 0.7373
+      name: Overall Success Rate
+    - type: success_rate
+      value: 0.5179
+      name: Overall Success Rate
+    - type: success_rate
+      value: 0.4879
+      name: Overall Success Rate
 ---
 <img src="https://cdn-uploads.huggingface.co/production/uploads/647777304ae93470ffc28913/v4edJliSy46xBA8g5ZXf8.png" width="500"/>
 # SpaceQwen2.5-VL-3B-Instruct
+The model was presented in the paper [SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding](https://huggingface.co/papers/2505.17012). More information can be found at the [project page](https://haoningwu3639.github.io/SpatialScore/) and the [Github repository](https://github.com/haoningwu/SpatialScore).
 - **Model Type:** Multimodal, Vision-Language Model