remyxai
/

SpaceQwen2.5-VL-3B-Instruct

This PR improves the model card by:

- Adding a link to the paper on the Hugging Face website in the introduction.
- Correcting the metadata section to ensure consistency.

This addresses several issues to improve the overall clarity and completeness of the model card.

Files changed (1) hide show

README.md +25 -217

README.md CHANGED Viewed

@@ -1,7 +1,13 @@
 ---
-license: apache-2.0
 datasets:
 - remyxai/OpenSpaces
 tags:
 - remyx
 - vqasynth
@@ -13,13 +19,7 @@ tags:
 - distance-estimation
 - embodied-ai
 - quantitative-spatial-reasoning
-base_model:
-- Qwen/Qwen2.5-VL-3B-Instruct
-language:
-- en
-pipeline_tag: image-text-to-text
 new_version: remyxai/SpaceThinker-Qwen2.5VL-3B
-library_name: transformers
 model-index:
 - name: SpaceQwen2.5-VL-3B-Instruct
   results:
@@ -31,244 +31,52 @@ model-index:
       type: benchmark
     metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.5150
-    results_by_subcategory:
-    - name: 3D Positional Relation / Orientation
-      success_rate: 0.4706
-    - name: Object Localization / 3D Localization
-      success_rate: 0.5629
-    - name: Object Properties / Size
-      success_rate: 0.5116
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: BLINK
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.5000
-    results_by_subcategory:
-    - name: 3D Positional Relation / Orientation
-      success_rate: 0.6503
-    - name: Counting / Object Counting
-      success_rate: 0.6083
-    - name: Depth and Distance / Relative
-      success_rate: 0.5161
-    - name: Object Localization / 2D Localization
-      success_rate: 0.4426
-    - name: Point and Object Tracking / Point Correspondence
-      success_rate: 0.2849
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: MMIU
-      type: benchmark
-    metrics:
     - type: success_rate
-      name: Overall Success Rate
       value: 0.3045
-    results_by_subcategory:
-    - name: Camera and Image Transformation / 2D Transformation
-      success_rate: 0.245
-    - name: Camera and Image Transformation / 3D Camera Pose
-      success_rate: 0.215
-    - name: Camera and Image Transformation / Camera Motion
-      success_rate: 0.4436
-    - name: Depth and Distance / Absolute
-      success_rate: 0.265
-    - name: Object Localization / 3D Localization
-      success_rate: 0.480
-    - name: Point and Object Tracking / 3D Tracking
-      success_rate: 0.240
-    - name: Point and Object Tracking / Point Correspondence
-      success_rate: 0.280
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: MMVP
-      type: benchmark
-    metrics:
-    - type: success_rate
       name: Overall Success Rate
-      value: 0.5767
-    results_by_subcategory:
-    - name: Others / Miscellaneous
-      success_rate: 0.5767
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: QSpatialBench-Plus
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.3663
-    results_by_subcategory:
-    - name: Depth and Distance / Absolute
-      success_rate: 0.3663
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: QSpatialBench-ScanNet
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.3300
-    results_by_subcategory:
-    - name: Depth and Distance / Absolute
-      success_rate: 0.2160
-    - name: Object Properties / Size
-      success_rate: 0.4444
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: RealWorldQA
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.4392
-    results_by_subcategory:
-    - name: Others / Miscellaneous
-      success_rate: 0.4392
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: SpatialSense
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.6554
-    results_by_subcategory:
-    - name: 3D Positional Relation / Orientation
-      success_rate: 0.6554
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: VGBench
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.2615
-    results_by_subcategory:
-    - name: Camera and Image Transformation / 2D Transformation
-      success_rate: 0.2277
-    - name: Camera and Image Transformation / 3D Camera Pose
-      success_rate: 0.2438
-    - name: Depth and Distance / Absolute
-      success_rate: 0.2696
-    - name: Depth and Distance / Relative
-      success_rate: 0.1945
-    - name: Object Localization / 3D Localization
-      success_rate: 0.3733
-    - name: Point and Object Tracking / 3D Tracking
-      success_rate: 0.2655
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: VSI-Bench_8
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.2322
-    results_by_subcategory:
-    - name: 3D Positional Relation / Orientation
-      success_rate: 0.3843
-    - name: Counting / Object Counting
-      success_rate: 0.1715
-    - name: Depth and Distance / Absolute
-      success_rate: 0.0299
-    - name: Depth and Distance / Relative
-      success_rate: 0.3521
-    - name: Object Properties / Size
-      success_rate: 0.2323
-    - name: Others / Miscellaneous
-      success_rate: 0.2525
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: VSR-ZeroShot
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.7373
-    results_by_subcategory:
-    - name: 3D Positional Relation / Orientation
-      success_rate: 0.7373
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: cvbench
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
-      value: 0.5179
-    results_by_subcategory:
-    - name: Counting / Object Counting
-      success_rate: 0.6168
-    - name: Depth and Distance / Relative
-      success_rate: 0.4925
-    - name: Object Localization / 3D Localization
-      success_rate: 0.4446
-  - task:
-      type: visual-question-answering
-      name: Spatial Reasoning
-    dataset:
-      name: spatialbench
-      type: benchmark
-    metrics:
     - type: success_rate
       name: Overall Success Rate
       value: 0.4879
-    results_by_subcategory:
-    - name: 3D Positional Relation / Orientation
-      success_rate: 0.5294
-    - name: Counting / Object Counting
-      success_rate: 0.7000
-    - name: Object Properties / Existence
-      success_rate: 0.4500
-    - name: Object Properties / Reachability
-      success_rate: 0.5000
-    - name: Object Properties / Size
-      success_rate: 0.2500
 ---
 <img src="https://cdn-uploads.huggingface.co/production/uploads/647777304ae93470ffc28913/v4edJliSy46xBA8g5ZXf8.png" width="500"/>
 # SpaceQwen2.5-VL-3B-Instruct
 - **Model Type:** Multimodal, Vision-Language Model
 - **Architecture**: `Qwen2.5-VL-3B-Instruct`
@@ -279,8 +87,8 @@ model-index:
 ### Model Overview
-This model uses data synthesis techniques and publically available models to reproduce the work described in SpatialVLM to enhance the spatial reasoning of multimodal models.
-With a pipeline of expert models, we can infer spatial relationships between objects in a scene to create VQA dataset for spatial reasoning.
 ## Running SpaceQwen2.5-VL-3B-Instruct
@@ -389,7 +197,7 @@ The following chart compares performance between **SpaceQwen** and **SpaceThinke
 ## OmniSpatial
-**OmniSpatial** is another comprehensive spatial reasoning benchmark assesses dynamic reasoning, complex spatial logic, spatial interaction, and perspective-taking capabilities.
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/647777304ae93470ffc28913/EDHmFRztyTI-lhdgEYZzP.png)
 Learn more about [OmniSpatial](https://qizekun.github.io/omnispatial/).

 ---
+base_model:
+- Qwen/Qwen2.5-VL-3B-Instruct
 datasets:
 - remyxai/OpenSpaces
+language:
+- en
+library_name: transformers
+license: apache-2.0
+pipeline_tag: image-text-to-text
 tags:
 - remyx
 - vqasynth
 - distance-estimation
 - embodied-ai
 - quantitative-spatial-reasoning
 new_version: remyxai/SpaceThinker-Qwen2.5VL-3B
 model-index:
 - name: SpaceQwen2.5-VL-3B-Instruct
   results:
       type: benchmark
     metrics:
     - type: success_rate
+      value: 0.515
       name: Overall Success Rate
     - type: success_rate
+      value: 0.5
       name: Overall Success Rate
     - type: success_rate
       value: 0.3045
       name: Overall Success Rate
     - type: success_rate
+      value: 0.5767
       name: Overall Success Rate
     - type: success_rate
+      value: 0.3663
       name: Overall Success Rate
     - type: success_rate
+      value: 0.33
       name: Overall Success Rate
     - type: success_rate
+      value: 0.4392
       name: Overall Success Rate
     - type: success_rate
+      value: 0.6554
       name: Overall Success Rate
     - type: success_rate
+      value: 0.2615
       name: Overall Success Rate
     - type: success_rate
+      value: 0.2322
       name: Overall Success Rate
     - type: success_rate
+      value: 0.7373
       name: Overall Success Rate
     - type: success_rate
+      value: 0.5179
       name: Overall Success Rate
+    - type: success_rate
       value: 0.4879
+      name: Overall Success Rate
 ---
 <img src="https://cdn-uploads.huggingface.co/production/uploads/647777304ae93470ffc28913/v4edJliSy46xBA8g5ZXf8.png" width="500"/>
 # SpaceQwen2.5-VL-3B-Instruct
+The model was presented in the paper [OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models](https://huggingface.co/papers/2506.03135). More information can be found at the [project page](https://qizekun.github.io/omnispatial/).
 - **Model Type:** Multimodal, Vision-Language Model
 - **Architecture**: `Qwen2.5-VL-3B-Instruct`
 ### Model Overview
+This model uses data synthesis techniques and publicly available models to reproduce the work described in SpatialVLM to enhance the spatial reasoning of multimodal models.
+With a pipeline of expert models, we can infer spatial relationships between objects in a scene to create a VQA dataset for spatial reasoning.
 ## Running SpaceQwen2.5-VL-3B-Instruct
 ## OmniSpatial
+**OmniSpatial** is another comprehensive spatial reasoning benchmark that assesses dynamic reasoning, complex spatial logic, spatial interaction, and perspective-taking capabilities.
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/647777304ae93470ffc28913/EDHmFRztyTI-lhdgEYZzP.png)
 Learn more about [OmniSpatial](https://qizekun.github.io/omnispatial/).