Yuhao Dong's picture

Yuhao Dong

THUdyh

·

AI & ML interests

None yet

Recent Activity

liked a model about 23 hours ago

Qwen/Qwen-Image-Edit

upvoted a paper 2 days ago

DINOv3

upvoted a paper 2 days ago

SSRL: Self-Search Reinforcement Learning

View all activity

Organizations

upvoted 3 papers 2 days ago

DINOv3

Paper • 2508.10104 • Published 7 days ago • 120

SSRL: Self-Search Reinforcement Learning

Paper • 2508.10874 • Published 6 days ago • 76

Thyme: Think Beyond Images

Paper • 2508.11630 • Published 5 days ago • 69

upvoted a paper 5 days ago

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

Paper • 2508.10711 • Published 6 days ago • 133

upvoted a paper 16 days ago

PixNerd: Pixel Neural Field Diffusion

Paper • 2507.23268 • Published 20 days ago • 50

upvoted 2 papers 21 days ago

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

Paper • 2507.22058 • Published 22 days ago • 38

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

Paper • 2507.21809 • Published 22 days ago • 124

upvoted 2 papers 23 days ago

Reconstructing 4D Spatial Intelligence: A Survey

Paper • 2507.21045 • Published 23 days ago • 35

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts

Paper • 2507.20939 • Published 23 days ago • 56

upvoted a paper 29 days ago

Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding

Paper • 2507.15028 • Published about 1 month ago • 20

upvoted 2 papers about 1 month ago

PhysX: Physical-Grounded 3D Asset Generation

Paper • 2507.12465 • Published Jul 16 • 43

High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning

Paper • 2507.05920 • Published Jul 8 • 11

upvoted 4 papers about 2 months ago

Kwai Keye-VL Technical Report

Paper • 2507.01949 • Published Jul 2 • 128

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

Paper • 2506.21356 • Published Jun 26 • 22

ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation

Paper • 2506.18095 • Published Jun 22 • 65

Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition

Paper • 2506.17201 • Published Jun 20 • 55

upvoted a paper 2 months ago

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning

Paper • 2506.13654 • Published Jun 16 • 44

upvoted 3 papers 3 months ago

Video World Models with Long-term Spatial Memory

Paper • 2506.05284 • Published Jun 5 • 53

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

Paper • 2506.05344 • Published Jun 5 • 16

Seed1.5-VL Technical Report

Paper • 2505.07062 • Published May 11 • 149