new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jun 6

Submitted by

Iceclear

SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training

·
13 authors

1

Submitted by

imryanxu

ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development

·
10 authors

1

Submitted by

myownskyW7

Video World Models with Long-term Spatial Memory

·
7 authors

Submitted by

Zhoues

RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

·
11 authors

3

Submitted by

yurakuratov

Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts

·
5 authors

3

Submitted by

thenlper

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

·
12 authors

1

Submitted by

hamza-hcompany

Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights

·
43 authors

2

Submitted by

stefan-it

The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

·
27 authors

Submitted by

Mikivis

VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

·
7 authors

Submitted by

liyz

Aligning Latent Spaces with Flow Priors

·
5 authors

1

Submitted by

Hanoona

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

·
7 authors

Submitted by

lulidong

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

·
5 authors

1

Submitted by

pnawrot

Inference-Time Hyper-Scaling with KV Cache Compression

·
4 authors

Submitted by

kuvvi

Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

·
8 authors

1

Submitted by

Zuyan

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

·
4 authors

Submitted by

Kullpar

StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs

·
4 authors

2

Submitted by

CircleRadon

EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?

·
11 authors

1

Submitted by

xy06

MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

·
7 authors

1

Submitted by

tsunghanwu

Search Arena: Analyzing Search-Augmented LLMs

·
11 authors

1

Submitted by

lhmd

Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting

·
7 authors

1

Submitted by

lincharliesun

Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design

·
11 authors

3

Submitted by

StarYDY

FlexPainter: Flexible and Multi-View Consistent Texture Generation

·
10 authors

2

Submitted by

JingfengY

Language-Image Alignment with Fixed Text Encoders

·
4 authors

6

Submitted by

yiren98

Autoregressive Images Watermarking through Lexical Biasing: An Approach Resistant to Regeneration Attack

·
6 authors

Submitted by

wyf2020

FreeTimeGS: Free Gaussians at Anytime and Anywhere for Dynamic Scene Reconstruction

·
9 authors

Submitted by

diqiu7

SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers

·
11 authors

2

Submitted by

LTT

Geometry-Editable and Appearance-Preserving Object Compositon

·
6 authors

Submitted by

ZMC2019

Kinetics: Rethinking Test-Time Scaling Laws

·
6 authors

Submitted by

JJitsev

Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets

·
7 authors

Submitted by

wshi83

MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale

·
14 authors

1

Submitted by

Eric-Lan

Contextual Integrity in LLMs via Reasoning and Reinforcement Learning

·
8 authors

1

Submitted by

liyzzz

Rectified Point Flow: Generic Point Cloud Pose Estimation

·
5 authors

2

Submitted by

gq2138

Micro-Act: Mitigate Knowledge Conflict in Question Answering via Actionable Self-Reasoning

·
8 authors

Submitted by

ZhangRC

FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation

·
6 authors

Submitted by

ZinengTang

Images are Worth Variable Length of Representations

·
5 authors

Submitted by

fcy99

RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS

·
8 authors

2

Submitted by

chengtim

MARBLE: Material Recomposition and Blending in CLIP-Space

·
4 authors

Submitted by

DrChiZhang

FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing

·
4 authors

Submitted by

KaiChen1998

Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning

·
8 authors

1

Submitted by

Yewandou

BEVCALIB: LiDAR-Camera Calibration via Geometry-Guided Bird's-Eye View Representations

·
6 authors

2

Submitted by

gzzyyxy

Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving

·
8 authors

2

Submitted by

EdBianchi

PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment

·
2 authors

1

Submitted by

0xe69756

Watermarking Degrades Alignment in Language Models: Analysis and Mitigation

·
3 authors

1

Submitted by

zzh99

Rethinking Whole-Body CT Image Interpretation: An Abnormality-Centric Approach

·
5 authors

2

Submitted by

levondang

SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios

·
6 authors

3

Submitted by

mariannedhk

What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training

·
6 authors

2