new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jun 2

Submitted by

shizhediao

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

·
8 authors

Submitted by

RunpeiDong

AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

·
11 authors

2

Submitted by

mukul54

Time Blindness: Why Video-Language Models Can't See What Humans Can?

·
4 authors

3

Submitted by

HYTYH

Large Language Models for Data Synthesis

·
3 authors

2

Submitted by

k1z

HardTests: Synthesizing High-Quality Test Cases for LLM Coding

·
9 authors

2

Submitted by

kjunh

Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation

·
6 authors

2

Submitted by

wchengad

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

·
15 authors

2

Submitted by

vztu

DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models

·
4 authors

3

Submitted by

AmberLJC

EXP-Bench: Can AI Conduct AI Research Experiments?

·
13 authors

3

Submitted by

YaxinLuo

Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

·
6 authors

Submitted by

huaijinpi

CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

·
4 authors

2

Submitted by

yiqingliang

MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

·
10 authors

3

Submitted by

taesiri

Vision Language Models are Biased

·
6 authors

2

Submitted by

johncliu

MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs

·
6 authors

Submitted by

ruskinmanku

EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge

·
5 authors

2

Submitted by

LCZZZZ

More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

·
8 authors

2

Submitted by

huanngzh

UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation

·
8 authors

Submitted by

lzchen2001

CLaSp: In-Context Layer Skip for Self-Speculative Decoding

·
9 authors

6

Submitted by

yiren98

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

·
5 authors

Submitted by

jamesgolden1

Large Language Models are Locally Linear Mappings

·
1 authors

4

Submitted by

Chae0

Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models

·
4 authors

2

Submitted by

Yif29

ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL

·
10 authors

2

Submitted by

entropyhu

Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning

·
6 authors

3

Submitted by

mengdaxu

DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation

·
7 authors

2

Submitted by

feltoner

ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents

·
13 authors

Submitted by

yelboudouri

Role-Playing Evaluation for Large Language Models

·
4 authors

2

Submitted by

AdinaY

Evaluating and Steering Modality Preferences in Multimodal Large Language Model

·
8 authors

Submitted by

ceezh

SiLVR: A Simple Language-based Video Reasoning Framework

·
5 authors

2

Submitted by

ZonglinY

Harnessing Large Language Models for Scientific Novelty Detection

·
5 authors

2

Submitted by

yinqi

un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP

·
6 authors

2

Submitted by

patricebechard

Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

·
5 authors

2

Submitted by

Xuweiyi

Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts

·
4 authors

Submitted by

TonyK

Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation

·
13 authors

Submitted by

mamaj92

Revisiting Bi-Linear State Transitions in Recurrent Neural Networks

·
2 authors

2

Submitted by

lizhuang144

TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

·
8 authors

Submitted by

Omartificial-Intelligence-Space

GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training

·
6 authors

2

Submitted by

Debargha

Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks

·
10 authors

2

Submitted by

Chouoftears

The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets

·
6 authors

3

Submitted by

vsahil

OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities

·
7 authors

Submitted by

Chaeeun-Kim

LegalSearchLM: Rethinking Legal Case Retrieval as Legal Elements Generation

·
3 authors

Submitted by

manu

Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings

·
6 authors

2

Submitted by

yongzx

The State of Multilingual LLM Safety Research: From Measuring the Language Gap to Mitigating It

·
5 authors