Mingxu Steve Lai's picture

17

Mingxu Steve Lai

mingxusteve

AI & ML interests

None yet

Recent Activity

upvoted a paper 4 months ago

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

upvoted a paper 4 months ago

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

upvoted a paper 4 months ago

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

View all activity

Organizations

None yet

upvoted 17 papers 4 months ago

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published Jan 1 • 107

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

Paper • 2501.11425 • Published Jan 20 • 107

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22 • 416

Impossible Videos

Paper • 2503.14378 • Published Mar 18 • 62

R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

Paper • 2503.05132 • Published Mar 7 • 58

Unified Reward Model for Multimodal Understanding and Generation

Paper • 2503.05236 • Published Mar 7 • 124

Qwen2.5-Omni Technical Report

Paper • 2503.20215 • Published Mar 26 • 165

RWKV-7 "Goose" with Expressive Dynamic State Evolution

Paper • 2503.14456 • Published Mar 18 • 153

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

Paper • 2503.03601 • Published Mar 5 • 233

One-Minute Video Generation with Test-Time Training

Paper • 2504.05298 • Published Apr 7 • 109

MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Paper • 2504.00999 • Published Apr 1 • 95

OmniSVG: A Unified Scalable Vector Graphics Generation Model

Paper • 2504.06263 • Published Apr 8 • 180

SmolVLM: Redefining small and efficient multimodal models

Paper • 2504.05299 • Published Apr 7 • 197

Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

Paper • 2504.17207 • Published Apr 24 • 29

DiMeR: Disentangled Mesh Reconstruction Model

Paper • 2504.17670 • Published Apr 24 • 24

QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining

Paper • 2504.16511 • Published Apr 23 • 20

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

Paper • 2504.17789 • Published Apr 24 • 23