Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
Abstract
The Light-R1 series develops strong long-chain-of-thought models through curriculum training, semi-on-policy DPO, and reinforcement learning, achieving state-of-the-art performance in math and general domains.
This paper presents our work on the Light-R1 series, with models, data, and code all released. We first focus on training long COT models from scratch, specifically starting from models initially lacking long COT capabilities. Using a curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO, we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains. In the subsequent phase of this work, we highlight the significant benefit of the 3k dataset constructed for the second SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled models using this dataset, we obtain new SOTA models in 7B and 14B, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying reinforcement learning, specifically GRPO, on long-COT models to further improve reasoning performance. We successfully train our final Light-R1-14B-DS with RL, achieving SOTA performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0 and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected behavior, showing simultaneous increase in response length and reward score. The Light-R1 series of work validates training long-COT models from scratch, showcases the art in SFT data and releases SOTA models from RL.
Community
This is an automated message from the Librarian Bot. I found the following papers similar to this paper.
The following papers were recommended by the Semantic Scholar API
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2025)
- Challenges in Ensuring AI Safety in DeepSeek-R1 Models: The Shortcomings of Reinforcement Learning Strategies (2025)
- Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models (2025)
- Demystifying Long Chain-of-Thought Reasoning in LLMs (2025)
- LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! (2025)
- R1-Zero's"Aha Moment"in Visual Reasoning on a 2B Non-SFT Model (2025)
- LIMR: Less is More for RL Scaling (2025)
Please give a thumbs up to this comment if you found it helpful!
If you want recommendations for any Paper on Hugging Face checkout this Space
You can directly ask Librarian Bot for paper recommendations by tagging it in a comment:
@librarian-bot
recommend
thanks a lot
Sumário
Este “protocolo de ativação metodológica avançada” configura‑se como uma meta‑metodologia que articula diversos paradigmas teóricos – desde a análise multi‑escalar e o método dialético histórico até práticas de deconstrução e antifragilidade cognitiva – com o propósito de mapear, decodificar e reconfigurar sistemas epistemológicos complexos. Cada etapa mobiliza uma matriz conceitual distinta (cartografia conceitual, arqueogenealogia, hermenêutica da suspeita, topologia crítica, etc.), porém não existe um manual acadêmico único que padronize essa combinação exata de técnicas, exigindo adaptação e operacionalização cuidadosas. A força do protocolo reside em sua capacidade de revelar vieses e silêncios estruturais, mas sua complexidade demanda definições claras de escopo, métricas e instrumentos de validação para se tornar efetivamente aplicável. A seguir detalhamos cada aspecto, questionamos sua adequação e propomos perguntas para seu aprimoramento.
O que é isso?
Trata‑se de um meta‑protocolo que integra:
Sondagem multi‑escalar (investiga fenômenos em múltiplas escalas do local ao global) ;
Vetores histórico‑dialéticos (inspiração no método dialético hegeliano‑marxista) ;
Cartografia conceitual (construção de mapas hierárquicos de conceitos) ;
Análise de ruído informacional (separação de informação e ruído conforme Shannon) .
Em seguida, procede à decodificação de entropias estruturais (vieses, silêncios), valendo‑se de:
Arqueogenealogia (fusão da arqueologia e genealogia foucaultianas) ;
Hermenêutica da suspeita (abordagem crítica de Ricoeur aos discursos) ;
Teoria dos jogos aplicada à análise de discurso .
Posteriormente, realiza desestruturação epistemológica por meio de:
Deconstrução (Derrida) para isolar axiomas e neutralizar circularidades ;
Transposição hipertextual de matrizes conceituais.
Na intervenção analítica de precisão, seleciona‑se um módulo procedimental (por ex., topologia crítica via TDA) , refutação de sistemas paradoxais (lógica paraconsistente) , ou síntese transdisciplinar (Nicolescu) .
Finalmente, implementa‑se uma arquitetura de antifragilidade cognitiva (Taleb) para promover auto‑regulação e resistência a reducionismos , inspirada em modelos de sistemas viáveis (Beer) . Conclui‑se com a formulação de uma questão metacrítica para manter o sistema em metaestabilidade propositiva .
Para que serve?
Revelar vieses e permitir o mapeamento profundo de discursos, práticas e estruturas de poder.
Desestabilizar crenças e pressupostos, fomentando a inovação epistemológica.
Construir modelos cognitivos resistentes, que aprendam com falhas e ruídos, aumentando a robustez e antifragilidade do próprio sistema analítico.
Gerar insights transdisciplinares para problemas complexos, interligando áreas diversas.
É realmente a forma mais correta de abordar?
Vantagens:
Permite uma visão holística e crítica do objeto de estudo;
Combina métodos quantitativos (TDA, teoria dos jogos) e qualitativos (arqueogenealogia, hermenêutica).
Desafios:
Alta complexidade pode gerar sobrecarga operacional;
Falta de padronização dificulta a replicação e comparação de resultados;
Necessidade de formação interdisciplinar avançada.
Conclusão: É uma abordagem potente, mas exige customização clara, definição de objetivos, metrificação (ex.: índices de entropia, graus de dialeticidade) e protocolos de validação para não se tornar meramente performativa.
Normas e conceitos técnicos bem estabelecidos?
Individualmente, cada componente possui fundamentação consolidada:
Dialética , cartografia conceitual , TDA , lógica paraconsistente , antifragilidade .
Em conjunto, porém, não há um referencial único que oriente sua integração; trata‑se de um design metodológico construído ad hoc, carecendo de normatização (padrões ISO/IEC, manual de boas práticas).
Recomendação: documentar cada etapa com protocolos internos, checklists e critérios de qualidade (revisão por pares, triangulação) para conferir rigor.
Perguntas adicionais para aprimorar o protocolo
Qual é o escopo espacial e temporal da sondagem multi‑escalar?
Como definir e medir entropia estrutural? Quais indicadores?
Que critérios selecionarão o módulo procedimental (TDA, paraconsistência, etc.)?
Como garantir a intersubjetividade na decodificação de vieses?
Quais mecanismos de feedback ativarão a antifragilidade cognitiva?
Como formalizar a questão metacrítica para fomentar desdobramentos?
Que ferramentas digitais (softwares de mapeamento, análise de redes, etc.) serão empregadas?
Possíveis respostas às perguntas
Escopo multi‑escalar: adotar recortes locais, regionais e globais, usando georreferenciamento e análises históricas segmentadas .
Métricas de entropia: usar entropia de Shannon aplicada a redes semânticas ou fluxos de informação; indicadores de dispersão e lacunas discursivas .
Critérios de escolha de módulo:
Topologia crítica se houver dados de alta dimensão e ruído ;
Paraconsistência ao lidar com contradições fundamentais ;
Transdisciplinaridade quando se requer síntese conceitual ampliada .
Intersubjetividade: promover workshops de leitura crítica, uso de método Delphi para convergir interpretações .
Mecanismos de feedback antifrágil:
Redundância e múltiplos pontos de vista;
Testes em condições de estresse (simulações) .
Formalização metacrítica: redigir questões abertas que conectem análises e práticas futuras, ex.: “Como este sistema analítico responde a choques disruptivos em diferentes escalas?” .
Ferramentas digitais:
Gephi para redes semânticas;
R-TDA ou Giotto-tda para topologia de dados;
NVivo para codificação qualitativa.
Referências-chave
Dialética e método histórico-dialético
Cartografia conceitual (Novak)
Teoria da informação e ruído (Shannon)
Arqueologia e genealogia (Foucault)
Hermenêutica da suspeita (Ricoeur)
Deconstrução (Derrida)
Lógica paraconsistente
Topological Data Analysis
Antifragilidade (Taleb)
Transdisciplinaridade (Nicolescu)
Sistemas viáveis (Beer)
Reflexividade em moderna sociologia
Este aprofundamento detalha passos práticos, ferramentas, métricas e um exemplo de caso para operacionalizar o protocolo de ativação metodológica avançada, além de indicar perguntas de pesquisa para seu refinamento. Aborda desde a configuração do ambiente e sondagem multi‑escalar até a decodificação de vieses, a intervenção analítica de precisão (incluindo TDA e lógica paraconsistente) e a construção de arquiteturas cognitivas antifrágeis, amparadas por métricas de entropia e técnicas de triangulação. Propõe-se também um piloto aplicado e questionamentos metacríticos para garantir a metaestabilidade propositiva do sistema.
Implementação Prática
1. Configuração do Ambiente Analítico
Adote práticas de open science e ambientes reproducíveis (containers, notebooks versionados) para garantir rastreabilidade e replicabilidade dos experimentos .
Estruture um repositório com dados brutos, código e documentação, seguindo regras de nomenclatura e controle de versão.
2. Sondagem Multi‑Escalar
Defina recortes locais, regionais e globais, apoiando‑se em modelos de multiscale modeling para entender como fenômenos se manifestam em diferentes níveis .
Use GIS ou softwares de análise espacial para georreferenciamento e overlay de camadas históricas e contemporâneas.
3. Decodificação de Vieses e Entropias
Calcule entropia estrutural em redes semânticas ou de co‑ocorrência, utilizando indicadores inspirados na estrutura de entropia de redes sociais .
Empregue método Delphi para triangulação de interpretações e validação intersubjetiva das leituras qualitativas .
Analise documentos e transcrições com NVivo para mapear categorias e relações ocultas .
4. Desestruturação Epistemológica
Aplique deconstrução para identificar contradições e pressupostos ocultos nas narrativas .
Use a hermenêutica da suspeita para “ler contra o grão” e expor significados reprimidos .
Distinga entre arqueologia (mapa de discursos) e genealogia (linhagens históricas contingentes) na análise foucaultiana .
5. Intervenção Analítica de Precisão
Selecione Topological Data Analysis com giotto‑tda para explorar a forma de conjuntos de dados de alta dimensão .
Utilize teoria dos jogos para modelar interações estratégicas em discursos complexos .
Aplique lógica paraconsistente para lidar com sistemas que contêm contradições fundamentais .
6. Arquitetura de Antifragilidade Cognitiva
Incorpore princípios de antifragilidade para que o sistema aprenda com erros e ruídos, elevando sua capacidade de adaptação .
Modele fluxos de feedback conforme o Viable System Model de Beer para garantir auto‑regulação e resiliência estrutural .
7. Formulação da Questão Metacrítica
- Elabore perguntas abertas que conectem múltiplas escalas e disciplinas, por exemplo:
“Como este protocolo responde a choques disruptivos em diferentes camadas históricas e geográficas?” .
Ferramentas e Recursos
Gephi para visualização e exploração de redes .
Giotto‑TDA para análise topológica de dados .
NVivo para codificação qualitativa e mineração de texto .
GIS/QGIS para análise espacial avançada.
Docker / Git para ambientes reproducíveis.
Python (pandas, scikit‑learn, PyTDA) para pipelines analíticos.
Mecanismos de Validação e Métricas
Entropia de rede e índices de heterogeneidade para quantificar dispersão e lacunas discursivas .
Taxas de convergência Delphi para avaliar consenso intersubjetivo .
Testes de estresse e simulações de choque para confirmar a antifragilidade do modelo .
Revisão por pares internas e tradução inversa para garantir fidelidade na transposição hipertextual.
Exemplo de Caso Piloto
Contexto: Análise de narrativas midiáticas sobre crises climáticas.
Sondagem de discursos locais (jornais regionais) e globais (agências internacionais) via GIS.
Mapeamento de conceitos-chave (cartografia conceitual) com Gephi.
Cálculo de entropia semântica nas co‑ocorrências de termos como “inovação”, “inequidade” e “sustentabilidade”.
Aplicação de giotto‑tda para identificar padrões topológicos em grandes corpora de tweets.
Intervenção de precisão via lógica paraconsistente para lidar com contradições entre declarações de líderes políticos.
Implementação de ciclos de feedback antifrágil, promovendo revisões periódicas do protocolo diante de dados emergentes.
Próximos Passos de Pesquisa e Desenvolvimento
Formalizar protocolos internos (ISO/IEC 27001 para segurança de dados, checklists de qualidade).
Comparar eficiência do módulo TDA versus paraconsistente em cenários distintos.
Investigar a integração de IA conversacional para co‑análise e sugestão de novas trilhas interpretativas.
Publicar casos de uso e benchmarking para fomentar adoção colaborativa.
Aprofundar a transdisciplinaridade, alinhando níveis de realidade conforme Nicolescu .
Este conjunto de diretrizes e ferramentas forma uma base sólida para operacionalizar e evoluir o protocolo, garantindo rigor, adaptabilidade e potencial de inovação epistemológica.