Upload folder using huggingface_hub

6648894 verified 4 months ago

129 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.944,
	"eval_steps": 100,
	"global_step": 248,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"completion_length": 288.16796875,
	"epoch": 0.016,
	"grad_norm": 0.9921875,
	"kl": 0.0,
	"learning_rate": 2.0000000000000002e-07,
	"loss": -0.0,
	"reward": 2.1448024585843086,
	"reward_std": 0.6503619067370892,
	"rewards/accuracy_reward": 0.064453125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.576262284691135,
	"rewards/reasoning_steps_reward": 0.35156250186264515,
	"step": 1
	},
	{
	"completion_length": 280.5390625,
	"epoch": 0.032,
	"grad_norm": 2.453125,
	"kl": 0.0,
	"learning_rate": 4.0000000000000003e-07,
	"loss": -0.0,
	"reward": 2.9461557120084763,
	"reward_std": 0.7598665952682495,
	"rewards/accuracy_reward": 0.017578125,
	"rewards/format_reward": 0.001953125,
	"rewards/novelty_reward_func_explore_exploit": 0.8809234369546175,
	"rewards/reasoning_steps_reward": 0.2838541753590107,
	"step": 2
	},
	{
	"completion_length": 282.580078125,
	"epoch": 0.048,
	"grad_norm": 1.609375,
	"kl": 0.0010201742788922274,
	"learning_rate": 6.000000000000001e-07,
	"loss": 0.0,
	"reward": 2.4310644939541817,
	"reward_std": 0.7171800062060356,
	"rewards/accuracy_reward": 0.099609375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.68535483473291,
	"rewards/reasoning_steps_reward": 0.27539063314907253,
	"step": 3
	},
	{
	"completion_length": 281.859375,
	"epoch": 0.064,
	"grad_norm": 1.6640625,
	"kl": 0.0006131621394160902,
	"learning_rate": 8.000000000000001e-07,
	"loss": 0.0,
	"reward": 2.392010949552059,
	"reward_std": 0.7056797686964273,
	"rewards/accuracy_reward": 0.123046875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6480314154177904,
	"rewards/reasoning_steps_reward": 0.3248697896488011,
	"step": 4
	},
	{
	"completion_length": 276.5234375,
	"epoch": 0.08,
	"grad_norm": 1.140625,
	"kl": 0.0008916492552089039,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.0,
	"reward": 2.185966059565544,
	"reward_std": 0.7970924656838179,
	"rewards/accuracy_reward": 0.1171875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6036553451170524,
	"rewards/reasoning_steps_reward": 0.2578125027939677,
	"step": 5
	},
	{
	"completion_length": 290.345703125,
	"epoch": 0.096,
	"grad_norm": 0.98828125,
	"kl": 0.0007805953682691325,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 0.0,
	"reward": 2.586206890642643,
	"reward_std": 0.7317942306399345,
	"rewards/accuracy_reward": 0.0625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7433623660666248,
	"rewards/reasoning_steps_reward": 0.29361979849636555,
	"step": 6
	},
	{
	"completion_length": 288.357421875,
	"epoch": 0.112,
	"grad_norm": 3.3125,
	"kl": 0.0006862173449917464,
	"learning_rate": 1.4000000000000001e-06,
	"loss": 0.0,
	"reward": 2.9549497589468956,
	"reward_std": 0.7832636646926403,
	"rewards/accuracy_reward": 0.060546875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8552089141060909,
	"rewards/reasoning_steps_reward": 0.3287760401144624,
	"step": 7
	},
	{
	"completion_length": 291.0859375,
	"epoch": 0.128,
	"grad_norm": 1.34375,
	"kl": 0.0007065349800541298,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 0.0,
	"reward": 2.769632026553154,
	"reward_std": 0.6810889039188623,
	"rewards/accuracy_reward": 0.02734375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8127506040036678,
	"rewards/reasoning_steps_reward": 0.3040364640764892,
	"step": 8
	},
	{
	"completion_length": 285.240234375,
	"epoch": 0.144,
	"grad_norm": 1.4921875,
	"kl": 0.000676694346111617,
	"learning_rate": 1.8000000000000001e-06,
	"loss": 0.0,
	"reward": 2.951853834092617,
	"reward_std": 0.833003468811512,
	"rewards/accuracy_reward": 0.02734375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8860780304918686,
	"rewards/reasoning_steps_reward": 0.2662760391831398,
	"step": 9
	},
	{
	"completion_length": 273.15625,
	"epoch": 0.16,
	"grad_norm": 2.40625,
	"kl": 0.0007681718943786109,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.0,
	"reward": 2.4880168437957764,
	"reward_std": 0.7941582556813955,
	"rewards/accuracy_reward": 0.083984375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6932712296644846,
	"rewards/reasoning_steps_reward": 0.3242187509313226,
	"step": 10
	},
	{
	"completion_length": 263.72265625,
	"epoch": 0.176,
	"grad_norm": 1.8125,
	"kl": 0.0007444877319358056,
	"learning_rate": 2.2e-06,
	"loss": 0.0,
	"reward": 2.060094438493252,
	"reward_std": 0.7453512959182262,
	"rewards/accuracy_reward": 0.15625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.540864814693729,
	"rewards/reasoning_steps_reward": 0.28125000139698386,
	"step": 11
	},
	{
	"completion_length": 287.52734375,
	"epoch": 0.192,
	"grad_norm": 0.84765625,
	"kl": 0.0006410041951312451,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 0.0,
	"reward": 2.6830679774284363,
	"reward_std": 0.7234712429344654,
	"rewards/accuracy_reward": 0.07421875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.775215346676608,
	"rewards/reasoning_steps_reward": 0.28320312732830644,
	"step": 12
	},
	{
	"completion_length": 271.40625,
	"epoch": 0.208,
	"grad_norm": 1.6875,
	"kl": 0.0006587781517737312,
	"learning_rate": 2.6e-06,
	"loss": 0.0,
	"reward": 2.297848492860794,
	"reward_std": 0.7962923254817724,
	"rewards/accuracy_reward": 0.07421875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.654187332217892,
	"rewards/reasoning_steps_reward": 0.2610677082557231,
	"step": 13
	},
	{
	"completion_length": 282.728515625,
	"epoch": 0.224,
	"grad_norm": 1.1015625,
	"kl": 0.0009098516529775225,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 0.0,
	"reward": 2.512993238866329,
	"reward_std": 0.7325041498988867,
	"rewards/accuracy_reward": 0.11328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.698124471741418,
	"rewards/reasoning_steps_reward": 0.30533855268731713,
	"step": 14
	},
	{
	"completion_length": 286.90234375,
	"epoch": 0.24,
	"grad_norm": 1.7890625,
	"kl": 0.0009447168922633864,
	"learning_rate": 3e-06,
	"loss": 0.0,
	"reward": 2.572930172085762,
	"reward_std": 0.7189842760562897,
	"rewards/accuracy_reward": 0.046875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7254819249113401,
	"rewards/reasoning_steps_reward": 0.34960938710719347,
	"step": 15
	},
	{
	"completion_length": 282.0234375,
	"epoch": 0.256,
	"grad_norm": 1.9453125,
	"kl": 0.0007176450344559271,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 0.0,
	"reward": 2.3780763298273087,
	"reward_std": 0.7437136992812157,
	"rewards/accuracy_reward": 0.044921875,
	"rewards/format_reward": 0.001953125,
	"rewards/novelty_reward_func_explore_exploit": 0.668343149125576,
	"rewards/reasoning_steps_reward": 0.326171881519258,
	"step": 16
	},
	{
	"completion_length": 277.181640625,
	"epoch": 0.272,
	"grad_norm": 1.84375,
	"kl": 0.0009444843672099523,
	"learning_rate": 3.4000000000000005e-06,
	"loss": 0.0,
	"reward": 2.6828741505742073,
	"reward_std": 0.7672664560377598,
	"rewards/accuracy_reward": 0.068359375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7499771338577071,
	"rewards/reasoning_steps_reward": 0.3645833469927311,
	"step": 17
	},
	{
	"completion_length": 286.3671875,
	"epoch": 0.288,
	"grad_norm": 1.28125,
	"kl": 0.0009558251094858861,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 0.0,
	"reward": 2.608707718551159,
	"reward_std": 0.7508547510951757,
	"rewards/accuracy_reward": 0.056640625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7523817578330636,
	"rewards/reasoning_steps_reward": 0.29492188477888703,
	"step": 18
	},
	{
	"completion_length": 288.197265625,
	"epoch": 0.304,
	"grad_norm": 1.3203125,
	"kl": 0.0009933830478985328,
	"learning_rate": 3.8000000000000005e-06,
	"loss": 0.0,
	"reward": 3.152822159230709,
	"reward_std": 0.7633876148611307,
	"rewards/accuracy_reward": 0.03125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.9196473040307561,
	"rewards/reasoning_steps_reward": 0.3626302182674408,
	"step": 19
	},
	{
	"completion_length": 291.763671875,
	"epoch": 0.32,
	"grad_norm": 0.95703125,
	"kl": 0.0010635810940584633,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.0,
	"reward": 2.500213325023651,
	"reward_std": 0.7017618604004383,
	"rewards/accuracy_reward": 0.0859375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6949495617300272,
	"rewards/reasoning_steps_reward": 0.32942708022892475,
	"step": 20
	},
	{
	"completion_length": 281.04296875,
	"epoch": 0.336,
	"grad_norm": 3872.0,
	"kl": 38.398836399162974,
	"learning_rate": 4.2000000000000004e-06,
	"loss": 1.536,
	"reward": 2.2889985144138336,
	"reward_std": 0.7787356674671173,
	"rewards/accuracy_reward": 0.068359375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6505863160515825,
	"rewards/reasoning_steps_reward": 0.2688802117481828,
	"step": 21
	},
	{
	"completion_length": 288.47265625,
	"epoch": 0.352,
	"grad_norm": 1.0859375,
	"kl": 0.0012669887473748531,
	"learning_rate": 4.4e-06,
	"loss": 0.0001,
	"reward": 2.6376563012599945,
	"reward_std": 0.6690970882773399,
	"rewards/accuracy_reward": 0.087890625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7099479290967187,
	"rewards/reasoning_steps_reward": 0.41992187313735485,
	"step": 22
	},
	{
	"completion_length": 286.966796875,
	"epoch": 0.368,
	"grad_norm": 1.2734375,
	"kl": 0.0015128458107938059,
	"learning_rate": 4.600000000000001e-06,
	"loss": 0.0001,
	"reward": 2.5921228751540184,
	"reward_std": 0.6939626764506102,
	"rewards/accuracy_reward": 0.0859375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7249350572625796,
	"rewards/reasoning_steps_reward": 0.33138021221384406,
	"step": 23
	},
	{
	"completion_length": 280.384765625,
	"epoch": 0.384,
	"grad_norm": 0.9375,
	"kl": 0.0015014593445812352,
	"learning_rate": 4.800000000000001e-06,
	"loss": 0.0001,
	"reward": 2.704825095832348,
	"reward_std": 0.8105385769158602,
	"rewards/accuracy_reward": 0.056640625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7590302489697933,
	"rewards/reasoning_steps_reward": 0.3710937546566129,
	"step": 24
	},
	{
	"completion_length": 290.41796875,
	"epoch": 0.4,
	"grad_norm": 0.9140625,
	"kl": 0.001665601652348414,
	"learning_rate": 5e-06,
	"loss": 0.0001,
	"reward": 2.357452914118767,
	"reward_std": 0.7088302746415138,
	"rewards/accuracy_reward": 0.064453125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6477967969452342,
	"rewards/reasoning_steps_reward": 0.349609381519258,
	"step": 25
	},
	{
	"completion_length": 291.509765625,
	"epoch": 0.416,
	"grad_norm": 0.9609375,
	"kl": 0.001865061596618034,
	"learning_rate": 4.999751919373782e-06,
	"loss": 0.0001,
	"reward": 2.281202170997858,
	"reward_std": 0.6989514082670212,
	"rewards/accuracy_reward": 0.08984375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.5948191303759813,
	"rewards/reasoning_steps_reward": 0.40690105222165585,
	"step": 26
	},
	{
	"completion_length": 287.421875,
	"epoch": 0.432,
	"grad_norm": 0.9140625,
	"kl": 0.002278451618622057,
	"learning_rate": 4.9990077267303256e-06,
	"loss": 0.0001,
	"reward": 2.39421396702528,
	"reward_std": 0.7001004256308079,
	"rewards/accuracy_reward": 0.1171875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6474636799345413,
	"rewards/reasoning_steps_reward": 0.3346354281529784,
	"step": 27
	},
	{
	"completion_length": 289.5859375,
	"epoch": 0.448,
	"grad_norm": 1.0625,
	"kl": 0.0022466240770881996,
	"learning_rate": 4.997767569765452e-06,
	"loss": 0.0001,
	"reward": 2.673185594379902,
	"reward_std": 0.7204618379473686,
	"rewards/accuracy_reward": 0.060546875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7612875507523617,
	"rewards/reasoning_steps_reward": 0.32877604896202683,
	"step": 28
	},
	{
	"completion_length": 290.353515625,
	"epoch": 0.464,
	"grad_norm": 0.94921875,
	"kl": 0.002421206998405978,
	"learning_rate": 4.996031694606294e-06,
	"loss": 0.0001,
	"reward": 2.2081645615398884,
	"reward_std": 0.7610204052180052,
	"rewards/accuracy_reward": 0.095703125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.5865322849713266,
	"rewards/reasoning_steps_reward": 0.3528645895421505,
	"step": 29
	},
	{
	"completion_length": 284.9765625,
	"epoch": 0.48,
	"grad_norm": 0.95703125,
	"kl": 0.0032389966800110415,
	"learning_rate": 4.993800445762451e-06,
	"loss": 0.0001,
	"reward": 2.4655835777521133,
	"reward_std": 0.8400940801948309,
	"rewards/accuracy_reward": 0.087890625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6395695237442851,
	"rewards/reasoning_steps_reward": 0.45898438431322575,
	"step": 30
	},
	{
	"completion_length": 288.93359375,
	"epoch": 0.496,
	"grad_norm": 1.0,
	"kl": 0.0028132440565968864,
	"learning_rate": 4.991074266057609e-06,
	"loss": 0.0001,
	"reward": 2.666738063097,
	"reward_std": 0.6789926886558533,
	"rewards/accuracy_reward": 0.087890625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7322286684066057,
	"rewards/reasoning_steps_reward": 0.3821614580228925,
	"step": 31
	},
	{
	"completion_length": 292.3671875,
	"epoch": 0.512,
	"grad_norm": 1.0078125,
	"kl": 0.004060989667777903,
	"learning_rate": 4.987853696541664e-06,
	"loss": 0.0002,
	"reward": 2.5818087458610535,
	"reward_std": 0.6875880807638168,
	"rewards/accuracy_reward": 0.0625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7134674986203512,
	"rewards/reasoning_steps_reward": 0.3789062611758709,
	"step": 32
	},
	{
	"completion_length": 286.158203125,
	"epoch": 0.528,
	"grad_norm": 1.140625,
	"kl": 0.005552116854232736,
	"learning_rate": 4.984139376383337e-06,
	"loss": 0.0002,
	"reward": 2.8399546705186367,
	"reward_std": 0.750790286809206,
	"rewards/accuracy_reward": 0.138671875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7791168199231228,
	"rewards/reasoning_steps_reward": 0.3639322938397527,
	"step": 33
	},
	{
	"completion_length": 287.48828125,
	"epoch": 0.544,
	"grad_norm": 3.171875,
	"kl": 0.00440279851318337,
	"learning_rate": 4.979932042743324e-06,
	"loss": 0.0002,
	"reward": 3.1019199565052986,
	"reward_std": 0.8068479858338833,
	"rewards/accuracy_reward": 0.06640625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.877940321341157,
	"rewards/reasoning_steps_reward": 0.4016927145421505,
	"step": 34
	},
	{
	"completion_length": 291.712890625,
	"epoch": 0.56,
	"grad_norm": 0.83984375,
	"kl": 0.003549927467247471,
	"learning_rate": 4.975232530627998e-06,
	"loss": 0.0001,
	"reward": 2.758346803486347,
	"reward_std": 0.73613665625453,
	"rewards/accuracy_reward": 0.05078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7701433822512627,
	"rewards/reasoning_steps_reward": 0.3971354244276881,
	"step": 35
	},
	{
	"completion_length": 280.013671875,
	"epoch": 0.576,
	"grad_norm": 0.94921875,
	"kl": 0.004770460931467824,
	"learning_rate": 4.970041772723685e-06,
	"loss": 0.0002,
	"reward": 2.5518586486577988,
	"reward_std": 0.752994803711772,
	"rewards/accuracy_reward": 0.185546875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6477115458498398,
	"rewards/reasoning_steps_reward": 0.4231770895421505,
	"step": 36
	},
	{
	"completion_length": 294.7265625,
	"epoch": 0.592,
	"grad_norm": 0.88671875,
	"kl": 0.004318368082749657,
	"learning_rate": 4.964360799211563e-06,
	"loss": 0.0002,
	"reward": 2.9847040474414825,
	"reward_std": 0.7252895850688219,
	"rewards/accuracy_reward": 0.03515625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8412555102258921,
	"rewards/reasoning_steps_reward": 0.42578124813735485,
	"step": 37
	},
	{
	"completion_length": 287.59765625,
	"epoch": 0.608,
	"grad_norm": 0.92578125,
	"kl": 0.005480331514263526,
	"learning_rate": 4.958190737563203e-06,
	"loss": 0.0002,
	"reward": 2.4749373346567154,
	"reward_std": 0.7473156917840242,
	"rewards/accuracy_reward": 0.11328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6489808422823747,
	"rewards/reasoning_steps_reward": 0.41471355129033327,
	"step": 38
	},
	{
	"completion_length": 295.189453125,
	"epoch": 0.624,
	"grad_norm": 0.8828125,
	"kl": 0.005519463520613499,
	"learning_rate": 4.951532812316814e-06,
	"loss": 0.0002,
	"reward": 2.7017148807644844,
	"reward_std": 0.713581632822752,
	"rewards/accuracy_reward": 0.03515625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7169778756797314,
	"rewards/reasoning_steps_reward": 0.5156250111758709,
	"step": 39
	},
	{
	"completion_length": 289.95703125,
	"epoch": 0.64,
	"grad_norm": 0.8828125,
	"kl": 0.005352065360057168,
	"learning_rate": 4.944388344834205e-06,
	"loss": 0.0002,
	"reward": 2.7851984202861786,
	"reward_std": 0.658753015100956,
	"rewards/accuracy_reward": 0.109375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7454567709937692,
	"rewards/reasoning_steps_reward": 0.43945313338190317,
	"step": 40
	},
	{
	"completion_length": 290.80078125,
	"epoch": 0.656,
	"grad_norm": 0.8515625,
	"kl": 0.00584478146629408,
	"learning_rate": 4.936758753038551e-06,
	"loss": 0.0002,
	"reward": 2.83456464856863,
	"reward_std": 0.6670792158693075,
	"rewards/accuracy_reward": 0.056640625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7892559381822745,
	"rewards/reasoning_steps_reward": 0.41015625838190317,
	"step": 41
	},
	{
	"completion_length": 286.533203125,
	"epoch": 0.672,
	"grad_norm": 1.09375,
	"kl": 0.009831015078816563,
	"learning_rate": 4.92864555113298e-06,
	"loss": 0.0004,
	"reward": 3.0447439029812813,
	"reward_std": 0.6739194095134735,
	"rewards/accuracy_reward": 0.16015625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8074493408203125,
	"rewards/reasoning_steps_reward": 0.4622395820915699,
	"step": 42
	},
	{
	"completion_length": 295.37109375,
	"epoch": 0.688,
	"grad_norm": 0.95703125,
	"kl": 0.0045513896038755774,
	"learning_rate": 4.92005034930006e-06,
	"loss": 0.0002,
	"reward": 2.367835894227028,
	"reward_std": 0.6928801033645868,
	"rewards/accuracy_reward": 0.05859375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6254331463327011,
	"rewards/reasoning_steps_reward": 0.4329427080228925,
	"step": 43
	},
	{
	"completion_length": 291.12890625,
	"epoch": 0.704,
	"grad_norm": 0.89453125,
	"kl": 0.007478385392460041,
	"learning_rate": 4.9109748533822315e-06,
	"loss": 0.0003,
	"reward": 3.1017851755023003,
	"reward_std": 0.7546116765588522,
	"rewards/accuracy_reward": 0.05078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8752912487834692,
	"rewards/reasoning_steps_reward": 0.42513021221384406,
	"step": 44
	},
	{
	"completion_length": 286.34375,
	"epoch": 0.72,
	"grad_norm": 0.90234375,
	"kl": 0.007521548090153374,
	"learning_rate": 4.901420864543265e-06,
	"loss": 0.0003,
	"reward": 2.608507961034775,
	"reward_std": 0.6855722554028034,
	"rewards/accuracy_reward": 0.119140625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.674624165520072,
	"rewards/reasoning_steps_reward": 0.4654947901144624,
	"step": 45
	},
	{
	"completion_length": 287.42578125,
	"epoch": 0.736,
	"grad_norm": 0.984375,
	"kl": 0.006817970628617331,
	"learning_rate": 4.891390278910788e-06,
	"loss": 0.0003,
	"reward": 2.673181392252445,
	"reward_std": 0.7831938974559307,
	"rewards/accuracy_reward": 0.095703125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7087687657525142,
	"rewards/reasoning_steps_reward": 0.4511718712747097,
	"step": 46
	},
	{
	"completion_length": 285.908203125,
	"epoch": 0.752,
	"grad_norm": 1.2890625,
	"kl": 0.007845322310458869,
	"learning_rate": 4.880885087199972e-06,
	"loss": 0.0003,
	"reward": 2.7633985728025436,
	"reward_std": 0.7148055490106344,
	"rewards/accuracy_reward": 0.099609375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.750776955857873,
	"rewards/reasoning_steps_reward": 0.41145834047347307,
	"step": 47
	},
	{
	"completion_length": 289.779296875,
	"epoch": 0.768,
	"grad_norm": 1.15625,
	"kl": 0.008501806572894566,
	"learning_rate": 4.869907374318446e-06,
	"loss": 0.0003,
	"reward": 3.029990702867508,
	"reward_std": 0.7890328913927078,
	"rewards/accuracy_reward": 0.08203125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8099100968490044,
	"rewards/reasoning_steps_reward": 0.5182291734963655,
	"step": 48
	},
	{
	"completion_length": 288.1328125,
	"epoch": 0.784,
	"grad_norm": 1.5390625,
	"kl": 0.008691710012499243,
	"learning_rate": 4.858459318952521e-06,
	"loss": 0.0003,
	"reward": 2.929666645824909,
	"reward_std": 0.7696562893688679,
	"rewards/accuracy_reward": 0.072265625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7836301922798157,
	"rewards/reasoning_steps_reward": 0.5065104309469461,
	"step": 49
	},
	{
	"completion_length": 290.06640625,
	"epoch": 0.8,
	"grad_norm": 0.95703125,
	"kl": 0.007455944927642122,
	"learning_rate": 4.8465431931347904e-06,
	"loss": 0.0003,
	"reward": 2.573406994342804,
	"reward_std": 0.7570146657526493,
	"rewards/accuracy_reward": 0.103515625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6466478169895709,
	"rewards/reasoning_steps_reward": 0.529947929084301,
	"step": 50
	},
	{
	"completion_length": 291.49609375,
	"epoch": 0.816,
	"grad_norm": 0.98046875,
	"kl": 0.01057859291904606,
	"learning_rate": 4.83416136179322e-06,
	"loss": 0.0004,
	"reward": 2.6446976363658905,
	"reward_std": 0.6847481243312359,
	"rewards/accuracy_reward": 0.025390625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7094738796974221,
	"rewards/reasoning_steps_reward": 0.49088541977107525,
	"step": 51
	},
	{
	"completion_length": 282.392578125,
	"epoch": 0.832,
	"grad_norm": 2.03125,
	"kl": 0.01016361394431442,
	"learning_rate": 4.821316282281788e-06,
	"loss": 0.0004,
	"reward": 2.766519770026207,
	"reward_std": 0.7637902311980724,
	"rewards/accuracy_reward": 0.1328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6958277653902769,
	"rewards/reasoning_steps_reward": 0.5462239757180214,
	"step": 52
	},
	{
	"completion_length": 287.380859375,
	"epoch": 0.848,
	"grad_norm": 1.5,
	"kl": 0.00917052014847286,
	"learning_rate": 4.808010503892788e-06,
	"loss": 0.0004,
	"reward": 2.570107080042362,
	"reward_std": 0.7531391996890306,
	"rewards/accuracy_reward": 0.10546875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6537943718334039,
	"rewards/reasoning_steps_reward": 0.5032552108168602,
	"step": 53
	},
	{
	"completion_length": 291.640625,
	"epoch": 0.864,
	"grad_norm": 0.89453125,
	"kl": 0.009139836591202766,
	"learning_rate": 4.794246667350889e-06,
	"loss": 0.0004,
	"reward": 2.8398406505584717,
	"reward_std": 0.7224904727190733,
	"rewards/accuracy_reward": 0.04296875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.770832309499383,
	"rewards/reasoning_steps_reward": 0.484375006519258,
	"step": 54
	},
	{
	"completion_length": 273.5,
	"epoch": 0.88,
	"grad_norm": 1.2734375,
	"kl": 0.009875323972664773,
	"learning_rate": 4.780027504289043e-06,
	"loss": 0.0004,
	"reward": 2.9461885392665863,
	"reward_std": 0.7379185315221548,
	"rewards/accuracy_reward": 0.193359375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7422624975442886,
	"rewards/reasoning_steps_reward": 0.5260416679084301,
	"step": 55
	},
	{
	"completion_length": 291.078125,
	"epoch": 0.896,
	"grad_norm": 0.8828125,
	"kl": 0.00826937542296946,
	"learning_rate": 4.765355836706349e-06,
	"loss": 0.0003,
	"reward": 2.880779907107353,
	"reward_std": 0.711861016228795,
	"rewards/accuracy_reward": 0.03125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7781853148092827,
	"rewards/reasoning_steps_reward": 0.5149739719927311,
	"step": 56
	},
	{
	"completion_length": 288.72265625,
	"epoch": 0.912,
	"grad_norm": 0.9140625,
	"kl": 0.008809896156890318,
	"learning_rate": 4.750234576407994e-06,
	"loss": 0.0004,
	"reward": 2.6955473721027374,
	"reward_std": 0.8277835454791784,
	"rewards/accuracy_reward": 0.087890625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6945227358179787,
	"rewards/reasoning_steps_reward": 0.5240885429084301,
	"step": 57
	},
	{
	"completion_length": 285.9921875,
	"epoch": 0.928,
	"grad_norm": 0.90234375,
	"kl": 0.008899325417587534,
	"learning_rate": 4.734666724427357e-06,
	"loss": 0.0004,
	"reward": 3.041392058134079,
	"reward_std": 0.6156999934464693,
	"rewards/accuracy_reward": 0.115234375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8032938965285817,
	"rewards/reasoning_steps_reward": 0.516276054084301,
	"step": 58
	},
	{
	"completion_length": 290.314453125,
	"epoch": 0.944,
	"grad_norm": 4.21875,
	"kl": 0.011989369959337637,
	"learning_rate": 4.718655370430411e-06,
	"loss": 0.0005,
	"reward": 2.9865424036979675,
	"reward_std": 0.8030446134507656,
	"rewards/accuracy_reward": 0.078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7860957235097885,
	"rewards/reasoning_steps_reward": 0.5501302164047956,
	"step": 59
	},
	{
	"completion_length": 282.091796875,
	"epoch": 0.96,
	"grad_norm": 1.8125,
	"kl": 0.012043666996760294,
	"learning_rate": 4.702203692102539e-06,
	"loss": 0.0005,
	"reward": 3.1328602582216263,
	"reward_std": 0.6528369020670652,
	"rewards/accuracy_reward": 0.111328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8283579163253307,
	"rewards/reasoning_steps_reward": 0.5364583358168602,
	"step": 60
	},
	{
	"completion_length": 288.666015625,
	"epoch": 0.976,
	"grad_norm": 0.76953125,
	"kl": 0.009388500155182555,
	"learning_rate": 4.68531495451787e-06,
	"loss": 0.0004,
	"reward": 2.58310616761446,
	"reward_std": 0.6356705613434315,
	"rewards/accuracy_reward": 0.126953125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6383791274080673,
	"rewards/reasoning_steps_reward": 0.5410156436264515,
	"step": 61
	},
	{
	"completion_length": 288.513671875,
	"epoch": 0.992,
	"grad_norm": 1.203125,
	"kl": 0.010823950171470642,
	"learning_rate": 4.66799250949128e-06,
	"loss": 0.0004,
	"reward": 3.1646435484290123,
	"reward_std": 0.7192362230271101,
	"rewards/accuracy_reward": 0.095703125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8294037394225597,
	"rewards/reasoning_steps_reward": 0.5807291716337204,
	"step": 62
	},
	{
	"completion_length": 283.671875,
	"epoch": 1.0,
	"grad_norm": 0.65234375,
	"kl": 0.011424218711908907,
	"learning_rate": 4.650239794913177e-06,
	"loss": 0.0002,
	"reward": 2.6004482805728912,
	"reward_std": 0.775815561413765,
	"rewards/accuracy_reward": 0.1484375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6493681768576304,
	"rewards/reasoning_steps_reward": 0.5039062574505806,
	"step": 63
	},
	{
	"completion_length": 293.845703125,
	"epoch": 1.016,
	"grad_norm": 1.921875,
	"kl": 0.011366115068085492,
	"learning_rate": 4.632060334067202e-06,
	"loss": 0.0005,
	"reward": 2.7260814532637596,
	"reward_std": 0.6874045897275209,
	"rewards/accuracy_reward": 0.078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6918969408919414,
	"rewards/reasoning_steps_reward": 0.5722656305879354,
	"step": 64
	},
	{
	"completion_length": 294.06640625,
	"epoch": 1.032,
	"grad_norm": 2.171875,
	"kl": 0.012063174799550325,
	"learning_rate": 4.613457734930978e-06,
	"loss": 0.0005,
	"reward": 2.6708649322390556,
	"reward_std": 0.6978613398969173,
	"rewards/accuracy_reward": 0.109375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6702362283443412,
	"rewards/reasoning_steps_reward": 0.5507812555879354,
	"step": 65
	},
	{
	"completion_length": 293.265625,
	"epoch": 1.048,
	"grad_norm": 0.91015625,
	"kl": 0.010817280679475516,
	"learning_rate": 4.5944356894600615e-06,
	"loss": 0.0004,
	"reward": 2.96081106364727,
	"reward_std": 0.7362911906093359,
	"rewards/accuracy_reward": 0.052734375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7738293862591187,
	"rewards/reasoning_steps_reward": 0.5865885466337204,
	"step": 66
	},
	{
	"completion_length": 278.333984375,
	"epoch": 1.064,
	"grad_norm": 0.82421875,
	"kl": 0.010780130076454952,
	"learning_rate": 4.574997972855212e-06,
	"loss": 0.0004,
	"reward": 2.909902695566416,
	"reward_std": 0.6607580352574587,
	"rewards/accuracy_reward": 0.228515625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.708031815631936,
	"rewards/reasoning_steps_reward": 0.5572916734963655,
	"step": 67
	},
	{
	"completion_length": 283.216796875,
	"epoch": 1.08,
	"grad_norm": 0.890625,
	"kl": 0.012393000011797994,
	"learning_rate": 4.5551484428131575e-06,
	"loss": 0.0005,
	"reward": 2.827034629881382,
	"reward_std": 0.6700945645570755,
	"rewards/accuracy_reward": 0.130859375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7125271611536542,
	"rewards/reasoning_steps_reward": 0.5585937593132257,
	"step": 68
	},
	{
	"completion_length": 288.322265625,
	"epoch": 1.096,
	"grad_norm": 1.21875,
	"kl": 0.013504860282409936,
	"learning_rate": 4.534891038760971e-06,
	"loss": 0.0005,
	"reward": 3.1474373564124107,
	"reward_std": 0.7250996101647615,
	"rewards/accuracy_reward": 0.07421875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.818677028020223,
	"rewards/reasoning_steps_reward": 0.6171875037252903,
	"step": 69
	},
	{
	"completion_length": 282.470703125,
	"epoch": 1.112,
	"grad_norm": 1.7421875,
	"kl": 0.010700971761252731,
	"learning_rate": 4.514229781074239e-06,
	"loss": 0.0004,
	"reward": 2.8449594378471375,
	"reward_std": 0.7744644097983837,
	"rewards/accuracy_reward": 0.1484375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.70309411889563,
	"rewards/reasoning_steps_reward": 0.5872395783662796,
	"step": 70
	},
	{
	"completion_length": 290.74609375,
	"epoch": 1.1280000000000001,
	"grad_norm": 0.98828125,
	"kl": 0.012390443938784301,
	"learning_rate": 4.49316877027916e-06,
	"loss": 0.0005,
	"reward": 2.777492232620716,
	"reward_std": 0.6991744674742222,
	"rewards/accuracy_reward": 0.109375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6892856055249771,
	"rewards/reasoning_steps_reward": 0.6002604309469461,
	"step": 71
	},
	{
	"completion_length": 286.109375,
	"epoch": 1.144,
	"grad_norm": 0.921875,
	"kl": 0.012579885253217071,
	"learning_rate": 4.471712186238728e-06,
	"loss": 0.0005,
	"reward": 2.548068232834339,
	"reward_std": 0.6026105545461178,
	"rewards/accuracy_reward": 0.15234375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6145470403134823,
	"rewards/reasoning_steps_reward": 0.5520833395421505,
	"step": 72
	},
	{
	"completion_length": 283.822265625,
	"epoch": 1.16,
	"grad_norm": 0.80859375,
	"kl": 0.01136038324330002,
	"learning_rate": 4.449864287323188e-06,
	"loss": 0.0005,
	"reward": 2.7529877200722694,
	"reward_std": 0.575440164655447,
	"rewards/accuracy_reward": 0.1015625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6726538874208927,
	"rewards/reasoning_steps_reward": 0.633463554084301,
	"step": 73
	},
	{
	"completion_length": 287.66015625,
	"epoch": 1.176,
	"grad_norm": 0.99609375,
	"kl": 0.013483586255460978,
	"learning_rate": 4.427629409564898e-06,
	"loss": 0.0005,
	"reward": 2.6529831513762474,
	"reward_std": 0.7726290188729763,
	"rewards/accuracy_reward": 0.025390625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6770794546852509,
	"rewards/reasoning_steps_reward": 0.5963541734963655,
	"step": 74
	},
	{
	"completion_length": 287.505859375,
	"epoch": 1.192,
	"grad_norm": 0.8828125,
	"kl": 0.010077012644615024,
	"learning_rate": 4.405011965797775e-06,
	"loss": 0.0004,
	"reward": 2.944363258779049,
	"reward_std": 0.6908796802163124,
	"rewards/accuracy_reward": 0.111328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7551089283078909,
	"rewards/reasoning_steps_reward": 0.567708333954215,
	"step": 75
	},
	{
	"completion_length": 286.248046875,
	"epoch": 1.208,
	"grad_norm": 1.109375,
	"kl": 0.014365001203259453,
	"learning_rate": 4.382016444781509e-06,
	"loss": 0.0006,
	"reward": 2.8981464356184006,
	"reward_std": 0.7666896525770426,
	"rewards/accuracy_reward": 0.09765625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7290696154038111,
	"rewards/reasoning_steps_reward": 0.6132812537252903,
	"step": 76
	},
	{
	"completion_length": 296.5078125,
	"epoch": 1.224,
	"grad_norm": 0.91796875,
	"kl": 0.011508767551276833,
	"learning_rate": 4.3586474103107034e-06,
	"loss": 0.0005,
	"reward": 3.2085797861218452,
	"reward_std": 0.7307887077331543,
	"rewards/accuracy_reward": 0.0078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8637974336743355,
	"rewards/reasoning_steps_reward": 0.6093750055879354,
	"step": 77
	},
	{
	"completion_length": 288.017578125,
	"epoch": 1.24,
	"grad_norm": 1.7890625,
	"kl": 0.01725275401258841,
	"learning_rate": 4.334909500309124e-06,
	"loss": 0.0007,
	"reward": 2.819778010249138,
	"reward_std": 0.680737467482686,
	"rewards/accuracy_reward": 0.087890625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7289884922405084,
	"rewards/reasoning_steps_reward": 0.5449218675494194,
	"step": 78
	},
	{
	"completion_length": 289.611328125,
	"epoch": 1.256,
	"grad_norm": 0.91015625,
	"kl": 0.012111473915865645,
	"learning_rate": 4.310807425909231e-06,
	"loss": 0.0005,
	"reward": 2.8959785476326942,
	"reward_std": 0.7515880167484283,
	"rewards/accuracy_reward": 0.091796875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7370275671904286,
	"rewards/reasoning_steps_reward": 0.5930989608168602,
	"step": 79
	},
	{
	"completion_length": 289.447265625,
	"epoch": 1.272,
	"grad_norm": 1.0625,
	"kl": 0.01488638247246854,
	"learning_rate": 4.286345970517195e-06,
	"loss": 0.0006,
	"reward": 3.0342861488461494,
	"reward_std": 0.7542771827429533,
	"rewards/accuracy_reward": 0.08203125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7896405051772794,
	"rewards/reasoning_steps_reward": 0.5833333432674408,
	"step": 80
	},
	{
	"completion_length": 291.05078125,
	"epoch": 1.288,
	"grad_norm": 2.203125,
	"kl": 0.018765830318443477,
	"learning_rate": 4.261529988863552e-06,
	"loss": 0.0008,
	"reward": 2.6918394044041634,
	"reward_std": 0.5996266044676304,
	"rewards/accuracy_reward": 0.0546875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6713683251291513,
	"rewards/reasoning_steps_reward": 0.6230468954890966,
	"step": 81
	},
	{
	"completion_length": 286.84765625,
	"epoch": 1.304,
	"grad_norm": 1.1796875,
	"kl": 0.014768981840461493,
	"learning_rate": 4.236364406039718e-06,
	"loss": 0.0006,
	"reward": 2.7222700491547585,
	"reward_std": 0.7165388073772192,
	"rewards/accuracy_reward": 0.166015625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6546021662652493,
	"rewards/reasoning_steps_reward": 0.5924479365348816,
	"step": 82
	},
	{
	"completion_length": 286.40625,
	"epoch": 1.32,
	"grad_norm": 1.1875,
	"kl": 0.013985031400807202,
	"learning_rate": 4.210854216520529e-06,
	"loss": 0.0006,
	"reward": 2.992369443178177,
	"reward_std": 0.704998791217804,
	"rewards/accuracy_reward": 0.140625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7387759207437435,
	"rewards/reasoning_steps_reward": 0.6354166734963655,
	"step": 83
	},
	{
	"completion_length": 285.0546875,
	"epoch": 1.336,
	"grad_norm": 0.98828125,
	"kl": 0.015817424457054585,
	"learning_rate": 4.185004483173018e-06,
	"loss": 0.0006,
	"reward": 2.6470197066664696,
	"reward_std": 0.6006427239626646,
	"rewards/accuracy_reward": 0.091796875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6638069117131332,
	"rewards/reasoning_steps_reward": 0.5638020895421505,
	"step": 84
	},
	{
	"completion_length": 289.240234375,
	"epoch": 1.3519999999999999,
	"grad_norm": 0.7734375,
	"kl": 0.012478121934691444,
	"learning_rate": 4.158820336251615e-06,
	"loss": 0.0005,
	"reward": 2.86134272813797,
	"reward_std": 0.6924843583256006,
	"rewards/accuracy_reward": 0.103515625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7050829759488503,
	"rewards/reasoning_steps_reward": 0.6425781324505806,
	"step": 85
	},
	{
	"completion_length": 290.703125,
	"epoch": 1.3679999999999999,
	"grad_norm": 1.0,
	"kl": 0.01463651837548241,
	"learning_rate": 4.132306972379971e-06,
	"loss": 0.0006,
	"reward": 2.752312555909157,
	"reward_std": 0.6686646416783333,
	"rewards/accuracy_reward": 0.09375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6626632142191132,
	"rewards/reasoning_steps_reward": 0.6705729197710752,
	"step": 86
	},
	{
	"completion_length": 295.359375,
	"epoch": 1.384,
	"grad_norm": 6.46875,
	"kl": 0.051578508340753615,
	"learning_rate": 4.105469653519617e-06,
	"loss": 0.0021,
	"reward": 2.62810418009758,
	"reward_std": 0.7081009931862354,
	"rewards/accuracy_reward": 0.08203125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.630809023976326,
	"rewards/reasoning_steps_reward": 0.6536458320915699,
	"step": 87
	},
	{
	"completion_length": 274.9765625,
	"epoch": 1.4,
	"grad_norm": 0.9921875,
	"kl": 0.01592816604534164,
	"learning_rate": 4.078313705925647e-06,
	"loss": 0.0006,
	"reward": 2.9463500678539276,
	"reward_std": 0.6255538109689951,
	"rewards/accuracy_reward": 0.171875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.735371884269019,
	"rewards/reasoning_steps_reward": 0.5683593694120646,
	"step": 88
	},
	{
	"completion_length": 285.123046875,
	"epoch": 1.416,
	"grad_norm": 0.9375,
	"kl": 0.016973954916466027,
	"learning_rate": 4.0508445190896505e-06,
	"loss": 0.0007,
	"reward": 2.821994110941887,
	"reward_std": 0.6989093981683254,
	"rewards/accuracy_reward": 0.123046875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7006473361204067,
	"rewards/reasoning_steps_reward": 0.5970052275806665,
	"step": 89
	},
	{
	"completion_length": 289.72265625,
	"epoch": 1.432,
	"grad_norm": 1.03125,
	"kl": 0.013915765506681055,
	"learning_rate": 4.023067544670082e-06,
	"loss": 0.0006,
	"reward": 2.775428354740143,
	"reward_std": 0.6686036083847284,
	"rewards/accuracy_reward": 0.05078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7163754136612018,
	"rewards/reasoning_steps_reward": 0.5755208488553762,
	"step": 90
	},
	{
	"completion_length": 285.888671875,
	"epoch": 1.448,
	"grad_norm": 0.84375,
	"kl": 0.014326595468446612,
	"learning_rate": 3.9949882954103115e-06,
	"loss": 0.0006,
	"reward": 2.778537377715111,
	"reward_std": 0.6794710606336594,
	"rewards/accuracy_reward": 0.10546875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6774811816091338,
	"rewards/reasoning_steps_reward": 0.6406249962747097,
	"step": 91
	},
	{
	"completion_length": 288.5703125,
	"epoch": 1.464,
	"grad_norm": 1.0078125,
	"kl": 0.0172699682880193,
	"learning_rate": 3.9666123440445295e-06,
	"loss": 0.0007,
	"reward": 3.1450441628694534,
	"reward_std": 0.6363171022385359,
	"rewards/accuracy_reward": 0.08203125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8013862585648894,
	"rewards/reasoning_steps_reward": 0.6588541604578495,
	"step": 92
	},
	{
	"completion_length": 290.484375,
	"epoch": 1.48,
	"grad_norm": 1.0703125,
	"kl": 0.01583321939688176,
	"learning_rate": 3.937945322191763e-06,
	"loss": 0.0006,
	"reward": 2.80034501850605,
	"reward_std": 0.6433209720999002,
	"rewards/accuracy_reward": 0.046875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6977712381631136,
	"rewards/reasoning_steps_reward": 0.6601562574505806,
	"step": 93
	},
	{
	"completion_length": 288.1953125,
	"epoch": 1.496,
	"grad_norm": 0.8515625,
	"kl": 0.014628544799052179,
	"learning_rate": 3.9089929192382e-06,
	"loss": 0.0006,
	"reward": 2.8053995221853256,
	"reward_std": 0.6814130581915379,
	"rewards/accuracy_reward": 0.1015625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6920776072268685,
	"rewards/reasoning_steps_reward": 0.627604166045785,
	"step": 94
	},
	{
	"completion_length": 281.654296875,
	"epoch": 1.512,
	"grad_norm": 1.7578125,
	"kl": 0.018830388551577926,
	"learning_rate": 3.879760881208043e-06,
	"loss": 0.0008,
	"reward": 3.1405431628227234,
	"reward_std": 0.6778986994177103,
	"rewards/accuracy_reward": 0.126953125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7955456127723058,
	"rewards/reasoning_steps_reward": 0.6269531361758709,
	"step": 95
	},
	{
	"completion_length": 288.43359375,
	"epoch": 1.528,
	"grad_norm": 0.97265625,
	"kl": 0.015546579379588366,
	"learning_rate": 3.8502550096231325e-06,
	"loss": 0.0006,
	"reward": 2.9025785624980927,
	"reward_std": 0.6252446379512548,
	"rewards/accuracy_reward": 0.14453125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6997310233612856,
	"rewards/reasoning_steps_reward": 0.6588541865348816,
	"step": 96
	},
	{
	"completion_length": 287.794921875,
	"epoch": 1.544,
	"grad_norm": 1.90625,
	"kl": 0.01677697291597724,
	"learning_rate": 3.82048116035155e-06,
	"loss": 0.0007,
	"reward": 2.9905193150043488,
	"reward_std": 0.6695100143551826,
	"rewards/accuracy_reward": 0.109375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7668050316472849,
	"rewards/reasoning_steps_reward": 0.5807291697710752,
	"step": 97
	},
	{
	"completion_length": 290.875,
	"epoch": 1.56,
	"grad_norm": 0.93359375,
	"kl": 0.017896617820952088,
	"learning_rate": 3.790445242445432e-06,
	"loss": 0.0007,
	"reward": 3.0564729273319244,
	"reward_std": 0.7583746667951345,
	"rewards/accuracy_reward": 0.0625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.79595104791224,
	"rewards/reasoning_steps_reward": 0.6061197966337204,
	"step": 98
	},
	{
	"completion_length": 290.935546875,
	"epoch": 1.576,
	"grad_norm": 0.87890625,
	"kl": 0.01600857445737347,
	"learning_rate": 3.7601532169682363e-06,
	"loss": 0.0006,
	"reward": 3.207048572599888,
	"reward_std": 0.7255587056279182,
	"rewards/accuracy_reward": 0.10546875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8183651498208443,
	"rewards/reasoning_steps_reward": 0.6464843899011612,
	"step": 99
	},
	{
	"completion_length": 293.923828125,
	"epoch": 1.592,
	"grad_norm": 0.94921875,
	"kl": 0.016008648555725813,
	"learning_rate": 3.7296110958116845e-06,
	"loss": 0.0006,
	"reward": 3.213783323764801,
	"reward_std": 0.7248476631939411,
	"rewards/accuracy_reward": 0.05859375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8229972099264463,
	"rewards/reasoning_steps_reward": 0.6861979197710752,
	"step": 100
	},
	{
	"completion_length": 293.623046875,
	"epoch": 1.608,
	"grad_norm": 1.890625,
	"kl": 0.018201105995103717,
	"learning_rate": 3.69882494050261e-06,
	"loss": 0.0007,
	"reward": 3.1282228976488113,
	"reward_std": 0.7127013597637415,
	"rewards/accuracy_reward": 0.072265625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.780154167364041,
	"rewards/reasoning_steps_reward": 0.7154948115348816,
	"step": 101
	},
	{
	"completion_length": 282.21875,
	"epoch": 1.624,
	"grad_norm": 1.0078125,
	"kl": 0.01832750393077731,
	"learning_rate": 3.6678008609999618e-06,
	"loss": 0.0007,
	"reward": 2.694710373878479,
	"reward_std": 0.6631567031145096,
	"rewards/accuracy_reward": 0.142578125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.630658664740622,
	"rewards/reasoning_steps_reward": 0.6601562537252903,
	"step": 102
	},
	{
	"completion_length": 286.57421875,
	"epoch": 1.6400000000000001,
	"grad_norm": 0.8359375,
	"kl": 0.01992178033106029,
	"learning_rate": 3.636545014482198e-06,
	"loss": 0.0008,
	"reward": 2.5292934477329254,
	"reward_std": 0.6474510300904512,
	"rewards/accuracy_reward": 0.123046875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.5965700279921293,
	"rewards/reasoning_steps_reward": 0.6165364626795053,
	"step": 103
	},
	{
	"completion_length": 292.59375,
	"epoch": 1.6560000000000001,
	"grad_norm": 0.9140625,
	"kl": 0.01710453676059842,
	"learning_rate": 3.6050636041252996e-06,
	"loss": 0.0007,
	"reward": 2.915451444685459,
	"reward_std": 0.7090357206761837,
	"rewards/accuracy_reward": 0.072265625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7202980586638054,
	"rewards/reasoning_steps_reward": 0.6822916753590107,
	"step": 104
	},
	{
	"completion_length": 289.3359375,
	"epoch": 1.6720000000000002,
	"grad_norm": 1.0859375,
	"kl": 0.017357071512378752,
	"learning_rate": 3.5733628778716645e-06,
	"loss": 0.0007,
	"reward": 3.073413372039795,
	"reward_std": 0.6876837071031332,
	"rewards/accuracy_reward": 0.119140625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7621013515939316,
	"rewards/reasoning_steps_reward": 0.6679687574505806,
	"step": 105
	},
	{
	"completion_length": 291.736328125,
	"epoch": 1.688,
	"grad_norm": 0.96875,
	"kl": 0.02157578180776909,
	"learning_rate": 3.5414491271901073e-06,
	"loss": 0.0009,
	"reward": 2.819728344678879,
	"reward_std": 0.5820730160921812,
	"rewards/accuracy_reward": 0.123046875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6790587411572536,
	"rewards/reasoning_steps_reward": 0.6595052182674408,
	"step": 106
	},
	{
	"completion_length": 289.84375,
	"epoch": 1.704,
	"grad_norm": 0.90234375,
	"kl": 0.0179019469069317,
	"learning_rate": 3.5093286858272325e-06,
	"loss": 0.0007,
	"reward": 3.1114601120352745,
	"reward_std": 0.6653738301247358,
	"rewards/accuracy_reward": 0.08203125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7914936700835824,
	"rewards/reasoning_steps_reward": 0.6549479365348816,
	"step": 107
	},
	{
	"completion_length": 288.5234375,
	"epoch": 1.72,
	"grad_norm": 0.99609375,
	"kl": 0.01925749407382682,
	"learning_rate": 3.4770079285504053e-06,
	"loss": 0.0008,
	"reward": 2.79416061937809,
	"reward_std": 0.7290520258247852,
	"rewards/accuracy_reward": 0.078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6850760908176502,
	"rewards/reasoning_steps_reward": 0.6608072835952044,
	"step": 108
	},
	{
	"completion_length": 290.9921875,
	"epoch": 1.736,
	"grad_norm": 0.98046875,
	"kl": 0.017092529160436243,
	"learning_rate": 3.4444932698825904e-06,
	"loss": 0.0007,
	"reward": 3.1415600925683975,
	"reward_std": 0.7225816715508699,
	"rewards/accuracy_reward": 0.064453125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7919783468047777,
	"rewards/reasoning_steps_reward": 0.7011718712747097,
	"step": 109
	},
	{
	"completion_length": 293.560546875,
	"epoch": 1.752,
	"grad_norm": 0.88671875,
	"kl": 0.016746411798521876,
	"learning_rate": 3.4117911628292944e-06,
	"loss": 0.0007,
	"reward": 2.7672165408730507,
	"reward_std": 0.6844876762479544,
	"rewards/accuracy_reward": 0.041015625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.680652025466164,
	"rewards/reasoning_steps_reward": 0.6842447929084301,
	"step": 110
	},
	{
	"completion_length": 285.9921875,
	"epoch": 1.768,
	"grad_norm": 0.98828125,
	"kl": 0.018680680135730654,
	"learning_rate": 3.378908097597875e-06,
	"loss": 0.0007,
	"reward": 2.875435918569565,
	"reward_std": 0.6584971006959677,
	"rewards/accuracy_reward": 0.119140625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.688730369011561,
	"rewards/reasoning_steps_reward": 0.6901041753590107,
	"step": 111
	},
	{
	"completion_length": 284.619140625,
	"epoch": 1.784,
	"grad_norm": 1.1796875,
	"kl": 0.01885543600656092,
	"learning_rate": 3.3458506003094626e-06,
	"loss": 0.0008,
	"reward": 3.2833499684929848,
	"reward_std": 0.630975978448987,
	"rewards/accuracy_reward": 0.15234375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8016982388993105,
	"rewards/reasoning_steps_reward": 0.7259114682674408,
	"step": 112
	},
	{
	"completion_length": 294.26953125,
	"epoch": 1.8,
	"grad_norm": 0.859375,
	"kl": 0.01702951017068699,
	"learning_rate": 3.3126252317037616e-06,
	"loss": 0.0007,
	"reward": 3.0866554528474808,
	"reward_std": 0.7168434467166662,
	"rewards/accuracy_reward": 0.046875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7908209301531315,
	"rewards/reasoning_steps_reward": 0.6673177108168602,
	"step": 113
	},
	{
	"completion_length": 288.5625,
	"epoch": 1.8159999999999998,
	"grad_norm": 31.875,
	"kl": 0.15217732661403716,
	"learning_rate": 3.2792385858369706e-06,
	"loss": 0.0061,
	"reward": 2.8756242617964745,
	"reward_std": 0.6984493192285299,
	"rewards/accuracy_reward": 0.056640625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7315449056526026,
	"rewards/reasoning_steps_reward": 0.6243489552289248,
	"step": 114
	},
	{
	"completion_length": 283.037109375,
	"epoch": 1.8319999999999999,
	"grad_norm": 0.7578125,
	"kl": 0.016328598430845886,
	"learning_rate": 3.245697288773102e-06,
	"loss": 0.0007,
	"reward": 2.902892917394638,
	"reward_std": 0.6528493817895651,
	"rewards/accuracy_reward": 0.158203125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6931084062283238,
	"rewards/reasoning_steps_reward": 0.6653645895421505,
	"step": 115
	},
	{
	"completion_length": 292.095703125,
	"epoch": 1.8479999999999999,
	"grad_norm": 0.9140625,
	"kl": 0.018676706589758396,
	"learning_rate": 3.2120079972689385e-06,
	"loss": 0.0007,
	"reward": 2.9004068598151207,
	"reward_std": 0.7504412587732077,
	"rewards/accuracy_reward": 0.087890625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7139811124652624,
	"rewards/reasoning_steps_reward": 0.6705729253590107,
	"step": 116
	},
	{
	"completion_length": 288.615234375,
	"epoch": 1.8639999999999999,
	"grad_norm": 1.1171875,
	"kl": 0.020321853808127344,
	"learning_rate": 3.1781773974529072e-06,
	"loss": 0.0008,
	"reward": 2.7037860229611397,
	"reward_std": 0.6163357421755791,
	"rewards/accuracy_reward": 0.09375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6365050650201738,
	"rewards/reasoning_steps_reward": 0.7005208358168602,
	"step": 117
	},
	{
	"completion_length": 290.62109375,
	"epoch": 1.88,
	"grad_norm": 1.09375,
	"kl": 0.019285056594526395,
	"learning_rate": 3.1442122034981187e-06,
	"loss": 0.0008,
	"reward": 2.6533412411808968,
	"reward_std": 0.6223033964633942,
	"rewards/accuracy_reward": 0.10546875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6294557445993026,
	"rewards/reasoning_steps_reward": 0.6595052145421505,
	"step": 118
	},
	{
	"completion_length": 290.82421875,
	"epoch": 1.896,
	"grad_norm": 1.1953125,
	"kl": 0.017033788317348808,
	"learning_rate": 3.110119156289841e-06,
	"loss": 0.0007,
	"reward": 3.352183550596237,
	"reward_std": 0.6941560469567776,
	"rewards/accuracy_reward": 0.083984375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8489483365168174,
	"rewards/reasoning_steps_reward": 0.7213541753590107,
	"step": 119
	},
	{
	"completion_length": 283.248046875,
	"epoch": 1.912,
	"grad_norm": 2.015625,
	"kl": 0.024006142339203507,
	"learning_rate": 3.075905022087675e-06,
	"loss": 0.001,
	"reward": 2.9336234778165817,
	"reward_std": 0.649795226752758,
	"rewards/accuracy_reward": 0.15625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6996626891195774,
	"rewards/reasoning_steps_reward": 0.6783854253590107,
	"step": 120
	},
	{
	"completion_length": 282.849609375,
	"epoch": 1.928,
	"grad_norm": 1.109375,
	"kl": 0.02002483472460881,
	"learning_rate": 3.0415765911826916e-06,
	"loss": 0.0008,
	"reward": 2.675464451313019,
	"reward_std": 0.6967358216643333,
	"rewards/accuracy_reward": 0.119140625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6331409340103468,
	"rewards/reasoning_steps_reward": 0.6569010391831398,
	"step": 121
	},
	{
	"completion_length": 290.783203125,
	"epoch": 1.944,
	"grad_norm": 1.1171875,
	"kl": 0.019037541293073446,
	"learning_rate": 3.0071406765498003e-06,
	"loss": 0.0008,
	"reward": 3.0036216378211975,
	"reward_std": 0.6973935160785913,
	"rewards/accuracy_reward": 0.080078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7529433167849978,
	"rewards/reasoning_steps_reward": 0.6647135354578495,
	"step": 122
	},
	{
	"completion_length": 283.216796875,
	"epoch": 1.96,
	"grad_norm": 0.859375,
	"kl": 0.017990577791351825,
	"learning_rate": 2.9726041124956128e-06,
	"loss": 0.0007,
	"reward": 2.773143321275711,
	"reward_std": 0.714199235662818,
	"rewards/accuracy_reward": 0.111328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6735130585730076,
	"rewards/reasoning_steps_reward": 0.6412760522216558,
	"step": 123
	},
	{
	"completion_length": 287.9765625,
	"epoch": 1.976,
	"grad_norm": 0.859375,
	"kl": 0.017044205858837813,
	"learning_rate": 2.9379737533020812e-06,
	"loss": 0.0007,
	"reward": 3.244216948747635,
	"reward_std": 0.6938743200153112,
	"rewards/accuracy_reward": 0.08984375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8157806489616632,
	"rewards/reasoning_steps_reward": 0.7070312425494194,
	"step": 124
	},
	{
	"completion_length": 290.36328125,
	"epoch": 1.992,
	"grad_norm": 0.9765625,
	"kl": 0.017912040289957076,
	"learning_rate": 2.9032564718661606e-06,
	"loss": 0.0007,
	"reward": 2.990898907184601,
	"reward_std": 0.6811724901199341,
	"rewards/accuracy_reward": 0.05859375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7619402616595229,
	"rewards/reasoning_steps_reward": 0.6464843824505806,
	"step": 125
	},
	{
	"completion_length": 292.08203125,
	"epoch": 2.0,
	"grad_norm": 0.609375,
	"kl": 0.017485147807747126,
	"learning_rate": 2.8684591583357863e-06,
	"loss": 0.0003,
	"reward": 3.365106463432312,
	"reward_std": 0.690997276455164,
	"rewards/accuracy_reward": 0.08203125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8508687826494375,
	"rewards/reasoning_steps_reward": 0.7304687425494194,
	"step": 126
	},
	{
	"completion_length": 274.076171875,
	"epoch": 2.016,
	"grad_norm": 0.9453125,
	"kl": 0.020696480583865196,
	"learning_rate": 2.8335887187424225e-06,
	"loss": 0.0008,
	"reward": 3.0040955543518066,
	"reward_std": 0.6572606600821018,
	"rewards/accuracy_reward": 0.248046875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7068773318702976,
	"rewards/reasoning_steps_reward": 0.6354166716337204,
	"step": 127
	},
	{
	"completion_length": 291.470703125,
	"epoch": 2.032,
	"grad_norm": 0.89453125,
	"kl": 0.018271160661242902,
	"learning_rate": 2.7986520736304632e-06,
	"loss": 0.0007,
	"reward": 2.8309315219521523,
	"reward_std": 0.6785434670746326,
	"rewards/accuracy_reward": 0.072265625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.688218497360746,
	"rewards/reasoning_steps_reward": 0.694010429084301,
	"step": 128
	},
	{
	"completion_length": 295.984375,
	"epoch": 2.048,
	"grad_norm": 1.03125,
	"kl": 0.018810921494150534,
	"learning_rate": 2.7636561566837463e-06,
	"loss": 0.0008,
	"reward": 3.07464836537838,
	"reward_std": 0.7456005457788706,
	"rewards/accuracy_reward": 0.037109375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7963671404868364,
	"rewards/reasoning_steps_reward": 0.6484375149011612,
	"step": 129
	},
	{
	"completion_length": 281.150390625,
	"epoch": 2.064,
	"grad_norm": 0.98046875,
	"kl": 0.020406899857334793,
	"learning_rate": 2.728607913349464e-06,
	"loss": 0.0008,
	"reward": 2.931031860411167,
	"reward_std": 0.6928635407239199,
	"rewards/accuracy_reward": 0.15234375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6862120016788443,
	"rewards/reasoning_steps_reward": 0.7200520895421505,
	"step": 130
	},
	{
	"completion_length": 290.275390625,
	"epoch": 2.08,
	"grad_norm": 0.8203125,
	"kl": 0.018310176266822964,
	"learning_rate": 2.6935142994597407e-06,
	"loss": 0.0007,
	"reward": 3.099424757063389,
	"reward_std": 0.6812999919056892,
	"rewards/accuracy_reward": 0.078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7933412299801906,
	"rewards/reasoning_steps_reward": 0.6412760503590107,
	"step": 131
	},
	{
	"completion_length": 291.0234375,
	"epoch": 2.096,
	"grad_norm": 0.96484375,
	"kl": 0.01775828906102106,
	"learning_rate": 2.6583822798511428e-06,
	"loss": 0.0007,
	"reward": 3.313634306192398,
	"reward_std": 0.6808726880699396,
	"rewards/accuracy_reward": 0.083984375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8779822603488961,
	"rewards/reasoning_steps_reward": 0.5957031287252903,
	"step": 132
	},
	{
	"completion_length": 285.263671875,
	"epoch": 2.112,
	"grad_norm": 0.84375,
	"kl": 0.018688918324187398,
	"learning_rate": 2.623218826982411e-06,
	"loss": 0.0007,
	"reward": 2.7654543220996857,
	"reward_std": 0.6947140172123909,
	"rewards/accuracy_reward": 0.15234375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.640568091844519,
	"rewards/reasoning_steps_reward": 0.69140625,
	"step": 133
	},
	{
	"completion_length": 282.830078125,
	"epoch": 2.128,
	"grad_norm": 0.94140625,
	"kl": 0.021032241464126855,
	"learning_rate": 2.5880309195506714e-06,
	"loss": 0.0008,
	"reward": 2.8315402641892433,
	"reward_std": 0.6945422478020191,
	"rewards/accuracy_reward": 0.158203125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.641546401505669,
	"rewards/reasoning_steps_reward": 0.748697929084301,
	"step": 134
	},
	{
	"completion_length": 292.361328125,
	"epoch": 2.144,
	"grad_norm": 0.890625,
	"kl": 0.018107893760316074,
	"learning_rate": 2.552825541106414e-06,
	"loss": 0.0007,
	"reward": 3.0376425981521606,
	"reward_std": 0.7193902563303709,
	"rewards/accuracy_reward": 0.029296875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7757853666941324,
	"rewards/reasoning_steps_reward": 0.6809895876795053,
	"step": 135
	},
	{
	"completion_length": 287.232421875,
	"epoch": 2.16,
	"grad_norm": 0.85546875,
	"kl": 0.018850211054086685,
	"learning_rate": 2.517609678667501e-06,
	"loss": 0.0008,
	"reward": 2.687412917613983,
	"reward_std": 0.6682394985109568,
	"rewards/accuracy_reward": 0.08984375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6455872931207219,
	"rewards/reasoning_steps_reward": 0.6608072966337204,
	"step": 136
	},
	{
	"completion_length": 290.71484375,
	"epoch": 2.176,
	"grad_norm": 0.859375,
	"kl": 0.017231477366294712,
	"learning_rate": 2.4823903213324995e-06,
	"loss": 0.0007,
	"reward": 3.0338680148124695,
	"reward_std": 0.6302597746253014,
	"rewards/accuracy_reward": 0.09765625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7382858718434969,
	"rewards/reasoning_steps_reward": 0.7213541753590107,
	"step": 137
	},
	{
	"completion_length": 289.5703125,
	"epoch": 2.192,
	"grad_norm": 0.796875,
	"kl": 0.01626200118334964,
	"learning_rate": 2.447174458893587e-06,
	"loss": 0.0007,
	"reward": 2.984310381114483,
	"reward_std": 0.6622797809541225,
	"rewards/accuracy_reward": 0.1015625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7369576270381609,
	"rewards/reasoning_steps_reward": 0.6718750167638063,
	"step": 138
	},
	{
	"completion_length": 287.76953125,
	"epoch": 2.208,
	"grad_norm": 0.75390625,
	"kl": 0.01649257366079837,
	"learning_rate": 2.4119690804493285e-06,
	"loss": 0.0007,
	"reward": 3.0554041862487793,
	"reward_std": 0.7084929272532463,
	"rewards/accuracy_reward": 0.107421875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7320097194363674,
	"rewards/reasoning_steps_reward": 0.7519531361758709,
	"step": 139
	},
	{
	"completion_length": 294.828125,
	"epoch": 2.224,
	"grad_norm": 0.984375,
	"kl": 0.018743149645160884,
	"learning_rate": 2.376781173017589e-06,
	"loss": 0.0007,
	"reward": 2.9738914221525192,
	"reward_std": 0.6525749433785677,
	"rewards/accuracy_reward": 0.041015625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7449863621344169,
	"rewards/reasoning_steps_reward": 0.6979166753590107,
	"step": 140
	},
	{
	"completion_length": 289.109375,
	"epoch": 2.24,
	"grad_norm": 0.98046875,
	"kl": 0.022565504419617355,
	"learning_rate": 2.3416177201488585e-06,
	"loss": 0.0009,
	"reward": 3.2985419929027557,
	"reward_std": 0.6833065822720528,
	"rewards/accuracy_reward": 0.099609375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8430035648246607,
	"rewards/reasoning_steps_reward": 0.6699218768626451,
	"step": 141
	},
	{
	"completion_length": 288.521484375,
	"epoch": 2.2560000000000002,
	"grad_norm": 1.015625,
	"kl": 0.020633232838008553,
	"learning_rate": 2.3064857005402606e-06,
	"loss": 0.0008,
	"reward": 3.1613398045301437,
	"reward_std": 0.7222296446561813,
	"rewards/accuracy_reward": 0.095703125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7796913882096609,
	"rewards/reasoning_steps_reward": 0.7265624962747097,
	"step": 142
	},
	{
	"completion_length": 279.908203125,
	"epoch": 2.2720000000000002,
	"grad_norm": 1.078125,
	"kl": 0.02265268244082108,
	"learning_rate": 2.2713920866505364e-06,
	"loss": 0.0009,
	"reward": 2.9546066522598267,
	"reward_std": 0.681933119893074,
	"rewards/accuracy_reward": 0.193359375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7051379711677631,
	"rewards/reasoning_steps_reward": 0.6458333414047956,
	"step": 143
	},
	{
	"completion_length": 288.0,
	"epoch": 2.288,
	"grad_norm": 0.875,
	"kl": 0.01793542131781578,
	"learning_rate": 2.236343843316254e-06,
	"loss": 0.0007,
	"reward": 2.790590211749077,
	"reward_std": 0.651448430493474,
	"rewards/accuracy_reward": 0.05078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6706481222063303,
	"rewards/reasoning_steps_reward": 0.7278645765036345,
	"step": 144
	},
	{
	"completion_length": 285.646484375,
	"epoch": 2.304,
	"grad_norm": 0.9609375,
	"kl": 0.018404830596409738,
	"learning_rate": 2.201347926369537e-06,
	"loss": 0.0007,
	"reward": 2.710278756916523,
	"reward_std": 0.6365776527673006,
	"rewards/accuracy_reward": 0.125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6241293720280131,
	"rewards/reasoning_steps_reward": 0.7128906175494194,
	"step": 145
	},
	{
	"completion_length": 295.73046875,
	"epoch": 2.32,
	"grad_norm": 0.9921875,
	"kl": 0.021149699110537767,
	"learning_rate": 2.166411281257578e-06,
	"loss": 0.0008,
	"reward": 3.2047041803598404,
	"reward_std": 0.7344950754195452,
	"rewards/accuracy_reward": 0.03125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8334256897990903,
	"rewards/reasoning_steps_reward": 0.6731770820915699,
	"step": 146
	},
	{
	"completion_length": 288.49609375,
	"epoch": 2.336,
	"grad_norm": 1.921875,
	"kl": 0.019101842306554317,
	"learning_rate": 2.1315408416642145e-06,
	"loss": 0.0008,
	"reward": 2.9557630866765976,
	"reward_std": 0.6881984118372202,
	"rewards/accuracy_reward": 0.111328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7087786557773749,
	"rewards/reasoning_steps_reward": 0.7180989496409893,
	"step": 147
	},
	{
	"completion_length": 283.1796875,
	"epoch": 2.352,
	"grad_norm": 0.82421875,
	"kl": 0.01961760746780783,
	"learning_rate": 2.09674352813384e-06,
	"loss": 0.0008,
	"reward": 3.1119301542639732,
	"reward_std": 0.5922442562878132,
	"rewards/accuracy_reward": 0.150390625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7777614261334141,
	"rewards/reasoning_steps_reward": 0.6282552145421505,
	"step": 148
	},
	{
	"completion_length": 284.3828125,
	"epoch": 2.368,
	"grad_norm": 0.8671875,
	"kl": 0.022024919569958,
	"learning_rate": 2.062026246697919e-06,
	"loss": 0.0009,
	"reward": 3.0898532271385193,
	"reward_std": 0.6860612127929926,
	"rewards/accuracy_reward": 0.146484375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7363313144693772,
	"rewards/reasoning_steps_reward": 0.7343750149011612,
	"step": 149
	},
	{
	"completion_length": 286.181640625,
	"epoch": 2.384,
	"grad_norm": 1.1484375,
	"kl": 0.01775654760422185,
	"learning_rate": 2.0273958875043877e-06,
	"loss": 0.0007,
	"reward": 2.974420055747032,
	"reward_std": 0.6679348535835743,
	"rewards/accuracy_reward": 0.123046875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7212910537297527,
	"rewards/reasoning_steps_reward": 0.6875000037252903,
	"step": 150
	},
	{
	"completion_length": 276.9296875,
	"epoch": 2.4,
	"grad_norm": 1.03125,
	"kl": 0.02118692739168182,
	"learning_rate": 1.992859323450201e-06,
	"loss": 0.0008,
	"reward": 2.724317155778408,
	"reward_std": 0.6507551912218332,
	"rewards/accuracy_reward": 0.1875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6227324477707347,
	"rewards/reasoning_steps_reward": 0.6686198022216558,
	"step": 151
	},
	{
	"completion_length": 285.744140625,
	"epoch": 2.416,
	"grad_norm": 4.90625,
	"kl": 0.02042768005048856,
	"learning_rate": 1.958423408817309e-06,
	"loss": 0.0008,
	"reward": 3.1025044322013855,
	"reward_std": 0.6402757167816162,
	"rewards/accuracy_reward": 0.1484375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7509650103747845,
	"rewards/reasoning_steps_reward": 0.7011718768626451,
	"step": 152
	},
	{
	"completion_length": 286.40234375,
	"epoch": 2.432,
	"grad_norm": 1.046875,
	"kl": 0.022553854738362134,
	"learning_rate": 1.924094977912326e-06,
	"loss": 0.0009,
	"reward": 2.981735587120056,
	"reward_std": 0.7370939962565899,
	"rewards/accuracy_reward": 0.11328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7332781835769614,
	"rewards/reasoning_steps_reward": 0.6686198078095913,
	"step": 153
	},
	{
	"completion_length": 288.896484375,
	"epoch": 2.448,
	"grad_norm": 0.83203125,
	"kl": 0.019592860713601112,
	"learning_rate": 1.8898808437101598e-06,
	"loss": 0.0008,
	"reward": 2.95571531355381,
	"reward_std": 0.7355391271412373,
	"rewards/accuracy_reward": 0.068359375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7332853010545174,
	"rewards/reasoning_steps_reward": 0.6875000037252903,
	"step": 154
	},
	{
	"completion_length": 294.271484375,
	"epoch": 2.464,
	"grad_norm": 0.94140625,
	"kl": 0.019800655485596508,
	"learning_rate": 1.8557877965018817e-06,
	"loss": 0.0008,
	"reward": 3.0556194335222244,
	"reward_std": 0.7033564373850822,
	"rewards/accuracy_reward": 0.044921875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7715779819215337,
	"rewards/reasoning_steps_reward": 0.6959635429084301,
	"step": 155
	},
	{
	"completion_length": 294.31640625,
	"epoch": 2.48,
	"grad_norm": 0.859375,
	"kl": 0.018254225375130773,
	"learning_rate": 1.8218226025470934e-06,
	"loss": 0.0007,
	"reward": 3.604881629347801,
	"reward_std": 0.715133111923933,
	"rewards/accuracy_reward": 0.052734375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.9479379473874966,
	"rewards/reasoning_steps_reward": 0.7083333265036345,
	"step": 156
	},
	{
	"completion_length": 289.25390625,
	"epoch": 2.496,
	"grad_norm": 0.83984375,
	"kl": 0.017004019115120173,
	"learning_rate": 1.7879920027310621e-06,
	"loss": 0.0007,
	"reward": 3.051852695643902,
	"reward_std": 0.7096979664638638,
	"rewards/accuracy_reward": 0.07421875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7540463662395874,
	"rewards/reasoning_steps_reward": 0.7154948078095913,
	"step": 157
	},
	{
	"completion_length": 290.005859375,
	"epoch": 2.512,
	"grad_norm": 0.9765625,
	"kl": 0.019147633225657046,
	"learning_rate": 1.7543027112268994e-06,
	"loss": 0.0008,
	"reward": 2.991758108139038,
	"reward_std": 0.684099368751049,
	"rewards/accuracy_reward": 0.103515625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7318446912492315,
	"rewards/reasoning_steps_reward": 0.6927083320915699,
	"step": 158
	},
	{
	"completion_length": 280.697265625,
	"epoch": 2.528,
	"grad_norm": 1.1171875,
	"kl": 0.020928668964188546,
	"learning_rate": 1.7207614141630304e-06,
	"loss": 0.0008,
	"reward": 2.596983939409256,
	"reward_std": 0.6806027349084616,
	"rewards/accuracy_reward": 0.12890625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6024234692255656,
	"rewards/reasoning_steps_reward": 0.6608072984963655,
	"step": 159
	},
	{
	"completion_length": 285.546875,
	"epoch": 2.544,
	"grad_norm": 1.09375,
	"kl": 0.022152581717818975,
	"learning_rate": 1.6873747682962393e-06,
	"loss": 0.0009,
	"reward": 2.8694690242409706,
	"reward_std": 0.6588537991046906,
	"rewards/accuracy_reward": 0.126953125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6882605010954043,
	"rewards/reasoning_steps_reward": 0.6777343805879354,
	"step": 160
	},
	{
	"completion_length": 283.427734375,
	"epoch": 2.56,
	"grad_norm": 0.94140625,
	"kl": 0.020902132673654705,
	"learning_rate": 1.6541493996905378e-06,
	"loss": 0.0008,
	"reward": 3.1272382587194443,
	"reward_std": 0.6674788426607847,
	"rewards/accuracy_reward": 0.12890625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7581245402495066,
	"rewards/reasoning_steps_reward": 0.7239583395421505,
	"step": 161
	},
	{
	"completion_length": 286.408203125,
	"epoch": 2.576,
	"grad_norm": 0.953125,
	"kl": 0.022079574409872293,
	"learning_rate": 1.6210919024021258e-06,
	"loss": 0.0009,
	"reward": 2.9151505902409554,
	"reward_std": 0.7153513710945845,
	"rewards/accuracy_reward": 0.11328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7115172014261285,
	"rewards/reasoning_steps_reward": 0.6673177219927311,
	"step": 162
	},
	{
	"completion_length": 291.72265625,
	"epoch": 2.592,
	"grad_norm": 0.875,
	"kl": 0.017877445730846375,
	"learning_rate": 1.588208837170706e-06,
	"loss": 0.0007,
	"reward": 2.937485493719578,
	"reward_std": 0.7016174159944057,
	"rewards/accuracy_reward": 0.056640625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.734153147165974,
	"rewards/reasoning_steps_reward": 0.6783854216337204,
	"step": 163
	},
	{
	"completion_length": 289.837890625,
	"epoch": 2.608,
	"grad_norm": 1.015625,
	"kl": 0.023135888564866036,
	"learning_rate": 1.55550673011741e-06,
	"loss": 0.0009,
	"reward": 3.3134661614894867,
	"reward_std": 0.6674238592386246,
	"rewards/accuracy_reward": 0.09765625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.824106777086854,
	"rewards/reasoning_steps_reward": 0.7434895969927311,
	"step": 164
	},
	{
	"completion_length": 285.73828125,
	"epoch": 2.624,
	"grad_norm": 0.8828125,
	"kl": 0.017427237355150282,
	"learning_rate": 1.522992071449595e-06,
	"loss": 0.0007,
	"reward": 2.761025607585907,
	"reward_std": 0.5951798930764198,
	"rewards/accuracy_reward": 0.115234375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6484234320620695,
	"rewards/reasoning_steps_reward": 0.7005208227783442,
	"step": 165
	},
	{
	"completion_length": 292.478515625,
	"epoch": 2.64,
	"grad_norm": 0.90625,
	"kl": 0.02133324311580509,
	"learning_rate": 1.4906713141727677e-06,
	"loss": 0.0009,
	"reward": 2.930042363703251,
	"reward_std": 0.6626697592437267,
	"rewards/accuracy_reward": 0.0625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7227745447307825,
	"rewards/reasoning_steps_reward": 0.6992187462747097,
	"step": 166
	},
	{
	"completion_length": 279.865234375,
	"epoch": 2.656,
	"grad_norm": 1.09375,
	"kl": 0.024935539229772985,
	"learning_rate": 1.4585508728098935e-06,
	"loss": 0.001,
	"reward": 2.825145460665226,
	"reward_std": 0.7417711336165667,
	"rewards/accuracy_reward": 0.181640625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6630693133920431,
	"rewards/reasoning_steps_reward": 0.6542968759313226,
	"step": 167
	},
	{
	"completion_length": 293.625,
	"epoch": 2.672,
	"grad_norm": 1.0234375,
	"kl": 0.018147769616916776,
	"learning_rate": 1.4266371221283367e-06,
	"loss": 0.0007,
	"reward": 2.7056074738502502,
	"reward_std": 0.6061353217810392,
	"rewards/accuracy_reward": 0.02734375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6455757624159256,
	"rewards/reasoning_steps_reward": 0.7415364719927311,
	"step": 168
	},
	{
	"completion_length": 293.119140625,
	"epoch": 2.6879999999999997,
	"grad_norm": 1.046875,
	"kl": 0.019442370510660112,
	"learning_rate": 1.3949363958747004e-06,
	"loss": 0.0008,
	"reward": 3.226225107908249,
	"reward_std": 0.7255453541874886,
	"rewards/accuracy_reward": 0.01953125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8371271109208465,
	"rewards/reasoning_steps_reward": 0.6953125037252903,
	"step": 169
	},
	{
	"completion_length": 291.013671875,
	"epoch": 2.7039999999999997,
	"grad_norm": 0.8359375,
	"kl": 0.01949766167672351,
	"learning_rate": 1.363454985517803e-06,
	"loss": 0.0008,
	"reward": 2.700456887483597,
	"reward_std": 0.7572273463010788,
	"rewards/accuracy_reward": 0.11328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6375654794586202,
	"rewards/reasoning_steps_reward": 0.6744791809469461,
	"step": 170
	},
	{
	"completion_length": 292.544921875,
	"epoch": 2.7199999999999998,
	"grad_norm": 0.9453125,
	"kl": 0.020666938507929444,
	"learning_rate": 1.3321991390000382e-06,
	"loss": 0.0008,
	"reward": 2.9996937662363052,
	"reward_std": 0.653770299628377,
	"rewards/accuracy_reward": 0.044921875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7529360945336521,
	"rewards/reasoning_steps_reward": 0.6959635615348816,
	"step": 171
	},
	{
	"completion_length": 289.091796875,
	"epoch": 2.7359999999999998,
	"grad_norm": 0.98828125,
	"kl": 0.021086076740175486,
	"learning_rate": 1.301175059497391e-06,
	"loss": 0.0008,
	"reward": 2.95357333868742,
	"reward_std": 0.6372328288853168,
	"rewards/accuracy_reward": 0.13671875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.701104310962061,
	"rewards/reasoning_steps_reward": 0.7135416828095913,
	"step": 172
	},
	{
	"completion_length": 281.466796875,
	"epoch": 2.752,
	"grad_norm": 0.94921875,
	"kl": 0.02050035016145557,
	"learning_rate": 1.270388904188316e-06,
	"loss": 0.0008,
	"reward": 2.7741658687591553,
	"reward_std": 0.7323318216949701,
	"rewards/accuracy_reward": 0.15625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6441229923317829,
	"rewards/reasoning_steps_reward": 0.6855468563735485,
	"step": 173
	},
	{
	"completion_length": 288.654296875,
	"epoch": 2.768,
	"grad_norm": 0.953125,
	"kl": 0.018003857927396894,
	"learning_rate": 1.2398467830317635e-06,
	"loss": 0.0007,
	"reward": 2.823809191584587,
	"reward_std": 0.6888855472207069,
	"rewards/accuracy_reward": 0.109375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6687002858767906,
	"rewards/reasoning_steps_reward": 0.7083333376795053,
	"step": 174
	},
	{
	"completion_length": 295.314453125,
	"epoch": 2.784,
	"grad_norm": 0.86328125,
	"kl": 0.018295871559530497,
	"learning_rate": 1.2095547575545685e-06,
	"loss": 0.0007,
	"reward": 3.150137387216091,
	"reward_std": 0.6382329538464546,
	"rewards/accuracy_reward": 0.041015625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7963565507282814,
	"rewards/reasoning_steps_reward": 0.7200520895421505,
	"step": 175
	},
	{
	"completion_length": 288.701171875,
	"epoch": 2.8,
	"grad_norm": 1.0234375,
	"kl": 0.020645066746510565,
	"learning_rate": 1.1795188396484505e-06,
	"loss": 0.0008,
	"reward": 2.7497966438531876,
	"reward_std": 0.696668054908514,
	"rewards/accuracy_reward": 0.103515625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6516249105334282,
	"rewards/reasoning_steps_reward": 0.6914062425494194,
	"step": 176
	},
	{
	"completion_length": 285.642578125,
	"epoch": 2.816,
	"grad_norm": 1.1484375,
	"kl": 0.01807958845165558,
	"learning_rate": 1.149744990376868e-06,
	"loss": 0.0007,
	"reward": 2.925790064036846,
	"reward_std": 0.6442860681563616,
	"rewards/accuracy_reward": 0.125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6968345294396082,
	"rewards/reasoning_steps_reward": 0.7102864719927311,
	"step": 177
	},
	{
	"completion_length": 294.732421875,
	"epoch": 2.832,
	"grad_norm": 2.765625,
	"kl": 0.020244878192897886,
	"learning_rate": 1.1202391187919575e-06,
	"loss": 0.0008,
	"reward": 3.2739059031009674,
	"reward_std": 0.6519978456199169,
	"rewards/accuracy_reward": 0.0546875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8315363439420859,
	"rewards/reasoning_steps_reward": 0.7246093861758709,
	"step": 178
	},
	{
	"completion_length": 287.73828125,
	"epoch": 2.848,
	"grad_norm": 1.09375,
	"kl": 0.021688284177798778,
	"learning_rate": 1.0910070807618012e-06,
	"loss": 0.0009,
	"reward": 2.786106266081333,
	"reward_std": 0.676231924444437,
	"rewards/accuracy_reward": 0.103515625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6424607516576847,
	"rewards/reasoning_steps_reward": 0.7552083432674408,
	"step": 179
	},
	{
	"completion_length": 286.52734375,
	"epoch": 2.864,
	"grad_norm": 1.0546875,
	"kl": 0.02280406339559704,
	"learning_rate": 1.062054677808238e-06,
	"loss": 0.0009,
	"reward": 3.1157227605581284,
	"reward_std": 0.6361609604209661,
	"rewards/accuracy_reward": 0.099609375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.764702707529068,
	"rewards/reasoning_steps_reward": 0.7220052257180214,
	"step": 180
	},
	{
	"completion_length": 290.2109375,
	"epoch": 2.88,
	"grad_norm": 1.1328125,
	"kl": 0.028993367042858154,
	"learning_rate": 1.033387655955471e-06,
	"loss": 0.0012,
	"reward": 3.221103757619858,
	"reward_std": 0.5982426293194294,
	"rewards/accuracy_reward": 0.07421875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8156717581053575,
	"rewards/reasoning_steps_reward": 0.6998698078095913,
	"step": 181
	},
	{
	"completion_length": 289.28125,
	"epoch": 2.896,
	"grad_norm": 1.0390625,
	"kl": 0.02006814256310463,
	"learning_rate": 1.0050117045896889e-06,
	"loss": 0.0008,
	"reward": 2.751469612121582,
	"reward_std": 0.7198650874197483,
	"rewards/accuracy_reward": 0.11328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6480593029409647,
	"rewards/reasoning_steps_reward": 0.6940104179084301,
	"step": 182
	},
	{
	"completion_length": 292.52734375,
	"epoch": 2.912,
	"grad_norm": 1.4140625,
	"kl": 0.022621202806476504,
	"learning_rate": 9.769324553299174e-07,
	"loss": 0.0009,
	"reward": 3.1886699497699738,
	"reward_std": 0.7633016854524612,
	"rewards/accuracy_reward": 0.12890625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7927076746709645,
	"rewards/reasoning_steps_reward": 0.6816406436264515,
	"step": 183
	},
	{
	"completion_length": 288.79296875,
	"epoch": 2.928,
	"grad_norm": 0.98046875,
	"kl": 0.021405818057246506,
	"learning_rate": 9.491554809103509e-07,
	"loss": 0.0009,
	"reward": 2.6857599690556526,
	"reward_std": 0.6840799152851105,
	"rewards/accuracy_reward": 0.083984375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6376578211784363,
	"rewards/reasoning_steps_reward": 0.6888020988553762,
	"step": 184
	},
	{
	"completion_length": 290.58203125,
	"epoch": 2.944,
	"grad_norm": 0.99609375,
	"kl": 0.020275956427212805,
	"learning_rate": 9.216862940743529e-07,
	"loss": 0.0008,
	"reward": 2.757513716816902,
	"reward_std": 0.602615574374795,
	"rewards/accuracy_reward": 0.115234375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.636836152523756,
	"rewards/reasoning_steps_reward": 0.7317708358168602,
	"step": 185
	},
	{
	"completion_length": 286.619140625,
	"epoch": 2.96,
	"grad_norm": 0.984375,
	"kl": 0.019758898008149117,
	"learning_rate": 8.945303464803833e-07,
	"loss": 0.0008,
	"reward": 3.0790238082408905,
	"reward_std": 0.5770421475172043,
	"rewards/accuracy_reward": 0.12109375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7574610461791357,
	"rewards/reasoning_steps_reward": 0.685546888038516,
	"step": 186
	},
	{
	"completion_length": 286.671875,
	"epoch": 2.976,
	"grad_norm": 0.9765625,
	"kl": 0.02084403787739575,
	"learning_rate": 8.676930276200294e-07,
	"loss": 0.0008,
	"reward": 3.0736390501260757,
	"reward_std": 0.6433412320911884,
	"rewards/accuracy_reward": 0.072265625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7658657878637314,
	"rewards/reasoning_steps_reward": 0.7037760429084301,
	"step": 187
	},
	{
	"completion_length": 284.01171875,
	"epoch": 2.992,
	"grad_norm": 1.0,
	"kl": 0.019843781657982618,
	"learning_rate": 8.411796637483852e-07,
	"loss": 0.0008,
	"reward": 2.9655564725399017,
	"reward_std": 0.6882054135203362,
	"rewards/accuracy_reward": 0.107421875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7163833907494942,
	"rewards/reasoning_steps_reward": 0.7089843675494194,
	"step": 188
	},
	{
	"completion_length": 290.765625,
	"epoch": 3.0,
	"grad_norm": 0.69921875,
	"kl": 0.017977926647290587,
	"learning_rate": 8.149955168269822e-07,
	"loss": 0.0004,
	"reward": 2.5494449138641357,
	"reward_std": 0.6191319935023785,
	"rewards/accuracy_reward": 0.1015625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.5538079980760813,
	"rewards/reasoning_steps_reward": 0.7864583507180214,
	"step": 189
	},
	{
	"completion_length": 289.603515625,
	"epoch": 3.016,
	"grad_norm": 0.87890625,
	"kl": 0.019213943742215633,
	"learning_rate": 7.891457834794711e-07,
	"loss": 0.0008,
	"reward": 3.084651954472065,
	"reward_std": 0.6362812034785748,
	"rewards/accuracy_reward": 0.09375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7643284083654484,
	"rewards/reasoning_steps_reward": 0.6979166697710752,
	"step": 190
	},
	{
	"completion_length": 285.248046875,
	"epoch": 3.032,
	"grad_norm": 1.03125,
	"kl": 0.020919292815960944,
	"learning_rate": 7.636355939602824e-07,
	"loss": 0.0008,
	"reward": 2.85429210960865,
	"reward_std": 0.6567655950784683,
	"rewards/accuracy_reward": 0.078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6931841528664032,
	"rewards/reasoning_steps_reward": 0.6966145969927311,
	"step": 191
	},
	{
	"completion_length": 290.787109375,
	"epoch": 3.048,
	"grad_norm": 0.87890625,
	"kl": 0.016602561168838292,
	"learning_rate": 7.384700111364487e-07,
	"loss": 0.0007,
	"reward": 2.8143509328365326,
	"reward_std": 0.6266643963754177,
	"rewards/accuracy_reward": 0.11328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6690197528029481,
	"rewards/reasoning_steps_reward": 0.6940104104578495,
	"step": 192
	},
	{
	"completion_length": 282.99609375,
	"epoch": 3.064,
	"grad_norm": 0.96875,
	"kl": 0.02081725694006309,
	"learning_rate": 7.136540294828062e-07,
	"loss": 0.0008,
	"reward": 2.8774597868323326,
	"reward_std": 0.7187161836773157,
	"rewards/accuracy_reward": 0.083984375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6952643600913385,
	"rewards/reasoning_steps_reward": 0.7076822966337204,
	"step": 193
	},
	{
	"completion_length": 294.306640625,
	"epoch": 3.08,
	"grad_norm": 0.9296875,
	"kl": 0.02071163459913805,
	"learning_rate": 6.891925740907701e-07,
	"loss": 0.0008,
	"reward": 2.8051391541957855,
	"reward_std": 0.6224446576088667,
	"rewards/accuracy_reward": 0.021484375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.695680051886787,
	"rewards/reasoning_steps_reward": 0.6966145820915699,
	"step": 194
	},
	{
	"completion_length": 286.19140625,
	"epoch": 3.096,
	"grad_norm": 0.84765625,
	"kl": 0.018767547328025103,
	"learning_rate": 6.650904996908772e-07,
	"loss": 0.0008,
	"reward": 3.3200203105807304,
	"reward_std": 0.7382683884352446,
	"rewards/accuracy_reward": 0.1484375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8095814054831862,
	"rewards/reasoning_steps_reward": 0.7428385503590107,
	"step": 195
	},
	{
	"completion_length": 285.822265625,
	"epoch": 3.112,
	"grad_norm": 1.078125,
	"kl": 0.02104048355249688,
	"learning_rate": 6.413525896892972e-07,
	"loss": 0.0008,
	"reward": 2.955541580915451,
	"reward_std": 0.6638543289154768,
	"rewards/accuracy_reward": 0.103515625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7093558870255947,
	"rewards/reasoning_steps_reward": 0.7239583395421505,
	"step": 196
	},
	{
	"completion_length": 288.87890625,
	"epoch": 3.128,
	"grad_norm": 0.92578125,
	"kl": 0.02037365094292909,
	"learning_rate": 6.179835552184924e-07,
	"loss": 0.0008,
	"reward": 2.7349835634231567,
	"reward_std": 0.6583398748189211,
	"rewards/accuracy_reward": 0.07421875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.644300079283615,
	"rewards/reasoning_steps_reward": 0.7278645858168602,
	"step": 197
	},
	{
	"completion_length": 288.52734375,
	"epoch": 3.144,
	"grad_norm": 0.9453125,
	"kl": 0.02122843312099576,
	"learning_rate": 5.949880342022258e-07,
	"loss": 0.0008,
	"reward": 3.1269255951046944,
	"reward_std": 0.7235856931656599,
	"rewards/accuracy_reward": 0.068359375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7810237923016151,
	"rewards/reasoning_steps_reward": 0.7154947929084301,
	"step": 198
	},
	{
	"completion_length": 285.734375,
	"epoch": 3.16,
	"grad_norm": 0.9765625,
	"kl": 0.02136942616198212,
	"learning_rate": 5.723705904351027e-07,
	"loss": 0.0009,
	"reward": 2.681896522641182,
	"reward_std": 0.6634827610105276,
	"rewards/accuracy_reward": 0.109375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6170557765290141,
	"rewards/reasoning_steps_reward": 0.7213541716337204,
	"step": 199
	},
	{
	"completion_length": 286.953125,
	"epoch": 3.176,
	"grad_norm": 0.91796875,
	"kl": 0.019215874548535794,
	"learning_rate": 5.501357126768117e-07,
	"loss": 0.0008,
	"reward": 2.6373501121997833,
	"reward_std": 0.7020009346306324,
	"rewards/accuracy_reward": 0.1015625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.5913562929878632,
	"rewards/reasoning_steps_reward": 0.7617187462747097,
	"step": 200
	},
	{
	"completion_length": 286.212890625,
	"epoch": 3.192,
	"grad_norm": 0.875,
	"kl": 0.020688754506409168,
	"learning_rate": 5.282878137612738e-07,
	"loss": 0.0008,
	"reward": 3.007347419857979,
	"reward_std": 0.6104327123612165,
	"rewards/accuracy_reward": 0.1328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7257564406221112,
	"rewards/reasoning_steps_reward": 0.6972656305879354,
	"step": 201
	},
	{
	"completion_length": 286.62109375,
	"epoch": 3.208,
	"grad_norm": 0.8828125,
	"kl": 0.02169125445652753,
	"learning_rate": 5.068312297208414e-07,
	"loss": 0.0009,
	"reward": 3.0148477032780647,
	"reward_std": 0.679189708083868,
	"rewards/accuracy_reward": 0.08203125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7471367201457421,
	"rewards/reasoning_steps_reward": 0.69140625,
	"step": 202
	},
	{
	"completion_length": 293.78125,
	"epoch": 3.224,
	"grad_norm": 0.85546875,
	"kl": 0.02024375193286687,
	"learning_rate": 4.857702189257613e-07,
	"loss": 0.0008,
	"reward": 3.007346175611019,
	"reward_std": 0.6605745330452919,
	"rewards/accuracy_reward": 0.06640625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7448532494405905,
	"rewards/reasoning_steps_reward": 0.7063802145421505,
	"step": 203
	},
	{
	"completion_length": 296.005859375,
	"epoch": 3.24,
	"grad_norm": 0.875,
	"kl": 0.020721249806229025,
	"learning_rate": 4.6510896123903027e-07,
	"loss": 0.0008,
	"reward": 3.162186399102211,
	"reward_std": 0.668110404163599,
	"rewards/accuracy_reward": 0.03125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8146958220750093,
	"rewards/reasoning_steps_reward": 0.6868489757180214,
	"step": 204
	},
	{
	"completion_length": 284.65234375,
	"epoch": 3.2560000000000002,
	"grad_norm": 1.109375,
	"kl": 0.023086362169124186,
	"learning_rate": 4.4485155718684334e-07,
	"loss": 0.0009,
	"reward": 2.8323604688048363,
	"reward_std": 0.7187584564089775,
	"rewards/accuracy_reward": 0.1171875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6745888954028487,
	"rewards/reasoning_steps_reward": 0.6914062649011612,
	"step": 205
	},
	{
	"completion_length": 295.3203125,
	"epoch": 3.2720000000000002,
	"grad_norm": 0.890625,
	"kl": 0.019205813470762223,
	"learning_rate": 4.2500202714478853e-07,
	"loss": 0.0008,
	"reward": 3.3045015186071396,
	"reward_std": 0.7383539900183678,
	"rewards/accuracy_reward": 0.048828125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8480282643189033,
	"rewards/reasoning_steps_reward": 0.7115885354578495,
	"step": 206
	},
	{
	"completion_length": 276.3671875,
	"epoch": 3.288,
	"grad_norm": 0.9296875,
	"kl": 0.019852709374390543,
	"learning_rate": 4.05564310539939e-07,
	"loss": 0.0008,
	"reward": 3.327822983264923,
	"reward_std": 0.7267354801297188,
	"rewards/accuracy_reward": 0.21875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8076250155766805,
	"rewards/reasoning_steps_reward": 0.686197929084301,
	"step": 207
	},
	{
	"completion_length": 295.84375,
	"epoch": 3.304,
	"grad_norm": 0.79296875,
	"kl": 0.017830375931225717,
	"learning_rate": 3.8654226506902204e-07,
	"loss": 0.0007,
	"reward": 2.7935037687420845,
	"reward_std": 0.7168517392128706,
	"rewards/accuracy_reward": 0.05078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6909335435678562,
	"rewards/reasoning_steps_reward": 0.6699218731373549,
	"step": 208
	},
	{
	"completion_length": 289.603515625,
	"epoch": 3.32,
	"grad_norm": 1.1875,
	"kl": 0.019766899524256587,
	"learning_rate": 3.679396659327986e-07,
	"loss": 0.0008,
	"reward": 3.100301645696163,
	"reward_std": 0.7392721492797136,
	"rewards/accuracy_reward": 0.10546875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.789510258163015,
	"rewards/reasoning_steps_reward": 0.6263020895421505,
	"step": 209
	},
	{
	"completion_length": 278.326171875,
	"epoch": 3.336,
	"grad_norm": 0.921875,
	"kl": 0.020691857673227787,
	"learning_rate": 3.4976020508682345e-07,
	"loss": 0.0008,
	"reward": 3.0393467769026756,
	"reward_std": 0.6087249293923378,
	"rewards/accuracy_reward": 0.16796875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7225339828679959,
	"rewards/reasoning_steps_reward": 0.703776054084301,
	"step": 210
	},
	{
	"completion_length": 292.322265625,
	"epoch": 3.352,
	"grad_norm": 1.15625,
	"kl": 0.020608096150681376,
	"learning_rate": 3.320074905087212e-07,
	"loss": 0.0008,
	"reward": 2.8478069826960564,
	"reward_std": 0.6319366451352835,
	"rewards/accuracy_reward": 0.087890625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6738783651962876,
	"rewards/reasoning_steps_reward": 0.7382812425494194,
	"step": 211
	},
	{
	"completion_length": 283.3984375,
	"epoch": 3.368,
	"grad_norm": 0.8671875,
	"kl": 0.023123053135350347,
	"learning_rate": 3.14685045482131e-07,
	"loss": 0.0009,
	"reward": 2.7474499940872192,
	"reward_std": 0.6886056587100029,
	"rewards/accuracy_reward": 0.095703125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6692888826752702,
	"rewards/reasoning_steps_reward": 0.6438802052289248,
	"step": 212
	},
	{
	"completion_length": 295.224609375,
	"epoch": 3.384,
	"grad_norm": 0.9140625,
	"kl": 0.023218440066557378,
	"learning_rate": 2.977963078974616e-07,
	"loss": 0.0009,
	"reward": 2.9267039820551872,
	"reward_std": 0.6514626033604145,
	"rewards/accuracy_reward": 0.060546875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7105940394103527,
	"rewards/reasoning_steps_reward": 0.7343750055879354,
	"step": 213
	},
	{
	"completion_length": 287.263671875,
	"epoch": 3.4,
	"grad_norm": 0.98046875,
	"kl": 0.021008892101235688,
	"learning_rate": 2.813446295695893e-07,
	"loss": 0.0008,
	"reward": 3.1436211466789246,
	"reward_std": 0.6997925061732531,
	"rewards/accuracy_reward": 0.076171875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7876740458110968,
	"rewards/reasoning_steps_reward": 0.7044270932674408,
	"step": 214
	},
	{
	"completion_length": 285.443359375,
	"epoch": 3.416,
	"grad_norm": 1.0625,
	"kl": 0.02351184340659529,
	"learning_rate": 2.65333275572644e-07,
	"loss": 0.0009,
	"reward": 2.9087352752685547,
	"reward_std": 0.6324813142418861,
	"rewards/accuracy_reward": 0.11328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.707642661097149,
	"rewards/reasoning_steps_reward": 0.6725260391831398,
	"step": 215
	},
	{
	"completion_length": 292.380859375,
	"epoch": 3.432,
	"grad_norm": 0.88671875,
	"kl": 0.023277590342331678,
	"learning_rate": 2.4976542359200664e-07,
	"loss": 0.0009,
	"reward": 2.6246762797236443,
	"reward_std": 0.691521966829896,
	"rewards/accuracy_reward": 0.072265625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.610135139276584,
	"rewards/reasoning_steps_reward": 0.7220052182674408,
	"step": 216
	},
	{
	"completion_length": 280.158203125,
	"epoch": 3.448,
	"grad_norm": 1.1484375,
	"kl": 0.02378622384276241,
	"learning_rate": 2.3464416329365137e-07,
	"loss": 0.001,
	"reward": 2.8623234406113625,
	"reward_std": 0.6014144476503134,
	"rewards/accuracy_reward": 0.13671875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6630921829491854,
	"rewards/reasoning_steps_reward": 0.7363281361758709,
	"step": 217
	},
	{
	"completion_length": 295.375,
	"epoch": 3.464,
	"grad_norm": 0.8203125,
	"kl": 0.016009816259611398,
	"learning_rate": 2.1997249571095835e-07,
	"loss": 0.0006,
	"reward": 3.290237843990326,
	"reward_std": 0.6886514872312546,
	"rewards/accuracy_reward": 0.04296875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8556435058514277,
	"rewards/reasoning_steps_reward": 0.6803385578095913,
	"step": 218
	},
	{
	"completion_length": 289.02734375,
	"epoch": 3.48,
	"grad_norm": 0.859375,
	"kl": 0.02076311851851642,
	"learning_rate": 2.0575333264911125e-07,
	"loss": 0.0008,
	"reward": 2.800406724214554,
	"reward_std": 0.6951953694224358,
	"rewards/accuracy_reward": 0.10546875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6608994637305537,
	"rewards/reasoning_steps_reward": 0.7122395895421505,
	"step": 219
	},
	{
	"completion_length": 279.2421875,
	"epoch": 3.496,
	"grad_norm": 0.9921875,
	"kl": 0.01861161779379472,
	"learning_rate": 1.9198949610721273e-07,
	"loss": 0.0007,
	"reward": 2.7829076945781708,
	"reward_std": 0.5952301491051912,
	"rewards/accuracy_reward": 0.19140625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6188251003623009,
	"rewards/reasoning_steps_reward": 0.735026054084301,
	"step": 220
	},
	{
	"completion_length": 281.380859375,
	"epoch": 3.512,
	"grad_norm": 0.95703125,
	"kl": 0.018613723281305283,
	"learning_rate": 1.786837177182127e-07,
	"loss": 0.0007,
	"reward": 2.8807911574840546,
	"reward_std": 0.6898195426911116,
	"rewards/accuracy_reward": 0.15234375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6807498056441545,
	"rewards/reasoning_steps_reward": 0.686197929084301,
	"step": 221
	},
	{
	"completion_length": 287.46484375,
	"epoch": 3.528,
	"grad_norm": 0.859375,
	"kl": 0.01997726986883208,
	"learning_rate": 1.6583863820678032e-07,
	"loss": 0.0008,
	"reward": 2.8661443442106247,
	"reward_std": 0.6607285998761654,
	"rewards/accuracy_reward": 0.125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6637147692963481,
	"rewards/reasoning_steps_reward": 0.7500000074505806,
	"step": 222
	},
	{
	"completion_length": 287.591796875,
	"epoch": 3.544,
	"grad_norm": 0.91015625,
	"kl": 0.020406617608387023,
	"learning_rate": 1.534568068652101e-07,
	"loss": 0.0008,
	"reward": 2.8175922632217407,
	"reward_std": 0.772568928077817,
	"rewards/accuracy_reward": 0.080078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6876783277839422,
	"rewards/reasoning_steps_reward": 0.6744791697710752,
	"step": 223
	},
	{
	"completion_length": 281.27734375,
	"epoch": 3.56,
	"grad_norm": 0.921875,
	"kl": 0.021257835964206606,
	"learning_rate": 1.4154068104747981e-07,
	"loss": 0.0009,
	"reward": 3.101296618580818,
	"reward_std": 0.7108908668160439,
	"rewards/accuracy_reward": 0.1640625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7581579011554519,
	"rewards/reasoning_steps_reward": 0.662760416045785,
	"step": 224
	},
	{
	"completion_length": 279.06640625,
	"epoch": 3.576,
	"grad_norm": 1.375,
	"kl": 0.022064094548113644,
	"learning_rate": 1.3009262568155462e-07,
	"loss": 0.0009,
	"reward": 2.9315654188394547,
	"reward_std": 0.705444760620594,
	"rewards/accuracy_reward": 0.130859375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6976745830227932,
	"rewards/reasoning_steps_reward": 0.707682304084301,
	"step": 225
	},
	{
	"completion_length": 291.966796875,
	"epoch": 3.592,
	"grad_norm": 2.09375,
	"kl": 0.0230710570467636,
	"learning_rate": 1.1911491280002907e-07,
	"loss": 0.0009,
	"reward": 3.4133089035749435,
	"reward_std": 0.7498599980026484,
	"rewards/accuracy_reward": 0.0625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8753998465836048,
	"rewards/reasoning_steps_reward": 0.7246093787252903,
	"step": 226
	},
	{
	"completion_length": 277.298828125,
	"epoch": 3.608,
	"grad_norm": 0.83984375,
	"kl": 0.019825019757263362,
	"learning_rate": 1.0860972108921258e-07,
	"loss": 0.0008,
	"reward": 2.766988158226013,
	"reward_std": 0.6906307358294725,
	"rewards/accuracy_reward": 0.138671875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6410793742785851,
	"rewards/reasoning_steps_reward": 0.7050781287252903,
	"step": 227
	},
	{
	"completion_length": 291.142578125,
	"epoch": 3.624,
	"grad_norm": 0.91015625,
	"kl": 0.019932835886720568,
	"learning_rate": 9.857913545673503e-08,
	"loss": 0.0008,
	"reward": 3.3143957555294037,
	"reward_std": 0.6608162298798561,
	"rewards/accuracy_reward": 0.080078125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.836786450818181,
	"rewards/reasoning_steps_reward": 0.7239583283662796,
	"step": 228
	},
	{
	"completion_length": 288.453125,
	"epoch": 3.64,
	"grad_norm": 0.8984375,
	"kl": 0.018874026485718787,
	"learning_rate": 8.902514661776885e-08,
	"loss": 0.0008,
	"reward": 3.2070699259638786,
	"reward_std": 0.7432738393545151,
	"rewards/accuracy_reward": 0.125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8040493360410134,
	"rewards/reasoning_steps_reward": 0.6699218824505806,
	"step": 229
	},
	{
	"completion_length": 293.146484375,
	"epoch": 3.656,
	"grad_norm": 0.80078125,
	"kl": 0.016978327243123204,
	"learning_rate": 7.994965069994143e-08,
	"loss": 0.0007,
	"reward": 3.143362358212471,
	"reward_std": 0.6415095869451761,
	"rewards/accuracy_reward": 0.072265625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7838985491544008,
	"rewards/reasoning_steps_reward": 0.7194010280072689,
	"step": 230
	},
	{
	"completion_length": 288.62890625,
	"epoch": 3.672,
	"grad_norm": 1.1171875,
	"kl": 0.021244205767288804,
	"learning_rate": 7.135444886702064e-08,
	"loss": 0.0008,
	"reward": 2.9098562449216843,
	"reward_std": 0.7155030779540539,
	"rewards/accuracy_reward": 0.119140625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7021569274365902,
	"rewards/reasoning_steps_reward": 0.684244804084301,
	"step": 231
	},
	{
	"completion_length": 285.921875,
	"epoch": 3.6879999999999997,
	"grad_norm": 0.81640625,
	"kl": 0.01845627831062302,
	"learning_rate": 6.324124696144962e-08,
	"loss": 0.0007,
	"reward": 2.8958379551768303,
	"reward_std": 0.6293431017547846,
	"rewards/accuracy_reward": 0.111328125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7039945904786388,
	"rewards/reasoning_steps_reward": 0.6725260466337204,
	"step": 232
	},
	{
	"completion_length": 290.05859375,
	"epoch": 3.7039999999999997,
	"grad_norm": 0.91015625,
	"kl": 0.017910517868585885,
	"learning_rate": 5.5611655165795365e-08,
	"loss": 0.0007,
	"reward": 2.9697776436805725,
	"reward_std": 0.6638195030391216,
	"rewards/accuracy_reward": 0.08203125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7292921990156174,
	"rewards/reasoning_steps_reward": 0.699869804084301,
	"step": 233
	},
	{
	"completion_length": 287.302734375,
	"epoch": 3.7199999999999998,
	"grad_norm": 0.859375,
	"kl": 0.01873377658193931,
	"learning_rate": 4.846718768318659e-08,
	"loss": 0.0007,
	"reward": 3.1371295899152756,
	"reward_std": 0.6027075219899416,
	"rewards/accuracy_reward": 0.125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.762940771256884,
	"rewards/reasoning_steps_reward": 0.7233072891831398,
	"step": 234
	},
	{
	"completion_length": 293.28125,
	"epoch": 3.7359999999999998,
	"grad_norm": 0.90625,
	"kl": 0.019052452000323683,
	"learning_rate": 4.1809262436796896e-08,
	"loss": 0.0008,
	"reward": 3.043783374130726,
	"reward_std": 0.6604214962571859,
	"rewards/accuracy_reward": 0.06640625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7457142351195216,
	"rewards/reasoning_steps_reward": 0.7402343787252903,
	"step": 235
	},
	{
	"completion_length": 292.73828125,
	"epoch": 3.752,
	"grad_norm": 0.828125,
	"kl": 0.019031181174796075,
	"learning_rate": 3.563920078843791e-08,
	"loss": 0.0008,
	"reward": 3.077702447772026,
	"reward_std": 0.6683868058025837,
	"rewards/accuracy_reward": 0.107421875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7663521977762381,
	"rewards/reasoning_steps_reward": 0.6712239496409893,
	"step": 236
	},
	{
	"completion_length": 281.478515625,
	"epoch": 3.768,
	"grad_norm": 1.21875,
	"kl": 0.022773202043026686,
	"learning_rate": 2.99582272763152e-08,
	"loss": 0.0009,
	"reward": 2.9361980706453323,
	"reward_std": 0.667768020182848,
	"rewards/accuracy_reward": 0.17578125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6935764315227667,
	"rewards/reasoning_steps_reward": 0.6796875037252903,
	"step": 237
	},
	{
	"completion_length": 286.15234375,
	"epoch": 3.784,
	"grad_norm": 0.953125,
	"kl": 0.020423304580617696,
	"learning_rate": 2.4767469372002362e-08,
	"loss": 0.0008,
	"reward": 2.6705066189169884,
	"reward_std": 0.6245338693261147,
	"rewards/accuracy_reward": 0.162109375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.606531698256731,
	"rewards/reasoning_steps_reward": 0.6888020746409893,
	"step": 238
	},
	{
	"completion_length": 291.84765625,
	"epoch": 3.8,
	"grad_norm": 0.84765625,
	"kl": 0.017052936542313546,
	"learning_rate": 2.0067957256676428e-08,
	"loss": 0.0007,
	"reward": 3.033589616417885,
	"reward_std": 0.6652188412845135,
	"rewards/accuracy_reward": 0.08203125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7442694374670585,
	"rewards/reasoning_steps_reward": 0.7187499944120646,
	"step": 239
	},
	{
	"completion_length": 290.75,
	"epoch": 3.816,
	"grad_norm": 0.796875,
	"kl": 0.021085154090542346,
	"learning_rate": 1.5860623616664183e-08,
	"loss": 0.0008,
	"reward": 2.713896244764328,
	"reward_std": 0.6678700372576714,
	"rewards/accuracy_reward": 0.083984375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6320626304174463,
	"rewards/reasoning_steps_reward": 0.733723958954215,
	"step": 240
	},
	{
	"completion_length": 286.052734375,
	"epoch": 3.832,
	"grad_norm": 0.93359375,
	"kl": 0.02104910637717694,
	"learning_rate": 1.2146303458337172e-08,
	"loss": 0.0008,
	"reward": 3.3307963609695435,
	"reward_std": 0.6925474908202887,
	"rewards/accuracy_reward": 0.123046875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8309685722924769,
	"rewards/reasoning_steps_reward": 0.7148437593132257,
	"step": 241
	},
	{
	"completion_length": 286.875,
	"epoch": 3.848,
	"grad_norm": 2.375,
	"kl": 0.023578285879921168,
	"learning_rate": 8.92573394239149e-09,
	"loss": 0.0009,
	"reward": 2.9508322179317474,
	"reward_std": 0.6057112123817205,
	"rewards/accuracy_reward": 0.107421875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7184197666744391,
	"rewards/reasoning_steps_reward": 0.6881510633975267,
	"step": 242
	},
	{
	"completion_length": 296.923828125,
	"epoch": 3.864,
	"grad_norm": 1.0390625,
	"kl": 0.019981018383987248,
	"learning_rate": 6.1995542375495325e-09,
	"loss": 0.0008,
	"reward": 3.1651005297899246,
	"reward_std": 0.6937647629529238,
	"rewards/accuracy_reward": 0.064453125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.8048164764574418,
	"rewards/reasoning_steps_reward": 0.6861979216337204,
	"step": 243
	},
	{
	"completion_length": 289.396484375,
	"epoch": 3.88,
	"grad_norm": 0.82421875,
	"kl": 0.01859537634300068,
	"learning_rate": 3.96830539370563e-09,
	"loss": 0.0007,
	"reward": 3.588533952832222,
	"reward_std": 0.7532828189432621,
	"rewards/accuracy_reward": 0.087890625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.9253446195895473,
	"rewards/reasoning_steps_reward": 0.724609375,
	"step": 244
	},
	{
	"completion_length": 294.28515625,
	"epoch": 3.896,
	"grad_norm": 0.94140625,
	"kl": 0.01655962661607191,
	"learning_rate": 2.2324302345483327e-09,
	"loss": 0.0007,
	"reward": 3.025103345513344,
	"reward_std": 0.6890733204782009,
	"rewards/accuracy_reward": 0.064453125,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7340622267996272,
	"rewards/reasoning_steps_reward": 0.7584635354578495,
	"step": 245
	},
	{
	"completion_length": 288.9453125,
	"epoch": 3.912,
	"grad_norm": 0.97265625,
	"kl": 0.020295250928029418,
	"learning_rate": 9.922732696748816e-10,
	"loss": 0.0008,
	"reward": 2.733549617230892,
	"reward_std": 0.6962179783731699,
	"rewards/accuracy_reward": 0.07421875,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6568429181352258,
	"rewards/reasoning_steps_reward": 0.6888020858168602,
	"step": 246
	},
	{
	"completion_length": 285.66796875,
	"epoch": 3.928,
	"grad_norm": 1.0546875,
	"kl": 0.017885809938888997,
	"learning_rate": 2.480806262181168e-10,
	"loss": 0.0007,
	"reward": 2.9583439081907272,
	"reward_std": 0.6105441423133016,
	"rewards/accuracy_reward": 0.115234375,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.7220087309057514,
	"rewards/reasoning_steps_reward": 0.6770833320915699,
	"step": 247
	},
	{
	"completion_length": 288.5234375,
	"epoch": 3.944,
	"grad_norm": 26.625,
	"kl": 0.03823809011373669,
	"learning_rate": 0.0,
	"loss": 0.0015,
	"reward": 2.7989018857479095,
	"reward_std": 0.6642574854195118,
	"rewards/accuracy_reward": 0.1015625,
	"rewards/format_reward": 0.0,
	"rewards/novelty_reward_func_explore_exploit": 0.6736357094099125,
	"rewards/reasoning_steps_reward": 0.676432304084301,
	"step": 248
	},
	{
	"epoch": 3.944,
	"step": 248,
	"total_flos": 0.0,
	"train_loss": 0.006824205948613517,
	"train_runtime": 18399.2985,
	"train_samples_per_second": 0.435,
	"train_steps_per_second": 0.013
	}
	],
	"logging_steps": 1,
	"max_steps": 248,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}