Mid-Training on Cognaptus

Mid-Training on Cognaptus https://cognaptus.com/tags/mid-training/ Recent content in Mid-Training on Cognaptus Hugo -- 0.145.0 en-us Mon, 25 May 2026 00:00:00 +0000 RL Needs a Menu, Not a Miracle https://cognaptus.com/blog/2026-05-25-rl-needs-a-menu-not-a-miracle/ Mon, 25 May 2026 00:00:00 +0000 https://cognaptus.com/blog/2026-05-25-rl-needs-a-menu-not-a-miracle/ A recent arXiv paper shows why reinforcement learning works better when a model has already seen multiple verified ways to solve the same problem.