Model Internals on Cognaptus

Model Internals on Cognaptus https://cognaptus.com/tags/model-internals/ Recent content in Model Internals on Cognaptus Hugo -- 0.145.0 en-us Thu, 23 Apr 2026 00:00:00 +0000 Sirens in the Weights: Why AI Safety May Be Hiding Inside the Model https://cognaptus.com/blog/2026-04-23-sirens-in-the-weights-why-ai-safety-may-be-hiding-inside-the-model/ Thu, 23 Apr 2026 00:00:00 +0000 https://cognaptus.com/blog/2026-04-23-sirens-in-the-weights-why-ai-safety-may-be-hiding-inside-the-model/ SIREN suggests that harmfulness detection may work better when it listens to internal model representations rather than waiting for a guard model to generate a final label.